동네: 동아미디어그룹 공식 블로그

동아일보 속의 선거 3: 선거 관련 말말말

Posted by 신이 On 6월 - 2 - 2012

 
 2012년은 총선과 대선이 있는 선거의 해다. 동아일보는 고려대 민족문화연구원 ‘물결 21’ 사업팀과 함께 동아일보 기사에 비친 선거의 변화상을 데이터 마이닝 기법(data mining)으로 분석했다.  1948년 제헌국회 선거부터 올해 4·11총선까지 디지털화한 동아일보 기사가 대상이다.

 

••  선거 관련어란?

선거별 관련어는 장기간의 동아일보 기사(1947년 7월 21일부터 2012년 3월 26일까지) 가운데 각 선거기간 문장 단위로 함께 출현한 단어들을 모두 색인하고 이 가운데 유의미한 단어를 추출해 분석한 결과물이다.

키워드는 다른 기간에 비해 많이 출현한 단어들이다. 이를테면 2대 총선의 키워드는 1대와 3대에 출현한 명사들의 빈도와 비교했을 때 기대 이상으로 많이 출현한 단어들이다. 기대 이상으로 많이 출현한 정도는 t-점수로 계산된다. 즉 1대와 3대에 ‘고무신’이 10번 등장하였다면 대체로 2대에도 5번 정도 나타날 것으로 기대된다. 그러나 5번보다 많이 나타난다면 2대의 키워드로 꼽힐 후보가 되는 것이다. 이때 ‘고무신’의 빈도가 6~7번보다 훨씬 더 많이 쓰이면 t-점수가 더욱 높게 계산된다.

 관련어는 한 문장에서 출현한 명사들을 대상으로 선정된다.경우에 따라 문장이 아닌 문단 단위로 대상을 넓히기도 한다. 선거라는 단어와 한 문장에서 쓰이는 명사들은 다양하게 있을 수 있다. ‘사람’과 같은 일반적인 명사도 있을 수 있고, ‘부정’과 같은 의미있는 단어도 있을 수 있다. 이 때도 기대값의 개념이 쓰인다. 즉 ‘사람’은 ‘선거’와도 관련해서 쓰이지만 다른 문장에서도 워낙 많이 등장하게 되면 ‘선거’와의 관련성이 떨어지게 된다. 즉 ‘사람’이란 단어는 선거와 무관하게 많이 나오는 단어가 되는 것이다. 이것도 t-점수로 관련성을 따진다. 즉 전체 사용 빈도에 비해 ‘선거’라는 단어와 한 문장에서 쓰일 확률이 높다면 t-점수가 높게 계산되어 유의미한 관련어로 해석할 수 있다.
 
 
 
•• 14~17대 대선에서 선거와 관련해 많이 등장한 말말말
 
 네트워크의 선굵기는 연결이 많은 것을 강조한 것이고 거리는 t-점수에 비례한다. 즉 관련성이 떨어지면 네트워크에서 거리가 멀게 표현된다.

첨부파일

14~19대 총선 관련 말말말
Title : 14~19대 총선 관련 말말말
Caption :
File name : 14-19_general_election_word.pdf
Size : 137 KB
역대 총선 관련어
Title : 역대 총선 관련어
Caption :
File name : general_election_refword.xlsx
Size : 67 KB

댓글 없음 »

No comments yet.

RSS feed for comments on this post. TrackBack URL

Leave a comment

LOGIN