최저임금에 대한 언론 보도

Posted on August 1, 2017

이렇게 자료를 모았습니다. 

 

전체 2,786개의 뉴스 제목과 기사 앞 3줄(전체 다 크롤링하면 저작권법 문제 있습니다. 참고하시길...) 그리고 언론사, 기사 보도 날짜가 나와있습니다. 
요거를 가지고
일단 supp=0.05 conf=0.1로 설정하고 분석을 했습니다. 
그랬더니 supp가 0.05에서 18개의 연관규칙이 도출되었습니다. 

 

그리고 inspect(rules)를 실행하면 위와 같은 결과가 나옵니다. 
이게 transaction tree라고 합니다.

 

 

여기서 볼수 있는 것은 
{ }이렇게 되어 있는 것은 "발생확률이 가장 높은 단어" 즉 가장 많이 나오는 단어라고 보시면 됩니다. 
그 다음에 
단어와 단어간 연관규칙이 보이는데,
여기서도 
lhs가 1개부터 3개까지 되어 있습니다. 
그래서 lhs가 1개 일 때 가장 발생확률이 높은 연관규칙을 lift를 보면서 찾으면 됩니다. 
요놈들을 시각화 시켜주면

이렇게 위 그래프를 보시면

자영업자와 소상공인, 중소기업에 대한 얘기들이 많이 나옵니다. 

대기업에 대한 업급이 없죠? ㅡㅡ;

부작용이라는 단어도 눈에 들어오네요...

이렇게 그래프로도 만들 수 있습니다. 
색이 진한 것은 연관규칙이 강한 애들이고
연하면서 큰 애들은 언급수가 많은거라고 보시면 됩니다.

 

분석하고 싶으신거는 언제든 연락 주세요~