PLUX 6.0 3주차 이야기

10월 11일, 3주차 스터디 장소는 다시 숭실대로 돌아왔습니다. 이번주에는 그래프 형태로 시각화하는 것을 익히고, 간단한 워드클라우드를 진행하였습니다.


앞서 텍스트 데이터를 정형화 했던 것을 pie그래프와 bar그래프로 나타냈습니다.








─── 릴레이 지식 공유 3st ───





이번 스터디에도 역시 앞서 5분 간의 ‘릴레이 지식 공유’시간을 가졌습니다. 세번째 주자는 김승주님입니다. 

김승주님은 5 work model에 대한 지식공유를 하며 3주차 스터디의 오프닝을 맡았습니다. :)









──────────────────






시작하기에 앞서, 비정형데이터와 정형데이터에 대한 간단히 비교해보겠습니다. '비정형'데이터란 텍스트, 음성, 영상, 문자메시지 등의 다양한 유형의 데이터를 의미하고, '정형'데이터란 문자 그대로 정형화된 데이터로, 고정된 필드에 저장되는 데이터를 의미합니다. 


예를 들어, 유투브에서 업로드하는 동영상 데이터, SNS나 블로그에서 저장하는 사진과 오디오 데이터, 메신저로 주고 받은 대화 내용, 스마트폰에서 기록되는 위치 정보, 유무선 전화기에서 발생하는 통화 내용 등이 비정형 데이터에 해당됩니다. 반대로 정형 데이터는 우리가 온라인 쇼핑몰에서 제품을 주문할 때 이름, 주소, 연락처, 배송주소, 결제정보 등을 입력한 후 주문을 하면 데이터 베이스에 미리 생성되어있는 테이블에 저장됩니다. 이때 테이블은 고정된 필드들로 구성이 되는데, 이렇게 일정한 형식을 갖추고 저장되는 데이터라고 합니다. 








지난 주차에 비정형 텍스트 데이터를 Word Cloud 형태로 시각화하는 시간을 가졌습니다. PLUX 멤버 모두 어렵게 어렵게 스터디를 따라왔는데요. 사실 비정형 데이터 분석은 어렵습니다. 바로 컴퓨터는 사람이 아니기 때문입니다. 특히, Word Cloud를 만들기 위해 명사를 추출 할 때, 어떤 것이 명사인지 제대로 파악하지 못하는 경우도 있습니다. 가령 "관악산"이라는 단어를 하나의 명사로 인식하지 못하고, "관악", "산" 두개의 명사로 인식 할 수도 있습니다. 그래서 '이것은 명사이다.'라고 일일히 지정해 주는 과정이 필요합니다.













자, 이제 본격적으로 비정형 텍스트 데이터 정형화, 정형화된 데이터 그래프를 살펴보겠습니다. 그전에 지난 주 스터디에 배웠던 기능들을 다시 한번 리뷰해 보겠습니다.



















1. 앞시간에 배운 워드클라우드에서 추출된 명사를 30개만 출력해서 확인합니다.

head(unlist(place), 30)








2. 여기서 두 글자 이상 되는것만 필터링을 해보겠습니다.

place <- Filter(function(x){nchar(x) >=2},c)








3. 이제 여기서 pie형 그래프로 출력합니다.

a <- head(sort(wordgraph, decreasing=T),10)


















비록 처음엔 많이 서툴고 어려웠지만 하나씩 배워가는 과정이 참 즐겁습니다. 

다음주엔 어떤 과정을 배우게 될까요? 


언제나 즐거운 PLUX였습니다 :D















WRITTEN BY
uxjoseph
재미있는 UX를 생각하는 모임, PLUX입니다.

트랙백  0 , 댓글  0개가 달렸습니다.
secret