오늘은 국내 대중가요 가사 텍스트 데이터를 이용하여 감정 분석을 진행할 목적으로 노래 정보를 파이썬으로 추출하였습니다. 구글 Colaboratory에서 동작하는 관련 소스코드를 공유합니다. 1. 추출하려는 노래 목록 2. 파이썬 소스코드 참고 소스코드 : https://blog.naver.com/21ahn/221820216442
오늘은 국내 대중가요 가사 텍스트 데이터를 이용하여 감정 분석을 진행할 목적으로 노래 정보를 파이썬으로 추출하였습니다. 구글 Colaboratory에서 동작하는 관련 소스코드를 공유합니다. 1. 추출하려는 노래 목록 2. 파이썬 소스코드 참고 소스코드 : https://blog.naver.com/21ahn/221820216442
연구 목적으로 특허 데이터를 추출할 수 있는 방법은 많습니다. 저는 그중에서 현재 진행하는 연구를 위해 Google Patents 웹사이트 데이터를 근간으로 추가 정보를 크롤링하여 데이터를 확보했는데요. 그 절차를 아래와 같이 공유합니다. 1. 대상 특허 확인 해당 사이트에서 원하는 특허 데이터를 키워드를 포함하여 다양한 옵션을 통해 검색합니다. 2. 특허 목록 다운로드 원하는 데이터를 검색했다면 아래 다운로드 버튼을 이용하여 csv 파일로 저장합니다. 데이터 양이 많아 전체 다운로드가 되지 […]
1. 구글 드라이브에서 Colab 추가 방법 – 구글 드라이브 > 새로 만들기 > 더보기 > 연결할 앱 더보기 > 앱 검색 > Colaboratory 2. 구글 드라이브 연결 3. pandas 라이브러리로 구글 드라이브내 파일 읽기 4. 패키지 영구 설치 방법 – https://seong6496.tistory.com/318 5. 트위터 크롤링 위한 정보 6. R 사용 방법 7. 반복문 처리 진행률 확인, tqdm 8. 특허 데이터 크롤링
구글 코랩에서 트위터 크롤링을 위한 정보를 모아봤습니다. 유익한 정보는 댓글로 공유해주시면 추가하겠습니다. 1. 트위터 개발자 계정 생성 – 계정 생성 참고 링크 : https://charo.tistory.com/6 2. 구글 코랩 트위터 API 소스코드 – https://colab.research.google.com/drive/1z-Zl-euyl4OrYYTcM2DAmmt1o7RdwOv0?usp=sharing 3. 크롤링 데이터 txt 파일 저장 방법 – https://cyanindesign.blogspot.com/2021/03/google-colab-txt.html
구글 Colab은 주로 python 언어를 이용한 작업환경을 제공합니다. 하지만, 아래 URL을 통해 접속하면 Colab에서도 R을 사용할 수 있도록 런타임환경 설정이 활성화 됩니다. https://colab.research.google.com/notebook#create=true&language=r or https://colab.to/r 위 URL로 노트북을 생성하고 런타임 설정내 “런타임 유형 변경” 메뉴를 실행하면 R 이 추가된 걸 확인할 수 있습니다. 이제 R 코드로 테스트를 해보시죠.