Semalt : Web Scrapper Chrome 확장 기능을 사용하는 방법

인터넷을 통해 사용할 수있는 방대한 양의 데이터가 있습니다. 사이트 외부에서 직접 사용 가능한 데이터베이스에 데이터를 복사하는 것은 노동 집약적 프로세스 일 수 있습니다. 따라서 웹 스크래핑 방법을 사용하여 웹 사이트에서 데이터를 추출하면 시간, 에너지 및 비용을 절약 할 수 있습니다.

웹 데이터 추출 또는 웹 하베스 팅이라고도하는 웹 스크래핑은 봇을 사용하여 사이트에서 데이터를 추출하는 프로세스입니다. 웹 스크레이퍼는 사이트를 탐색하고 내용을 평가 한 다음이를 끌어서 스프레드 시트 나 데이터베이스에 넣습니다.

시장에는 다양한 웹 스크래핑 도구가 있지만 기술이 정통하지 않은 사람들에게는 사용하기 쉽지 않습니다. 그러나 Web Scraper Chrome Extension은 무료이며 사용하기 쉽습니다. 이 확장을 사용하면 작업 중에 프로세스를 중지 할 수도 있습니다.

Chrome 웹 스토어에서 Web Scraper Chrome 확장 소프트웨어를 다운로드 할 수 있습니다. 유일한 단점은 사이트를 수동으로 긁어 내야하며 쉽지 않은 프로세스라는 것입니다. 또한 프로그래밍 방식으로 정기적으로 스크래핑을 수행 할 수 없습니다.

웹 스크레이퍼 Chrome 확장 프로그램 설치

  • Chrome 브라우저를 엽니 다.
  • Chrome 웹 스토어를 방문하여 Web Scraper Extension을 검색하십시오.
  • Chrome에 도구를 추가하십시오.
  • 이제 Chrome 브라우저를 사용하여 웹 사이트 스크랩 을 시작할 준비가되었습니다.

스크레이퍼가 설치되면 F12를 눌러 Chrome 개발자 도구를 엽니 다. 또는 화면을 마우스 오른쪽 버튼으로 클릭하고 "요소 검사"를 선택할 수 있습니다. 개발자 도구를 열면 "웹 스크레이퍼"라는 탭이 나타납니다.

이제 라이브 웹 페이지에서이를 사용하는 방법에 대해 알아 보겠습니다. Awesomegifs 웹 사이트를 스크랩하고 웹 사이트에서 일부 내용과 데이터를 추출한다고 가정합니다. 사이트를여십시오. 가장 먼저 보는 것은 무엇입니까? 이미지가 느리게로드 되었습니까?

웹 페이지를 열면 gif 이미지 URL을 추출해야합니다. 즉, 이미지와 일치하는 CSS 선택기를 식별해야합니다. 웹 사이트에는 이미지가 포함 된 약 130 페이지가 있습니다. 페이지 간을 전환하려면 현재 125 개의 페이지 수를 변경해야합니다. 가장 쉬운 방법은 새 사이트 맵을 만들고 시작 URL 필드를 추가하는 것입니다. 이런 식으로 Web Scraper는 계속 URL을 열라는 메시지를 표시하여 프로세스의 최종 값을 증가시킵니다. 125 페이지에 도달 할 때까지 첫 번째 페이지, 두 번째 페이지, 세 번째 페이지가 열립니다.

스크랩 프로세스를 시작하려면 사이트 맵 탭을 열고 "스크랩"을 클릭하십시오. 도구가 필요한 데이터를 스크랩하기 시작합니다. 중간에 스크래핑 프로세스를 중지하려는 경우 창을 닫고 사이트 맵 탭으로 이동하여 추출 된 데이터를 CSV 파일로 내 보냅니다.