홈으로 돌아가기

웹 데이터 수집 & 장르별 검색어 생성 시스템

Selenium 크롤링 → 장르 분류 → 1줄 요약 → 검색어 추출

데이터 처리 프로세스

1
데이터 수집 (Selenium)

Chrome Selenium으로 웹페이지 크롤링 → HTML 파싱 → 텍스트 추출

2
장르 자동 분류

URL 패턴, 키워드, 메타데이터 분석 → 기술/뉴스/블로그/쇼핑/영상 분류

3
1줄 요약 생성

본문 내용 분석 → 핵심 문장 추출 → 1줄 요약문 생성

4
검색어 추출

요약문 형태소 분석 → 명사/키워드 추출 → 검색어 리스트 생성

수집 데이터 예제

기술 OpenAI, GPT-5 개발 중단 발표
2026-02-15
1줄 요약:
OpenAI가 안전성 검증 미비로 GPT-5 개발을 중단하고 GPT-4 개선에 집중한다고 발표했다.
추출 검색어:
OpenAI GPT-5 개발중단 안전성검증 인공지능
https://example.com/tech/openai-gpt5-news
블로그 2026년 웹 개발 트렌드 정리
2026-02-10
1줄 요약:
2026년 웹 개발은 AI 통합, Edge Computing, WebAssembly 확대가 핵심 트렌드로 부상했다.
추출 검색어:
웹개발 2026트렌드 AI통합 Edge Computing WebAssembly
https://example.com/blog/web-trends-2026
쇼핑 아이폰16 프로 최저가 할인
2026-02-18
1줄 요약:
아이폰16 프로 256GB 모델이 통신사 결합 할인으로 120만원대에 판매 중이다.
추출 검색어:
아이폰16 프로 최저가 할인 통신사결합
https://example.com/shop/iphone16-pro
영상 [리뷰] 테슬라 모델Y 2026 신형 시승기
2026-02-12
1줄 요약:
테슬라 모델Y 2026년형은 주행거리 600km, 자율주행 레벨4 지원으로 대폭 업그레이드되었다.
추출 검색어:
테슬라 모델Y 2026신형 시승기 자율주행
https://youtube.com/watch?v=example
뉴스 한국 AI 반도체 수출 첫 10조 돌파
2026-02-17
1줄 요약:
2026년 1월 한국의 AI 반도체 수출이 월간 최초로 10조원을 돌파하며 역대 최고치를 기록했다.
추출 검색어:
한국 AI반도체 수출 10조돌파 반도체산업
https://news.example.com/economy/ai-chip-export

수집 통계

1,240

총 수집 페이지

5

분류 장르

1,240

생성된 요약

6,820

추출 검색어

기술 스택 (예정)

크롤링
  • Selenium (Chrome WebDriver)
  • BeautifulSoup4 (HTML 파싱)
  • requests (HTTP 요청)
데이터 처리
  • konlpy (한국어 형태소 분석)
  • scikit-learn (TF-IDF 키워드 추출)
  • pandas (데이터 처리)
# 예시 코드 구조 (실제 구현 예정)
from selenium import webdriver
from bs4 import BeautifulSoup
from konlpy.tag import Okt

# 1. 데이터 수집
driver = webdriver.Chrome()
driver.get('https://example.com')
html = driver.page_source

# 2. 장르 분류
genre = classify_genre(url, keywords)

# 3. 1줄 요약 생성
summary = generate_summary(text)

# 4. 검색어 추출
keywords = extract_keywords(summary)
메인으로 돌아가기