웹 데이터 수집 & 장르별 검색어 생성 시스템
Selenium 크롤링 → 장르 분류 → 1줄 요약 → 검색어 추출
데이터 처리 프로세스
1
데이터 수집 (Selenium)
Chrome Selenium으로 웹페이지 크롤링 → HTML 파싱 → 텍스트 추출
2
장르 자동 분류
URL 패턴, 키워드, 메타데이터 분석 → 기술/뉴스/블로그/쇼핑/영상 분류
3
1줄 요약 생성
본문 내용 분석 → 핵심 문장 추출 → 1줄 요약문 생성
4
검색어 추출
요약문 형태소 분석 → 명사/키워드 추출 → 검색어 리스트 생성
수집 데이터 예제
기술
OpenAI, GPT-5 개발 중단 발표
2026-02-15
1줄 요약:
OpenAI가 안전성 검증 미비로 GPT-5 개발을 중단하고 GPT-4 개선에 집중한다고 발표했다.
추출 검색어:
OpenAI
GPT-5
개발중단
안전성검증
인공지능
https://example.com/tech/openai-gpt5-news
블로그
2026년 웹 개발 트렌드 정리
2026-02-10
1줄 요약:
2026년 웹 개발은 AI 통합, Edge Computing, WebAssembly 확대가 핵심 트렌드로 부상했다.
추출 검색어:
웹개발
2026트렌드
AI통합
Edge Computing
WebAssembly
https://example.com/blog/web-trends-2026
쇼핑
아이폰16 프로 최저가 할인
2026-02-18
1줄 요약:
아이폰16 프로 256GB 모델이 통신사 결합 할인으로 120만원대에 판매 중이다.
추출 검색어:
아이폰16
프로
최저가
할인
통신사결합
https://example.com/shop/iphone16-pro
영상
[리뷰] 테슬라 모델Y 2026 신형 시승기
2026-02-12
1줄 요약:
테슬라 모델Y 2026년형은 주행거리 600km, 자율주행 레벨4 지원으로 대폭 업그레이드되었다.
추출 검색어:
테슬라
모델Y
2026신형
시승기
자율주행
https://youtube.com/watch?v=example
뉴스
한국 AI 반도체 수출 첫 10조 돌파
2026-02-17
1줄 요약:
2026년 1월 한국의 AI 반도체 수출이 월간 최초로 10조원을 돌파하며 역대 최고치를 기록했다.
추출 검색어:
한국
AI반도체
수출
10조돌파
반도체산업
https://news.example.com/economy/ai-chip-export
기술 스택 (예정)
크롤링
- Selenium (Chrome WebDriver)
- BeautifulSoup4 (HTML 파싱)
- requests (HTTP 요청)
데이터 처리
- konlpy (한국어 형태소 분석)
- scikit-learn (TF-IDF 키워드 추출)
- pandas (데이터 처리)
# 예시 코드 구조 (실제 구현 예정)
from selenium import webdriver
from bs4 import BeautifulSoup
from konlpy.tag import Okt
# 1. 데이터 수집
driver = webdriver.Chrome()
driver.get('https://example.com')
html = driver.page_source
# 2. 장르 분류
genre = classify_genre(url, keywords)
# 3. 1줄 요약 생성
summary = generate_summary(text)
# 4. 검색어 추출
keywords = extract_keywords(summary)