ChatPaper.aiChatPaper

AICC: HTML을 더 세밀하게 파싱하여 모델 성능을 향상시키다 -- 모델 기반 HTML 파서로 구축한 7.3T 규모의 AI 준비 코퍼스

AICC: Parse HTML Finer, Make Models Better -- A 7.3T AI-Ready Corpus Built by a Model-Based HTML Parser

November 20, 2025
저자: Ren Ma, Jiantao Qiu, Chao Xu, Pei Chu, Kaiwen Liu, Pengli Ren, Yuan Qu, Jiahui Peng, Linfeng Hou, Mengjie Liu, Lindong Lu, Wenchang Ning, Jia Yu, Rui Min, Jin Shi, Haojiong Chen, Peng Zhang, Wenjian Zhang, Qian Jiang, Zengjie Hu, Guoqiang Yang, Zhenxiang Li, Fukai Shang, Zhongying Tu, Wentao Zhang, Dahua Lin, Conghui He
cs.AI

초록

웹 데이터 품질이 대규모 언어 모델에 중요함에도 불구하고, 대부분의 데이터 정제 작업은 필터링과 중복 제거에 집중하며 HTML-텍스트 추출을 고정된 전처리 단계로 취급합니다. 기존 웹 코퍼스는 Trafilatura와 같은 경험적 기반 추출기를 사용하는데, 이러한 도구들은 문서 구조 보존에 어려움을 겪으며 수식, 코드, 표와 같은 구조화된 요소를 자주 훼손합니다. 우리는 추출 품질 향상이 다운스트림 성능에 있어 공격적인 필터링 전략만큼 영향력 있을 것이라는 가설을 세웁니다. 본 연구에서는 콘텐츠 추출을 6억 개 매개변수 언어 모델로 해결되는 시퀀스 레이블링 문제로 재정의한 새로운 추출 파이프라인인 MinerU-HTML을 소개합니다. 텍스트 밀도 휴리스틱과 달리 MinerU-HTML은 의미적 이해를 활용하고, 마크다운으로 변환하기 전에 의미 요소를 명시적으로 분류하는 2단계 포맷팅 파이프라인을 사용합니다. 결정적으로, 모델 기반 접근법은 본질적으로 확장 가능한 반면 휴리스틱 방법은 개선 경로가 제한적입니다. 7,887개의 주석이 달린 웹 페이지로 구성된 벤치마크인 MainWebBench에서 MinerU-HTML은 Trafilatura의 63.6%에 비해 81.8%의 ROUGE-N F1 점수를 달성했으며, 구조화된 요소 보존에서도 탁월한 성능(코드 블록 90.9%, 수식 94.0%)을 보였습니다. MinerU-HTML을 사용하여 우리는 두 개의 Common Crawl 스냅샷에서 7.3조 토큰 규모의 다국어 코퍼스인 AICC(AI-ready Common Crawl)를 구축했습니다. AICC와 Trafilatura로 추출한 TfCC에 동일한 필터링을 적용한 통제된 사전 학습 실험에서, AICC(620억 토큰)로 학습된 모델은 13개 벤치마크에서 평균 50.8% 정확도를 기록하며 TfCC 대비 1.08%p 우수한 성능을 보여 추출 품질이 모델 능력에 중대한 영향을 미친다는 직접적인 증거를 제공합니다. AICC는 주요 벤치마크에서 RefinedWeb과 FineWeb도 능가했습니다. 우리는 MainWebBench, MinerU-HTML 및 AICC를 공개하여 HTML 추출이 웹 코퍼스 구축의 중요하지만 종종 과소평가되는 구성 요소임을 입증합니다.
English
While web data quality is crucial for large language models, most curation efforts focus on filtering and deduplication,treating HTML-to-text extraction as a fixed pre-processing step. Existing web corpora rely on heuristic-based extractors like Trafilatura, which struggle to preserve document structure and frequently corrupt structured elements such as formulas, codes, and tables. We hypothesize that improving extraction quality can be as impactful as aggressive filtering strategies for downstream performance. We introduce MinerU-HTML, a novel extraction pipeline that reformulates content extraction as a sequence labeling problem solved by a 0.6B-parameter language model. Unlike text-density heuristics, MinerU-HTML leverages semantic understanding and employs a two-stage formatting pipeline that explicitly categorizes semantic elements before converting to Markdown. Crucially, its model-based approach is inherently scalable, whereas heuristic methods offer limited improvement pathways. On MainWebBench, our benchmark of 7,887 annotated web pages, MinerU-HTML achieves 81.8\% ROUGE-N F1 compared to Trafilatura's 63.6\%, with exceptional structured element preservation (90.9\% for code blocks, 94.0\% for formulas). Using MinerU-HTML, we construct AICC (AI-ready Common Crawl), a 7.3-trillion token multilingual corpus from two Common Crawl snapshots. In controlled pretraining experiments where AICC and Trafilatura-extracted TfCC undergo identical filtering, models trained on AICC (62B tokens) achieve 50.8\% average accuracy across 13 benchmarks, outperforming TfCC by 1.08pp-providing direct evidence that extraction quality significantly impacts model capabilities. AICC also surpasses RefinedWeb and FineWeb on key benchmarks. We publicly release MainWebBench, MinerU-HTML, and AICC, demonstrating that HTML extraction is a critical, often underestimated component of web corpus construction.
PDF102February 7, 2026