AICC: HTMLをより細かく解析し、モデルをより良くする -- モデルベースHTMLパーサーで構築した7.3TのAI対応コーパス
AICC: Parse HTML Finer, Make Models Better -- A 7.3T AI-Ready Corpus Built by a Model-Based HTML Parser
November 20, 2025
著者: Ren Ma, Jiantao Qiu, Chao Xu, Pei Chu, Kaiwen Liu, Pengli Ren, Yuan Qu, Jiahui Peng, Linfeng Hou, Mengjie Liu, Lindong Lu, Wenchang Ning, Jia Yu, Rui Min, Jin Shi, Haojiong Chen, Peng Zhang, Wenjian Zhang, Qian Jiang, Zengjie Hu, Guoqiang Yang, Zhenxiang Li, Fukai Shang, Zhongying Tu, Wentao Zhang, Dahua Lin, Conghui He
cs.AI
要旨
Webデータの品質は大規模言語モデルにおいて重要であるが、多くのデータ選別プロセスはフィルタリングと重複排除に焦点を当て、HTMLからテキストへの抽出を固定の前処理ステップとして扱っている。既存のWebコーパスはTrafilaturaなどのヒューリスティックベースの抽出器に依存しており、文書構造の保持が困難で、数式、コード、表などの構造化要素を頻繁に損なう問題がある。我々は、抽出品質の向上が、下流タスクの性能に対して積極的なフィルタリング戦略と同程度に影響力を持つという仮説を立てる。本論文では、コンテンツ抽出をシーケンスラベリング問題として再定義し、6億パラメータの言語モデルによって解決する新しい抽出パイプライン「MinerU-HTML」を提案する。テキスト密度に基づくヒューリスティック手法とは異なり、MinerU-HTMLは意味的理解を活用し、Markdown変換前に意味的要素を明示的に分類する2段階のフォーマットパイプラインを採用する。重要な点は、モデルベースのアプローチが本質的にスケーラブルであるのに対し、ヒューリスティック手法には改善の道筋が限られていることである。7,887の注釈付きWebページからなるベンチマーク「MainWebBench」において、MinerU-HTMLはROUGE-N F1スコアで81.8%を達成し(Trafilaturaは63.6%)、構造化要素の優れた保持率(コードブロック90.9%、数式94.0%)を示した。MinerU-HTMLを用いて、2回のCommon Crawlスナップショットから7.3兆トークンの多言語コーパス「AICC(AI-ready Common Crawl)」を構築した。AICCとTrafilatura抽出したTfCCに同一のフィルタリングを適用した制御実験では、AICC(620億トークン)で学習したモデルが13のベンチマークで平均精度50.8%を達成し、TfCCを1.08ポイント上回り、抽出品質がモデル能力に大きく影響する直接的な証拠を得た。AICCは主要ベンチマークにおいてRefinedWebおよびFineWebも凌駕する。我々はMainWebBench、MinerU-HTML、AICCを公開し、HTML抽出がWebコーパス構築において過小評価されがちな重要要素であることを実証する。
English
While web data quality is crucial for large language models, most curation efforts focus on filtering and deduplication,treating HTML-to-text extraction as a fixed pre-processing step. Existing web corpora rely on heuristic-based extractors like Trafilatura, which struggle to preserve document structure and frequently corrupt structured elements such as formulas, codes, and tables. We hypothesize that improving extraction quality can be as impactful as aggressive filtering strategies for downstream performance. We introduce MinerU-HTML, a novel extraction pipeline that reformulates content extraction as a sequence labeling problem solved by a 0.6B-parameter language model. Unlike text-density heuristics, MinerU-HTML leverages semantic understanding and employs a two-stage formatting pipeline that explicitly categorizes semantic elements before converting to Markdown. Crucially, its model-based approach is inherently scalable, whereas heuristic methods offer limited improvement pathways. On MainWebBench, our benchmark of 7,887 annotated web pages, MinerU-HTML achieves 81.8\% ROUGE-N F1 compared to Trafilatura's 63.6\%, with exceptional structured element preservation (90.9\% for code blocks, 94.0\% for formulas). Using MinerU-HTML, we construct AICC (AI-ready Common Crawl), a 7.3-trillion token multilingual corpus from two Common Crawl snapshots. In controlled pretraining experiments where AICC and Trafilatura-extracted TfCC undergo identical filtering, models trained on AICC (62B tokens) achieve 50.8\% average accuracy across 13 benchmarks, outperforming TfCC by 1.08pp-providing direct evidence that extraction quality significantly impacts model capabilities. AICC also surpasses RefinedWeb and FineWeb on key benchmarks. We publicly release MainWebBench, MinerU-HTML, and AICC, demonstrating that HTML extraction is a critical, often underestimated component of web corpus construction.