ChatPaper.aiChatPaper

AICC : Analyser le HTML avec plus de finesse, améliorer les modèles — Un corpus de 7,3 To prêt pour l'IA construit grâce à un analyseur HTML basé sur un modèle

AICC: Parse HTML Finer, Make Models Better -- A 7.3T AI-Ready Corpus Built by a Model-Based HTML Parser

November 20, 2025
papers.authors: Ren Ma, Jiantao Qiu, Chao Xu, Pei Chu, Kaiwen Liu, Pengli Ren, Yuan Qu, Jiahui Peng, Linfeng Hou, Mengjie Liu, Lindong Lu, Wenchang Ning, Jia Yu, Rui Min, Jin Shi, Haojiong Chen, Peng Zhang, Wenjian Zhang, Qian Jiang, Zengjie Hu, Guoqiang Yang, Zhenxiang Li, Fukai Shang, Zhongying Tu, Wentao Zhang, Dahua Lin, Conghui He
cs.AI

papers.abstract

Bien que la qualité des données web soit cruciale pour les grands modèles de langage, la plupart des efforts de curation se concentrent sur le filtrage et la déduplication, traitant l'extraction HTML-vers-texte comme une étape de prétraitement fixe. Les corpus web existants reposent sur des extracteurs heuristiques comme Trafilatura, qui peinent à préserver la structure des documents et altèrent fréquemment des éléments structurés tels que les formules, les codes et les tableaux. Nous émettons l'hypothèse qu'améliorer la qualité de l'extraction peut être aussi impactant que des stratégies de filtrage agressives pour les performances en aval. Nous présentons MinerU-HTML, un nouveau pipeline d'extraction qui reformule l'extraction de contenu en un problème d'étiquetage de séquence résolu par un modèle de langage de 0,6 milliard de paramètres. Contrairement aux heuristiques basées sur la densité textuelle, MinerU-HTML tire parti de la compréhension sémantique et utilise un pipeline de formatage en deux étapes qui catégorise explicitement les éléments sémantiques avant la conversion en Markdown. Essentiellement, son approche basée sur un modèle est intrinsèquement évolutive, tandis que les méthodes heuristiques offrent des perspectives d'amélioration limitées. Sur MainWebBench, notre benchmark de 7 887 pages web annotées, MinerU-HTML atteint un score F1 ROUGE-N de 81,8 % contre 63,6 % pour Trafilatura, avec une préservation exceptionnelle des éléments structurés (90,9 % pour les blocs de code, 94,0 % pour les formules). En utilisant MinerU-HTML, nous construisons AICC (AI-ready Common Crawl), un corpus multilingue de 7,3 billions de tokens provenant de deux instantanés de Common Crawl. Dans des expériences de pré-entraînement contrôlées où AICC et TfCC (extraite par Trafilatura) subissent un filtrage identique, les modèles entraînés sur AICC (62 milliards de tokens) atteignent une précision moyenne de 50,8 % sur 13 benchmarks, surpassant TfCC de 1,08 point de pourcentage - fournissant une preuve directe que la qualité de l'extraction influence significativement les capacités des modèles. AICC surpasse également RefinedWeb et FineWeb sur des benchmarks clés. Nous rendons publics MainWebBench, MinerU-HTML et AICC, démontrant que l'extraction HTML est une composante critique et souvent sous-estimée de la construction de corpus web.
English
While web data quality is crucial for large language models, most curation efforts focus on filtering and deduplication,treating HTML-to-text extraction as a fixed pre-processing step. Existing web corpora rely on heuristic-based extractors like Trafilatura, which struggle to preserve document structure and frequently corrupt structured elements such as formulas, codes, and tables. We hypothesize that improving extraction quality can be as impactful as aggressive filtering strategies for downstream performance. We introduce MinerU-HTML, a novel extraction pipeline that reformulates content extraction as a sequence labeling problem solved by a 0.6B-parameter language model. Unlike text-density heuristics, MinerU-HTML leverages semantic understanding and employs a two-stage formatting pipeline that explicitly categorizes semantic elements before converting to Markdown. Crucially, its model-based approach is inherently scalable, whereas heuristic methods offer limited improvement pathways. On MainWebBench, our benchmark of 7,887 annotated web pages, MinerU-HTML achieves 81.8\% ROUGE-N F1 compared to Trafilatura's 63.6\%, with exceptional structured element preservation (90.9\% for code blocks, 94.0\% for formulas). Using MinerU-HTML, we construct AICC (AI-ready Common Crawl), a 7.3-trillion token multilingual corpus from two Common Crawl snapshots. In controlled pretraining experiments where AICC and Trafilatura-extracted TfCC undergo identical filtering, models trained on AICC (62B tokens) achieve 50.8\% average accuracy across 13 benchmarks, outperforming TfCC by 1.08pp-providing direct evidence that extraction quality significantly impacts model capabilities. AICC also surpasses RefinedWeb and FineWeb on key benchmarks. We publicly release MainWebBench, MinerU-HTML, and AICC, demonstrating that HTML extraction is a critical, often underestimated component of web corpus construction.
PDF102February 7, 2026