AICC: HTML Fijner Parsen, Modellen Beter Maken – Een AI-Gereed Corpus van 7,3T Gebouwd door een Modelgebaseerde HTML-Parser
AICC: Parse HTML Finer, Make Models Better -- A 7.3T AI-Ready Corpus Built by a Model-Based HTML Parser
November 20, 2025
Auteurs: Ren Ma, Jiantao Qiu, Chao Xu, Pei Chu, Kaiwen Liu, Pengli Ren, Yuan Qu, Jiahui Peng, Linfeng Hou, Mengjie Liu, Lindong Lu, Wenchang Ning, Jia Yu, Rui Min, Jin Shi, Haojiong Chen, Peng Zhang, Wenjian Zhang, Qian Jiang, Zengjie Hu, Guoqiang Yang, Zhenxiang Li, Fukai Shang, Zhongying Tu, Wentao Zhang, Dahua Lin, Conghui He
cs.AI
Samenvatting
Hoewel de kwaliteit van webgegevens cruciaal is voor grote taalmodel(len), richten de meeste inspanningen voor datacuratie zich op filtering en deduplicatie, waarbij HTML-naar-tekst-extractie wordt behandeld als een vaste voorverwerkingsstap. Bestaande webcorpora vertrouwen op op heuristieken gebaseerde extractors zoals Trafilatura, die moeite hebben om de documentstructuur te behouden en vaak gestructureerde elementen zoals formules, code en tabellen beschadigen. Wij veronderstellen dat het verbeteren van de extractiekwaliteit even impactvol kan zijn als agressieve filterstrategieën voor de downstream-prestaties. Wij introduceren MinerU-HTML, een nieuwe extractiepipeline die contentextractie herformuleert als een sequentielabelingsprobleem opgelost door een taalmodel met 0,6 miljard parameters. In tegenstelling tot tekstdichtheid-heuristieken, benut MinerU-HTML semantisch begrip en gebruikt het een tweestaps opmaakpipeline die semantische elementen expliciet categoriseert voordat ze naar Markdown worden omgezet. Cruciaal is dat de modelgebaseerde aanpak inherent schaalbaar is, terwijl heuristische methoden beperkte verbeteringsmogelijkheden bieden. Op MainWebBench, onze benchmark met 7.887 geannoteerde webpagina's, behaalt MinerU-HTML 81,8% ROUGE-N F1 vergeleken met Trafilatura's 63,6%, met een uitzonderlijk behoud van gestructureerde elementen (90,9% voor codeblokken, 94,0% voor formules). Met MinerU-HTML construeren we AICC (AI-ready Common Crawl), een meertalig corpus van 7,3 biljoen tokens uit twee Common Crawl-momentopnames. In gecontroleerde pre-trainingexperimenten waarbij AICC en het met Trafilatura geëxtraheerde TfCC identieke filtering ondergaan, behalen modellen getraind op AICC (62B tokens) een gemiddelde nauwkeurigheid van 50,8% over 13 benchmarks, wat TfCC met 1,08 procentpunt overtreft - dit levert direct bewijs dat extractiekwaliteit de modelcapaciteiten significant beïnvloedt. AICC overtreft ook RefinedWeb en FineWeb op belangrijke benchmarks. Wij geven MainWebBench, MinerU-HTML en AICC openbaar vrij, waarmee we aantonen dat HTML-extractie een kritieke, vaak onderschatte component is van webcorpusconstructie.
English
While web data quality is crucial for large language models, most curation efforts focus on filtering and deduplication,treating HTML-to-text extraction as a fixed pre-processing step. Existing web corpora rely on heuristic-based extractors like Trafilatura, which struggle to preserve document structure and frequently corrupt structured elements such as formulas, codes, and tables. We hypothesize that improving extraction quality can be as impactful as aggressive filtering strategies for downstream performance. We introduce MinerU-HTML, a novel extraction pipeline that reformulates content extraction as a sequence labeling problem solved by a 0.6B-parameter language model. Unlike text-density heuristics, MinerU-HTML leverages semantic understanding and employs a two-stage formatting pipeline that explicitly categorizes semantic elements before converting to Markdown. Crucially, its model-based approach is inherently scalable, whereas heuristic methods offer limited improvement pathways. On MainWebBench, our benchmark of 7,887 annotated web pages, MinerU-HTML achieves 81.8\% ROUGE-N F1 compared to Trafilatura's 63.6\%, with exceptional structured element preservation (90.9\% for code blocks, 94.0\% for formulas). Using MinerU-HTML, we construct AICC (AI-ready Common Crawl), a 7.3-trillion token multilingual corpus from two Common Crawl snapshots. In controlled pretraining experiments where AICC and Trafilatura-extracted TfCC undergo identical filtering, models trained on AICC (62B tokens) achieve 50.8\% average accuracy across 13 benchmarks, outperforming TfCC by 1.08pp-providing direct evidence that extraction quality significantly impacts model capabilities. AICC also surpasses RefinedWeb and FineWeb on key benchmarks. We publicly release MainWebBench, MinerU-HTML, and AICC, demonstrating that HTML extraction is a critical, often underestimated component of web corpus construction.