ChatPaper.aiChatPaper

AICC: HTML präziser parsen, Modelle verbessern – Ein 7,3-Billionen-Token KI-tauglicher Korpus, erstellt durch einen modellbasierten HTML-Parser

AICC: Parse HTML Finer, Make Models Better -- A 7.3T AI-Ready Corpus Built by a Model-Based HTML Parser

November 20, 2025
papers.authors: Ren Ma, Jiantao Qiu, Chao Xu, Pei Chu, Kaiwen Liu, Pengli Ren, Yuan Qu, Jiahui Peng, Linfeng Hou, Mengjie Liu, Lindong Lu, Wenchang Ning, Jia Yu, Rui Min, Jin Shi, Haojiong Chen, Peng Zhang, Wenjian Zhang, Qian Jiang, Zengjie Hu, Guoqiang Yang, Zhenxiang Li, Fukai Shang, Zhongying Tu, Wentao Zhang, Dahua Lin, Conghui He
cs.AI

papers.abstract

Obwohl die Qualität von Webdaten für große Sprachmodelle entscheidend ist, konzentrieren sich die meisten Bereinigungsbemühungen auf Filterung und Deduplizierung und behandeln die HTML-zu-Text-Extraktion als festen Vorverarbeitungsschritt. Bestehende Webkorpora verlassen sich auf heuristikbasierte Extraktoren wie Trafilatura, die Schwierigkeiten haben, die Dokumentstruktur zu erhalten und häufig strukturierte Elemente wie Formeln, Code und Tabellen beschädigen. Wir stellen die Hypothese auf, dass die Verbesserung der Extraktionsqualität für die nachgelagerten Leistungen ebenso wirkungsvoll sein kann wie aggressive Filterstrategien. Wir stellen MinerU-HTML vor, eine neuartige Extraktionspipeline, die Inhalts- extraktion als Sequenzetikettierungsproblem formuliert, das von einem Sprachmodell mit 0,6 Milliarden Parametern gelöst wird. Im Gegensatz zu Textdichte-Heuristiken nutzt MinerU-HTML semantisches Verständnis und verwendet eine zweistufige Formatierungspipeline, die semantische Elemente explizit kategorisiert, bevor sie in Markdown konvertiert werden. Entscheidend ist, dass sein modellbasierter Ansatz inhärent skalierbar ist, während heuristische Methoden nur begrenzte Verbesserungsmöglichkeiten bieten. Auf MainWebBench, unserem Benchmark mit 7.887 annotierten Webseiten, erreicht MinerU-HTML 81,8 % ROUGE-N F1 im Vergleich zu 63,6 % von Trafilatura, mit außergewöhnlicher Erhaltung strukturierter Elemente (90,9 % für Codeblöcke, 94,0 % für Formeln). Mit MinerU-HTML konstruieren wir AICC (AI-ready Common Crawl), ein 7,3 Billionen Token umfassendes mehrsprachiges Korpus aus zwei Common-Crawl-Snapshots. In kontrollierten Vortrainingsexperimenten, bei denen AICC und das mit Trafilatura extrahierte TfCC identischer Filterung unterzogen werden, erreichen auf AICC (62B Tokens) trainierte Modelle eine durchschnittliche Genauigkeit von 50,8 % über 13 Benchmarks hinweg und übertreffen TfCC um 1,08 Prozentpunkte – was direkte Evidenz dafür liefert, dass die Extraktionsqualität die Modellfähigkeiten signifikant beeinflusst. AICC übertrifft auch RefinedWeb und FineWeb in wichtigen Benchmarks. Wir veröffentlichen MainWebBench, MinerU-HTML und AICC öffentlich und demonstrieren, dass HTML-Extraktion eine kritische, oft unterschätzte Komponente der Webkorpuskonstruktion ist.
English
While web data quality is crucial for large language models, most curation efforts focus on filtering and deduplication,treating HTML-to-text extraction as a fixed pre-processing step. Existing web corpora rely on heuristic-based extractors like Trafilatura, which struggle to preserve document structure and frequently corrupt structured elements such as formulas, codes, and tables. We hypothesize that improving extraction quality can be as impactful as aggressive filtering strategies for downstream performance. We introduce MinerU-HTML, a novel extraction pipeline that reformulates content extraction as a sequence labeling problem solved by a 0.6B-parameter language model. Unlike text-density heuristics, MinerU-HTML leverages semantic understanding and employs a two-stage formatting pipeline that explicitly categorizes semantic elements before converting to Markdown. Crucially, its model-based approach is inherently scalable, whereas heuristic methods offer limited improvement pathways. On MainWebBench, our benchmark of 7,887 annotated web pages, MinerU-HTML achieves 81.8\% ROUGE-N F1 compared to Trafilatura's 63.6\%, with exceptional structured element preservation (90.9\% for code blocks, 94.0\% for formulas). Using MinerU-HTML, we construct AICC (AI-ready Common Crawl), a 7.3-trillion token multilingual corpus from two Common Crawl snapshots. In controlled pretraining experiments where AICC and Trafilatura-extracted TfCC undergo identical filtering, models trained on AICC (62B tokens) achieve 50.8\% average accuracy across 13 benchmarks, outperforming TfCC by 1.08pp-providing direct evidence that extraction quality significantly impacts model capabilities. AICC also surpasses RefinedWeb and FineWeb on key benchmarks. We publicly release MainWebBench, MinerU-HTML, and AICC, demonstrating that HTML extraction is a critical, often underestimated component of web corpus construction.
PDF102February 7, 2026