AICC: Analizzare l'HTML in Modo Più Approfondito, Migliorare i Modelli -- Un Corpus di 7,3T Pronto per l'IA Costruito da un Parser HTML Basato su Modello
AICC: Parse HTML Finer, Make Models Better -- A 7.3T AI-Ready Corpus Built by a Model-Based HTML Parser
November 20, 2025
Autori: Ren Ma, Jiantao Qiu, Chao Xu, Pei Chu, Kaiwen Liu, Pengli Ren, Yuan Qu, Jiahui Peng, Linfeng Hou, Mengjie Liu, Lindong Lu, Wenchang Ning, Jia Yu, Rui Min, Jin Shi, Haojiong Chen, Peng Zhang, Wenjian Zhang, Qian Jiang, Zengjie Hu, Guoqiang Yang, Zhenxiang Li, Fukai Shang, Zhongying Tu, Wentao Zhang, Dahua Lin, Conghui He
cs.AI
Abstract
Sebbene la qualità dei dati web sia cruciale per i grandi modelli linguistici, la maggior parte degli sforzi di curatela si concentra su filtraggio e deduplicazione, trattando l'estrazione da HTML a testo come un passo di pre-elaborazione fisso. I corpora web esistenti si affidano a estrattori euristici come Trafilatura, che faticano a preservare la struttura del documento e spesso danneggiano elementi strutturati come formule, codici e tabelle. Ipotesizziamo che migliorare la qualità dell'estrazione possa essere impattante quanto strategie di filtraggio aggressive per le prestazioni a valle. Introduciamo MinerU-HTML, una nuova pipeline di estrazione che riformula l'estrazione di contenuti come un problema di etichettatura di sequenze risolto da un modello linguistico da 0.6 miliardi di parametri. A differenza delle euristiche basate sulla densità del testo, MinerU-HTML sfrutta la comprensione semantica e impiega una pipeline di formattazione a due stadi che categorizza esplicitamente gli elementi semantici prima della conversione in Markdown. Crucialmente, il suo approccio basato su modelli è intrinsecamente scalabile, mentre i metodi euristici offrono percorsi di miglioramento limitati. Su MainWebBench, il nostro benchmark di 7.887 pagine web annotate, MinerU-HTML raggiunge l'81.8% di F1 ROUGE-N rispetto al 63.6% di Trafilatura, con un'eccezionale conservazione degli elementi strutturati (90.9% per i blocchi di codice, 94.0% per le formule). Utilizzando MinerU-HTML, costruiamo AICC (AI-ready Common Crawl), un corpus multilingue da 7.3 trilioni di token ricavato da due snapshot di Common Crawl. In esperimenti controllati di pre-addestramento, in cui AICC e TfCC (estratta con Trafilatura) subiscono un filtraggio identico, i modelli addestrati su AICC (62B token) raggiungono una precisione media del 50.8% su 13 benchmark, superando TfCC di 1.08 punti percentuali, fornendo così evidenza diretta che la qualità dell'estrazione influisce significativamente sulle capacità del modello. AICC supera anche RefinedWeb e FineWeb su benchmark chiave. Rilasciamo pubblicamente MainWebBench, MinerU-HTML e AICC, dimostrando che l'estrazione HTML è una componente critica e spesso sottovalutata della costruzione di corpora web.
English
While web data quality is crucial for large language models, most curation efforts focus on filtering and deduplication,treating HTML-to-text extraction as a fixed pre-processing step. Existing web corpora rely on heuristic-based extractors like Trafilatura, which struggle to preserve document structure and frequently corrupt structured elements such as formulas, codes, and tables. We hypothesize that improving extraction quality can be as impactful as aggressive filtering strategies for downstream performance. We introduce MinerU-HTML, a novel extraction pipeline that reformulates content extraction as a sequence labeling problem solved by a 0.6B-parameter language model. Unlike text-density heuristics, MinerU-HTML leverages semantic understanding and employs a two-stage formatting pipeline that explicitly categorizes semantic elements before converting to Markdown. Crucially, its model-based approach is inherently scalable, whereas heuristic methods offer limited improvement pathways. On MainWebBench, our benchmark of 7,887 annotated web pages, MinerU-HTML achieves 81.8\% ROUGE-N F1 compared to Trafilatura's 63.6\%, with exceptional structured element preservation (90.9\% for code blocks, 94.0\% for formulas). Using MinerU-HTML, we construct AICC (AI-ready Common Crawl), a 7.3-trillion token multilingual corpus from two Common Crawl snapshots. In controlled pretraining experiments where AICC and Trafilatura-extracted TfCC undergo identical filtering, models trained on AICC (62B tokens) achieve 50.8\% average accuracy across 13 benchmarks, outperforming TfCC by 1.08pp-providing direct evidence that extraction quality significantly impacts model capabilities. AICC also surpasses RefinedWeb and FineWeb on key benchmarks. We publicly release MainWebBench, MinerU-HTML, and AICC, demonstrating that HTML extraction is a critical, often underestimated component of web corpus construction.