AICC: Analizar HTML con Mayor Detalle, Mejorar los Modelos — Un Corpus de 7.3T Listo para IA Construido por un Analizador de HTML Basado en Modelos
AICC: Parse HTML Finer, Make Models Better -- A 7.3T AI-Ready Corpus Built by a Model-Based HTML Parser
November 20, 2025
Autores: Ren Ma, Jiantao Qiu, Chao Xu, Pei Chu, Kaiwen Liu, Pengli Ren, Yuan Qu, Jiahui Peng, Linfeng Hou, Mengjie Liu, Lindong Lu, Wenchang Ning, Jia Yu, Rui Min, Jin Shi, Haojiong Chen, Peng Zhang, Wenjian Zhang, Qian Jiang, Zengjie Hu, Guoqiang Yang, Zhenxiang Li, Fukai Shang, Zhongying Tu, Wentao Zhang, Dahua Lin, Conghui He
cs.AI
Resumen
Si bien la calidad de los datos web es crucial para los modelos de lenguaje a gran escala, la mayoría de los esfuerzos de curación se centran en el filtrado y la deduplicación, tratando la extracción de HTML a texto como un paso de preprocesamiento fijo. Los corpus web existentes dependen de extractores basados en heurísticas como Trafilatura, que tienen dificultades para preservar la estructura del documento y frecuentemente corrompen elementos estructurados como fórmulas, códigos y tablas. Nuestra hipótesis es que mejorar la calidad de la extracción puede ser tan impactante como las estrategias de filtrado agresivo para el rendimiento posterior. Presentamos MinerU-HTML, una novedosa canalización de extracción que reformula la extracción de contenido como un problema de etiquetado de secuencias resuelto por un modelo de lenguaje de 0.600 millones de parámetros. A diferencia de las heurísticas de densidad de texto, MinerU-HTML aprovecha la comprensión semántica y emplea una canalización de formato de dos etapas que categoriza explícitamente los elementos semánticos antes de convertirlos a Markdown. Crucialmente, su enfoque basado en modelos es inherentemente escalable, mientras que los métodos heurísticos ofrecen vías de mejora limitadas. En MainWebBench, nuestro benchmark de 7.887 páginas web anotadas, MinerU-HTML alcanza un 81,8% de F1 ROUGE-N en comparación con el 63,6% de Trafilatura, con una preservación excepcional de elementos estructurados (90,9% para bloques de código, 94,0% para fórmulas). Utilizando MinerU-HTML, construimos AICC (Common Crawl listo para IA), un corpus multilingüe de 7,3 billones de tokens a partir de dos instantáneas de Common Crawl. En experimentos controlados de preentrenamiento donde AICC y TfCC (extraído con Trafilatura) se someten al mismo filtrado, los modelos entrenados con AICC (62B tokens) logran un 50,8% de precisión promedio en 13 benchmarks, superando a TfCC por 1,08 puntos porcentuales, lo que proporciona evidencia directa de que la calidad de la extracción impacta significativamente las capacidades del modelo. AICC también supera a RefinedWeb y FineWeb en benchmarks clave. Publicamos públicamente MainWebBench, MinerU-HTML y AICC, demostrando que la extracción de HTML es un componente crítico y a menudo subestimado en la construcción de corpus web.
English
While web data quality is crucial for large language models, most curation efforts focus on filtering and deduplication,treating HTML-to-text extraction as a fixed pre-processing step. Existing web corpora rely on heuristic-based extractors like Trafilatura, which struggle to preserve document structure and frequently corrupt structured elements such as formulas, codes, and tables. We hypothesize that improving extraction quality can be as impactful as aggressive filtering strategies for downstream performance. We introduce MinerU-HTML, a novel extraction pipeline that reformulates content extraction as a sequence labeling problem solved by a 0.6B-parameter language model. Unlike text-density heuristics, MinerU-HTML leverages semantic understanding and employs a two-stage formatting pipeline that explicitly categorizes semantic elements before converting to Markdown. Crucially, its model-based approach is inherently scalable, whereas heuristic methods offer limited improvement pathways. On MainWebBench, our benchmark of 7,887 annotated web pages, MinerU-HTML achieves 81.8\% ROUGE-N F1 compared to Trafilatura's 63.6\%, with exceptional structured element preservation (90.9\% for code blocks, 94.0\% for formulas). Using MinerU-HTML, we construct AICC (AI-ready Common Crawl), a 7.3-trillion token multilingual corpus from two Common Crawl snapshots. In controlled pretraining experiments where AICC and Trafilatura-extracted TfCC undergo identical filtering, models trained on AICC (62B tokens) achieve 50.8\% average accuracy across 13 benchmarks, outperforming TfCC by 1.08pp-providing direct evidence that extraction quality significantly impacts model capabilities. AICC also surpasses RefinedWeb and FineWeb on key benchmarks. We publicly release MainWebBench, MinerU-HTML, and AICC, demonstrating that HTML extraction is a critical, often underestimated component of web corpus construction.