ChatPaper.aiChatPaper

AICC: Тонкий парсинг HTML для улучшения моделей — корпус объемом 7,3 трлн токенов, готовый для ИИ, созданный с помощью модельного HTML-парсера

AICC: Parse HTML Finer, Make Models Better -- A 7.3T AI-Ready Corpus Built by a Model-Based HTML Parser

November 20, 2025
Авторы: Ren Ma, Jiantao Qiu, Chao Xu, Pei Chu, Kaiwen Liu, Pengli Ren, Yuan Qu, Jiahui Peng, Linfeng Hou, Mengjie Liu, Lindong Lu, Wenchang Ning, Jia Yu, Rui Min, Jin Shi, Haojiong Chen, Peng Zhang, Wenjian Zhang, Qian Jiang, Zengjie Hu, Guoqiang Yang, Zhenxiang Li, Fukai Shang, Zhongying Tu, Wentao Zhang, Dahua Lin, Conghui He
cs.AI

Аннотация

Хотя качество веб-данных критически важно для больших языковых моделей, большинство усилий по их курированию сосредоточено на фильтрации и дедупликации, рассматривая преобразование HTML в текст как фиксированный этап предварительной обработки. Существующие веб-корпуса полагаются на эвристические экстракторы, такие как Trafilatura, которые плохо сохраняют структуру документа и часто искажают структурированные элементы, такие как формулы, код и таблицы. Мы выдвигаем гипотезу, что улучшение качества извлечения может быть столь же значимым для итоговой производительности, как и агрессивные стратегии фильтрации. Мы представляем MinerU-HTML — новый конвейер извлечения, который переформулирует извлечение контента как задачу последовательной классификации, решаемую языковой моделью с 0.6 миллиардами параметров. В отличие от эвристик, основанных на текстовой плотности, MinerU-HTML использует семантическое понимание и применяет двухэтапный конвейер форматирования, который явно категоризирует семантические элементы перед преобразованием в Markdown. Ключевое преимущество в том, что его модельный подход по своей природе масштабируем, в то время как эвристические методы предлагают ограниченные пути для улучшений. На MainWebBench, нашем бенчмарке из 7 887 размеченных веб-страниц, MinerU-HTML достигает показателя 81.8% ROUGE-N F1 по сравнению с 63.6% у Trafilatura, с исключительным сохранением структурированных элементов (90.9% для блоков кода, 94.0% для формул). Используя MinerU-HTML, мы создали AICC (AI-ready Common Crawl) — многоязычный корпус объемом 7.3 триллиона токенов, полученный из двух снимков Common Crawl. В контролируемых экспериментах по предварительному обучению, где AICC и извлеченный с помощью Trafilatura корпус TfCC проходят идентичную фильтрацию, модели, обученные на AICC (62 млрд токенов), достигают средней точности 50.8% по 13 бенчмаркам, превосходя TfCC на 1.08 п.п. — что является прямым доказательством значительного влияния качества извлечения на способности моделей. AICC также превосходит RefinedWeb и FineWeb по ключевым бенчмаркам. Мы публично выпускаем MainWebBench, MinerU-HTML и AICC, демонстрируя, что извлечение HTML является критически важным, но часто недооцениваемым компонентом построения веб-корпусов.
English
While web data quality is crucial for large language models, most curation efforts focus on filtering and deduplication,treating HTML-to-text extraction as a fixed pre-processing step. Existing web corpora rely on heuristic-based extractors like Trafilatura, which struggle to preserve document structure and frequently corrupt structured elements such as formulas, codes, and tables. We hypothesize that improving extraction quality can be as impactful as aggressive filtering strategies for downstream performance. We introduce MinerU-HTML, a novel extraction pipeline that reformulates content extraction as a sequence labeling problem solved by a 0.6B-parameter language model. Unlike text-density heuristics, MinerU-HTML leverages semantic understanding and employs a two-stage formatting pipeline that explicitly categorizes semantic elements before converting to Markdown. Crucially, its model-based approach is inherently scalable, whereas heuristic methods offer limited improvement pathways. On MainWebBench, our benchmark of 7,887 annotated web pages, MinerU-HTML achieves 81.8\% ROUGE-N F1 compared to Trafilatura's 63.6\%, with exceptional structured element preservation (90.9\% for code blocks, 94.0\% for formulas). Using MinerU-HTML, we construct AICC (AI-ready Common Crawl), a 7.3-trillion token multilingual corpus from two Common Crawl snapshots. In controlled pretraining experiments where AICC and Trafilatura-extracted TfCC undergo identical filtering, models trained on AICC (62B tokens) achieve 50.8\% average accuracy across 13 benchmarks, outperforming TfCC by 1.08pp-providing direct evidence that extraction quality significantly impacts model capabilities. AICC also surpasses RefinedWeb and FineWeb on key benchmarks. We publicly release MainWebBench, MinerU-HTML, and AICC, demonstrating that HTML extraction is a critical, often underestimated component of web corpus construction.
PDF102February 7, 2026