AICC: Analisar HTML com Mais Detalhes, Melhorar os Modelos — Um Corpus de 7,3T Pronto para IA Construído por um Analisador de HTML Baseado em Modelo

Resumo

Embora a qualidade dos dados da web seja crucial para grandes modelos de linguagem, a maioria dos esforços de curadoria concentra-se na filtragem e desduplicação, tratando a extração de HTML para texto como uma etapa de pré-processamento fixa. Os corpora da web existentes dependem de extratores baseados em heurística, como o Trafilatura, que lutam para preservar a estrutura do documento e frequentemente corrompem elementos estruturados, como fórmulas, códigos e tabelas. Nossa hipótese é que melhorar a qualidade da extração pode ser tão impactante quanto estratégias agressivas de filtragem para o desempenho downstream. Apresentamos o MinerU-HTML, um novo *pipeline* de extração que reformula a extração de conteúdo como um problema de rotulagem de sequência resolvido por um modelo de linguagem de 0,6 bilhão de parâmetros. Diferente das heurísticas de densidade de texto, o MinerU-HTML aproveita a compreensão semântica e emprega um *pipeline* de formatação em dois estágios que categoriza explicitamente elementos semânticos antes de converter para Markdown. Crucialmente, sua abordagem baseada em modelo é inerentemente escalável, enquanto os métodos heurísticos oferecem caminhos de melhoria limitados. No MainWebBench, nosso *benchmark* de 7.887 páginas web anotadas, o MinerU-HTML alcança 81,8\% de F1 ROUGE-N em comparação com 63,6\% do Trafilatura, com preservação excepcional de elementos estruturados (90,9\% para blocos de código, 94,0\% para fórmulas). Usando o MinerU-HTML, construímos o AICC (*AI-ready Common Crawl*), um corpus multilíngue de 7,3 trilhões de *tokens* proveniente de dois *snapshots* do *Common Crawl*. Em experimentos controlados de pré-treinamento, onde o AICC e o TfCC (extraído com Trafilatura) passam pela mesma filtragem, os modelos treinados no AICC (62 bilhões de *tokens*) alcançam 50,8\% de precisão média em 13 *benchmarks*, superando o TfCC em 1,08 pontos percentuais - fornecendo evidência direta de que a qualidade da extração impacta significativamente as capacidades do modelo. O AICC também supera o RefinedWeb e o FineWeb em *benchmarks* chave. Disponibilizamos publicamente o MainWebBench, o MinerU-HTML e o AICC, demonstrando que a extração de HTML é um componente crítico e frequentemente subestimado da construção de corpora da web.

English

While web data quality is crucial for large language models, most curation efforts focus on filtering and deduplication,treating HTML-to-text extraction as a fixed pre-processing step. Existing web corpora rely on heuristic-based extractors like Trafilatura, which struggle to preserve document structure and frequently corrupt structured elements such as formulas, codes, and tables. We hypothesize that improving extraction quality can be as impactful as aggressive filtering strategies for downstream performance. We introduce MinerU-HTML, a novel extraction pipeline that reformulates content extraction as a sequence labeling problem solved by a 0.6B-parameter language model. Unlike text-density heuristics, MinerU-HTML leverages semantic understanding and employs a two-stage formatting pipeline that explicitly categorizes semantic elements before converting to Markdown. Crucially, its model-based approach is inherently scalable, whereas heuristic methods offer limited improvement pathways. On MainWebBench, our benchmark of 7,887 annotated web pages, MinerU-HTML achieves 81.8\% ROUGE-N F1 compared to Trafilatura's 63.6\%, with exceptional structured element preservation (90.9\% for code blocks, 94.0\% for formulas). Using MinerU-HTML, we construct AICC (AI-ready Common Crawl), a 7.3-trillion token multilingual corpus from two Common Crawl snapshots. In controlled pretraining experiments where AICC and Trafilatura-extracted TfCC undergo identical filtering, models trained on AICC (62B tokens) achieve 50.8\% average accuracy across 13 benchmarks, outperforming TfCC by 1.08pp-providing direct evidence that extraction quality significantly impacts model capabilities. AICC also surpasses RefinedWeb and FineWeb on key benchmarks. We publicly release MainWebBench, MinerU-HTML, and AICC, demonstrating that HTML extraction is a critical, often underestimated component of web corpus construction.

AICC: Analisar HTML com Mais Detalhes, Melhorar os Modelos — Um Corpus de 7,3T Pronto para IA Construído por um Analisador de HTML Baseado em Modelo

AICC: Parse HTML Finer, Make Models Better -- A 7.3T AI-Ready Corpus Built by a Model-Based HTML Parser

Resumo

Support