FineVision: Dados Abertos São Tudo o Que Você Precisa
FineVision: Open Data Is All You Need
October 20, 2025
Autores: Luis Wiedmann, Orr Zohar, Amir Mahla, Xiaohan Wang, Rui Li, Thibaud Frere, Leandro von Werra, Aritra Roy Gosthipaty, Andrés Marafioti
cs.AI
Resumo
O avanço dos modelos de visão e linguagem (VLMs) é prejudicado por um cenário fragmentado de conjuntos de dados públicos inconsistentes e contaminados. Apresentamos o FineVision, um corpus meticulosamente coletado, curado e unificado de 24 milhões de amostras — o maior recurso aberto do tipo. Unificamos mais de 200 fontes em 185 subconjuntos por meio de um pipeline semi-automatizado com intervenção humana: a automação realiza a ingestão em massa e o mapeamento de esquemas, enquanto revisores auditam os mapeamentos e verificam amostras das saídas para garantir o consumo fiel das anotações, a formatação e diversidade adequadas, e a segurança; problemas acionam correções direcionadas e novas execuções. O fluxo de trabalho também aplica uma desduplicação rigorosa dentro e entre as fontes e uma descontaminação em relação a 66 benchmarks públicos. O FineVision ainda abrange tarefas agentes/de interface gráfica com um espaço de ação unificado; revisores validam os esquemas e inspecionam uma amostra de trajetórias para confirmar a fidelidade executável. Modelos treinados no FineVision superam consistentemente aqueles treinados em misturas abertas existentes em uma ampla suíte de avaliação, destacando os benefícios da escala, higiene dos dados e automação equilibrada com supervisão humana. Disponibilizamos o corpus e as ferramentas de curadoria para acelerar a pesquisa centrada em dados em VLMs.
English
The advancement of vision-language models (VLMs) is hampered by a fragmented
landscape of inconsistent and contaminated public datasets. We introduce
FineVision, a meticulously collected, curated, and unified corpus of 24 million
samples - the largest open resource of its kind. We unify more than 200 sources
into 185 subsets via a semi-automated, human-in-the-loop pipeline: automation
performs bulk ingestion and schema mapping, while reviewers audit mappings and
spot-check outputs to verify faithful consumption of annotations, appropriate
formatting and diversity, and safety; issues trigger targeted fixes and
re-runs. The workflow further applies rigorous de-duplication within and across
sources and decontamination against 66 public benchmarks. FineVision also
encompasses agentic/GUI tasks with a unified action space; reviewers validate
schemas and inspect a sample of trajectories to confirm executable fidelity.
Models trained on FineVision consistently outperform those trained on existing
open mixtures across a broad evaluation suite, underscoring the benefits of
scale, data hygiene, and balanced automation with human oversight. We release
the corpus and curation tools to accelerate data-centric VLM research.