FineVision: Dados Abertos São Tudo o Que Você Precisa

Resumo

O avanço dos modelos de visão e linguagem (VLMs) é prejudicado por um cenário fragmentado de conjuntos de dados públicos inconsistentes e contaminados. Apresentamos o FineVision, um corpus meticulosamente coletado, curado e unificado de 24 milhões de amostras — o maior recurso aberto do tipo. Unificamos mais de 200 fontes em 185 subconjuntos por meio de um pipeline semi-automatizado com intervenção humana: a automação realiza a ingestão em massa e o mapeamento de esquemas, enquanto revisores auditam os mapeamentos e verificam amostras das saídas para garantir o consumo fiel das anotações, a formatação e diversidade adequadas, e a segurança; problemas acionam correções direcionadas e novas execuções. O fluxo de trabalho também aplica uma desduplicação rigorosa dentro e entre as fontes e uma descontaminação em relação a 66 benchmarks públicos. O FineVision ainda abrange tarefas agentes/de interface gráfica com um espaço de ação unificado; revisores validam os esquemas e inspecionam uma amostra de trajetórias para confirmar a fidelidade executável. Modelos treinados no FineVision superam consistentemente aqueles treinados em misturas abertas existentes em uma ampla suíte de avaliação, destacando os benefícios da escala, higiene dos dados e automação equilibrada com supervisão humana. Disponibilizamos o corpus e as ferramentas de curadoria para acelerar a pesquisa centrada em dados em VLMs.

English

The advancement of vision-language models (VLMs) is hampered by a fragmented landscape of inconsistent and contaminated public datasets. We introduce FineVision, a meticulously collected, curated, and unified corpus of 24 million samples - the largest open resource of its kind. We unify more than 200 sources into 185 subsets via a semi-automated, human-in-the-loop pipeline: automation performs bulk ingestion and schema mapping, while reviewers audit mappings and spot-check outputs to verify faithful consumption of annotations, appropriate formatting and diversity, and safety; issues trigger targeted fixes and re-runs. The workflow further applies rigorous de-duplication within and across sources and decontamination against 66 public benchmarks. FineVision also encompasses agentic/GUI tasks with a unified action space; reviewers validate schemas and inspect a sample of trajectories to confirm executable fidelity. Models trained on FineVision consistently outperform those trained on existing open mixtures across a broad evaluation suite, underscoring the benefits of scale, data hygiene, and balanced automation with human oversight. We release the corpus and curation tools to accelerate data-centric VLM research.