FineVision: Los Datos Abiertos Son Todo Lo Que Necesitas
FineVision: Open Data Is All You Need
October 20, 2025
Autores: Luis Wiedmann, Orr Zohar, Amir Mahla, Xiaohan Wang, Rui Li, Thibaud Frere, Leandro von Werra, Aritra Roy Gosthipaty, Andrés Marafioti
cs.AI
Resumen
El avance de los modelos de visión y lenguaje (VLMs, por sus siglas en inglés) se ve obstaculizado por un panorama fragmentado de conjuntos de datos públicos inconsistentes y contaminados. Presentamos FineVision, un corpus meticulosamente recopilado, curado y unificado de 24 millones de muestras, el recurso abierto más grande de su tipo. Unificamos más de 200 fuentes en 185 subconjuntos mediante una canalización semiautomatizada con intervención humana: la automatización realiza la ingesta masiva y el mapeo de esquemas, mientras que los revisores auditan los mapeos y verifican muestras de salidas para garantizar el consumo fiel de anotaciones, el formato adecuado, la diversidad y la seguridad; los problemas desencadenan correcciones específicas y reejecuciones. El flujo de trabajo aplica además una desduplicación rigurosa dentro y entre fuentes, así como una descontaminación frente a 66 puntos de referencia públicos. FineVision también abarca tareas agentes/GUI con un espacio de acción unificado; los revisores validan los esquemas e inspeccionan una muestra de trayectorias para confirmar la fidelidad ejecutable. Los modelos entrenados con FineVision superan consistentemente a aquellos entrenados con mezclas abiertas existentes en una amplia suite de evaluación, destacando los beneficios de la escala, la higiene de datos y la automatización equilibrada con supervisión humana. Publicamos el corpus y las herramientas de curación para acelerar la investigación centrada en datos de VLMs.
English
The advancement of vision-language models (VLMs) is hampered by a fragmented
landscape of inconsistent and contaminated public datasets. We introduce
FineVision, a meticulously collected, curated, and unified corpus of 24 million
samples - the largest open resource of its kind. We unify more than 200 sources
into 185 subsets via a semi-automated, human-in-the-loop pipeline: automation
performs bulk ingestion and schema mapping, while reviewers audit mappings and
spot-check outputs to verify faithful consumption of annotations, appropriate
formatting and diversity, and safety; issues trigger targeted fixes and
re-runs. The workflow further applies rigorous de-duplication within and across
sources and decontamination against 66 public benchmarks. FineVision also
encompasses agentic/GUI tasks with a unified action space; reviewers validate
schemas and inspect a sample of trajectories to confirm executable fidelity.
Models trained on FineVision consistently outperform those trained on existing
open mixtures across a broad evaluation suite, underscoring the benefits of
scale, data hygiene, and balanced automation with human oversight. We release
the corpus and curation tools to accelerate data-centric VLM research.