ChatPaper.aiChatPaper

FineVision : Les Données Ouvertes Suffisent

FineVision: Open Data Is All You Need

October 20, 2025
papers.authors: Luis Wiedmann, Orr Zohar, Amir Mahla, Xiaohan Wang, Rui Li, Thibaud Frere, Leandro von Werra, Aritra Roy Gosthipaty, Andrés Marafioti
cs.AI

papers.abstract

Le progrès des modèles vision-langage (VLMs) est entravé par un paysage fragmenté de jeux de données publics incohérents et contaminés. Nous présentons FineVision, un corpus méticuleusement collecté, organisé et unifié de 24 millions d'échantillons - la plus grande ressource ouverte de ce type. Nous unifions plus de 200 sources en 185 sous-ensembles via un pipeline semi-automatisé avec intervention humaine : l'automatisation effectue l'ingestion en masse et le mappage des schémas, tandis que les réviseurs audite les mappages et vérifient un échantillon des sorties pour s'assurer de la fidélité de la consommation des annotations, du formatage approprié, de la diversité et de la sécurité ; les problèmes déclenchent des corrections ciblées et des réexécutions. Le flux de travail applique également une déduplication rigoureuse au sein et entre les sources, ainsi qu'une décontamination par rapport à 66 benchmarks publics. FineVision inclut également des tâches agentielles/GUI avec un espace d'action unifié ; les réviseurs valident les schémas et inspectent un échantillon de trajectoires pour confirmer la fidélité exécutable. Les modèles entraînés sur FineVision surpassent systématiquement ceux entraînés sur les mélanges ouverts existants à travers une large suite d'évaluation, mettant en évidence les avantages de l'échelle, de l'hygiène des données et de l'automatisation équilibrée avec supervision humaine. Nous publions le corpus et les outils de curation pour accélérer la recherche centrée sur les données dans le domaine des VLMs.
English
The advancement of vision-language models (VLMs) is hampered by a fragmented landscape of inconsistent and contaminated public datasets. We introduce FineVision, a meticulously collected, curated, and unified corpus of 24 million samples - the largest open resource of its kind. We unify more than 200 sources into 185 subsets via a semi-automated, human-in-the-loop pipeline: automation performs bulk ingestion and schema mapping, while reviewers audit mappings and spot-check outputs to verify faithful consumption of annotations, appropriate formatting and diversity, and safety; issues trigger targeted fixes and re-runs. The workflow further applies rigorous de-duplication within and across sources and decontamination against 66 public benchmarks. FineVision also encompasses agentic/GUI tasks with a unified action space; reviewers validate schemas and inspect a sample of trajectories to confirm executable fidelity. Models trained on FineVision consistently outperform those trained on existing open mixtures across a broad evaluation suite, underscoring the benefits of scale, data hygiene, and balanced automation with human oversight. We release the corpus and curation tools to accelerate data-centric VLM research.
PDF463October 21, 2025