FineVision: Open Data Is Alles Wat Je Nodig Hebt
FineVision: Open Data Is All You Need
October 20, 2025
Auteurs: Luis Wiedmann, Orr Zohar, Amir Mahla, Xiaohan Wang, Rui Li, Thibaud Frere, Leandro von Werra, Aritra Roy Gosthipaty, Andrés Marafioti
cs.AI
Samenvatting
De vooruitgang van vision-language modellen (VLMs) wordt belemmerd door een gefragmenteerd landschap van inconsistente en vervuilde openbare datasets. Wij introduceren FineVision, een zorgvuldig verzameld, gecureerd en verenigd corpus van 24 miljoen samples - de grootste openbare bron van zijn soort. We verenigen meer dan 200 bronnen in 185 subsets via een semi-geautomatiseerd, human-in-the-loop proces: automatisering voert bulkopname en schemamapping uit, terwijl reviewers de mappings controleren en steekproeven nemen om de getrouwe verwerking van annotaties, juiste opmaak en diversiteit, en veiligheid te verifiëren; problemen leiden tot gerichte correcties en herhalingen. De workflow past verder rigoureuze deduplicatie toe binnen en tussen bronnen en ontdoet de data van vervuiling tegen 66 openbare benchmarks. FineVision omvat ook agentische/GUI-taken met een verenigde actieruimte; reviewers valideren schema's en inspecteren een steekproef van trajecten om de uitvoerbare betrouwbaarheid te bevestigen. Modellen getraind op FineVision presteren consistent beter dan modellen getraind op bestaande openbare mengsels in een breed evaluatiepakket, wat de voordelen onderstreept van schaal, datahygiëne en gebalanceerde automatisering met menselijk toezicht. We geven het corpus en de curatietools vrij om data-gedreven VLM-onderzoek te versnellen.
English
The advancement of vision-language models (VLMs) is hampered by a fragmented
landscape of inconsistent and contaminated public datasets. We introduce
FineVision, a meticulously collected, curated, and unified corpus of 24 million
samples - the largest open resource of its kind. We unify more than 200 sources
into 185 subsets via a semi-automated, human-in-the-loop pipeline: automation
performs bulk ingestion and schema mapping, while reviewers audit mappings and
spot-check outputs to verify faithful consumption of annotations, appropriate
formatting and diversity, and safety; issues trigger targeted fixes and
re-runs. The workflow further applies rigorous de-duplication within and across
sources and decontamination against 66 public benchmarks. FineVision also
encompasses agentic/GUI tasks with a unified action space; reviewers validate
schemas and inspect a sample of trajectories to confirm executable fidelity.
Models trained on FineVision consistently outperform those trained on existing
open mixtures across a broad evaluation suite, underscoring the benefits of
scale, data hygiene, and balanced automation with human oversight. We release
the corpus and curation tools to accelerate data-centric VLM research.