FineVision: Открытые данные — это всё, что вам нужно
FineVision: Open Data Is All You Need
October 20, 2025
Авторы: Luis Wiedmann, Orr Zohar, Amir Mahla, Xiaohan Wang, Rui Li, Thibaud Frere, Leandro von Werra, Aritra Roy Gosthipaty, Andrés Marafioti
cs.AI
Аннотация
Развитие моделей, объединяющих зрение и язык (VLMs), сдерживается фрагментированным ландшафтом неоднородных и загрязнённых публичных наборов данных. Мы представляем FineVision — тщательно собранный, обработанный и унифицированный корпус из 24 миллионов образцов, крупнейший открытый ресурс такого рода. Мы объединили более 200 источников в 185 подмножеств с помощью полуавтоматизированного конвейера с участием человека: автоматизация выполняет массовую загрузку и сопоставление схем, а рецензенты проверяют сопоставления и выборочно проверяют результаты, чтобы убедиться в точности использования аннотаций, корректности форматирования, разнообразии и безопасности; обнаруженные проблемы запускают целевые исправления и повторные прогоны. Рабочий процесс также включает строгую дедупликацию внутри и между источниками, а также очистку от загрязнений по сравнению с 66 публичными бенчмарками. FineVision также охватывает задачи, связанные с агентами и графическими интерфейсами, с унифицированным пространством действий; рецензенты проверяют схемы и анализируют выборку траекторий, чтобы подтвердить их исполнимость. Модели, обученные на FineVision, стабильно превосходят модели, обученные на существующих открытых смесях данных, в широком наборе оценок, что подчеркивает преимущества масштаба, чистоты данных и сбалансированной автоматизации с участием человека. Мы публикуем корпус и инструменты для обработки данных, чтобы ускорить исследования в области VLMs, ориентированные на данные.
English
The advancement of vision-language models (VLMs) is hampered by a fragmented
landscape of inconsistent and contaminated public datasets. We introduce
FineVision, a meticulously collected, curated, and unified corpus of 24 million
samples - the largest open resource of its kind. We unify more than 200 sources
into 185 subsets via a semi-automated, human-in-the-loop pipeline: automation
performs bulk ingestion and schema mapping, while reviewers audit mappings and
spot-check outputs to verify faithful consumption of annotations, appropriate
formatting and diversity, and safety; issues trigger targeted fixes and
re-runs. The workflow further applies rigorous de-duplication within and across
sources and decontamination against 66 public benchmarks. FineVision also
encompasses agentic/GUI tasks with a unified action space; reviewers validate
schemas and inspect a sample of trajectories to confirm executable fidelity.
Models trained on FineVision consistently outperform those trained on existing
open mixtures across a broad evaluation suite, underscoring the benefits of
scale, data hygiene, and balanced automation with human oversight. We release
the corpus and curation tools to accelerate data-centric VLM research.