ChatPaper.aiChatPaper

FineVision: Offene Daten sind alles, was Sie brauchen

FineVision: Open Data Is All You Need

October 20, 2025
papers.authors: Luis Wiedmann, Orr Zohar, Amir Mahla, Xiaohan Wang, Rui Li, Thibaud Frere, Leandro von Werra, Aritra Roy Gosthipaty, Andrés Marafioti
cs.AI

papers.abstract

Der Fortschritt von Vision-Sprache-Modellen (VLMs) wird durch eine fragmentierte Landschaft inkonsistenter und verunreinigter öffentlicher Datensätze behindert. Wir stellen FineVision vor, ein sorgfältig gesammeltes, kuratiertes und vereinheitlichtes Korpus von 24 Millionen Proben – die größte offene Ressource ihrer Art. Wir vereinheitlichen mehr als 200 Quellen in 185 Teilmengen durch eine halbautomatisierte, menschlich überwachte Pipeline: Die Automatisierung übernimmt die Massenerfassung und Schema-Zuordnung, während Prüfer die Zuordnungen überprüfen und Stichproben der Ausgaben kontrollieren, um die treue Übernahme von Annotationen, angemessene Formatierung und Vielfalt sowie Sicherheit zu gewährleisten; Probleme lösen gezielte Korrekturen und Wiederholungen aus. Der Workflow wendet zudem eine rigorose Deduplizierung innerhalb und zwischen Quellen sowie eine Entkontaminierung gegen 66 öffentliche Benchmarks an. FineVision umfasst auch agentenbezogene/GUI-Aufgaben mit einem einheitlichen Aktionsraum; Prüfer validieren Schemata und inspizieren eine Stichprobe von Trajektorien, um die ausführbare Treue zu bestätigen. Modelle, die auf FineVision trainiert wurden, übertreffen durchweg solche, die auf bestehenden offenen Mischungen trainiert wurden, über eine breite Evaluationssuite hinweg, was die Vorteile von Skalierung, Datenhygiene und ausgewogener Automatisierung mit menschlicher Aufsicht unterstreicht. Wir veröffentlichen das Korpus und die Kuratierungswerkzeuge, um datenzentrierte VLM-Forschung zu beschleunigen.
English
The advancement of vision-language models (VLMs) is hampered by a fragmented landscape of inconsistent and contaminated public datasets. We introduce FineVision, a meticulously collected, curated, and unified corpus of 24 million samples - the largest open resource of its kind. We unify more than 200 sources into 185 subsets via a semi-automated, human-in-the-loop pipeline: automation performs bulk ingestion and schema mapping, while reviewers audit mappings and spot-check outputs to verify faithful consumption of annotations, appropriate formatting and diversity, and safety; issues trigger targeted fixes and re-runs. The workflow further applies rigorous de-duplication within and across sources and decontamination against 66 public benchmarks. FineVision also encompasses agentic/GUI tasks with a unified action space; reviewers validate schemas and inspect a sample of trajectories to confirm executable fidelity. Models trained on FineVision consistently outperform those trained on existing open mixtures across a broad evaluation suite, underscoring the benefits of scale, data hygiene, and balanced automation with human oversight. We release the corpus and curation tools to accelerate data-centric VLM research.
PDF463October 21, 2025