FineVision: オープンデータがすべてを解決する
FineVision: Open Data Is All You Need
October 20, 2025
著者: Luis Wiedmann, Orr Zohar, Amir Mahla, Xiaohan Wang, Rui Li, Thibaud Frere, Leandro von Werra, Aritra Roy Gosthipaty, Andrés Marafioti
cs.AI
要旨
視覚言語モデル(VLM)の進展は、断片的で一貫性のない、また汚染された公開データセットの状況によって妨げられています。本研究では、FineVisionを紹介します。これは、24万サンプルからなる慎重に収集、整理、統合されたコーパスであり、同種のものとしては最大のオープンリソースです。200以上のソースを185のサブセットに統合するために、半自動化された人間介入型パイプラインを採用しています。自動化は一括取り込みとスキーママッピングを実行し、レビュアーはマッピングを監査し、出力をスポットチェックして、注釈の忠実な消費、適切なフォーマットと多様性、安全性を確認します。問題が発生した場合は、特定の修正と再実行が行われます。このワークフローは、ソース内およびソース間での厳密な重複排除と、66の公開ベンチマークに対する除染も適用します。FineVisionはまた、統一されたアクション空間を持つエージェント/GUIタスクも包含しており、レビュアーはスキーマを検証し、軌跡のサンプルを検査して実行可能な忠実度を確認します。FineVisionで訓練されたモデルは、広範な評価スイートにおいて、既存のオープンミックスで訓練されたモデルを一貫して上回り、スケール、データの衛生状態、人間の監視を伴うバランスの取れた自動化の利点を強調しています。我々は、データ中心のVLM研究を加速するために、コーパスとキュレーションツールを公開します。
English
The advancement of vision-language models (VLMs) is hampered by a fragmented
landscape of inconsistent and contaminated public datasets. We introduce
FineVision, a meticulously collected, curated, and unified corpus of 24 million
samples - the largest open resource of its kind. We unify more than 200 sources
into 185 subsets via a semi-automated, human-in-the-loop pipeline: automation
performs bulk ingestion and schema mapping, while reviewers audit mappings and
spot-check outputs to verify faithful consumption of annotations, appropriate
formatting and diversity, and safety; issues trigger targeted fixes and
re-runs. The workflow further applies rigorous de-duplication within and across
sources and decontamination against 66 public benchmarks. FineVision also
encompasses agentic/GUI tasks with a unified action space; reviewers validate
schemas and inspect a sample of trajectories to confirm executable fidelity.
Models trained on FineVision consistently outperform those trained on existing
open mixtures across a broad evaluation suite, underscoring the benefits of
scale, data hygiene, and balanced automation with human oversight. We release
the corpus and curation tools to accelerate data-centric VLM research.