Unicorn : Synthèse de données textuelles exclusives pour l'entraînement de modèles de vision et langage
Unicorn: Text-Only Data Synthesis for Vision Language Model Training
March 28, 2025
Auteurs: Xiaomin Yu, Pengxiang Ding, Wenjie Zhang, Siteng Huang, Songyang Gao, Chengwei Qin, Kejian Wu, Zhaoxin Fan, Ziyue Qiao, Donglin Wang
cs.AI
Résumé
L'entraînement des modèles vision-langage (VLMs) nécessite généralement des paires image-texte à grande échelle et de haute qualité, mais la collecte ou la synthèse de telles données est coûteuse. En revanche, les données textuelles sont abondantes et peu coûteuses, ce qui soulève la question : peut-on synthétiser des données multimodales de haute qualité uniquement à partir de texte ? Pour répondre à cela, nous proposons un cadre de synthèse de données multimodales en trois étapes intégrées, qui génère deux ensembles de données : Unicorn-1.2M et Unicorn-471K-Instruction. Dans l'Étape 1 : Synthèse de Données de Légendes Diversifiées, nous construisons 1,2 million de légendes de haute qualité et sémantiquement diversifiées en étendant des graines de légendes éparses à l'aide de grands modèles de langage (LLMs). Dans l'Étape 2 : Génération de Données pour l'Ajustement par Instruction, nous transformons ensuite 471 000 légendes en tâches d'ajustement par instruction multi-tours pour soutenir le raisonnement complexe. Enfin, dans l'Étape 3 : Transfert de Représentation Modale, ces représentations textuelles de légendes sont transformées en représentations visuelles, aboutissant à des représentations d'images synthétiques diversifiées. Ce processus en trois étapes nous permet de construire Unicorn-1.2M pour le pré-entraînement et Unicorn-471K-Instruction pour l'ajustement par instruction, sans dépendre d'images réelles. En éliminant la dépendance aux images réelles tout en maintenant la qualité et la diversité des données, notre cadre offre une solution économique et évolutive pour l'entraînement des VLMs. Le code est disponible à l'adresse https://github.com/Yu-xm/Unicorn.git.
English
Training vision-language models (VLMs) typically requires large-scale,
high-quality image-text pairs, but collecting or synthesizing such data is
costly. In contrast, text data is abundant and inexpensive, prompting the
question: can high-quality multimodal training data be synthesized purely from
text? To tackle this, we propose a cross-integrated three-stage multimodal data
synthesis framework, which generates two datasets: Unicorn-1.2M and
Unicorn-471K-Instruction. In Stage 1: Diverse Caption Data Synthesis, we
construct 1.2M semantically diverse high-quality captions by expanding sparse
caption seeds using large language models (LLMs). In Stage 2:
Instruction-Tuning Data Generation, we further process 471K captions into
multi-turn instruction-tuning tasks to support complex reasoning. Finally, in
Stage 3: Modality Representation Transfer, these textual captions
representations are transformed into visual representations, resulting in
diverse synthetic image representations. This three-stage process enables us to
construct Unicorn-1.2M for pretraining and Unicorn-471K-Instruction for
instruction-tuning, without relying on real images. By eliminating the
dependency on real images while maintaining data quality and diversity, our
framework offers a cost-effective and scalable solution for VLMs training. Code
is available at https://github.com/Yu-xm/Unicorn.git.Summary
AI-Generated Summary