Unicorn : Synthèse de données textuelles exclusives pour l'entraînement de modèles de vision et langage

papers.abstract

L'entraînement des modèles vision-langage (VLMs) nécessite généralement des paires image-texte à grande échelle et de haute qualité, mais la collecte ou la synthèse de telles données est coûteuse. En revanche, les données textuelles sont abondantes et peu coûteuses, ce qui soulève la question : peut-on synthétiser des données multimodales de haute qualité uniquement à partir de texte ? Pour répondre à cela, nous proposons un cadre de synthèse de données multimodales en trois étapes intégrées, qui génère deux ensembles de données : Unicorn-1.2M et Unicorn-471K-Instruction. Dans l'Étape 1 : Synthèse de Données de Légendes Diversifiées, nous construisons 1,2 million de légendes de haute qualité et sémantiquement diversifiées en étendant des graines de légendes éparses à l'aide de grands modèles de langage (LLMs). Dans l'Étape 2 : Génération de Données pour l'Ajustement par Instruction, nous transformons ensuite 471 000 légendes en tâches d'ajustement par instruction multi-tours pour soutenir le raisonnement complexe. Enfin, dans l'Étape 3 : Transfert de Représentation Modale, ces représentations textuelles de légendes sont transformées en représentations visuelles, aboutissant à des représentations d'images synthétiques diversifiées. Ce processus en trois étapes nous permet de construire Unicorn-1.2M pour le pré-entraînement et Unicorn-471K-Instruction pour l'ajustement par instruction, sans dépendre d'images réelles. En éliminant la dépendance aux images réelles tout en maintenant la qualité et la diversité des données, notre cadre offre une solution économique et évolutive pour l'entraînement des VLMs. Le code est disponible à l'adresse https://github.com/Yu-xm/Unicorn.git.

English

Training vision-language models (VLMs) typically requires large-scale, high-quality image-text pairs, but collecting or synthesizing such data is costly. In contrast, text data is abundant and inexpensive, prompting the question: can high-quality multimodal training data be synthesized purely from text? To tackle this, we propose a cross-integrated three-stage multimodal data synthesis framework, which generates two datasets: Unicorn-1.2M and Unicorn-471K-Instruction. In Stage 1: Diverse Caption Data Synthesis, we construct 1.2M semantically diverse high-quality captions by expanding sparse caption seeds using large language models (LLMs). In Stage 2: Instruction-Tuning Data Generation, we further process 471K captions into multi-turn instruction-tuning tasks to support complex reasoning. Finally, in Stage 3: Modality Representation Transfer, these textual captions representations are transformed into visual representations, resulting in diverse synthetic image representations. This three-stage process enables us to construct Unicorn-1.2M for pretraining and Unicorn-471K-Instruction for instruction-tuning, without relying on real images. By eliminating the dependency on real images while maintaining data quality and diversity, our framework offers a cost-effective and scalable solution for VLMs training. Code is available at https://github.com/Yu-xm/Unicorn.git.

Unicorn : Synthèse de données textuelles exclusives pour l'entraînement de modèles de vision et langage

Unicorn: Text-Only Data Synthesis for Vision Language Model Training

papers.abstract

Support