Un ensemble de données de haute qualité et une évaluation fiable pour la génération entrelacée d'images et de texte
A High-Quality Dataset and Reliable Evaluation for Interleaved Image-Text Generation
June 11, 2025
Auteurs: Yukang Feng, Jianwen Sun, Chuanhao Li, Zizhen Li, Jiaxin Ai, Fanrui Zhang, Yifan Chang, Sizhuo Zhou, Shenglin Zhang, Yu Dai, Kaipeng Zhang
cs.AI
Résumé
Les récentes avancées dans les modèles multimodaux de grande taille (LMMs) ont considérablement amélioré la compréhension et la génération multimodales. Cependant, ces modèles peinent encore à générer des sorties image-texte étroitement imbriquées, principalement en raison de l'échelle limitée, de la qualité et de la richesse instructionnelle des ensembles de données d'entraînement actuels. Pour remédier à cela, nous introduisons InterSyn, un ensemble de données multimodal à grande échelle construit à l'aide de notre méthode d'auto-évaluation avec raffinement itératif (SEIR). InterSyn propose des dialogues multi-tours pilotés par des instructions avec des réponses image-texte étroitement imbriquées, offrant une diversité d'objets riche et un raffinement de qualité automatisé rigoureux, le rendant bien adapté pour l'entraînement des LMMs de nouvelle génération suivant des instructions. De plus, pour pallier le manque d'outils d'évaluation fiables capables d'évaluer les sorties multimodales imbriquées, nous introduisons SynJudge, un modèle d'évaluation automatique conçu pour évaluer quantitativement les sorties multimodales selon quatre dimensions : le contenu textuel, le contenu visuel, la qualité de l'image et la synergie image-texte.
Les études expérimentales montrent que la méthode SEIR conduit à une qualité d'ensemble de données substantiellement supérieure par rapport à un processus identique sans raffinement. De plus, les LMMs entraînés sur InterSyn obtiennent des gains de performance uniformes sur toutes les métriques d'évaluation, confirmant l'utilité d'InterSyn pour faire progresser les systèmes multimodaux.
English
Recent advancements in Large Multimodal Models (LMMs) have significantly
improved multimodal understanding and generation. However, these models still
struggle to generate tightly interleaved image-text outputs, primarily due to
the limited scale, quality and instructional richness of current training
datasets. To address this, we introduce InterSyn, a large-scale multimodal
dataset constructed using our Self-Evaluation with Iterative Refinement (SEIR)
method. InterSyn features multi-turn, instruction-driven dialogues with tightly
interleaved imagetext responses, providing rich object diversity and rigorous
automated quality refinement, making it well-suited for training
next-generation instruction-following LMMs. Furthermore, to address the lack of
reliable evaluation tools capable of assessing interleaved multimodal outputs,
we introduce SynJudge, an automatic evaluation model designed to quantitatively
assess multimodal outputs along four dimensions: text content, image content,
image quality, and image-text synergy.
Experimental studies show that the SEIR method leads to substantially higher
dataset quality compared to an otherwise identical process without refinement.
Moreover, LMMs trained on InterSyn achieve uniform performance gains across
all evaluation metrics, confirming InterSyn's utility for advancing multimodal
systems.