Un ensemble de données de haute qualité et une évaluation fiable pour la génération entrelacée d'images et de texte

papers.abstract

Les récentes avancées dans les modèles multimodaux de grande taille (LMMs) ont considérablement amélioré la compréhension et la génération multimodales. Cependant, ces modèles peinent encore à générer des sorties image-texte étroitement imbriquées, principalement en raison de l'échelle limitée, de la qualité et de la richesse instructionnelle des ensembles de données d'entraînement actuels. Pour remédier à cela, nous introduisons InterSyn, un ensemble de données multimodal à grande échelle construit à l'aide de notre méthode d'auto-évaluation avec raffinement itératif (SEIR). InterSyn propose des dialogues multi-tours pilotés par des instructions avec des réponses image-texte étroitement imbriquées, offrant une diversité d'objets riche et un raffinement de qualité automatisé rigoureux, le rendant bien adapté pour l'entraînement des LMMs de nouvelle génération suivant des instructions. De plus, pour pallier le manque d'outils d'évaluation fiables capables d'évaluer les sorties multimodales imbriquées, nous introduisons SynJudge, un modèle d'évaluation automatique conçu pour évaluer quantitativement les sorties multimodales selon quatre dimensions : le contenu textuel, le contenu visuel, la qualité de l'image et la synergie image-texte. Les études expérimentales montrent que la méthode SEIR conduit à une qualité d'ensemble de données substantiellement supérieure par rapport à un processus identique sans raffinement. De plus, les LMMs entraînés sur InterSyn obtiennent des gains de performance uniformes sur toutes les métriques d'évaluation, confirmant l'utilité d'InterSyn pour faire progresser les systèmes multimodaux.

English

Recent advancements in Large Multimodal Models (LMMs) have significantly improved multimodal understanding and generation. However, these models still struggle to generate tightly interleaved image-text outputs, primarily due to the limited scale, quality and instructional richness of current training datasets. To address this, we introduce InterSyn, a large-scale multimodal dataset constructed using our Self-Evaluation with Iterative Refinement (SEIR) method. InterSyn features multi-turn, instruction-driven dialogues with tightly interleaved imagetext responses, providing rich object diversity and rigorous automated quality refinement, making it well-suited for training next-generation instruction-following LMMs. Furthermore, to address the lack of reliable evaluation tools capable of assessing interleaved multimodal outputs, we introduce SynJudge, an automatic evaluation model designed to quantitatively assess multimodal outputs along four dimensions: text content, image content, image quality, and image-text synergy. Experimental studies show that the SEIR method leads to substantially higher dataset quality compared to an otherwise identical process without refinement. Moreover, LMMs trained on InterSyn achieve uniform performance gains across all evaluation metrics, confirming InterSyn's utility for advancing multimodal systems.

Un ensemble de données de haute qualité et une évaluation fiable pour la génération entrelacée d'images et de texte

A High-Quality Dataset and Reliable Evaluation for Interleaved Image-Text Generation

papers.abstract

Support