HermesFlow : Combler de manière transparente le fossé dans la compréhension et la génération multimodales
HermesFlow: Seamlessly Closing the Gap in Multimodal Understanding and Generation
February 17, 2025
Auteurs: Ling Yang, Xinchen Zhang, Ye Tian, Chenming Shang, Minghao Xu, Wentao Zhang, Bin Cui
cs.AI
Résumé
Le remarquable succès du paradigme autorégressif a permis des avancées significatives dans les Modèles de Langage Multimodaux de Grande Taille (MLLM), avec des modèles puissants tels que Show-o, Transfusion et Emu3 réalisant des progrès notables dans la compréhension et la génération unifiées d'images. Pour la première fois, nous mettons en lumière un phénomène commun : les capacités de compréhension des MLLMs sont généralement plus fortes que leurs capacités génératives, avec un écart significatif entre les deux. S'appuyant sur cette observation, nous proposons HermesFlow, un cadre simple mais général conçu pour combler de manière transparente l'écart entre la compréhension et la génération dans les MLLMs. Plus précisément, nous utilisons les données homologues en entrée pour élaborer des données de préférence homologues à la fois pour la compréhension et la génération. À travers l'optimisation itérative Pair-DPO et auto-play, HermesFlow aligne efficacement la compréhension et la génération multimodales en utilisant des données de préférence homologues. De vastes expériences démontrent la nette supériorité de notre approche par rapport aux méthodes antérieures, en particulier pour réduire l'écart entre la compréhension et la génération multimodales. Ces résultats soulignent le potentiel d'HermesFlow en tant que cadre d'alignement général pour les modèles de fondation multimodaux de nouvelle génération. Code : https://github.com/Gen-Verse/HermesFlow
English
The remarkable success of the autoregressive paradigm has made significant
advancement in Multimodal Large Language Models (MLLMs), with powerful models
like Show-o, Transfusion and Emu3 achieving notable progress in unified image
understanding and generation. For the first time, we uncover a common
phenomenon: the understanding capabilities of MLLMs are typically stronger than
their generative capabilities, with a significant gap between the two. Building
on this insight, we propose HermesFlow, a simple yet general framework designed
to seamlessly bridge the gap between understanding and generation in MLLMs.
Specifically, we take the homologous data as input to curate homologous
preference data of both understanding and generation. Through Pair-DPO and
self-play iterative optimization, HermesFlow effectively aligns multimodal
understanding and generation using homologous preference data. Extensive
experiments demonstrate the significant superiority of our approach over prior
methods, particularly in narrowing the gap between multimodal understanding and
generation. These findings highlight the potential of HermesFlow as a general
alignment framework for next-generation multimodal foundation models. Code:
https://github.com/Gen-Verse/HermesFlowSummary
AI-Generated Summary