HermesFlow: Cerrando sin problemas la brecha en la comprensión y generación multimodal
HermesFlow: Seamlessly Closing the Gap in Multimodal Understanding and Generation
February 17, 2025
Autores: Ling Yang, Xinchen Zhang, Ye Tian, Chenming Shang, Minghao Xu, Wentao Zhang, Bin Cui
cs.AI
Resumen
El notable éxito del paradigma autoregresivo ha logrado avances significativos en los Modelos de Lenguaje Multimodal a Gran Escala (MLLMs), con modelos potentes como Show-o, Transfusion y Emu3 logrando un progreso notable en la comprensión y generación unificada de imágenes. Por primera vez, descubrimos un fenómeno común: las capacidades de comprensión de los MLLMs suelen ser más fuertes que sus capacidades generativas, con una brecha significativa entre ambas. Basándonos en esta percepción, proponemos HermesFlow, un marco simple pero general diseñado para cerrar la brecha entre la comprensión y la generación en MLLMs de manera fluida. Específicamente, tomamos los datos homólogos como entrada para curar datos de preferencia homólogos tanto para la comprensión como para la generación. A través de la optimización iterativa Pair-DPO y auto-juego, HermesFlow alinea de manera efectiva la comprensión y generación multimodal utilizando datos de preferencia homólogos. Experimentos extensos demuestran la notable superioridad de nuestro enfoque sobre métodos anteriores, especialmente en la reducción de la brecha entre la comprensión y generación multimodal. Estos hallazgos resaltan el potencial de HermesFlow como un marco de alineación general para modelos de base multimodales de próxima generación. Código: https://github.com/Gen-Verse/HermesFlow
English
The remarkable success of the autoregressive paradigm has made significant
advancement in Multimodal Large Language Models (MLLMs), with powerful models
like Show-o, Transfusion and Emu3 achieving notable progress in unified image
understanding and generation. For the first time, we uncover a common
phenomenon: the understanding capabilities of MLLMs are typically stronger than
their generative capabilities, with a significant gap between the two. Building
on this insight, we propose HermesFlow, a simple yet general framework designed
to seamlessly bridge the gap between understanding and generation in MLLMs.
Specifically, we take the homologous data as input to curate homologous
preference data of both understanding and generation. Through Pair-DPO and
self-play iterative optimization, HermesFlow effectively aligns multimodal
understanding and generation using homologous preference data. Extensive
experiments demonstrate the significant superiority of our approach over prior
methods, particularly in narrowing the gap between multimodal understanding and
generation. These findings highlight the potential of HermesFlow as a general
alignment framework for next-generation multimodal foundation models. Code:
https://github.com/Gen-Verse/HermesFlowSummary
AI-Generated Summary