HermesFlow: Fechando a Lacuna de Forma Transparente na Compreensão e Geração Multimodal
HermesFlow: Seamlessly Closing the Gap in Multimodal Understanding and Generation
February 17, 2025
Autores: Ling Yang, Xinchen Zhang, Ye Tian, Chenming Shang, Minghao Xu, Wentao Zhang, Bin Cui
cs.AI
Resumo
O notável sucesso do paradigma autoregressivo trouxe avanços significativos para os Modelos de Linguagem Multimodal de Grande Escala (MLLMs), com modelos poderosos como Show-o, Transfusion e Emu3 alcançando progressos notáveis na compreensão e geração unificada de imagens. Pela primeira vez, identificamos um fenômeno comum: as capacidades de compreensão dos MLLMs são tipicamente mais fortes do que suas capacidades gerativas, com uma lacuna significativa entre as duas. Com base nessa percepção, propomos o HermesFlow, uma estrutura simples, porém geral, projetada para preencher de forma contínua a lacuna entre compreensão e geração em MLLMs. Especificamente, utilizamos dados homólogos como entrada para criar dados de preferência homólogos tanto para compreensão quanto para geração. Por meio da otimização iterativa de Pair-DPO e autojogo, o HermesFlow alinha efetivamente a compreensão e a geração multimodal usando dados de preferência homólogos. Experimentos extensivos demonstram a superioridade significativa de nossa abordagem em relação a métodos anteriores, particularmente na redução da lacuna entre compreensão e geração multimodal. Esses resultados destacam o potencial do HermesFlow como uma estrutura geral de alinhamento para os modelos de base multimodal de próxima geração. Código: https://github.com/Gen-Verse/HermesFlow
English
The remarkable success of the autoregressive paradigm has made significant
advancement in Multimodal Large Language Models (MLLMs), with powerful models
like Show-o, Transfusion and Emu3 achieving notable progress in unified image
understanding and generation. For the first time, we uncover a common
phenomenon: the understanding capabilities of MLLMs are typically stronger than
their generative capabilities, with a significant gap between the two. Building
on this insight, we propose HermesFlow, a simple yet general framework designed
to seamlessly bridge the gap between understanding and generation in MLLMs.
Specifically, we take the homologous data as input to curate homologous
preference data of both understanding and generation. Through Pair-DPO and
self-play iterative optimization, HermesFlow effectively aligns multimodal
understanding and generation using homologous preference data. Extensive
experiments demonstrate the significant superiority of our approach over prior
methods, particularly in narrowing the gap between multimodal understanding and
generation. These findings highlight the potential of HermesFlow as a general
alignment framework for next-generation multimodal foundation models. Code:
https://github.com/Gen-Verse/HermesFlowSummary
AI-Generated Summary