HermesFlow: Colmare senza soluzione di continuità il divario nella comprensione e generazione multimodale
HermesFlow: Seamlessly Closing the Gap in Multimodal Understanding and Generation
February 17, 2025
Autori: Ling Yang, Xinchen Zhang, Ye Tian, Chenming Shang, Minghao Xu, Wentao Zhang, Bin Cui
cs.AI
Abstract
Il notevole successo del paradigma autoregressivo ha portato a significativi progressi nei Modelli Linguistici Multimodali di Grande Scala (MLLMs), con modelli potenti come Show-o, Transfusion ed Emu3 che hanno raggiunto progressi rilevanti nella comprensione e generazione unificata di immagini. Per la prima volta, scopriamo un fenomeno comune: le capacità di comprensione degli MLLMs sono tipicamente più forti delle loro capacità generative, con un divario significativo tra le due. Basandoci su questa intuizione, proponiamo HermesFlow, un framework semplice ma generale progettato per colmare in modo fluido il divario tra comprensione e generazione negli MLLMs. Nello specifico, prendiamo i dati omologhi come input per curare dati di preferenza omologhi sia per la comprensione che per la generazione. Attraverso l'ottimizzazione iterativa di Pair-DPO e il self-play, HermesFlow allinea efficacemente la comprensione e la generazione multimodale utilizzando dati di preferenza omologhi. Esperimenti estesi dimostrano la significativa superiorità del nostro approccio rispetto ai metodi precedenti, in particolare nel ridurre il divario tra comprensione e generazione multimodale. Questi risultati evidenziano il potenziale di HermesFlow come framework generale di allineamento per i modelli fondazionali multimodali di prossima generazione. Codice: https://github.com/Gen-Verse/HermesFlow
English
The remarkable success of the autoregressive paradigm has made significant
advancement in Multimodal Large Language Models (MLLMs), with powerful models
like Show-o, Transfusion and Emu3 achieving notable progress in unified image
understanding and generation. For the first time, we uncover a common
phenomenon: the understanding capabilities of MLLMs are typically stronger than
their generative capabilities, with a significant gap between the two. Building
on this insight, we propose HermesFlow, a simple yet general framework designed
to seamlessly bridge the gap between understanding and generation in MLLMs.
Specifically, we take the homologous data as input to curate homologous
preference data of both understanding and generation. Through Pair-DPO and
self-play iterative optimization, HermesFlow effectively aligns multimodal
understanding and generation using homologous preference data. Extensive
experiments demonstrate the significant superiority of our approach over prior
methods, particularly in narrowing the gap between multimodal understanding and
generation. These findings highlight the potential of HermesFlow as a general
alignment framework for next-generation multimodal foundation models. Code:
https://github.com/Gen-Verse/HermesFlowSummary
AI-Generated Summary