HermesFlow: Naadloos het gat dichten in multimodale begrip en generatie
HermesFlow: Seamlessly Closing the Gap in Multimodal Understanding and Generation
February 17, 2025
Auteurs: Ling Yang, Xinchen Zhang, Ye Tian, Chenming Shang, Minghao Xu, Wentao Zhang, Bin Cui
cs.AI
Samenvatting
De opmerkelijke succes van het autoregressieve paradigma heeft significante vooruitgang geboekt in Multimodale Grote Taalmodellen (MLLM's), met krachtige modellen zoals Show-o, Transfusion en Emu3 die opmerkelijke vooruitgang hebben geboekt in het begrijpen en genereren van beelden. Voor het eerst onthullen we een veelvoorkomend fenomeen: de begripscapaciteiten van MLLM's zijn doorgaans sterker dan hun generatieve capaciteiten, met een aanzienlijk verschil tussen de twee. Voortbouwend op deze inzichten stellen we HermesFlow voor, een eenvoudig maar algemeen raamwerk dat is ontworpen om naadloos de kloof tussen begrip en generatie in MLLM's te overbruggen. Specifiek nemen we homologe gegevens als invoer om homologe voorkeursgegevens van zowel begrip als generatie samen te stellen. Door middel van Pair-DPO en zelfspel iteratieve optimalisatie, brengt HermesFlow effectief multimodaal begrip en generatie in lijn met homologe voorkeursgegevens. Uitgebreide experimenten tonen de aanzienlijke superioriteit van onze aanpak ten opzichte van eerdere methoden, met name in het verkleinen van de kloof tussen multimodaal begrip en generatie. Deze bevindingen benadrukken het potentieel van HermesFlow als een algemeen afstemmingsraamwerk voor multimodale foundation modellen van de volgende generatie. Code: https://github.com/Gen-Verse/HermesFlow
English
The remarkable success of the autoregressive paradigm has made significant
advancement in Multimodal Large Language Models (MLLMs), with powerful models
like Show-o, Transfusion and Emu3 achieving notable progress in unified image
understanding and generation. For the first time, we uncover a common
phenomenon: the understanding capabilities of MLLMs are typically stronger than
their generative capabilities, with a significant gap between the two. Building
on this insight, we propose HermesFlow, a simple yet general framework designed
to seamlessly bridge the gap between understanding and generation in MLLMs.
Specifically, we take the homologous data as input to curate homologous
preference data of both understanding and generation. Through Pair-DPO and
self-play iterative optimization, HermesFlow effectively aligns multimodal
understanding and generation using homologous preference data. Extensive
experiments demonstrate the significant superiority of our approach over prior
methods, particularly in narrowing the gap between multimodal understanding and
generation. These findings highlight the potential of HermesFlow as a general
alignment framework for next-generation multimodal foundation models. Code:
https://github.com/Gen-Verse/HermesFlowSummary
AI-Generated Summary