HermesFlow: Nahtloses Schließen der Lücke in der multimodalen Verständnis- und Generierungsfähigkeit
HermesFlow: Seamlessly Closing the Gap in Multimodal Understanding and Generation
February 17, 2025
Autoren: Ling Yang, Xinchen Zhang, Ye Tian, Chenming Shang, Minghao Xu, Wentao Zhang, Bin Cui
cs.AI
Zusammenfassung
Der bemerkenswerte Erfolg des autoregressiven Paradigmas hat bedeutende Fortschritte bei Multimodalen Großen Sprachmodellen (MLLMs) ermöglicht, wobei leistungsstarke Modelle wie Show-o, Transfusion und Emu3 beachtliche Fortschritte bei der einheitlichen Bildverarbeitung und -erzeugung erzielt haben. Zum ersten Mal enthüllen wir ein gemeinsames Phänomen: Die Verständnisfähigkeiten von MLLMs sind typischerweise stärker als ihre generativen Fähigkeiten, mit einem signifikanten Unterschied zwischen beiden. Basierend auf dieser Erkenntnis schlagen wir HermesFlow vor, ein einfaches, aber allgemeines Framework, das entwickelt wurde, um nahtlos die Kluft zwischen Verständnis und Generierung in MLLMs zu überbrücken. Konkret nehmen wir homologe Daten als Eingabe, um homologe Präferenzdaten sowohl für Verständnis als auch für Generierung zu kuratieren. Durch Pair-DPO und selbstspielende iterative Optimierung richtet HermesFlow multimodales Verständnis und Generierung effektiv mithilfe homologer Präferenzdaten aus. Umfangreiche Experimente zeigen die signifikante Überlegenheit unseres Ansatzes gegenüber früheren Methoden, insbesondere bei der Verringerung des Unterschieds zwischen multimodalem Verständnis und Generierung. Diese Ergebnisse unterstreichen das Potenzial von HermesFlow als allgemeines Ausrichtungsframework für Multimodale Grundlagenmodelle der nächsten Generation. Code: https://github.com/Gen-Verse/HermesFlow
English
The remarkable success of the autoregressive paradigm has made significant
advancement in Multimodal Large Language Models (MLLMs), with powerful models
like Show-o, Transfusion and Emu3 achieving notable progress in unified image
understanding and generation. For the first time, we uncover a common
phenomenon: the understanding capabilities of MLLMs are typically stronger than
their generative capabilities, with a significant gap between the two. Building
on this insight, we propose HermesFlow, a simple yet general framework designed
to seamlessly bridge the gap between understanding and generation in MLLMs.
Specifically, we take the homologous data as input to curate homologous
preference data of both understanding and generation. Through Pair-DPO and
self-play iterative optimization, HermesFlow effectively aligns multimodal
understanding and generation using homologous preference data. Extensive
experiments demonstrate the significant superiority of our approach over prior
methods, particularly in narrowing the gap between multimodal understanding and
generation. These findings highlight the potential of HermesFlow as a general
alignment framework for next-generation multimodal foundation models. Code:
https://github.com/Gen-Verse/HermesFlowSummary
AI-Generated Summary