HermesFlow:マルチモーダル理解と生成のギャップをシームレスに縮める
HermesFlow: Seamlessly Closing the Gap in Multimodal Understanding and Generation
February 17, 2025
著者: Ling Yang, Xinchen Zhang, Ye Tian, Chenming Shang, Minghao Xu, Wentao Zhang, Bin Cui
cs.AI
要旨
自己回帰パラダイムの顕著な成功は、多様な大規模言語モデル(MLLMs)の重要な進展をもたらしました。Show-o、Transfusion、Emu3などの強力なモデルが統一された画像理解と生成において著しい進歩を達成しています。初めて、我々は共通の現象を明らかにします:MLLMsの理解能力は通常、生成能力よりも強力であり、その間には大きな差があります。この洞察を基に、理解と生成の間のギャップをシームレスに埋めるために設計されたシンプルかつ汎用性のあるフレームワークであるHermesFlowを提案します。具体的には、同様のデータを入力として取り、理解と生成の両方の同様の選好データを編集します。Pair-DPOとセルフプレイの反復最適化を通じて、HermesFlowは同様の選好データを使用して、多様な理解と生成を効果的に整列させます。広範な実験により、我々の手法が従来の手法に比べて、特に多様な理解と生成の間のギャップを狭める点で著しい優位性を示すことが示されました。これらの知見は、HermesFlowが次世代の多様な基礎モデルのための一般的な整列フレームワークとしての潜在能力を強調しています。コード:https://github.com/Gen-Verse/HermesFlow
English
The remarkable success of the autoregressive paradigm has made significant
advancement in Multimodal Large Language Models (MLLMs), with powerful models
like Show-o, Transfusion and Emu3 achieving notable progress in unified image
understanding and generation. For the first time, we uncover a common
phenomenon: the understanding capabilities of MLLMs are typically stronger than
their generative capabilities, with a significant gap between the two. Building
on this insight, we propose HermesFlow, a simple yet general framework designed
to seamlessly bridge the gap between understanding and generation in MLLMs.
Specifically, we take the homologous data as input to curate homologous
preference data of both understanding and generation. Through Pair-DPO and
self-play iterative optimization, HermesFlow effectively aligns multimodal
understanding and generation using homologous preference data. Extensive
experiments demonstrate the significant superiority of our approach over prior
methods, particularly in narrowing the gap between multimodal understanding and
generation. These findings highlight the potential of HermesFlow as a general
alignment framework for next-generation multimodal foundation models. Code:
https://github.com/Gen-Verse/HermesFlow