HermesFlow: Безупречное сокрытие разрыва в мультимодальном понимании и генерации
HermesFlow: Seamlessly Closing the Gap in Multimodal Understanding and Generation
February 17, 2025
Авторы: Ling Yang, Xinchen Zhang, Ye Tian, Chenming Shang, Minghao Xu, Wentao Zhang, Bin Cui
cs.AI
Аннотация
Замечательный успех парадигмы авторегрессии привел к значительному прогрессу в моделях многомодального крупномасштабного языка (MLLM), с мощными моделями, такими как Show-o, Transfusion и Emu3, достигающими значительных успехов в объединенном понимании и генерации изображений. Впервые мы выявляем общее явление: способности понимания MLLM обычно сильнее, чем их способности к генерации, с значительным разрывом между ними. Основываясь на этом понимании, мы предлагаем HermesFlow, простую, но общую структуру, разработанную для плавного преодоления разрыва между пониманием и генерацией в MLLM. Конкретно, мы берем гомологичные данные в качестве входных данных для курирования гомологичных предпочтений данных как для понимания, так и для генерации. Через парное DPO и самоиграющую оптимизацию, HermesFlow эффективно выравнивает многомодальное понимание и генерацию, используя гомологичные предпочтения данных. Обширные эксперименты демонстрируют значительное превосходство нашего подхода над предыдущими методами, особенно в уменьшении разрыва между многомодальным пониманием и генерацией. Эти результаты подчеркивают потенциал HermesFlow как общей структуры выравнивания для моделей многомодальных фундаментов следующего поколения. Код: https://github.com/Gen-Verse/HermesFlow
English
The remarkable success of the autoregressive paradigm has made significant
advancement in Multimodal Large Language Models (MLLMs), with powerful models
like Show-o, Transfusion and Emu3 achieving notable progress in unified image
understanding and generation. For the first time, we uncover a common
phenomenon: the understanding capabilities of MLLMs are typically stronger than
their generative capabilities, with a significant gap between the two. Building
on this insight, we propose HermesFlow, a simple yet general framework designed
to seamlessly bridge the gap between understanding and generation in MLLMs.
Specifically, we take the homologous data as input to curate homologous
preference data of both understanding and generation. Through Pair-DPO and
self-play iterative optimization, HermesFlow effectively aligns multimodal
understanding and generation using homologous preference data. Extensive
experiments demonstrate the significant superiority of our approach over prior
methods, particularly in narrowing the gap between multimodal understanding and
generation. These findings highlight the potential of HermesFlow as a general
alignment framework for next-generation multimodal foundation models. Code:
https://github.com/Gen-Verse/HermesFlowSummary
AI-Generated Summary