ChatPaper.aiChatPaper

Verstehen vs. Erzeugen: Navigieren im Optimierungsdilemma multimodaler Modelle

Understanding vs. Generation: Navigating Optimization Dilemma in Multimodal Models

February 17, 2026
papers.authors: Sen Ye, Mengde Xu, Shuyang Gu, Di He, Liwei Wang, Han Hu
cs.AI

papers.abstract

Aktuelle Forschung zu multimodalen Modellen steht vor einer zentralen Herausforderung: Die Steigerung der generativen Fähigkeiten geht oft auf Kosten des Verständnisses und umgekehrt. Wir haben diesen Zielkonflikt analysiert und identifiziert, dass die Hauptursache ein potenzieller Widerspruch zwischen Generierung und Verständnis sein könnte, der eine konkurrierende Dynamik innerhalb des Modells erzeugt. Um dies zu adressieren, schlagen wir das Reason-Reflect-Refine (R3)-Framework vor. Dieser innovative Algorithmus formt die Einzelschritt-Generierungsaufgabe in einen Mehrschrittprozess des "Generierens-Verstehens-Wiedergenerierens" um. Indem wir die Verstehensfähigkeit des Modells explizit während der Generierung nutzen, mildern wir das Optimierungsdilemma erfolgreich ab und erzielen sowohl stärkere Generativeergebnisse als auch ein verbessertes Verständnisvermögen, das mit dem Generierungsprozess zusammenhängt. Dies bietet wertvolle Einblicke für die Entwicklung neuartiger, vereinheitlichter multimodaler Modelle der nächsten Generation. Der Code ist verfügbar unter https://github.com/sen-ye/R3.
English
Current research in multimodal models faces a key challenge where enhancing generative capabilities often comes at the expense of understanding, and vice versa. We analyzed this trade-off and identify the primary cause might be the potential conflict between generation and understanding, which creates a competitive dynamic within the model. To address this, we propose the Reason-Reflect-Refine (R3) framework. This innovative algorithm re-frames the single-step generation task into a multi-step process of "generate-understand-regenerate". By explicitly leveraging the model's understanding capability during generation, we successfully mitigate the optimization dilemma, achieved stronger generation results and improved understanding ability which are related to the generation process. This offers valuable insights for designing next-generation unified multimodal models. Code is available at https://github.com/sen-ye/R3.
PDF51February 19, 2026