Guidage de la génération visuelle dans les modèles multimodaux unifiés par supervision de compréhension
Steering Visual Generation in Unified Multimodal Models with Understanding Supervision
May 7, 2026
Auteurs: Zeyu Liu, Zanlin Ni, Yang Yue, Cheng Da, Huan Yang, Di Zhang, Kun Gai, Gao Huang
cs.AI
Résumé
Les modèles multimodaux unifiés sont envisagés pour combler le fossé entre la compréhension et la génération. Pourtant, pour atteindre des performances compétitives, les modèles de pointe adoptent des composants de compréhension et de génération largement découplés. Cette conception, bien qu'efficace pour des tâches individuelles, affaiblit la connexion nécessaire à un enrichissement mutuel, laissant la synergie potentielle empiriquement incertaine. Nous proposons de restaurer explicitement cette synergie en introduisant UNO (Understanding-Oriented Post-Training), un cadre léger qui traite la compréhension non seulement comme une tâche distincte, mais aussi comme un signal de supervision direct pour orienter les représentations génératives. En intégrant des objectifs qui encodent l'abstraction sémantique (légendage) et les détails structurels (régression visuelle), nous permettons un flux de gradient efficace de la compréhension vers la génération. Des expériences approfondies sur la génération et l'édition d'images montrent que la compréhension peut servir de catalyseur efficace pour la génération.
English
Unified multimodal models are envisioned to bridge the gap between understanding and generation. Yet, to achieve competitive performance, state-of-the-art models adopt largely decoupled understanding and generation components. This design, while effective for individual tasks, weakens the connection required for mutual enhancement, leaving the potential synergy empirically uncertain. We propose to explicitly restore this synergy by introducing Understanding-Oriented Post-Training (UNO), a lightweight framework that treats understanding not only as a distinct task, but also a direct supervisory signal to steer generative representations. By incorporating objectives that encode semantic abstraction (captioning) and structural details (visual regression), we enable effective gradient flow from understanding to generation. Extensive experiments on image generation and editing demonstrate that understanding can serve as an effective catalyst for generation.