Dirigiendo la Generación Visual en Modelos Multimodales Unificados con Supervisión de Comprensión

Resumen

Los modelos multimodales unificados están concebidos para cerrar la brecha entre la comprensión y la generación. Sin embargo, para alcanzar un rendimiento competitivo, los modelos de vanguardia adoptan componentes en gran medida desacoplados para la comprensión y la generación. Este diseño, aunque efectivo para tareas individuales, debilita la conexión necesaria para el refuerzo mutuo, dejando la sinergia potencial empíricamente incierta. Proponemos restaurar explícitamente esta sinergia mediante la introducción de *Post-Entrenamiento Orientado a la Comprensión* (UNO), un marco ligero que trata la comprensión no solo como una tarea distinta, sino también como una señal supervisora directa para guiar las representaciones generativas. Al incorporar objetivos que codifican la abstracción semántica (generación de subtítulos) y los detalles estructurales (regresión visual), permitimos un flujo efectivo de gradientes desde la comprensión hacia la generación. Experimentos exhaustivos en generación y edición de imágenes demuestran que la comprensión puede servir como un catalizador efectivo para la generación.

English

Unified multimodal models are envisioned to bridge the gap between understanding and generation. Yet, to achieve competitive performance, state-of-the-art models adopt largely decoupled understanding and generation components. This design, while effective for individual tasks, weakens the connection required for mutual enhancement, leaving the potential synergy empirically uncertain. We propose to explicitly restore this synergy by introducing Understanding-Oriented Post-Training (UNO), a lightweight framework that treats understanding not only as a distinct task, but also a direct supervisory signal to steer generative representations. By incorporating objectives that encode semantic abstraction (captioning) and structural details (visual regression), we enable effective gradient flow from understanding to generation. Extensive experiments on image generation and editing demonstrate that understanding can serve as an effective catalyst for generation.

Dirigiendo la Generación Visual en Modelos Multimodales Unificados con Supervisión de Comprensión

Steering Visual Generation in Unified Multimodal Models with Understanding Supervision

Resumen

Support