Ajuste Generativo Semántico para Modelos Multimodales Unificados

Resumen

Los modelos multimodales unificados (UMM) buscan consolidar la comprensión visual y la generación visual dentro de una sola arquitectura. Sin embargo, los paradigmas de entrenamiento predominantes optimizan de manera independiente la comprensión mediante señales de texto dispersas y la generación a través de objetivos densos de píxeles. Esta estrategia desacoplada produce espacios de representación desalineados, aislando la comprensión visual de la generación y dificultando su refuerzo mutuo. Este trabajo presenta la primera investigación sistemática sobre el post-entrenamiento generativo, donde formulamos tareas visuales jerárquicas como proxies generativos para superar el aislamiento en los UMM. Nuestra investigación empírica revela que las tareas semánticas de alto nivel, particularmente la segmentación de imágenes, sirven como proxies óptimos. A diferencia de las tareas de bajo nivel que distraen a los modelos con detalles de textura, la segmentación proporciona semántica estructural que mejora significativamente tanto la percepción centrada en la visión como la fidelidad del diseño generativo. Basándonos en estos conocimientos, introducimos el Ajuste Generativo Semántico (SGT, por sus siglas en inglés), un nuevo paradigma que aprovecha la segmentación como proxy generativo para alinear y sinergizar las capacidades multimodales. Los análisis mecanicistas demuestran además que SGT mejora fundamentalmente la separabilidad lineal de las características y optimiza el patrón de asignación de atención visual-textual. Evaluaciones exhaustivas muestran que SGT mejora consistentemente tanto la comprensión multimodal como la fidelidad generativa en los principales puntos de referencia. Nuestro código está disponible en https://song2yu.github.io/SGT/.

English

Unified multimodal models (UMMs) strive to consolidate visual understanding and visual generation within a single architecture. However, prevailing training paradigms independently optimize understanding via sparse text signals and generation through dense pixel objectives. Such a decoupled strategy yields misaligned representation spaces, isolating visual understanding from generation and hindering their mutual reinforcement. This work presents the first systematic investigation into generative post-training, where we formulate hierarchical visual tasks as generative proxies to bridge the isolation in UMMs. Our empirical investigation reveals that high-level semantic tasks, particularly image segmentation, serve as optimal proxies. Unlike low-level tasks that distract models with texture details, segmentation provides structural semantics that significantly enhance both vision-centric perception and generative layout fidelity. Building upon these insights, we introduce Semantic Generative Tuning (SGT), a novel paradigm that leverages segmentation as a generative proxy to align and synergize multimodal capabilities. Mechanistic analyses further demonstrate that SGT fundamentally improves feature linear separability and optimizes visual-textual attention allocation pattern. Extensive evaluations show that SGT consistently improves both multimodal comprehension and generative fidelity across mainstream benchmarks. Our code is available on the https://song2yu.github.io/SGT/.