Ajuste Gerativo Semântico para Modelos Multimodais Unificados

Resumo

Modelos multimodais unificados (MMUs) buscam consolidar a compreensão visual e a geração visual em uma única arquitetura. No entanto, paradigmas de treinamento predominantes otimizam independentemente a compreensão por meio de sinais de texto esparsos e a geração por meio de objetivos densos de pixels. Tal estratégia desacoplada resulta em espaços de representação desalinhados, isolando a compreensão visual da geração e dificultando seu reforço mútuo. Este trabalho apresenta a primeira investigação sistemática sobre pós-treinamento generativo, onde formulamos tarefas visuais hierárquicas como proxies generativos para superar o isolamento nos MMUs. Nossa investigação empírica revela que tarefas semânticas de alto nível, particularmente a segmentação de imagens, atuam como proxies ideais. Diferentemente de tarefas de baixo nível que distraem os modelos com detalhes de textura, a segmentação fornece semântica estrutural que melhora significativamente tanto a percepção centrada na visão quanto a fidelidade do layout generativo. Com base nesses insights, introduzimos o Ajuste Generativo Semântico (AGS), um novo paradigma que utiliza a segmentação como proxy generativo para alinhar e sinergizar capacidades multimodais. Análises mecanísticas demonstram ainda que o AGS melhora fundamentalmente a separabilidade linear de características e otimiza o padrão de alocação de atenção visual-textual. Avaliações extensas mostram que o AGS melhora consistentemente tanto a compreensão multimodal quanto a fidelidade generativa em benchmarks convencionais. Nosso código está disponível em https://song2yu.github.io/SGT/.

English

Unified multimodal models (UMMs) strive to consolidate visual understanding and visual generation within a single architecture. However, prevailing training paradigms independently optimize understanding via sparse text signals and generation through dense pixel objectives. Such a decoupled strategy yields misaligned representation spaces, isolating visual understanding from generation and hindering their mutual reinforcement. This work presents the first systematic investigation into generative post-training, where we formulate hierarchical visual tasks as generative proxies to bridge the isolation in UMMs. Our empirical investigation reveals that high-level semantic tasks, particularly image segmentation, serve as optimal proxies. Unlike low-level tasks that distract models with texture details, segmentation provides structural semantics that significantly enhance both vision-centric perception and generative layout fidelity. Building upon these insights, we introduce Semantic Generative Tuning (SGT), a novel paradigm that leverages segmentation as a generative proxy to align and synergize multimodal capabilities. Mechanistic analyses further demonstrate that SGT fundamentally improves feature linear separability and optimizes visual-textual attention allocation pattern. Extensive evaluations show that SGT consistently improves both multimodal comprehension and generative fidelity across mainstream benchmarks. Our code is available on the https://song2yu.github.io/SGT/.