Semantische Generatieve Tuning voor Geünificeerde Multimodale Modellen

Samenvatting

Uniforme multimodale modellen (UMM's) streven ernaar visueel begrip en visuele generatie binnen één architectuur te verenigen. Echter, gangbare trainingsparadigma's optimaliseren onafhankelijk begrip via schaarse tekstsignalen en generatie via dichte pixeldoelen. Zo'n ontkoppelde strategie leidt tot niet-op elkaar afgestemde representatieruimten, waardoor visueel begrip en generatie worden geïsoleerd en hun wederzijdse versterking wordt belemmerd. Dit werk presenteert het eerste systematische onderzoek naar generatieve post-training, waarbij we hiërarchische visuele taken formuleren als generatieve proxies om de isolatie in UMM's te overbruggen. Ons empirisch onderzoek onthult dat semantische taken op hoog niveau, met name beeldsegmentatie, als optimale proxies fungeren. In tegenstelling tot taken op laag niveau die modellen afleiden met textuurdetails, biedt segmentatie structurele semantiek die zowel visiegericht perceptie als generatieve lay-outgetrouwheid aanzienlijk verbetert. Voortbouwend op deze inzichten introduceren we Semantic Generative Tuning (SGT), een nieuw paradigma dat segmentatie gebruikt als een generatieve proxy om multimodale capaciteiten op elkaar af te stemmen en te synergetisch te maken. Mechanistische analyses tonen verder aan dat SGT de lineaire scheidbaarheid van kenmerken fundamenteel verbetert en het visueel-tekstuele aandachtsallocatiepatroon optimaliseert. Uitgebreide evaluaties laten zien dat SGT zowel multimodaal begrip als generatieve getrouwheid consequent verbetert in gangbare benchmarks. Onze code is beschikbaar op https://song2yu.github.io/SGT/.

English

Unified multimodal models (UMMs) strive to consolidate visual understanding and visual generation within a single architecture. However, prevailing training paradigms independently optimize understanding via sparse text signals and generation through dense pixel objectives. Such a decoupled strategy yields misaligned representation spaces, isolating visual understanding from generation and hindering their mutual reinforcement. This work presents the first systematic investigation into generative post-training, where we formulate hierarchical visual tasks as generative proxies to bridge the isolation in UMMs. Our empirical investigation reveals that high-level semantic tasks, particularly image segmentation, serve as optimal proxies. Unlike low-level tasks that distract models with texture details, segmentation provides structural semantics that significantly enhance both vision-centric perception and generative layout fidelity. Building upon these insights, we introduce Semantic Generative Tuning (SGT), a novel paradigm that leverages segmentation as a generative proxy to align and synergize multimodal capabilities. Mechanistic analyses further demonstrate that SGT fundamentally improves feature linear separability and optimizes visual-textual attention allocation pattern. Extensive evaluations show that SGT consistently improves both multimodal comprehension and generative fidelity across mainstream benchmarks. Our code is available on the https://song2yu.github.io/SGT/.