Semantische Generative Feinabstimmung für Vereinheitlichte Multimodale Modelle

Zusammenfassung

Einheitliche multimodale Modelle (UMMs) streben danach, visuelles Verständnis und visuelle Generierung in einer einzigen Architektur zu vereinen. Allerdings optimieren gängige Trainingsparadigmen das Verständnis unabhängig voneinander über spärliche Textsignale und die Generierung durch dichte Pixelziele. Eine solche entkoppelte Strategie führt zu nicht ausgerichteten Repräsentationsräumen, die das visuelle Verständnis von der Generierung isolieren und ihre gegenseitige Verstärkung behindern. Diese Arbeit stellt die erste systematische Untersuchung des generativen Post-Trainings vor, bei dem wir hierarchische visuelle Aufgaben als generative Proxys formulieren, um die Isolation in UMMs zu überbrücken. Unsere empirische Untersuchung zeigt, dass semantische Aufgaben auf hoher Ebene, insbesondere die Bildsegmentierung, als optimale Proxys dienen. Im Gegensatz zu Aufgaben auf niedriger Ebene, die Modelle mit Texturdetails ablenken, liefert die Segmentierung strukturelle Semantiken, die sowohl die visuelle Wahrnehmung als auch die generative Layouttreue erheblich verbessern. Aufbauend auf diesen Erkenntnissen führen wir Semantic Generative Tuning (SGT) ein, ein neuartiges Paradigma, das die Segmentierung als generativen Proxy nutzt, um multimodale Fähigkeiten auszurichten und zu synergieren. Mechanistische Analysen zeigen weiterhin, dass SGT die lineare Separierbarkeit von Merkmalen grundlegend verbessert und das visuell-textuelle Aufmerksamkeitsallokationsmuster optimiert. Umfangreiche Evaluierungen zeigen, dass SGT sowohl das multimodale Verständnis als auch die generative Treue bei gängigen Benchmarks konsistent verbessert. Unser Code ist verfügbar unter https://song2yu.github.io/SGT/.

English

Unified multimodal models (UMMs) strive to consolidate visual understanding and visual generation within a single architecture. However, prevailing training paradigms independently optimize understanding via sparse text signals and generation through dense pixel objectives. Such a decoupled strategy yields misaligned representation spaces, isolating visual understanding from generation and hindering their mutual reinforcement. This work presents the first systematic investigation into generative post-training, where we formulate hierarchical visual tasks as generative proxies to bridge the isolation in UMMs. Our empirical investigation reveals that high-level semantic tasks, particularly image segmentation, serve as optimal proxies. Unlike low-level tasks that distract models with texture details, segmentation provides structural semantics that significantly enhance both vision-centric perception and generative layout fidelity. Building upon these insights, we introduce Semantic Generative Tuning (SGT), a novel paradigm that leverages segmentation as a generative proxy to align and synergize multimodal capabilities. Mechanistic analyses further demonstrate that SGT fundamentally improves feature linear separability and optimizes visual-textual attention allocation pattern. Extensive evaluations show that SGT consistently improves both multimodal comprehension and generative fidelity across mainstream benchmarks. Our code is available on the https://song2yu.github.io/SGT/.