Réglage génératif sémantique pour modèles multimodaux unifiés

Résumé

Les modèles multimodaux unifiés (UMMs) s'efforcent de consolider la compréhension visuelle et la génération visuelle au sein d'une seule architecture. Cependant, les paradigmes d'entraînement dominants optimisent indépendamment la compréhension via des signaux textuels épars et la génération via des objectifs de pixels denses. Une telle stratégie découplée produit des espaces de représentation mal alignés, isolant la compréhension visuelle de la génération et entravant leur renforcement mutuel. Ce travail présente la première investigation systématique du post-entraînement génératif, où nous formulons des tâches visuelles hiérarchiques comme proxies génératifs pour combler l'isolement dans les UMMs. Notre investigation empirique révèle que les tâches sémantiques de haut niveau, en particulier la segmentation d'image, servent de proxies optimaux. Contrairement aux tâches de bas niveau qui distraient les modèles avec des détails de texture, la segmentation fournit une sémantique structurelle qui améliore significativement à la fois la perception centrée sur la vision et la fidélité de la disposition générative. En nous appuyant sur ces observations, nous introduisons le Semantic Generative Tuning (SGT), un nouveau paradigme qui exploite la segmentation comme proxy génératif pour aligner et synergiser les capacités multimodales. Des analyses mécanistiques démontrent en outre que SGT améliore fondamentalement la séparabilité linéaire des caractéristiques et optimise le motif d'allocation d'attention visuo-textuelle. Des évaluations approfondies montrent que SGT améliore constamment à la fois la compréhension multimodale et la fidélité générative sur les benchmarks courants. Notre code est disponible sur https://song2yu.github.io/SGT/.

English

Unified multimodal models (UMMs) strive to consolidate visual understanding and visual generation within a single architecture. However, prevailing training paradigms independently optimize understanding via sparse text signals and generation through dense pixel objectives. Such a decoupled strategy yields misaligned representation spaces, isolating visual understanding from generation and hindering their mutual reinforcement. This work presents the first systematic investigation into generative post-training, where we formulate hierarchical visual tasks as generative proxies to bridge the isolation in UMMs. Our empirical investigation reveals that high-level semantic tasks, particularly image segmentation, serve as optimal proxies. Unlike low-level tasks that distract models with texture details, segmentation provides structural semantics that significantly enhance both vision-centric perception and generative layout fidelity. Building upon these insights, we introduce Semantic Generative Tuning (SGT), a novel paradigm that leverages segmentation as a generative proxy to align and synergize multimodal capabilities. Mechanistic analyses further demonstrate that SGT fundamentally improves feature linear separability and optimizes visual-textual attention allocation pattern. Extensive evaluations show that SGT consistently improves both multimodal comprehension and generative fidelity across mainstream benchmarks. Our code is available on the https://song2yu.github.io/SGT/.