Семантическая генеративная настройка для унифицированных мультимодальных моделей

Аннотация

Унифицированные мультимодальные модели (UMM) стремятся объединить визуальное понимание и визуальную генерацию в рамках единой архитектуры. Однако преобладающие парадигмы обучения независимо оптимизируют понимание с помощью разреженных текстовых сигналов, а генерацию — через плотные пиксельные цели. Такая разобщенная стратегия приводит к несогласованным пространствам представлений, изолируя визуальное понимание от генерации и препятствуя их взаимному усилению. Данная работа представляет первое систематическое исследование генеративного пост-тренинга, в котором мы формулируем иерархические визуальные задачи как генеративные прокси для преодоления изоляции в UMM. Наше эмпирическое исследование показывает, что задачи высокоуровневой семантики, особенно сегментация изображений, служат оптимальными прокси. В отличие от низкоуровневых задач, отвлекающих модели деталями текстуры, сегментация обеспечивает структурную семантику, которая значительно улучшает как восприятие, ориентированное на зрение, так и точность компоновки при генерации. Основываясь на этих выводах, мы представляем Semantic Generative Tuning (SGT) — новую парадигму, которая использует сегментацию в качестве генеративного прокси для согласования и синергии мультимодальных возможностей. Механистический анализ дополнительно демонстрирует, что SGT фундаментально улучшает линейную разделимость признаков и оптимизирует шаблон распределения внимания между визуальными и текстовыми модальностями. Обширные оценки показывают, что SGT последовательно улучшает как мультимодальное понимание, так и точность генерации в основных бенчмарках. Наш код доступен по адресу https://song2yu.github.io/SGT/.

English

Unified multimodal models (UMMs) strive to consolidate visual understanding and visual generation within a single architecture. However, prevailing training paradigms independently optimize understanding via sparse text signals and generation through dense pixel objectives. Such a decoupled strategy yields misaligned representation spaces, isolating visual understanding from generation and hindering their mutual reinforcement. This work presents the first systematic investigation into generative post-training, where we formulate hierarchical visual tasks as generative proxies to bridge the isolation in UMMs. Our empirical investigation reveals that high-level semantic tasks, particularly image segmentation, serve as optimal proxies. Unlike low-level tasks that distract models with texture details, segmentation provides structural semantics that significantly enhance both vision-centric perception and generative layout fidelity. Building upon these insights, we introduce Semantic Generative Tuning (SGT), a novel paradigm that leverages segmentation as a generative proxy to align and synergize multimodal capabilities. Mechanistic analyses further demonstrate that SGT fundamentally improves feature linear separability and optimizes visual-textual attention allocation pattern. Extensive evaluations show that SGT consistently improves both multimodal comprehension and generative fidelity across mainstream benchmarks. Our code is available on the https://song2yu.github.io/SGT/.