TUNA : Domestication des représentations visuelles unifiées pour les modèles multimodaux unifiés natifs
TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models
December 1, 2025
papers.authors: Zhiheng Liu, Weiming Ren, Haozhe Liu, Zijian Zhou, Shoufa Chen, Haonan Qiu, Xiaoke Huang, Zhaochong An, Fanny Yang, Aditya Patel, Viktar Atliha, Tony Ng, Xiao Han, Chuyan Zhu, Chenyang Zhang, Ding Liu, Juan-Manuel Perez-Rua, Sen He, Jürgen Schmidhuber, Wenhu Chen, Ping Luo, Wei Liu, Tao Xiang, Jonas Schult, Yuren Cong
cs.AI
papers.abstract
Les modèles multimodaux unifiés (UMM) visent à réaliser conjointement la compréhension et la génération multimodales au sein d'un même cadre. Nous présentons TUNA, un UMM natif qui construit une représentation visuelle continue unifiée en cascadant un encodeur VAE avec un encodeur de représentation. Cet espace de représentation unifié permet un traitement de bout en bout des images et des vidéos pour les tâches de compréhension et de génération. Comparé aux UMM antérieurs avec représentations découplées, l'espace visuel unifié de TUNA évite les inadéquations de format de représentation introduites par des encodeurs séparés, surpassant les alternatives découplées à la fois en compréhension et en génération. De plus, nous observons que des encodeurs de représentation pré-entraînés plus performants produisent systématiquement de meilleurs résultats sur l'ensemble des tâches multimodales, soulignant l'importance de l'encodeur de représentation. Enfin, dans ce cadre unifié, l'apprentissage conjoint sur des données de compréhension et de génération permet aux deux tâches de bénéficier l'une de l'autre plutôt que d'interférer. Nos expériences approfondies sur des benchmarks de compréhension et de génération multimodales montrent que TUNA obtient des résultats state-of-the-art en compréhension d'images et de vidéos, en génération d'images et de vidéos, et en édition d'images, démontrant l'efficacité et l'évolutivité de sa conception de représentation unifiée.
English
Unified multimodal models (UMMs) aim to jointly perform multimodal understanding and generation within a single framework. We present TUNA, a native UMM that builds a unified continuous visual representation by cascading a VAE encoder with a representation encoder. This unified representation space allows end-to-end processing of images and videos for both understanding and generation tasks. Compared to prior UMMs with decoupled representations, TUNA's unified visual space avoids representation format mismatches introduced by separate encoders, outperforming decoupled alternatives in both understanding and generation. Moreover, we observe that stronger pretrained representation encoders consistently yield better performance across all multimodal tasks, highlighting the importance of the representation encoder. Finally, in this unified setting, jointly training on both understanding and generation data allows the two tasks to benefit from each other rather than interfere. Our extensive experiments on multimodal understanding and generation benchmarks show that TUNA achieves state-of-the-art results in image and video understanding, image and video generation, and image editing, demonstrating the effectiveness and scalability of its unified representation design.