ChatPaper.aiChatPaper

TUNA: Het Temmen van Verenigde Visuele Representaties voor Inheemse Verenigde Multimodale Modellen

TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models

December 1, 2025
Auteurs: Zhiheng Liu, Weiming Ren, Haozhe Liu, Zijian Zhou, Shoufa Chen, Haonan Qiu, Xiaoke Huang, Zhaochong An, Fanny Yang, Aditya Patel, Viktar Atliha, Tony Ng, Xiao Han, Chuyan Zhu, Chenyang Zhang, Ding Liu, Juan-Manuel Perez-Rua, Sen He, Jürgen Schmidhuber, Wenhu Chen, Ping Luo, Wei Liu, Tao Xiang, Jonas Schult, Yuren Cong
cs.AI

Samenvatting

Unified multimodal modellen (UMM's) hebben als doel multimodale interpretatie en generatie gezamenlijk binnen één enkel kader uit te voeren. Wij presenteren TUNA, een native UMM die een uniforme continue visuele representatie opbouwt door een VAE-encoder te cascaderen met een representatie-encoder. Deze uniforme representatieruimte maakt end-to-end verwerking van afbeeldingen en video's mogelijk voor zowel interpretatie- als generatietaken. In vergelijking met eerdere UMM's met ontkoppelde representaties, vermijdt TUNA's uniforme visuele ruimte de representatieformaat-mismatches die worden geïntroduceerd door afzonderlijke encoders, en presteert het beter dan ontkoppelde alternatieven in zowel interpretatie als generatie. Bovendien observeren we dat sterker voorgetrainde representatie-encoders consequent betere prestaties opleveren voor alle multimodale taken, wat het belang van de representatie-encoder onderstreept. Ten slotte stelt deze uniforme setting gezamenlijke training op zowel interpretatie- als generatiedata in staat, waardoor de twee taken van elkaar kunnen profiteren in plaats van elkaar te storen. Onze uitgebreide experimenten op multimodale interpretatie- en generatiebenchmarks tonen aan dat TUNA state-of-the-art resultaten behaalt in beeld- en video-interpretatie, beeld- en videogeneratie, en beeldbewerking, wat de effectiviteit en schaalbaarheid van het uniforme representatieontwerp aantoont.
English
Unified multimodal models (UMMs) aim to jointly perform multimodal understanding and generation within a single framework. We present TUNA, a native UMM that builds a unified continuous visual representation by cascading a VAE encoder with a representation encoder. This unified representation space allows end-to-end processing of images and videos for both understanding and generation tasks. Compared to prior UMMs with decoupled representations, TUNA's unified visual space avoids representation format mismatches introduced by separate encoders, outperforming decoupled alternatives in both understanding and generation. Moreover, we observe that stronger pretrained representation encoders consistently yield better performance across all multimodal tasks, highlighting the importance of the representation encoder. Finally, in this unified setting, jointly training on both understanding and generation data allows the two tasks to benefit from each other rather than interfere. Our extensive experiments on multimodal understanding and generation benchmarks show that TUNA achieves state-of-the-art results in image and video understanding, image and video generation, and image editing, demonstrating the effectiveness and scalability of its unified representation design.
PDF333December 3, 2025