ChatPaper.aiChatPaper

AToken : Un tokeniseur unifié pour la vision

AToken: A Unified Tokenizer for Vision

September 17, 2025
papers.authors: Jiasen Lu, Liangchen Song, Mingze Xu, Byeongjoo Ahn, Yanjun Wang, Chen Chen, Afshin Dehghan, Yinfei Yang
cs.AI

papers.abstract

Nous présentons AToken, le premier tokeniseur visuel unifié qui atteint à la fois une reconstruction haute fidélité et une compréhension sémantique pour les images, les vidéos et les actifs 3D. Contrairement aux tokeniseurs existants qui se spécialisent soit dans la reconstruction, soit dans la compréhension pour des modalités uniques, AToken encode ces entrées visuelles variées dans un espace latent 4D partagé, unifiant ainsi les deux tâches et les modalités dans un seul cadre. Plus précisément, nous introduisons une architecture de transformeur pur avec des embeddings de position rotatifs 4D pour traiter des entrées visuelles de résolutions et de durées temporelles arbitraires. Pour garantir un entraînement stable, nous proposons un objectif d'entraînement sans adversaire qui combine des pertes perceptuelles et de matrice de Gram, atteignant une qualité de reconstruction de pointe. En utilisant un curriculum d'entraînement progressif, AToken s'étend progressivement des images uniques aux vidéos et aux actifs 3D, et prend en charge à la fois des tokens latents continus et discrets. AToken atteint un rFID de 0,21 avec une précision de 82,2 % sur ImageNet pour les images, un rFVD de 3,01 avec un taux de récupération de 32,6 % sur MSRVTT pour les vidéos, et un PSNR de 28,19 avec une précision de classification de 90,9 % pour les actifs 3D. Dans les applications en aval, AToken permet à la fois des tâches de génération visuelle (par exemple, génération d'images avec des tokens continus et discrets, génération de texte-à-vidéo, synthèse d'image-à-3D) et des tâches de compréhension (par exemple, LLMs multimodaux), obtenant des performances compétitives sur tous les benchmarks. Ces résultats éclairent les systèmes d'IA multimodaux de nouvelle génération construits sur une tokenisation visuelle unifiée.
English
We present AToken, the first unified visual tokenizer that achieves both high-fidelity reconstruction and semantic understanding across images, videos, and 3D assets. Unlike existing tokenizers that specialize in either reconstruction or understanding for single modalities, AToken encodes these diverse visual inputs into a shared 4D latent space, unifying both tasks and modalities in a single framework. Specifically, we introduce a pure transformer architecture with 4D rotary position embeddings to process visual inputs of arbitrary resolutions and temporal durations. To ensure stable training, we introduce an adversarial-free training objective that combines perceptual and Gram matrix losses, achieving state-of-the-art reconstruction quality. By employing a progressive training curriculum, AToken gradually expands from single images, videos, and 3D, and supports both continuous and discrete latent tokens. AToken achieves 0.21 rFID with 82.2% ImageNet accuracy for images, 3.01 rFVD with 32.6% MSRVTT retrieval for videos, and 28.19 PSNR with 90.9% classification accuracy for 3D. In downstream applications, AToken enables both visual generation tasks (e.g., image generation with continuous and discrete tokens, text-to-video generation, image-to-3D synthesis) and understanding tasks (e.g., multimodal LLMs), achieving competitive performance across all benchmarks. These results shed light on the next-generation multimodal AI systems built upon unified visual tokenization.
PDF334September 19, 2025