AToken: Um Tokenizador Unificado para Visão
AToken: A Unified Tokenizer for Vision
September 17, 2025
Autores: Jiasen Lu, Liangchen Song, Mingze Xu, Byeongjoo Ahn, Yanjun Wang, Chen Chen, Afshin Dehghan, Yinfei Yang
cs.AI
Resumo
Apresentamos o AToken, o primeiro tokenizador visual unificado que alcança tanto reconstrução de alta fidelidade quanto compreensão semântica em imagens, vídeos e ativos 3D. Diferente dos tokenizadores existentes que se especializam em reconstrução ou compreensão para modalidades únicas, o AToken codifica essas diversas entradas visuais em um espaço latente 4D compartilhado, unificando ambas as tarefas e modalidades em um único framework. Especificamente, introduzimos uma arquitetura puramente baseada em transformers com embeddings de posição rotativa 4D para processar entradas visuais de resoluções e durações temporais arbitrárias. Para garantir um treinamento estável, introduzimos um objetivo de treinamento livre de adversários que combina perdas perceptivas e de matriz de Gram, alcançando qualidade de reconstrução state-of-the-art. Ao empregar um currículo de treinamento progressivo, o AToken gradualmente se expande de imagens únicas, vídeos e 3D, e suporta tanto tokens latentes contínuos quanto discretos. O AToken alcança 0.21 rFID com 82.2% de precisão no ImageNet para imagens, 3.01 rFVD com 32.6% de recuperação no MSRVTT para vídeos, e 28.19 PSNR com 90.9% de precisão de classificação para 3D. Em aplicações downstream, o AToken habilita tanto tarefas de geração visual (por exemplo, geração de imagens com tokens contínuos e discretos, geração de texto para vídeo, síntese de imagem para 3D) quanto tarefas de compreensão (por exemplo, LLMs multimodais), alcançando desempenho competitivo em todos os benchmarks. Esses resultados lançam luz sobre os sistemas de IA multimodal de próxima geração construídos sobre tokenização visual unificada.
English
We present AToken, the first unified visual tokenizer that achieves both
high-fidelity reconstruction and semantic understanding across images, videos,
and 3D assets. Unlike existing tokenizers that specialize in either
reconstruction or understanding for single modalities, AToken encodes these
diverse visual inputs into a shared 4D latent space, unifying both tasks and
modalities in a single framework. Specifically, we introduce a pure transformer
architecture with 4D rotary position embeddings to process visual inputs of
arbitrary resolutions and temporal durations. To ensure stable training, we
introduce an adversarial-free training objective that combines perceptual and
Gram matrix losses, achieving state-of-the-art reconstruction quality. By
employing a progressive training curriculum, AToken gradually expands from
single images, videos, and 3D, and supports both continuous and discrete latent
tokens. AToken achieves 0.21 rFID with 82.2% ImageNet accuracy for images, 3.01
rFVD with 32.6% MSRVTT retrieval for videos, and 28.19 PSNR with 90.9%
classification accuracy for 3D. In downstream applications, AToken enables both
visual generation tasks (e.g., image generation with continuous and discrete
tokens, text-to-video generation, image-to-3D synthesis) and understanding
tasks (e.g., multimodal LLMs), achieving competitive performance across all
benchmarks. These results shed light on the next-generation multimodal AI
systems built upon unified visual tokenization.