ChatPaper.aiChatPaper

AToken: Een Geünificeerde Tokenizer voor Visie

AToken: A Unified Tokenizer for Vision

September 17, 2025
Auteurs: Jiasen Lu, Liangchen Song, Mingze Xu, Byeongjoo Ahn, Yanjun Wang, Chen Chen, Afshin Dehghan, Yinfei Yang
cs.AI

Samenvatting

We presenteren AToken, de eerste geünificeerde visuele tokenizer die zowel hoogwaardige reconstructie als semantisch begrip bereikt voor afbeeldingen, video's en 3D-assets. In tegenstelling tot bestaande tokenizers die gespecialiseerd zijn in óf reconstructie óf begrip voor enkele modaliteiten, codeert AToken deze diverse visuele invoeren in een gedeelde 4D latente ruimte, waardoor zowel taken als modaliteiten worden verenigd in een enkel raamwerk. Specifiek introduceren we een pure transformer-architectuur met 4D roterende positie-embeddingen om visuele invoeren van willekeurige resoluties en tijdsduur te verwerken. Om een stabiele training te garanderen, introduceren we een adversarial-vrij trainingsdoel dat perceptuele en Gram-matrixverliezen combineert, waarmee state-of-the-art reconstructiekwaliteit wordt bereikt. Door een progressief trainingscurriculum te gebruiken, breidt AToken zich geleidelijk uit van enkele afbeeldingen, video's en 3D, en ondersteunt het zowel continue als discrete latente tokens. AToken behaalt een rFID van 0,21 met 82,2% ImageNet-nauwkeurigheid voor afbeeldingen, een rFVD van 3,01 met 32,6% MSRVTT-retrieval voor video's, en een PSNR van 28,19 met 90,9% classificatienauwkeurigheid voor 3D. In downstream-toepassingen maakt AToken zowel visuele generatietaken mogelijk (bijv. afbeeldingsgeneratie met continue en discrete tokens, tekst-naar-video-generatie, afbeelding-naar-3D-synthese) als begriptaken (bijv. multimodale LLM's), waarbij competitieve prestaties worden behaald op alle benchmarks. Deze resultaten werpen licht op de volgende generatie multimodale AI-systemen die zijn gebouwd op geünificeerde visuele tokenisatie.
English
We present AToken, the first unified visual tokenizer that achieves both high-fidelity reconstruction and semantic understanding across images, videos, and 3D assets. Unlike existing tokenizers that specialize in either reconstruction or understanding for single modalities, AToken encodes these diverse visual inputs into a shared 4D latent space, unifying both tasks and modalities in a single framework. Specifically, we introduce a pure transformer architecture with 4D rotary position embeddings to process visual inputs of arbitrary resolutions and temporal durations. To ensure stable training, we introduce an adversarial-free training objective that combines perceptual and Gram matrix losses, achieving state-of-the-art reconstruction quality. By employing a progressive training curriculum, AToken gradually expands from single images, videos, and 3D, and supports both continuous and discrete latent tokens. AToken achieves 0.21 rFID with 82.2% ImageNet accuracy for images, 3.01 rFVD with 32.6% MSRVTT retrieval for videos, and 28.19 PSNR with 90.9% classification accuracy for 3D. In downstream applications, AToken enables both visual generation tasks (e.g., image generation with continuous and discrete tokens, text-to-video generation, image-to-3D synthesis) and understanding tasks (e.g., multimodal LLMs), achieving competitive performance across all benchmarks. These results shed light on the next-generation multimodal AI systems built upon unified visual tokenization.
PDF369September 19, 2025