AToken: Ein einheitlicher Tokenizer für die Bildverarbeitung
AToken: A Unified Tokenizer for Vision
September 17, 2025
papers.authors: Jiasen Lu, Liangchen Song, Mingze Xu, Byeongjoo Ahn, Yanjun Wang, Chen Chen, Afshin Dehghan, Yinfei Yang
cs.AI
papers.abstract
Wir präsentieren AToken, den ersten einheitlichen visuellen Tokenizer, der sowohl hochwertige Rekonstruktion als auch semantisches Verständnis über Bilder, Videos und 3D-Assets hinweg erreicht. Im Gegensatz zu bestehenden Tokenizern, die sich entweder auf Rekonstruktion oder Verständnis für einzelne Modalitäten spezialisieren, kodiert AToken diese vielfältigen visuellen Eingaben in einen gemeinsamen 4D-Latenzraum und vereint sowohl Aufgaben als auch Modalitäten in einem einzigen Framework. Konkret führen wir eine reine Transformer-Architektur mit 4D-Rotations-Positionseinbettungen ein, um visuelle Eingaben beliebiger Auflösungen und zeitlicher Dauer zu verarbeiten. Um ein stabiles Training zu gewährleisten, führen wir ein adversarienfrei gestaltetes Trainingsziel ein, das perzeptuelle und Gram-Matrix-Verluste kombiniert und damit eine state-of-the-art Rekonstruktionsqualität erreicht. Durch den Einsatz eines progressiven Trainingscurriculums erweitert sich AToken schrittweise von einzelnen Bildern, Videos und 3D-Assets und unterstützt sowohl kontinuierliche als auch diskrete latente Tokens. AToken erreicht 0,21 rFID bei 82,2 % ImageNet-Genauigkeit für Bilder, 3,01 rFVD bei 32,6 % MSRVTT-Retrieval für Videos und 28,19 PSNR bei 90,9 % Klassifikationsgenauigkeit für 3D. In nachgelagerten Anwendungen ermöglicht AToken sowohl visuelle Generierungsaufgaben (z. B. Bildgenerierung mit kontinuierlichen und diskreten Tokens, Text-zu-Video-Generierung, Bild-zu-3D-Synthese) als auch Verständnisaufgaben (z. B. multimodale LLMs) und erzielt dabei wettbewerbsfähige Leistungen über alle Benchmarks hinweg. Diese Ergebnisse werfen ein Licht auf die nächste Generation multimodaler KI-Systeme, die auf einheitlicher visueller Tokenisierung basieren.
English
We present AToken, the first unified visual tokenizer that achieves both
high-fidelity reconstruction and semantic understanding across images, videos,
and 3D assets. Unlike existing tokenizers that specialize in either
reconstruction or understanding for single modalities, AToken encodes these
diverse visual inputs into a shared 4D latent space, unifying both tasks and
modalities in a single framework. Specifically, we introduce a pure transformer
architecture with 4D rotary position embeddings to process visual inputs of
arbitrary resolutions and temporal durations. To ensure stable training, we
introduce an adversarial-free training objective that combines perceptual and
Gram matrix losses, achieving state-of-the-art reconstruction quality. By
employing a progressive training curriculum, AToken gradually expands from
single images, videos, and 3D, and supports both continuous and discrete latent
tokens. AToken achieves 0.21 rFID with 82.2% ImageNet accuracy for images, 3.01
rFVD with 32.6% MSRVTT retrieval for videos, and 28.19 PSNR with 90.9%
classification accuracy for 3D. In downstream applications, AToken enables both
visual generation tasks (e.g., image generation with continuous and discrete
tokens, text-to-video generation, image-to-3D synthesis) and understanding
tasks (e.g., multimodal LLMs), achieving competitive performance across all
benchmarks. These results shed light on the next-generation multimodal AI
systems built upon unified visual tokenization.