ChatPaper.aiChatPaper

AToken: Un Tokenizer Unificato per la Visione

AToken: A Unified Tokenizer for Vision

September 17, 2025
Autori: Jiasen Lu, Liangchen Song, Mingze Xu, Byeongjoo Ahn, Yanjun Wang, Chen Chen, Afshin Dehghan, Yinfei Yang
cs.AI

Abstract

Presentiamo AToken, il primo tokenizzatore visivo unificato che raggiunge sia una ricostruzione ad alta fedeltà sia una comprensione semantica attraverso immagini, video e asset 3D. A differenza dei tokenizzatori esistenti che si specializzano nella ricostruzione o nella comprensione per singole modalità, AToken codifica questi input visivi diversificati in uno spazio latente 4D condiviso, unificando sia i compiti che le modalità in un unico framework. Nello specifico, introduciamo un'architettura basata esclusivamente su transformer con incorporamenti di posizione rotazionali 4D per elaborare input visivi di risoluzioni e durate temporali arbitrarie. Per garantire un addestramento stabile, introduciamo un obiettivo di addestramento privo di componenti adversarial che combina perdite percettive e di matrice di Gram, raggiungendo una qualità di ricostruzione all'avanguardia. Utilizzando un curriculum di addestramento progressivo, AToken si espande gradualmente da singole immagini, video e 3D, supportando sia token latenti continui che discreti. AToken raggiunge 0.21 rFID con un'accuratezza del 82.2% su ImageNet per le immagini, 3.01 rFVD con un recupero del 32.6% su MSRVTT per i video e 28.19 PSNR con un'accuratezza di classificazione del 90.9% per il 3D. Nelle applicazioni downstream, AToken abilita sia compiti di generazione visiva (ad esempio, generazione di immagini con token continui e discreti, generazione di video da testo, sintesi da immagine a 3D) sia compiti di comprensione (ad esempio, LLM multimodali), ottenendo prestazioni competitive su tutti i benchmark. Questi risultati gettano luce sui sistemi di IA multimodali di prossima generazione costruiti su una tokenizzazione visiva unificata.
English
We present AToken, the first unified visual tokenizer that achieves both high-fidelity reconstruction and semantic understanding across images, videos, and 3D assets. Unlike existing tokenizers that specialize in either reconstruction or understanding for single modalities, AToken encodes these diverse visual inputs into a shared 4D latent space, unifying both tasks and modalities in a single framework. Specifically, we introduce a pure transformer architecture with 4D rotary position embeddings to process visual inputs of arbitrary resolutions and temporal durations. To ensure stable training, we introduce an adversarial-free training objective that combines perceptual and Gram matrix losses, achieving state-of-the-art reconstruction quality. By employing a progressive training curriculum, AToken gradually expands from single images, videos, and 3D, and supports both continuous and discrete latent tokens. AToken achieves 0.21 rFID with 82.2% ImageNet accuracy for images, 3.01 rFVD with 32.6% MSRVTT retrieval for videos, and 28.19 PSNR with 90.9% classification accuracy for 3D. In downstream applications, AToken enables both visual generation tasks (e.g., image generation with continuous and discrete tokens, text-to-video generation, image-to-3D synthesis) and understanding tasks (e.g., multimodal LLMs), achieving competitive performance across all benchmarks. These results shed light on the next-generation multimodal AI systems built upon unified visual tokenization.
PDF369September 19, 2025