ChatPaper.aiChatPaper

AToken: Un Tokenizador Unificado para Visión

AToken: A Unified Tokenizer for Vision

September 17, 2025
Autores: Jiasen Lu, Liangchen Song, Mingze Xu, Byeongjoo Ahn, Yanjun Wang, Chen Chen, Afshin Dehghan, Yinfei Yang
cs.AI

Resumen

Presentamos AToken, el primer tokenizador visual unificado que logra tanto una reconstrucción de alta fidelidad como una comprensión semántica en imágenes, videos y activos 3D. A diferencia de los tokenizadores existentes que se especializan en reconstrucción o comprensión para modalidades individuales, AToken codifica estas entradas visuales diversas en un espacio latente 4D compartido, unificando ambas tareas y modalidades en un solo marco. Específicamente, introducimos una arquitectura de transformador puro con incrustaciones de posición rotatoria 4D para procesar entradas visuales de resoluciones y duraciones temporales arbitrarias. Para garantizar un entrenamiento estable, introducimos un objetivo de entrenamiento libre de adversarios que combina pérdidas perceptuales y de matriz de Gram, logrando una calidad de reconstrucción de vanguardia. Al emplear un currículo de entrenamiento progresivo, AToken se expande gradualmente desde imágenes individuales, videos y 3D, y admite tokens latentes tanto continuos como discretos. AToken alcanza un rFID de 0.21 con un 82.2% de precisión en ImageNet para imágenes, un rFVD de 3.01 con un 32.6% de recuperación en MSRVTT para videos, y un PSNR de 28.19 con un 90.9% de precisión en clasificación para 3D. En aplicaciones posteriores, AToken habilita tanto tareas de generación visual (por ejemplo, generación de imágenes con tokens continuos y discretos, generación de texto a video, síntesis de imagen a 3D) como tareas de comprensión (por ejemplo, LLMs multimodales), logrando un rendimiento competitivo en todos los puntos de referencia. Estos resultados arrojan luz sobre los sistemas de IA multimodal de próxima generación construidos sobre una tokenización visual unificada.
English
We present AToken, the first unified visual tokenizer that achieves both high-fidelity reconstruction and semantic understanding across images, videos, and 3D assets. Unlike existing tokenizers that specialize in either reconstruction or understanding for single modalities, AToken encodes these diverse visual inputs into a shared 4D latent space, unifying both tasks and modalities in a single framework. Specifically, we introduce a pure transformer architecture with 4D rotary position embeddings to process visual inputs of arbitrary resolutions and temporal durations. To ensure stable training, we introduce an adversarial-free training objective that combines perceptual and Gram matrix losses, achieving state-of-the-art reconstruction quality. By employing a progressive training curriculum, AToken gradually expands from single images, videos, and 3D, and supports both continuous and discrete latent tokens. AToken achieves 0.21 rFID with 82.2% ImageNet accuracy for images, 3.01 rFVD with 32.6% MSRVTT retrieval for videos, and 28.19 PSNR with 90.9% classification accuracy for 3D. In downstream applications, AToken enables both visual generation tasks (e.g., image generation with continuous and discrete tokens, text-to-video generation, image-to-3D synthesis) and understanding tasks (e.g., multimodal LLMs), achieving competitive performance across all benchmarks. These results shed light on the next-generation multimodal AI systems built upon unified visual tokenization.
PDF334September 19, 2025