ChatPaper.aiChatPaper

AToken: Унифицированный токенизатор для задач компьютерного зрения

AToken: A Unified Tokenizer for Vision

September 17, 2025
Авторы: Jiasen Lu, Liangchen Song, Mingze Xu, Byeongjoo Ahn, Yanjun Wang, Chen Chen, Afshin Dehghan, Yinfei Yang
cs.AI

Аннотация

Мы представляем AToken — первый унифицированный визуальный токенизатор, который достигает как высококачественной реконструкции, так и семантического понимания для изображений, видео и 3D-объектов. В отличие от существующих токенизаторов, специализирующихся либо на реконструкции, либо на понимании для отдельных модальностей, AToken кодирует эти разнообразные визуальные данные в общее 4D-латентное пространство, объединяя обе задачи и модальности в единой структуре. В частности, мы предлагаем архитектуру на основе чистого трансформера с 4D-ротационными позиционными эмбеддингами для обработки визуальных данных произвольного разрешения и временной длительности. Для обеспечения стабильного обучения мы вводим цель обучения без использования состязательных подходов, сочетающую перцептивные потери и потери на основе матриц Грама, что позволяет достичь передового качества реконструкции. Благодаря прогрессивной учебной программе, AToken постепенно расширяется от отдельных изображений к видео и 3D-объектам, поддерживая как непрерывные, так и дискретные латентные токены. AToken достигает показателя 0.21 rFID с точностью 82.2% на ImageNet для изображений, 3.01 rFVD с точностью 32.6% на MSRVTT для видео и 28.19 PSNR с точностью 90.9% для классификации 3D-объектов. В прикладных задачах AToken позволяет выполнять как задачи визуальной генерации (например, генерация изображений с использованием непрерывных и дискретных токенов, генерация видео из текста, синтез 3D из изображений), так и задачи понимания (например, мультимодальные LLM), демонстрируя конкурентоспособные результаты на всех тестах. Эти результаты открывают путь к созданию нового поколения мультимодальных ИИ-систем, основанных на унифицированной визуальной токенизации.
English
We present AToken, the first unified visual tokenizer that achieves both high-fidelity reconstruction and semantic understanding across images, videos, and 3D assets. Unlike existing tokenizers that specialize in either reconstruction or understanding for single modalities, AToken encodes these diverse visual inputs into a shared 4D latent space, unifying both tasks and modalities in a single framework. Specifically, we introduce a pure transformer architecture with 4D rotary position embeddings to process visual inputs of arbitrary resolutions and temporal durations. To ensure stable training, we introduce an adversarial-free training objective that combines perceptual and Gram matrix losses, achieving state-of-the-art reconstruction quality. By employing a progressive training curriculum, AToken gradually expands from single images, videos, and 3D, and supports both continuous and discrete latent tokens. AToken achieves 0.21 rFID with 82.2% ImageNet accuracy for images, 3.01 rFVD with 32.6% MSRVTT retrieval for videos, and 28.19 PSNR with 90.9% classification accuracy for 3D. In downstream applications, AToken enables both visual generation tasks (e.g., image generation with continuous and discrete tokens, text-to-video generation, image-to-3D synthesis) and understanding tasks (e.g., multimodal LLMs), achieving competitive performance across all benchmarks. These results shed light on the next-generation multimodal AI systems built upon unified visual tokenization.
PDF334September 19, 2025