AToken: 視覚のための統一トークナイザー
AToken: A Unified Tokenizer for Vision
September 17, 2025
著者: Jiasen Lu, Liangchen Song, Mingze Xu, Byeongjoo Ahn, Yanjun Wang, Chen Chen, Afshin Dehghan, Yinfei Yang
cs.AI
要旨
本論文では、画像、動画、3Dアセットにおいて高忠実度再構成と意味理解の両方を実現する初の統合ビジュアルトークナイザーであるATokenを提案する。既存のトークナイザーが単一モダリティにおける再構成または理解のいずれかに特化しているのに対し、ATokenはこれらの多様な視覚入力を共有の4D潜在空間に符号化し、両タスクとモダリティを単一フレームワークに統合する。具体的には、任意の解像度と時間長の視覚入力を処理するために、4D回転位置埋め込みを備えた純粋なトランスフォーマーアーキテクチャを導入する。安定した学習を確保するため、知覚損失とグラム行列損失を組み合わせた敵対的フリーの学習目的関数を導入し、最先端の再構成品質を達成する。段階的な学習カリキュラムを採用することで、ATokenは単一画像、動画、3Dから徐々に拡張し、連続的および離散的な潜在トークンの両方をサポートする。ATokenは、画像において0.21 rFIDと82.2%のImageNet精度、動画において3.01 rFVDと32.6%のMSRVTT検索精度、3Dにおいて28.19 PSNRと90.9%の分類精度を達成する。下流アプリケーションにおいて、ATokenは視覚生成タスク(例:連続的および離散的トークンを用いた画像生成、テキストから動画生成、画像から3D合成)と理解タスク(例:マルチモーダルLLM)の両方を可能にし、全てのベンチマークで競争力のある性能を達成する。これらの結果は、統合ビジュアルトークン化に基づく次世代マルチモーダルAIシステムの可能性を示唆するものである。
English
We present AToken, the first unified visual tokenizer that achieves both
high-fidelity reconstruction and semantic understanding across images, videos,
and 3D assets. Unlike existing tokenizers that specialize in either
reconstruction or understanding for single modalities, AToken encodes these
diverse visual inputs into a shared 4D latent space, unifying both tasks and
modalities in a single framework. Specifically, we introduce a pure transformer
architecture with 4D rotary position embeddings to process visual inputs of
arbitrary resolutions and temporal durations. To ensure stable training, we
introduce an adversarial-free training objective that combines perceptual and
Gram matrix losses, achieving state-of-the-art reconstruction quality. By
employing a progressive training curriculum, AToken gradually expands from
single images, videos, and 3D, and supports both continuous and discrete latent
tokens. AToken achieves 0.21 rFID with 82.2% ImageNet accuracy for images, 3.01
rFVD with 32.6% MSRVTT retrieval for videos, and 28.19 PSNR with 90.9%
classification accuracy for 3D. In downstream applications, AToken enables both
visual generation tasks (e.g., image generation with continuous and discrete
tokens, text-to-video generation, image-to-3D synthesis) and understanding
tasks (e.g., multimodal LLMs), achieving competitive performance across all
benchmarks. These results shed light on the next-generation multimodal AI
systems built upon unified visual tokenization.