「主成分」が可能にする新しい画像表現言語
"Principal Components" Enable A New Language of Images
March 11, 2025
著者: Xin Wen, Bingchen Zhao, Ismail Elezi, Jiankang Deng, Xiaojuan Qi
cs.AI
要旨
我々は、潜在トークン空間に証明可能なPCA(主成分分析)に似た構造を埋め込む新しい視覚的トークン化フレームワークを提案する。既存の視覚的トークナイザーは主に再構成精度を最適化するが、潜在空間の構造的特性——解釈可能性と下流タスクの両方にとって重要な要素——をしばしば無視している。我々の手法は、画像に対して1次元の因果的トークン列を生成し、各連続するトークンが重複しない情報を提供し、説明される分散が数学的に保証された形で減少する。これは主成分分析と類似しており、この構造的制約により、トークナイザーは最も重要な視覚的特徴を最初に抽出し、その後の各トークンが減少するが補完的な情報を追加することを保証する。さらに、拡散デコーダを活用することで、高レベルの意味的内容と低レベルのスペクトル詳細がトークン内で望ましくない形で絡み合うセマンティック-スペクトル結合効果を特定し、解決した。実験結果は、我々のアプローチが最先端の再構成性能を達成し、人間の視覚システムに沿ったより良い解釈可能性を実現することを示している。さらに、我々のトークン列で訓練された自己回帰モデルは、現在の最先端手法と同等の性能を達成しつつ、訓練と推論に必要なトークン数を削減する。
English
We introduce a novel visual tokenization framework that embeds a provable
PCA-like structure into the latent token space. While existing visual
tokenizers primarily optimize for reconstruction fidelity, they often neglect
the structural properties of the latent space -- a critical factor for both
interpretability and downstream tasks. Our method generates a 1D causal token
sequence for images, where each successive token contributes non-overlapping
information with mathematically guaranteed decreasing explained variance,
analogous to principal component analysis. This structural constraint ensures
the tokenizer extracts the most salient visual features first, with each
subsequent token adding diminishing yet complementary information.
Additionally, we identified and resolved a semantic-spectrum coupling effect
that causes the unwanted entanglement of high-level semantic content and
low-level spectral details in the tokens by leveraging a diffusion decoder.
Experiments demonstrate that our approach achieves state-of-the-art
reconstruction performance and enables better interpretability to align with
the human vision system. Moreover, auto-regressive models trained on our token
sequences achieve performance comparable to current state-of-the-art methods
while requiring fewer tokens for training and inference.Summary
AI-Generated Summary