"주성분"은 이미지의 새로운 언어를 가능하게 한다
"Principal Components" Enable A New Language of Images
March 11, 2025
저자: Xin Wen, Bingchen Zhao, Ismail Elezi, Jiankang Deng, Xiaojuan Qi
cs.AI
초록
본 논문에서는 PCA(주성분 분석)와 유사한 구조를 잠재 토큰 공간에 수학적으로 증명 가능한 형태로 내재화한 새로운 시각적 토큰화 프레임워크를 소개한다. 기존의 시각적 토큰화 방법들은 주로 재구성 정확도에 초점을 맞추는 반면, 잠재 공간의 구조적 특성 — 해석 가능성과 다운스트림 작업 모두에 있어 중요한 요소 — 을 간과하는 경향이 있었다. 제안된 방법은 이미지에 대해 1D 인과적(causal) 토큰 시퀀스를 생성하며, 각 연속적인 토큰은 수학적으로 보장된 감소하는 설명 분산을 통해 중첩되지 않는 정보를 제공한다. 이는 주성분 분석과 유사한 구조적 제약을 통해 토큰화기가 가장 중요한 시각적 특징을 먼저 추출하고, 이후의 각 토큰이 점차 감소하지만 보완적인 정보를 추가하도록 보장한다. 또한, 디퓨전 디코더를 활용하여 토큰 내에서 고수준의 의미적 내용과 저수준의 스펙트럼 세부 정보가 원치 않게 얽히는 의미-스펙트럼 결합 효과를 식별하고 해결하였다. 실험 결과, 제안된 접근법은 최첨단 재구성 성능을 달성함과 동시에 인간 시각 시스템과 더 잘 일치하는 해석 가능성을 제공한다. 더 나아가, 제안된 토큰 시퀀스로 학습된 자동회귀 모델은 현재의 최첨단 방법들과 비슷한 성능을 보이면서도 학습 및 추론에 필요한 토큰 수를 줄일 수 있음을 확인하였다.
English
We introduce a novel visual tokenization framework that embeds a provable
PCA-like structure into the latent token space. While existing visual
tokenizers primarily optimize for reconstruction fidelity, they often neglect
the structural properties of the latent space -- a critical factor for both
interpretability and downstream tasks. Our method generates a 1D causal token
sequence for images, where each successive token contributes non-overlapping
information with mathematically guaranteed decreasing explained variance,
analogous to principal component analysis. This structural constraint ensures
the tokenizer extracts the most salient visual features first, with each
subsequent token adding diminishing yet complementary information.
Additionally, we identified and resolved a semantic-spectrum coupling effect
that causes the unwanted entanglement of high-level semantic content and
low-level spectral details in the tokens by leveraging a diffusion decoder.
Experiments demonstrate that our approach achieves state-of-the-art
reconstruction performance and enables better interpretability to align with
the human vision system. Moreover, auto-regressive models trained on our token
sequences achieve performance comparable to current state-of-the-art methods
while requiring fewer tokens for training and inference.Summary
AI-Generated Summary