토큰 병목 현상: 동적 특성을 기억하기 위한 단일 토큰
Token Bottleneck: One Token to Remember Dynamics
July 9, 2025
저자: Taekyung Kim, Dongyoon Han, Byeongho Heo, Jeongeun Park, Sangdoo Yun
cs.AI
초록
동적 장면에서 간결하고 시간적 인식이 가능한 시각적 표현을 도출하는 것은 시각적 추적 및 로봇 조작과 같은 순차적 장면 이해 작업의 성공적 수행에 필수적입니다. 본 논문에서는 Token Bottleneck(ToBo)을 소개합니다. ToBo는 간단하면서도 직관적인 자기 지도 학습 파이프라인으로, 장면을 병목 토큰으로 압축하고 최소한의 패치를 힌트로 사용하여 후속 장면을 예측합니다. ToBo 파이프라인은 squeeze 단계에서 참조 장면을 간결한 병목 토큰으로 보수적으로 인코딩함으로써 순차적 장면 표현 학습을 용이하게 합니다. expansion 단계에서는 병목 토큰과 몇 개의 타겟 패치를 힌트로 사용하여 타겟 장면을 예측하도록 모델을 안내함으로써 시간적 역학을 포착하도록 합니다. 이 설계는 비전 백본이 시간적 의존성을 임베딩하도록 장려하여 장면 간의 동적 전환을 이해할 수 있게 합니다. 비디오 레이블 전파 및 시뮬레이션 환경에서의 로봇 조작을 포함한 다양한 순차적 작업에서의 광범위한 실험은 ToBo가 기준선을 능가하는 우수성을 입증합니다. 또한, 사전 훈련된 모델을 물리적 로봇에 배포하여 실제 환경에서의 견고성과 효과성을 확인했습니다. 우리는 또한 ToBo의 다양한 모델 규모에 걸친 확장성을 추가로 검증합니다.
English
Deriving compact and temporally aware visual representations from dynamic
scenes is essential for successful execution of sequential scene understanding
tasks such as visual tracking and robotic manipulation. In this paper, we
introduce Token Bottleneck (ToBo), a simple yet intuitive self-supervised
learning pipeline that squeezes a scene into a bottleneck token and predicts
the subsequent scene using minimal patches as hints. The ToBo pipeline
facilitates the learning of sequential scene representations by conservatively
encoding the reference scene into a compact bottleneck token during the squeeze
step. In the expansion step, we guide the model to capture temporal dynamics by
predicting the target scene using the bottleneck token along with few target
patches as hints. This design encourages the vision backbone to embed temporal
dependencies, thereby enabling understanding of dynamic transitions across
scenes. Extensive experiments in diverse sequential tasks, including video
label propagation and robot manipulation in simulated environments demonstrate
the superiority of ToBo over baselines. Moreover, deploying our pre-trained
model on physical robots confirms its robustness and effectiveness in
real-world environments. We further validate the scalability of ToBo across
different model scales.