ChatPaper.aiChatPaper

토큰 병목 현상: 동적 특성을 기억하기 위한 단일 토큰

Token Bottleneck: One Token to Remember Dynamics

July 9, 2025
저자: Taekyung Kim, Dongyoon Han, Byeongho Heo, Jeongeun Park, Sangdoo Yun
cs.AI

초록

동적 장면에서 간결하고 시간적 인식이 가능한 시각적 표현을 도출하는 것은 시각적 추적 및 로봇 조작과 같은 순차적 장면 이해 작업의 성공적 수행에 필수적입니다. 본 논문에서는 Token Bottleneck(ToBo)을 소개합니다. ToBo는 간단하면서도 직관적인 자기 지도 학습 파이프라인으로, 장면을 병목 토큰으로 압축하고 최소한의 패치를 힌트로 사용하여 후속 장면을 예측합니다. ToBo 파이프라인은 squeeze 단계에서 참조 장면을 간결한 병목 토큰으로 보수적으로 인코딩함으로써 순차적 장면 표현 학습을 용이하게 합니다. expansion 단계에서는 병목 토큰과 몇 개의 타겟 패치를 힌트로 사용하여 타겟 장면을 예측하도록 모델을 안내함으로써 시간적 역학을 포착하도록 합니다. 이 설계는 비전 백본이 시간적 의존성을 임베딩하도록 장려하여 장면 간의 동적 전환을 이해할 수 있게 합니다. 비디오 레이블 전파 및 시뮬레이션 환경에서의 로봇 조작을 포함한 다양한 순차적 작업에서의 광범위한 실험은 ToBo가 기준선을 능가하는 우수성을 입증합니다. 또한, 사전 훈련된 모델을 물리적 로봇에 배포하여 실제 환경에서의 견고성과 효과성을 확인했습니다. 우리는 또한 ToBo의 다양한 모델 규모에 걸친 확장성을 추가로 검증합니다.
English
Deriving compact and temporally aware visual representations from dynamic scenes is essential for successful execution of sequential scene understanding tasks such as visual tracking and robotic manipulation. In this paper, we introduce Token Bottleneck (ToBo), a simple yet intuitive self-supervised learning pipeline that squeezes a scene into a bottleneck token and predicts the subsequent scene using minimal patches as hints. The ToBo pipeline facilitates the learning of sequential scene representations by conservatively encoding the reference scene into a compact bottleneck token during the squeeze step. In the expansion step, we guide the model to capture temporal dynamics by predicting the target scene using the bottleneck token along with few target patches as hints. This design encourages the vision backbone to embed temporal dependencies, thereby enabling understanding of dynamic transitions across scenes. Extensive experiments in diverse sequential tasks, including video label propagation and robot manipulation in simulated environments demonstrate the superiority of ToBo over baselines. Moreover, deploying our pre-trained model on physical robots confirms its robustness and effectiveness in real-world environments. We further validate the scalability of ToBo across different model scales.
PDF112July 11, 2025