トークンボトルネック:動態を記憶するための単一トークン
Token Bottleneck: One Token to Remember Dynamics
July 9, 2025
著者: Taekyung Kim, Dongyoon Han, Byeongho Heo, Jeongeun Park, Sangdoo Yun
cs.AI
要旨
動的なシーンからコンパクトで時間的認識を備えた視覚表現を導出することは、視覚追跡やロボット操作といった逐次的なシーン理解タスクを成功させるために不可欠です。本論文では、シーンをボトルネックトークンに圧縮し、最小限のパッチをヒントとして次のシーンを予測する、シンプルで直感的な自己教師あり学習パイプラインであるToken Bottleneck (ToBo)を紹介します。ToBoパイプラインは、圧縮ステップにおいて参照シーンを保守的にエンコードし、コンパクトなボトルネックトークンに変換することで、逐次的なシーン表現の学習を促進します。拡張ステップでは、ボトルネックトークンと少数のターゲットパッチをヒントとしてターゲットシーンを予測することで、モデルに時間的ダイナミクスを捉えさせます。この設計により、視覚バックボーンは時間的依存関係を埋め込み、シーン間の動的な遷移を理解できるようになります。ビデオラベル伝播やシミュレーション環境でのロボット操作を含む多様な逐次タスクにおける広範な実験により、ToBoがベースラインを上回る優位性を示しています。さらに、物理ロボットに事前学習済みモデルをデプロイすることで、実世界環境におけるその堅牢性と有効性を確認しました。また、ToBoの異なるモデルスケールにおけるスケーラビリティも検証しています。
English
Deriving compact and temporally aware visual representations from dynamic
scenes is essential for successful execution of sequential scene understanding
tasks such as visual tracking and robotic manipulation. In this paper, we
introduce Token Bottleneck (ToBo), a simple yet intuitive self-supervised
learning pipeline that squeezes a scene into a bottleneck token and predicts
the subsequent scene using minimal patches as hints. The ToBo pipeline
facilitates the learning of sequential scene representations by conservatively
encoding the reference scene into a compact bottleneck token during the squeeze
step. In the expansion step, we guide the model to capture temporal dynamics by
predicting the target scene using the bottleneck token along with few target
patches as hints. This design encourages the vision backbone to embed temporal
dependencies, thereby enabling understanding of dynamic transitions across
scenes. Extensive experiments in diverse sequential tasks, including video
label propagation and robot manipulation in simulated environments demonstrate
the superiority of ToBo over baselines. Moreover, deploying our pre-trained
model on physical robots confirms its robustness and effectiveness in
real-world environments. We further validate the scalability of ToBo across
different model scales.