ChatPaper.aiChatPaper

ActiveMimic: 能動的知覚による自己中心視点ビデオ事前学習

ActiveMimic: Egocentric Video Pretraining with Active Perception

June 4, 2026
著者: Xingyao Lin, Guojin Zhong, Tianyi Lu, Ziyi Ye, Yichen Zhu, Zuxuan Wu, Yu-Gang Jiang
cs.AI

要旨

エゴセントリックな人間の動画は、事前学習においてロボットデータに対するスケーラブルな代替手段を提供するが、そのような動画で事前学習されたモデルは、ロボットデータで事前学習されたモデルに一貫して性能で劣る。我々はこのギャップを、欠落した信号、すなわちエゴセントリックな動画における能動的知覚行動に起因すると考える。そこでは人間が操作中に視点を連続的に再配置し、標準的なパイプラインがノイズとして扱うカメラ動作を引き起こす。この問題に対処するために、我々はActiveMimicを提案する。これは、単一の身体装着型RGBカメラから同期されたカメラ軌道と手首軌道を復元し、カメラ動作を視点動作としてモデル化し、対象ロボットに適応する前に実環境でのエゴセントリックな人間の動画から能動的知覚と操作を共同で学習する事前学習フレームワークである。実験的に、多様な能動的知覚要求を持つタスクにわたる実世界実験では、ActiveMimicが人間の動画で事前学習されたベースラインを一貫して上回り、ロボットデータで事前学習された最先端モデルと同等の性能を示す。さらなる分析は、能動的知覚能力がロボット固有の微調整ではなく、エゴセントリックな人間の動画の事前学習に由来する証拠を提供し、能動的知覚がロボット事前学習のためにエゴセントリックな人間の動画を活用する鍵であることを確認する。
English
Egocentric human video offers a scalable alternative to robot data for pretraining, yet models pretrained on such video consistently underperform those pretrained on robot data. We attribute this gap to a missing signal, the active perception behavior in egocentric videos, where humans continuously reposition their viewpoint during manipulation, inducing camera motion that standard pipelines treat as noise. To address this, we present ActiveMimic, a pretraining framework that recovers synchronized camera and wrist trajectories from a single body-worn RGB camera, models camera motion as a viewpoint action, and jointly learns active perception and manipulation from in-the-wild egocentric human video before adapting to a target robot. Empirically, real-world experiments across tasks with diverse active perception demands show that ActiveMimic consistently surpasses baselines pretrained on human video and matches state-of-the-art models pretrained on robot data. Further analysis provides evidence that active perception capability originates from egocentric human video pretraining rather than robot-specific fine-tuning, confirming active perception as the key to unlocking egocentric human video for robot pretraining.