PhysBrain: 物理的知能への架け橋としての人間中心視点データと視覚言語モデル
PhysBrain: Human Egocentric Data as a Bridge from Vision Language Models to Physical Intelligence
December 18, 2025
著者: Xiaopeng Lin, Shijie Lian, Bin Yu, Ruoqi Yang, Changti Wu, Yuzhuo Miao, Yurun Jin, Yukun Shi, Cong Huang, Bojun Cheng, Kai Chen
cs.AI
要旨
ロボットの一般化能力は、物理的知能に依存する。これは、自己中心的な知覚と行動のもとで、状態変化、接触豊富な相互作用、長期的な計画推論を行う能力である。しかし、ほとんどのVLMは主に三人称視点データで学習されており、ヒューマノイドロボットにとって根本的な視点の不一致を生み出している。ロボットの自己中心視点データ収集は、コストが高く多様性に限界があるため、大規模化は非現実的である。一方、大規模な人間の自己中心視点ビデオは、豊富な相互作用コンテキストと因果構造を自然に捉え、スケーラブルな代替手段を提供する。重要な課題は、生の自己中心視点ビデオを構造化され信頼性の高い具身化訓練の教師信号に変換することである。そこで我々は、一人称視点ビデオを、証拠の接地と時間的一貫性を強化した、マルチレベルでスキーマ駆動のVQA教師信号に変換するEgocentric2Embodiment変換パイプラインを提案する。これにより、大規模なEgocentric2Embodimentデータセット(E2E-3M)の構築を可能にする。E2E-3Mデータセットで学習することにより、自己中心視点認識を備えた具身化頭脳「PhysBrain」が得られる。PhysBrainは、特にEgoThinkにおける計画立案において、自己中心的理解が大幅に向上する。これは、よりサンプル効率の良いVLAファインチューニングと、より高いSimplerEnv成功率(53.9%)を可能にする自己中心視点認識を備えた初期化を提供し、人間の自己中心視点監督から下流のロボット制御への効果的な転移を実証する。
English
Robotic generalization relies on physical intelligence: the ability to reason about state changes, contact-rich interactions, and long-horizon planning under egocentric perception and action. However, most VLMs are trained primarily on third-person data, creating a fundamental viewpoint mismatch for humanoid robots. Scaling robot egocentric data collection remains impractical due to high cost and limited diversity, whereas large-scale human egocentric videos offer a scalable alternative that naturally capture rich interaction context and causal structure. The key challenge is to convert raw egocentric videos into structured and reliable embodiment training supervision. Accordingly, we propose an Egocentric2Embodiment translation pipeline that transforms first-person videos into multi-level, schema-driven VQA supervision with enforced evidence grounding and temporal consistency, enabling the construction of the Egocentric2Embodiment dataset (E2E-3M) at scale. An egocentric-aware embodied brain, termed PhysBrain, is obtained by training on the E2E-3M dataset. PhysBrain exhibits substantially improved egocentric understanding, particularly for planning on EgoThink. It provides an egocentric-aware initialization that enables more sample-efficient VLA fine-tuning and higher SimplerEnv success rates (53.9\%), demonstrating effective transfer from human egocentric supervision to downstream robot control.