PhysBrain: i dati egocentrici umani come ponte tra i modelli linguistico-visivi e l'intelligenza fisica
PhysBrain: Human Egocentric Data as a Bridge from Vision Language Models to Physical Intelligence
December 18, 2025
Autori: Xiaopeng Lin, Shijie Lian, Bin Yu, Ruoqi Yang, Changti Wu, Yuzhuo Miao, Yurun Jin, Yukun Shi, Cong Huang, Bojun Cheng, Kai Chen
cs.AI
Abstract
La generalizzazione robotica si basa sull'intelligenza fisica: la capacità di ragionare su cambiamenti di stato, interazioni ricche di contatto e pianificazione a lungo orizzonte sotto percezione e azione egocentrica. Tuttavia, la maggior parte dei VLM viene addestrata principalmente su dati in terza persona, creando una fondamentale discrepanza di punto di vista per i robot umanoidi. Scalare la raccolta di dati egocentrici robotici rimane impraticabile a causa degli alti costi e della limitata diversità, mentre i video egocentrici umani su larga scala offrono un'alternativa scalabile che cattura naturalmente un ricco contesto interattivo e struttura causale. La sfida principale è convertire video egocentrici grezzi in una supervisione di addestramento all'embodiment strutturata e affidabile. Di conseguenza, proponiamo una pipeline di traduzione Egocentric2Embodiment che trasforma video in prima persona in una supervisione VQA multilivello guidata da schemi, con grounding evidenziale forzato e coerenza temporale, consentendo la costruzione su larga scala del dataset Egocentric2Embodiment (E2E-3M). Un "cervello" incarnato consapevole dell'egocentrico, denominato PhysBrain, viene ottenuto addestrando sul dataset E2E-3M. PhysBrain mostra una comprensione egocentrica sostanzialmente migliorata, in particolare per la pianificazione su EgoThink. Fornisce un'inizializzazione egocentrico-consapevole che abilita un fine-tuning VLA più efficiente in termini di campioni e tassi di successo SimplerEnv più elevati (53,9%), dimostrando un trasferimento efficace dalla supervisione egocentrica umana al controllo robotico downstream.
English
Robotic generalization relies on physical intelligence: the ability to reason about state changes, contact-rich interactions, and long-horizon planning under egocentric perception and action. However, most VLMs are trained primarily on third-person data, creating a fundamental viewpoint mismatch for humanoid robots. Scaling robot egocentric data collection remains impractical due to high cost and limited diversity, whereas large-scale human egocentric videos offer a scalable alternative that naturally capture rich interaction context and causal structure. The key challenge is to convert raw egocentric videos into structured and reliable embodiment training supervision. Accordingly, we propose an Egocentric2Embodiment translation pipeline that transforms first-person videos into multi-level, schema-driven VQA supervision with enforced evidence grounding and temporal consistency, enabling the construction of the Egocentric2Embodiment dataset (E2E-3M) at scale. An egocentric-aware embodied brain, termed PhysBrain, is obtained by training on the E2E-3M dataset. PhysBrain exhibits substantially improved egocentric understanding, particularly for planning on EgoThink. It provides an egocentric-aware initialization that enables more sample-efficient VLA fine-tuning and higher SimplerEnv success rates (53.9\%), demonstrating effective transfer from human egocentric supervision to downstream robot control.