PhysBrain: Menschliche Egocentrische Daten als Brücke von Vision-Language-Modellen zur Physikalischen Intelligenz
PhysBrain: Human Egocentric Data as a Bridge from Vision Language Models to Physical Intelligence
December 18, 2025
papers.authors: Xiaopeng Lin, Shijie Lian, Bin Yu, Ruoqi Yang, Changti Wu, Yuzhuo Miao, Yurun Jin, Yukun Shi, Cong Huang, Bojun Cheng, Kai Chen
cs.AI
papers.abstract
Robotische Generalisierung beruht auf physikalischer Intelligenz: der Fähigkeit, Zustandsänderungen, kontaktreiche Interaktionen und langfristige Planung unter egozentrischer Wahrnehmung und Handlung zu verarbeiten. Die meisten VLMs werden jedoch primär mit Daten aus der Dritt-Person-Perspektive trainiert, was eine grundlegende Perspektiveninkongruenz für humanoide Roboter schafft. Die Skalierung der Erfassung roboteregozentrischer Daten bleibt aufgrund hoher Kosten und begrenzter Diversität unpraktikabel, während groß angelegte menschliche egocentrische Videos eine skalierbare Alternative bieten, die natürlicherweise reiche Interaktionskontexte und Kausalstrukturen erfassen. Die zentrale Herausforderung besteht darin, rohe egocentrische Videos in strukturierte und zuverlässige Verkörperungs-Trainingsannotationen umzuwandeln. Dementsprechend schlagen wir eine Egocentric2Embodiment-Übersetzungspipeline vor, die Egoperspektiv-Videos in mehrstufige, schema-gesteuerte VQA-Annotationen mit erzwungener Evidenzverankerung und zeitlicher Konsistenz transformiert. Dies ermöglicht die Erstellung des Egocentric2Embodiment-Datensatzes (E2E-3M) im großen Maßstab. Ein egocentrisch-bewusstes verkörpertes Gehirn, genannt PhysBrain, wird durch Training auf dem E2E-3M-Datensatz erzielt. PhysBrain zeigt ein deutlich verbessertes egocentrisches Verständnis, insbesondere für Planungsaufgaben in EgoThink. Es bietet eine egocentrisch-bewusste Initialisierung, die eine sample-effizientere VLA-Feinabstimmung und höhere Erfolgsraten in SimplerEnv (53,9%) ermöglicht, was einen effektiven Transfer von menschlicher egocentrischer Supervision hin zu nachgelagerter Robotersteuerung demonstriert.
English
Robotic generalization relies on physical intelligence: the ability to reason about state changes, contact-rich interactions, and long-horizon planning under egocentric perception and action. However, most VLMs are trained primarily on third-person data, creating a fundamental viewpoint mismatch for humanoid robots. Scaling robot egocentric data collection remains impractical due to high cost and limited diversity, whereas large-scale human egocentric videos offer a scalable alternative that naturally capture rich interaction context and causal structure. The key challenge is to convert raw egocentric videos into structured and reliable embodiment training supervision. Accordingly, we propose an Egocentric2Embodiment translation pipeline that transforms first-person videos into multi-level, schema-driven VQA supervision with enforced evidence grounding and temporal consistency, enabling the construction of the Egocentric2Embodiment dataset (E2E-3M) at scale. An egocentric-aware embodied brain, termed PhysBrain, is obtained by training on the E2E-3M dataset. PhysBrain exhibits substantially improved egocentric understanding, particularly for planning on EgoThink. It provides an egocentric-aware initialization that enables more sample-efficient VLA fine-tuning and higher SimplerEnv success rates (53.9\%), demonstrating effective transfer from human egocentric supervision to downstream robot control.