ChatPaper.aiChatPaper

PhysBrain: Menselijke egocentrische data als brug van visie-taalmodellen naar fysieke intelligentie

PhysBrain: Human Egocentric Data as a Bridge from Vision Language Models to Physical Intelligence

December 18, 2025
Auteurs: Xiaopeng Lin, Shijie Lian, Bin Yu, Ruoqi Yang, Changti Wu, Yuzhuo Miao, Yurun Jin, Yukun Shi, Cong Huang, Bojun Cheng, Kai Chen
cs.AI

Samenvatting

Robotische generalisatie steunt op fysieke intelligentie: het vermogen om te redeneren over toestandsveranderingen, contactrijke interacties en planning over lange tijdshorizonten binnen egocentrische perceptie en actie. De meeste VLMs worden echter voornamelijk getraind op data vanuit derdepersoonsperspectief, wat een fundamenteel gezichtspunt-mismatch creëert voor humanoïde robots. Het opschalen van de verzameling van egocentrische robotdata blijft onpraktisch vanwege hoge kosten en beperkte diversiteit, terwijl grootschalige menselijke egocentrische video's een schaalbaar alternatief bieden die van nature rijke interactiecontext en causale structuur vastleggen. De belangrijkste uitdaging is het omzetten van ruwe egocentrische video's in gestructureerde en betrouwbare trainingssupervisie voor embodiment. Dienovereenkomstig stellen we een Egocentric2Embodiment-vertaalpijplijn voor die first-person video's omzet in meerlagige, schema-gestuurde VQA-supervisie met afgedwongen evidence grounding en temporele consistentie, waardoor de grootschalige constructie van de Egocentric2Embodiment-dataset (E2E-3M) mogelijk wordt. Een egocentrisch-bewuste embodied brain, genaamd PhysBrain, wordt verkregen door training op de E2E-3M dataset. PhysBrain vertoont een aanzienlijk verbeterd egocentrisch begrip, met name voor planning op EgoThink. Het biedt een egocentrisch-bewuste initialisatie die sample-efficiëntere VLA-finetuning en hogere SimplerEnv-succespercentages (53,9%) mogelijk maakt, wat een effectieve transfer aantoont van menselijke egocentrische supervisie naar downstream robotbesturing.
English
Robotic generalization relies on physical intelligence: the ability to reason about state changes, contact-rich interactions, and long-horizon planning under egocentric perception and action. However, most VLMs are trained primarily on third-person data, creating a fundamental viewpoint mismatch for humanoid robots. Scaling robot egocentric data collection remains impractical due to high cost and limited diversity, whereas large-scale human egocentric videos offer a scalable alternative that naturally capture rich interaction context and causal structure. The key challenge is to convert raw egocentric videos into structured and reliable embodiment training supervision. Accordingly, we propose an Egocentric2Embodiment translation pipeline that transforms first-person videos into multi-level, schema-driven VQA supervision with enforced evidence grounding and temporal consistency, enabling the construction of the Egocentric2Embodiment dataset (E2E-3M) at scale. An egocentric-aware embodied brain, termed PhysBrain, is obtained by training on the E2E-3M dataset. PhysBrain exhibits substantially improved egocentric understanding, particularly for planning on EgoThink. It provides an egocentric-aware initialization that enables more sample-efficient VLA fine-tuning and higher SimplerEnv success rates (53.9\%), demonstrating effective transfer from human egocentric supervision to downstream robot control.
PDF632December 23, 2025