ChatPaper.aiChatPaper

PhysBrain : Les données égocentriques humaines comme pont entre les modèles de vision et de langage vers l'intelligence physique

PhysBrain: Human Egocentric Data as a Bridge from Vision Language Models to Physical Intelligence

December 18, 2025
papers.authors: Xiaopeng Lin, Shijie Lian, Bin Yu, Ruoqi Yang, Changti Wu, Yuzhuo Miao, Yurun Jin, Yukun Shi, Cong Huang, Bojun Cheng, Kai Chen
cs.AI

papers.abstract

La généralisation robotique repose sur l'intelligence physique : la capacité à raisonner sur les changements d'état, les interactions riches en contacts et la planification à long horizon dans un cadre de perception et d'action égocentrique. Cependant, la plupart des modèles de langage visuel (VLM) sont principalement entraînés sur des données à la troisième personne, créant une inadéquation fondamentale de point de vue pour les robots humanoïdes. L'augmentation de la collecte de données égocentriques robotiques reste peu pratique en raison de son coût élevé et de sa diversité limitée, tandis que les vidéos égocentriques humaines à grande échelle offrent une alternative viable qui capture naturellement un riche contexte d'interaction et une structure causale. Le défi principal consiste à convertir des vidéos égocentriques brutes en une supervision d'entraînement à l'incarnation structurée et fiable. En conséquence, nous proposons un pipeline de traduction Egocentric2Embodiment qui transforme les vidéos à la première personne en une supervision de question-réponse visuelle (VQA) multi-niveaux, pilotée par des schémas, avec un ancage probatoire renforcé et une cohérence temporelle, permettant la construction à grande échelle du jeu de données Egocentric2Embodiment (E2E-3M). Un cerveau incarné conscient de l'égocentrisme, nommé PhysBrain, est obtenu par entraînement sur le jeu de données E2E-3M. PhysBrain démontre une compréhension égocentrique considérablement améliorée, particulièrement pour la planification sur EgoThink. Il fournit une initialisation consciente de l'égocentrisme qui permet un réglage fin des VLA plus efficace en termes d'échantillons et de meilleurs taux de réussite sur SimplerEnv (53,9 %), démontrant un transfert efficace de la supervision égocentrique humaine vers le contrôle robotique en aval.
English
Robotic generalization relies on physical intelligence: the ability to reason about state changes, contact-rich interactions, and long-horizon planning under egocentric perception and action. However, most VLMs are trained primarily on third-person data, creating a fundamental viewpoint mismatch for humanoid robots. Scaling robot egocentric data collection remains impractical due to high cost and limited diversity, whereas large-scale human egocentric videos offer a scalable alternative that naturally capture rich interaction context and causal structure. The key challenge is to convert raw egocentric videos into structured and reliable embodiment training supervision. Accordingly, we propose an Egocentric2Embodiment translation pipeline that transforms first-person videos into multi-level, schema-driven VQA supervision with enforced evidence grounding and temporal consistency, enabling the construction of the Egocentric2Embodiment dataset (E2E-3M) at scale. An egocentric-aware embodied brain, termed PhysBrain, is obtained by training on the E2E-3M dataset. PhysBrain exhibits substantially improved egocentric understanding, particularly for planning on EgoThink. It provides an egocentric-aware initialization that enables more sample-efficient VLA fine-tuning and higher SimplerEnv success rates (53.9\%), demonstrating effective transfer from human egocentric supervision to downstream robot control.
PDF632December 23, 2025