PhysBrain: Dados Egocêntricos Humanos como Ponte entre Modelos de Linguagem Visual e Inteligência Física

Resumo

A generalização robótica depende da inteligência física: a capacidade de raciocinar sobre mudanças de estado, interações ricas em contato e planejamento de longo prazo sob percepção e ação egocêntricas. No entanto, a maioria dos VLMs é treinada principalmente com dados em terceira pessoa, criando uma incompatibilidade fundamental de perspectiva para robôs humanoides. Escalar a coleta de dados egocêntricos robóticos permanece impraticável devido ao alto custo e diversidade limitada, enquanto vídeos egocêntricos humanos em larga escala oferecem uma alternativa escalável que captura naturalmente contexto rico de interação e estrutura causal. O principal desafio é converter vídeos egocêntricos brutos em supervisão de treinamento de embodimento estruturada e confiável. Consequentemente, propomos um pipeline de tradução Egocêntrico2Embodimento que transforma vídeos em primeira pessoa em supervisão de VQA multinível e orientada por esquemas, com fundamentação de evidências e consistência temporal aplicadas, permitindo a construção do conjunto de dados Egocêntrico2Embodimento (E2E-3M) em escala. Um cérebo embodido com consciência egocêntrica, denominado PhysBrain, é obtido através do treinamento no conjunto de dados E2E-3M. O PhysBrain exibe uma compreensão egocêntrica substancialmente melhorada, particularmente para planejamento no EgoThink. Ele fornece uma inicialização com consciência egocêntrica que permite um ajuste fino de VLA mais eficiente em amostras e taxas de sucesso mais altas no SimplerEnv (53,9%), demonstrando uma transferência eficaz da supervisão egocêntrica humana para o controle robótico downstream.

English

Robotic generalization relies on physical intelligence: the ability to reason about state changes, contact-rich interactions, and long-horizon planning under egocentric perception and action. However, most VLMs are trained primarily on third-person data, creating a fundamental viewpoint mismatch for humanoid robots. Scaling robot egocentric data collection remains impractical due to high cost and limited diversity, whereas large-scale human egocentric videos offer a scalable alternative that naturally capture rich interaction context and causal structure. The key challenge is to convert raw egocentric videos into structured and reliable embodiment training supervision. Accordingly, we propose an Egocentric2Embodiment translation pipeline that transforms first-person videos into multi-level, schema-driven VQA supervision with enforced evidence grounding and temporal consistency, enabling the construction of the Egocentric2Embodiment dataset (E2E-3M) at scale. An egocentric-aware embodied brain, termed PhysBrain, is obtained by training on the E2E-3M dataset. PhysBrain exhibits substantially improved egocentric understanding, particularly for planning on EgoThink. It provides an egocentric-aware initialization that enables more sample-efficient VLA fine-tuning and higher SimplerEnv success rates (53.9\%), demonstrating effective transfer from human egocentric supervision to downstream robot control.

PhysBrain: Dados Egocêntricos Humanos como Ponte entre Modelos de Linguagem Visual e Inteligência Física

PhysBrain: Human Egocentric Data as a Bridge from Vision Language Models to Physical Intelligence

Resumo

Support