PhysBrain: Los Datos Egocéntricos Humanos como Puente entre los Modelos de Lenguaje Visual y la Inteligencia Física
PhysBrain: Human Egocentric Data as a Bridge from Vision Language Models to Physical Intelligence
December 18, 2025
Autores: Xiaopeng Lin, Shijie Lian, Bin Yu, Ruoqi Yang, Changti Wu, Yuzhuo Miao, Yurun Jin, Yukun Shi, Cong Huang, Bojun Cheng, Kai Chen
cs.AI
Resumen
La generalización robótica depende de la inteligencia física: la capacidad de razonar sobre cambios de estado, interacciones ricas en contacto y planificación de largo horizonte bajo una percepción y acción egocéntricas. Sin embargo, la mayoría de los Modelos de Lenguaje Visual (VLM) se entrenan principalmente con datos en tercera persona, creando una discrepancia fundamental de punto de vista para los robots humanoides. Escalar la recolección de datos egocéntricos robóticos sigue siendo impráctico debido al alto costo y la diversidad limitada, mientras que los videos egocéntricos humanos a gran escala ofrecen una alternativa escalable que captura naturalmente un contexto de interacción rico y una estructura causal. El desafío clave es convertir videos egocéntricos en bruto en una supervisión de entrenamiento de embodimiento estructurada y confiable. En consecuencia, proponemos un pipeline de traducción Egocéntrico-a-Embodiment (Egocentric2Embodiment) que transforma videos en primera persona en una supervisión de VQA multinivel, impulsada por esquemas, con base de evidencia forzada y consistencia temporal, permitiendo la construcción a escala del conjunto de datos Egocentric2Embodiment (E2E-3M). Un cerebro embodido consciente de lo egocéntrico, denominado PhysBrain, se obtiene entrenando con el conjunto de datos E2E-3M. PhysBrain exhibe una comprensión egocéntrica sustancialmente mejorada, particularmente para la planificación en EgoThink. Proporciona una inicialización consciente de lo egocéntrico que permite un ajuste fino de VLA más eficiente en muestras y mayores tasas de éxito en SimplerEnv (53.9%), demostrando una transferencia efectiva de la supervisión egocéntrica humana al control robótico descendente.
English
Robotic generalization relies on physical intelligence: the ability to reason about state changes, contact-rich interactions, and long-horizon planning under egocentric perception and action. However, most VLMs are trained primarily on third-person data, creating a fundamental viewpoint mismatch for humanoid robots. Scaling robot egocentric data collection remains impractical due to high cost and limited diversity, whereas large-scale human egocentric videos offer a scalable alternative that naturally capture rich interaction context and causal structure. The key challenge is to convert raw egocentric videos into structured and reliable embodiment training supervision. Accordingly, we propose an Egocentric2Embodiment translation pipeline that transforms first-person videos into multi-level, schema-driven VQA supervision with enforced evidence grounding and temporal consistency, enabling the construction of the Egocentric2Embodiment dataset (E2E-3M) at scale. An egocentric-aware embodied brain, termed PhysBrain, is obtained by training on the E2E-3M dataset. PhysBrain exhibits substantially improved egocentric understanding, particularly for planning on EgoThink. It provides an egocentric-aware initialization that enables more sample-efficient VLA fine-tuning and higher SimplerEnv success rates (53.9\%), demonstrating effective transfer from human egocentric supervision to downstream robot control.