ChatPaper.aiChatPaper

PhysBrain 1.0 Informe Técnico

PhysBrain 1.0 Technical Report

May 14, 2026
Autores: Shijie Lian, Bin Yu, Xiaopeng Lin, Changti Wu, Hang Yuan, Xiaolin Hu, Zhaolong Shen, Yuzhuo Miao, Haishan Liu, Yuxuan Tian, Yukun Shi, Cong Huang, Kai Chen
cs.AI

Resumen

Los modelos visión-lenguaje-acción han avanzado rápidamente, pero las trayectorias de robots por sí solas brindan una cobertura limitada para aprender una comprensión física amplia. PhysBrain 1.0 estudia una ruta complementaria: convertir video egocéntrico humano a gran escala en supervisión de sentido común físico estructurado antes de la adaptación del robot. Nuestro motor de datos extrae elementos de la escena, dinámicas espaciales, ejecución de acciones y relaciones conscientes de la profundidad, y los transforma en supervisión de preguntas y respuestas para entrenar los VLM de PhysBrain. Los priors físicos resultantes se transfieren además a políticas VLA a través de un diseño de adaptación que preserva la capacidad y es sensible al lenguaje. En diversos puntos de referencia de preguntas y respuestas multimodales y de control encarnado, incluidos ERQA, PhysBench, SimplerEnv-WidowX, LIBERO y RoboCasa, PhysBrain 1.0 logra resultados de vanguardia y muestra un rendimiento especialmente sólido fuera del dominio en SimplerEnv. Estos resultados sugieren que escalar el sentido común físico a partir de video de interacción humana puede proporcionar un puente efectivo desde la comprensión multimodal hasta la acción robótica.
English
Vision-language-action models have advanced rapidly, but robot trajectories alone provide limited coverage for learning broad physical understanding. PhysBrain 1.0 studies a complementary route: converting large-scale human egocentric video into structured physical commonsense supervision before robot adaptation. Our data engine extracts scene elements, spatial dynamics, action execution, and depth-aware relations, then turns them into question-answer supervision for training PhysBrain VLMs. The resulting physical priors are further transferred to VLA policies through a capability-preserving and language-sensitive adaptation design. Across multimodal QA benchmarks and embodied control benchmarks, including ERQA, PhysBench, SimplerEnv-WidowX, LIBERO, and RoboCasa, PhysBrain 1.0 achieves SOTA results and shows especially strong out-of-domain performance on SimplerEnv. These results suggest that scaling physical commonsense from human interaction video can provide an effective bridge from multimodal understanding to robot action.