PhysBrain 1.0 Informe Técnico

Resumen

Los modelos visión-lenguaje-acción han avanzado rápidamente, pero las trayectorias de robots por sí solas brindan una cobertura limitada para aprender una comprensión física amplia. PhysBrain 1.0 estudia una ruta complementaria: convertir video egocéntrico humano a gran escala en supervisión de sentido común físico estructurado antes de la adaptación del robot. Nuestro motor de datos extrae elementos de la escena, dinámicas espaciales, ejecución de acciones y relaciones conscientes de la profundidad, y los transforma en supervisión de preguntas y respuestas para entrenar los VLM de PhysBrain. Los priors físicos resultantes se transfieren además a políticas VLA a través de un diseño de adaptación que preserva la capacidad y es sensible al lenguaje. En diversos puntos de referencia de preguntas y respuestas multimodales y de control encarnado, incluidos ERQA, PhysBench, SimplerEnv-WidowX, LIBERO y RoboCasa, PhysBrain 1.0 logra resultados de vanguardia y muestra un rendimiento especialmente sólido fuera del dominio en SimplerEnv. Estos resultados sugieren que escalar el sentido común físico a partir de video de interacción humana puede proporcionar un puente efectivo desde la comprensión multimodal hasta la acción robótica.

English

Vision-language-action models have advanced rapidly, but robot trajectories alone provide limited coverage for learning broad physical understanding. PhysBrain 1.0 studies a complementary route: converting large-scale human egocentric video into structured physical commonsense supervision before robot adaptation. Our data engine extracts scene elements, spatial dynamics, action execution, and depth-aware relations, then turns them into question-answer supervision for training PhysBrain VLMs. The resulting physical priors are further transferred to VLA policies through a capability-preserving and language-sensitive adaptation design. Across multimodal QA benchmarks and embodied control benchmarks, including ERQA, PhysBench, SimplerEnv-WidowX, LIBERO, and RoboCasa, PhysBrain 1.0 achieves SOTA results and shows especially strong out-of-domain performance on SimplerEnv. These results suggest that scaling physical commonsense from human interaction video can provide an effective bridge from multimodal understanding to robot action.