PhysBrain 1.0 Technischer Bericht

Zusammenfassung

Vision-Sprache-Aktion-Modelle haben sich rasant weiterentwickelt, aber Roboter-Trajektorien allein bieten nur eine begrenzte Abdeckung für das Erlernen eines breiten physikalischen Verständnisses. PhysBrain 1.0 untersucht einen komplementären Weg: die Umwandlung von großflächigen egozentrischen Humanvideos in strukturierte physikalische Commonsense-Überwachung vor der Roboteradaption. Unsere Daten-Engine extrahiert Szenenelemente, räumliche Dynamiken, Aktionsausführungen und tiefenbewusste Beziehungen und wandelt sie in Frage-Antwort-Überwachung für das Training von PhysBrain-VLMs um. Die resultierenden physikalischen Priors werden weiterhin durch ein fähigkeitserhaltendes und sprachsensitives Adaptionsdesign auf VLA-Politiken übertragen. Über multimodale QA-Benchmarks und verkörperte Kontroll-Benchmarks hinweg, einschließlich ERQA, PhysBench, SimplerEnv-WidowX, LIBERO und RoboCasa, erzielt PhysBrain 1.0 SOTA-Ergebnisse und zeigt eine besonders starke Out-of-Domain-Leistung auf SimplerEnv. Diese Ergebnisse deuten darauf hin, dass die Skalierung von physikalischem Commonsense aus Humaninteraktionsvideo eine effektive Brücke vom multimodalen Verständnis zur Roboteraktion bieten kann.

English

Vision-language-action models have advanced rapidly, but robot trajectories alone provide limited coverage for learning broad physical understanding. PhysBrain 1.0 studies a complementary route: converting large-scale human egocentric video into structured physical commonsense supervision before robot adaptation. Our data engine extracts scene elements, spatial dynamics, action execution, and depth-aware relations, then turns them into question-answer supervision for training PhysBrain VLMs. The resulting physical priors are further transferred to VLA policies through a capability-preserving and language-sensitive adaptation design. Across multimodal QA benchmarks and embodied control benchmarks, including ERQA, PhysBench, SimplerEnv-WidowX, LIBERO, and RoboCasa, PhysBrain 1.0 achieves SOTA results and shows especially strong out-of-domain performance on SimplerEnv. These results suggest that scaling physical commonsense from human interaction video can provide an effective bridge from multimodal understanding to robot action.