PhysBrain 1.0 Technisch Rapport

Samenvatting

Visie-taal-actiemodellen hebben zich snel ontwikkeld, maar robotbanen alleen bieden beperkte dekking voor het leren van brede fysieke kennis. PhysBrain 1.0 bestudeert een complementaire route: het omzetten van grootschalige menselijke egocentrische video naar gestructureerde fysieke common sense-supervisie vóór robotaanpassing. Onze data-engine extraheert scène-elementen, ruimtelijke dynamiek, actie-uitvoering en dieptebewuste relaties, en zet deze vervolgens om in vraag-antwoordsupervisie voor het trainen van PhysBrain VLM's. De resulterende fysieke voorkennis wordt verder overgedragen naar VLA-beleid via een capaciteitsbehoudend en taalgevoelig aanpassingsontwerp. Over multimodale QA-benchmarks en embodied control-benchmarks, waaronder ERQA, PhysBench, SimplerEnv-WidowX, LIBERO en RoboCasa, behaalt PhysBrain 1.0 SOTA-resultaten en vertoont het bijzonder sterke out-of-domain-prestaties op SimplerEnv. Deze resultaten suggereren dat het opschalen van fysieke common sense uit menselijke interactievideo een effectieve brug kan vormen van multimodaal begrip naar robotactie.

English

Vision-language-action models have advanced rapidly, but robot trajectories alone provide limited coverage for learning broad physical understanding. PhysBrain 1.0 studies a complementary route: converting large-scale human egocentric video into structured physical commonsense supervision before robot adaptation. Our data engine extracts scene elements, spatial dynamics, action execution, and depth-aware relations, then turns them into question-answer supervision for training PhysBrain VLMs. The resulting physical priors are further transferred to VLA policies through a capability-preserving and language-sensitive adaptation design. Across multimodal QA benchmarks and embodied control benchmarks, including ERQA, PhysBench, SimplerEnv-WidowX, LIBERO, and RoboCasa, PhysBrain 1.0 achieves SOTA results and shows especially strong out-of-domain performance on SimplerEnv. These results suggest that scaling physical commonsense from human interaction video can provide an effective bridge from multimodal understanding to robot action.