ChatPaper.aiChatPaper

PhysBrain: 인간 중심 데이터를 통한 시각 언어 모델에서 물리적 인텔리전스로의 연결다리

PhysBrain: Human Egocentric Data as a Bridge from Vision Language Models to Physical Intelligence

December 18, 2025
저자: Xiaopeng Lin, Shijie Lian, Bin Yu, Ruoqi Yang, Changti Wu, Yuzhuo Miao, Yurun Jin, Yukun Shi, Cong Huang, Bojun Cheng, Kai Chen
cs.AI

초록

로봇의 일반화 능력은 물리적 지능에 기반합니다. 이는 자기 중심적 인지와 행동 하에서 상태 변화, 접촉이 풍부한 상호작용, 그리고 장기 계획에 대해 추론하는 능력을 의미합니다. 그러나 대부분의 시각 언어 모델(VLM)은 주로 3인칭 시점 데이터로 훈련되어 휴머노이드 로봇에 있어 근본적인 시점 불일치 문제를 야기합니다. 높은 비용과 제한된 다양성으로 인해 로봇의 자기 중심적 데이터 수집을 대규모로 확장하는 것은 여전히 실용적이지 않은 반면, 대규모 인간 자기 중심 비디오는 풍부한 상호작용 맥락과 인과 구조를 자연스럽게 포착하는 확장 가능한 대안을 제공합니다. 핵심 과제는 원시 자기 중심 비디오를 구조화되고 신뢰할 수 있는 구현체(embodiment) 훈련 지도 정보로 변환하는 것입니다. 이에 따라 우리는 1인칭 비디오를 증거 기반 및 시간적 일관성이 강화된 다중 수준의 스키마 기반 VQA 지도 정보로 변환하는 Egocentric2Embodiment 변환 파이프라인을 제안하며, 이를 통해 대규모 Egocentric2Embodiment 데이터셋(E2E-3M) 구축을 가능하게 합니다. E2E-3M 데이터셋으로 훈련하여 얻은 자기 중심 인지 구현체 두뇌, 즉 PhysBrain은 EgoThink에서의 계획 수립을 비롯해 자기 중심적 이해 능력이 크게 향상되었습니다. PhysBrain은 더 높은 샘플 효율성을 갖는 VLA 미세 조정과 더 높은 SimplerEnv 성공률(53.9%)을 가능하게 하는 자기 중심 인지 기반 초기화를 제공하며, 인간의 자기 중심 지도 정보로부터 하류 로봇 제어로의 효과적인 전이를 입증합니다.
English
Robotic generalization relies on physical intelligence: the ability to reason about state changes, contact-rich interactions, and long-horizon planning under egocentric perception and action. However, most VLMs are trained primarily on third-person data, creating a fundamental viewpoint mismatch for humanoid robots. Scaling robot egocentric data collection remains impractical due to high cost and limited diversity, whereas large-scale human egocentric videos offer a scalable alternative that naturally capture rich interaction context and causal structure. The key challenge is to convert raw egocentric videos into structured and reliable embodiment training supervision. Accordingly, we propose an Egocentric2Embodiment translation pipeline that transforms first-person videos into multi-level, schema-driven VQA supervision with enforced evidence grounding and temporal consistency, enabling the construction of the Egocentric2Embodiment dataset (E2E-3M) at scale. An egocentric-aware embodied brain, termed PhysBrain, is obtained by training on the E2E-3M dataset. PhysBrain exhibits substantially improved egocentric understanding, particularly for planning on EgoThink. It provides an egocentric-aware initialization that enables more sample-efficient VLA fine-tuning and higher SimplerEnv success rates (53.9\%), demonstrating effective transfer from human egocentric supervision to downstream robot control.
PDF632December 23, 2025