PhysBrain: человеческие эгоцентричные данные как мост от визуально-языковых моделей к физическому интеллекту
PhysBrain: Human Egocentric Data as a Bridge from Vision Language Models to Physical Intelligence
December 18, 2025
Авторы: Xiaopeng Lin, Shijie Lian, Bin Yu, Ruoqi Yang, Changti Wu, Yuzhuo Miao, Yurun Jin, Yukun Shi, Cong Huang, Bojun Cheng, Kai Chen
cs.AI
Аннотация
Роботизированная генерализация опирается на физический интеллект: способность рассуждать об изменениях состояний, контактно-насыщенных взаимодействиях и долгосрочном планировании в условиях эгоцентрического восприятия и действия. Однако большинство VLMs обучаются преимущественно на данных от третьего лица, что создает фундаментальное несоответствие точек зрения для гуманоидных роботов. Масштабирование сбора эгоцентрических данных для роботов остается непрактичным из-за высокой стоимости и ограниченного разнообразия, тогда как крупномасштабные эгоцентрические видеозаписи человека предлагают масштабируемую альтернативу, естественным образом фиксирующую богатый контекст взаимодействий и причинную структуру. Ключевая задача заключается в преобразовании сырых эгоцентрических видео в структурированный и надежный контроль обучения воплощению. Соответственно, мы предлагаем конвейер перевода Egocentric2Embodiment, который преобразует видео от первого лица в многоуровневый, схема-управляемый VQA-контроль с принудительным обоснованием доказательств и временной согласованностью, позволяя масштабное построение набора данных Egocentric2Embodiment (E2E-3M). Эгоцентрически-осознанный воплощенный интеллект, названный PhysBrain, получается путем обучения на наборе данных E2E-3M. PhysBrain демонстрирует существенно улучшенное эгоцентрическое понимание, особенно для планирования в EgoThink. Он обеспечивает эгоцентрически-осознанную инициализацию, которая позволяет более эффективное дообучение VLA с точки зрения выборок и более высокие показатели успеха в SimplerEnv (53.9%), демонстрируя эффективный перенос контроля с эгоцентрических данных человека на последующее управление роботами.
English
Robotic generalization relies on physical intelligence: the ability to reason about state changes, contact-rich interactions, and long-horizon planning under egocentric perception and action. However, most VLMs are trained primarily on third-person data, creating a fundamental viewpoint mismatch for humanoid robots. Scaling robot egocentric data collection remains impractical due to high cost and limited diversity, whereas large-scale human egocentric videos offer a scalable alternative that naturally capture rich interaction context and causal structure. The key challenge is to convert raw egocentric videos into structured and reliable embodiment training supervision. Accordingly, we propose an Egocentric2Embodiment translation pipeline that transforms first-person videos into multi-level, schema-driven VQA supervision with enforced evidence grounding and temporal consistency, enabling the construction of the Egocentric2Embodiment dataset (E2E-3M) at scale. An egocentric-aware embodied brain, termed PhysBrain, is obtained by training on the E2E-3M dataset. PhysBrain exhibits substantially improved egocentric understanding, particularly for planning on EgoThink. It provides an egocentric-aware initialization that enables more sample-efficient VLA fine-tuning and higher SimplerEnv success rates (53.9\%), demonstrating effective transfer from human egocentric supervision to downstream robot control.