Robôs Precisam de Mais do que VLA e Modelos de Mundo

Resumo

A inteligência robótica generalista é frequentemente enquadrada como um problema de escalonamento de políticas: coletar mais demonstrações robóticas, treinar modelos Visão-Linguagem-Ação (VLA) maiores e esperar uma generalização mais ampla. Neste artigo de posição, argumentamos que esse enquadramento é incompleto. O gargalo central não é apenas o aprendizado de políticas, mas a ausência de mecanismos que convertam os abundantes dados comportamentais não estruturados do mundo em supervisão fundamentada para robôs. Movimento humano, vídeo da internet, simulações de rollout e demonstrações interativas contêm informações ricas sobre tarefas, objetivos, contatos, falhas e restrições físicas; no entanto, a maior parte dessas informações não é diretamente utilizável por políticas robóticas por carecer de rótulos de ações específicos da corporificação, semântica de tarefas e estrutura de recompensa. Identificamos quatro componentes ausentes para a próxima geração da robótica: interfaces de dados para rotulagem automática de comportamento não estruturado, interfaces de corporificação para redirecionar movimento humano a ações robóticas, interfaces de modelo de mundo para raciocínio 3D fundamentado na física e interfaces de recompensa para inferir progresso e sucesso de tarefas a partir de vídeo e linguagem. Revisamos progressos recentes em modelos fundamentais de robótica, conjuntos de dados de múltiplas corporificações, aprendizado a partir de vídeos, modelos de mundo e modelagem de recompensa, e propomos uma agenda de pesquisa para construir sistemas robóticos que possam aprender não apenas a partir de demonstrações robóticas, mas do mundo físico mais amplo.

English

Generalist robot intelligence is often framed as a policy-scaling problem: collect more robot demonstrations, train larger Vision-Language-Action (VLA) models, and expect broader generalisation. In this position paper, we argue that this framing is incomplete. The central bottleneck is not only policy learning, but the absence of mechanisms that convert the world's abundant unstructured behavioural data into grounded robot supervision. Human motion, internet video, simulation rollouts, and interactive demonstrations contain rich information about tasks, goals, contacts, failures, and physical constraints, yet most of this information is not directly usable by robot policies because it lacks embodiment-specific action labels, task semantics, and reward structure. We identify four missing components for the next generation of robotics: data interfaces for autolabelling unstructured behaviour, embodiment interfaces for retargeting human motion to robot actions, world-model interfaces for physics-grounded 3D reasoning, and reward interfaces for inferring task progress and success from video and language. We survey recent progress in robot foundation models, cross-embodiment datasets, learning from video, world models, and reward modelling, and propose a research agenda for building robotics systems that can learn not only from robot demonstrations, but from the broader physical world.