Los robots necesitan más que VLA y modelos del mundo.

Resumen

La inteligencia robótica generalista a menudo se plantea como un problema de escalado de políticas: recopilar más demostraciones robóticas, entrenar modelos de Visión-Lenguaje-Acción (VLA) más grandes y esperar una generalización más amplia. En este artículo de posición, argumentamos que este planteamiento es incompleto. El cuello de botella central no es solo el aprendizaje de políticas, sino la ausencia de mecanismos que conviertan los abundantes datos conductuales no estructurados del mundo en supervisión robótica fundamentada. El movimiento humano, el video de internet, las secuencias de simulación y las demostraciones interactivas contienen información rica sobre tareas, objetivos, contactos, fallos y restricciones físicas; sin embargo, la mayor parte de esta información no es directamente utilizable por las políticas robóticas porque carece de etiquetas de acción específicas del cuerpo, semántica de la tarea y estructura de recompensa. Identificamos cuatro componentes faltantes para la próxima generación de robótica: interfaces de datos para el etiquetado automático del comportamiento no estructurado, interfaces de corporeidad para redirigir el movimiento humano a acciones robóticas, interfaces de modelos del mundo para el razonamiento 3D fundamentado en la física, e interfaces de recompensa para inferir el progreso y el éxito de la tarea a partir de video y lenguaje. Revisamos el progreso reciente en modelos fundacionales robóticos, conjuntos de datos entre cuerpos, aprendizaje a partir de video, modelos del mundo y modelado de recompensas, y proponemos una agenda de investigación para construir sistemas robóticos que puedan aprender no solo de demostraciones robóticas, sino del mundo físico en general.

English

Generalist robot intelligence is often framed as a policy-scaling problem: collect more robot demonstrations, train larger Vision-Language-Action (VLA) models, and expect broader generalisation. In this position paper, we argue that this framing is incomplete. The central bottleneck is not only policy learning, but the absence of mechanisms that convert the world's abundant unstructured behavioural data into grounded robot supervision. Human motion, internet video, simulation rollouts, and interactive demonstrations contain rich information about tasks, goals, contacts, failures, and physical constraints, yet most of this information is not directly usable by robot policies because it lacks embodiment-specific action labels, task semantics, and reward structure. We identify four missing components for the next generation of robotics: data interfaces for autolabelling unstructured behaviour, embodiment interfaces for retargeting human motion to robot actions, world-model interfaces for physics-grounded 3D reasoning, and reward interfaces for inferring task progress and success from video and language. We survey recent progress in robot foundation models, cross-embodiment datasets, learning from video, world models, and reward modelling, and propose a research agenda for building robotics systems that can learn not only from robot demonstrations, but from the broader physical world.