Roboter benötigen mehr als VLA und Weltmodelle.

Zusammenfassung

Generelle Roboterintelligenz wird häufig als Problem der Skalierung von Verhaltensstrategien betrachtet: Sammle mehr Roboterdemonstrationen, trainiere größere Vision-Language-Action (VLA)-Modelle und erwarte eine breitere Generalisierung. In diesem Positionspapier argumentieren wir, dass diese Sichtweise unvollständig ist. Der zentrale Engpass liegt nicht allein im Erlernen von Strategien, sondern im Fehlen von Mechanismen, die die reichhaltigen unstrukturierten Verhaltensdaten der Welt in fundierte Roboterüberwachung umwandeln. Menschliche Bewegungen, Internetvideos, Simulationsdurchläufe und interaktive Demonstrationen enthalten umfangreiche Informationen über Aufgaben, Ziele, Kontakte, Fehler und physikalische Zwänge, doch die meiste dieser Information ist für Roboterstrategien nicht direkt nutzbar, da ihr verkörperungsspezifische Aktionsbezeichnungen, Aufgabensemantik und Belohnungsstrukturen fehlen. Wir identifizieren vier fehlende Komponenten für die nächste Generation der Robotik: Datenschnittstellen zur automatischen Beschriftung unstrukturierten Verhaltens, Verkörperungsschnittstellen zur Übertragung menschlicher Bewegungen auf Roboteraktionen, Weltmodell-Schnittstellen für physikalisch fundiertes 3D-Denken sowie Belohnungsschnittstellen zur Ableitung von Aufgabenfortschritt und -erfolg aus Videos und Sprache. Wir geben einen Überblick über aktuelle Fortschritte bei Roboter-Grundlagenmodellen, körperübergreifenden Datensätzen, Lernen aus Videos, Weltmodellen und Belohnungsmodellierung und schlagen eine Forschungsagenda vor, um Robotersysteme zu entwickeln, die nicht nur aus Roboterdemonstrationen, sondern aus der breiteren physikalischen Welt lernen können.

English

Generalist robot intelligence is often framed as a policy-scaling problem: collect more robot demonstrations, train larger Vision-Language-Action (VLA) models, and expect broader generalisation. In this position paper, we argue that this framing is incomplete. The central bottleneck is not only policy learning, but the absence of mechanisms that convert the world's abundant unstructured behavioural data into grounded robot supervision. Human motion, internet video, simulation rollouts, and interactive demonstrations contain rich information about tasks, goals, contacts, failures, and physical constraints, yet most of this information is not directly usable by robot policies because it lacks embodiment-specific action labels, task semantics, and reward structure. We identify four missing components for the next generation of robotics: data interfaces for autolabelling unstructured behaviour, embodiment interfaces for retargeting human motion to robot actions, world-model interfaces for physics-grounded 3D reasoning, and reward interfaces for inferring task progress and success from video and language. We survey recent progress in robot foundation models, cross-embodiment datasets, learning from video, world models, and reward modelling, and propose a research agenda for building robotics systems that can learn not only from robot demonstrations, but from the broader physical world.