Robots hebben meer nodig dan VLA en wereldmodellen

Samenvatting

Algemene robotintelligentie wordt vaak gezien als een beleidsschalingsprobleem: verzamel meer robotdemonstraties, train grotere Visie-Taal-Actie (VTA)-modellen en verwacht bredere generalisatie. In dit standpuntartikel stellen wij dat deze framing onvolledig is. De centrale bottleneck is niet alleen het leren van beleid, maar de afwezigheid van mechanismen die de overvloedige ongestructureerde gedragsgegevens van de wereld omzetten in verankerde robotsupervisie. Menselijke beweging, internetvideo, simulatie-uitrols en interactieve demonstraties bevatten rijke informatie over taken, doelen, contacten, mislukkingen en fysieke beperkingen, maar het meeste van deze informatie is niet direct bruikbaar door robotbeleid omdat het ontbreekt aan belichaamingspecifieke actielabels, taaksemantiek en beloningsstructuur. Wij identificeren vier ontbrekende componenten voor de volgende generatie robotica: data-interfaces voor automatische labeling van ongestructureerd gedrag, belichamingsinterfaces voor het omzetten van menselijke beweging naar robotacties, wereldmodel-interfaces voor natuurkundig onderbouwde 3D-redenering en beloningsinterfaces voor het afleiden van taakvoortgang en -succes uit video en taal. Wij overzien de recente vooruitgang in robotfundamentmodellen, cross-belichamingsdatasets, leren van video, wereldmodellen en beloningsmodellering, en stellen een onderzoeksagenda voor voor het bouwen van robotsystemen die niet alleen kunnen leren van robotdemonstraties, maar van de bredere fysieke wereld.

English

Generalist robot intelligence is often framed as a policy-scaling problem: collect more robot demonstrations, train larger Vision-Language-Action (VLA) models, and expect broader generalisation. In this position paper, we argue that this framing is incomplete. The central bottleneck is not only policy learning, but the absence of mechanisms that convert the world's abundant unstructured behavioural data into grounded robot supervision. Human motion, internet video, simulation rollouts, and interactive demonstrations contain rich information about tasks, goals, contacts, failures, and physical constraints, yet most of this information is not directly usable by robot policies because it lacks embodiment-specific action labels, task semantics, and reward structure. We identify four missing components for the next generation of robotics: data interfaces for autolabelling unstructured behaviour, embodiment interfaces for retargeting human motion to robot actions, world-model interfaces for physics-grounded 3D reasoning, and reward interfaces for inferring task progress and success from video and language. We survey recent progress in robot foundation models, cross-embodiment datasets, learning from video, world models, and reward modelling, and propose a research agenda for building robotics systems that can learn not only from robot demonstrations, but from the broader physical world.