ExoActor: Exocentrische videogeneratie als generaliseerbare interactieve humanoïde besturing
ExoActor: Exocentric Video Generation as Generalizable Interactive Humanoid Control
April 30, 2026
Auteurs: Yanghao Zhou, Jingyu Ma, Yibo Peng, Zhenguo Sun, Yu Bai, Börje F. Karlsson
cs.AI
Samenvatting
Humanoïde besturingssystemen hebben de afgelopen jaren aanzienlijke vooruitgang geboekt, maar het modelleren van vloeiende, interactierijke gedragingen tussen een robot, zijn omgeving en taakrelevante objecten blijft een fundamentele uitdaging. Deze moeilijkheid ontstaat door de noodzaak om ruimtelijke context, temporele dynamiek, robotacties en taakintentie op schaal gezamenlijk vast te leggen, wat slecht aansluit bij conventionele supervisie. Wij stellen ExoActor voor, een nieuw raamwerk dat de generalisatiecapaciteiten van grootschalige videogeneratiemodellen benut om dit probleem aan te pakken. Het kerninzicht van ExoActor is het gebruik van derdepersoonsvideogeneratie als een uniforme interface voor het modelleren van interactiedynamiek. Gegeven een taakinstructie en scènecontext synthetiseert ExoActor plausibele uitvoeringsprocessen die gecoördineerde interacties tussen robot, omgeving en objecten impliciet coderen. Deze video-uitvoer wordt vervolgens omgezet in uitvoerbare humanoïde gedragingen via een pijplijn die menselijke beweging schat en deze uitvoert via een algemene bewegingcontroller, wat resulteert in een taakgeconditioneerde gedragsreeks. Om het voorgestelde raamwerk te valideren, implementeren we het als een end-to-endsysteem en demonstreren we de generalisatie naar nieuwe scenario's zonder aanvullende dataverzameling in de echte wereld. Tot slot bespreken we de beperkingen van de huidige implementatie en schetsen we veelbelovende onderzoeksrichtingen, waarbij we illustreren hoe ExoActor een schaalbare aanpak biedt voor het modelleren van interactierijke humanoïde gedragingen, wat mogelijk een nieuwe weg opent voor generatieve modellen om algemeen bruikbare humanoïde intelligentie te bevorderen.
English
Humanoid control systems have made significant progress in recent years, yet modeling fluent interaction-rich behavior between a robot, its surrounding environment, and task-relevant objects remains a fundamental challenge. This difficulty arises from the need to jointly capture spatial context, temporal dynamics, robot actions, and task intent at scale, which is a poor match to conventional supervision. We propose ExoActor, a novel framework that leverages the generalization capabilities of large-scale video generation models to address this problem. The key insight in ExoActor is to use third-person video generation as a unified interface for modeling interaction dynamics. Given a task instruction and scene context, ExoActor synthesizes plausible execution processes that implicitly encode coordinated interactions between robot, environment, and objects. Such video output is then transformed into executable humanoid behaviors through a pipeline that estimates human motion and executes it via a general motion controller, yielding a task-conditioned behavior sequence. To validate the proposed framework, we implement it as an end-to-end system and demonstrate its generalization to new scenarios without additional real-world data collection. Furthermore, we conclude by discussing limitations of the current implementation and outlining promising directions for future research, illustrating how ExoActor provides a scalable approach to modeling interaction-rich humanoid behaviors, potentially opening a new avenue for generative models to advance general-purpose humanoid intelligence.