ExoActor : Génération de vidéos exocentriques comme contrôle humanoïde interactif généralisable

Résumé

Les systèmes de contrôle humanoïdes ont réalisé des progrès significatifs ces dernières années, pourtant la modélisation de comportements fluides et riches en interactions entre un robot, son environnement et les objets pertinents pour la tâche reste un défi fondamental. Cette difficulté provient de la nécessité de capturer conjointement à grande échelle le contexte spatial, la dynamique temporelle, les actions du robot et l'intention de la tâche, ce qui correspond mal aux méthodes de supervision conventionnelles. Nous proposons ExoActor, un nouveau cadre qui exploite les capacités de généralisation des modèles de génération vidéo à grande échelle pour résoudre ce problème. L'idée clé d'ExoActor est d'utiliser la génération vidéo à la troisième personne comme interface unifiée pour modéliser la dynamique des interactions. Étant donné une instruction de tâche et un contexte de scène, ExoActor synthétise des processus d'exécution plausibles qui encodent implicitement des interactions coordonnées entre le robot, l'environnement et les objets. Cette sortie vidéo est ensuite transformée en comportements humanoïdes exécutables via un pipeline qui estime le mouvement humain et l'exécute via un contrôleur de mouvement général, produisant ainsi une séquence comportementale conditionnée par la tâche. Pour valider le cadre proposé, nous l'implémentons comme un système de bout en bout et démontrons sa capacité de généralisation à de nouveaux scénarios sans collecte supplémentaire de données réelles. Enfin, nous concluons en discutant des limitations de l'implémentation actuelle et en esquissant des pistes prometteuses pour les recherches futures, illustrant comment ExoActor offre une approche évolutive pour modéliser des comportements humanoïdes riches en interactions, ouvrant potentiellement une nouvelle voie pour que les modèles génératifs fassent progresser l'intelligence humanoïde généraliste.

English

Humanoid control systems have made significant progress in recent years, yet modeling fluent interaction-rich behavior between a robot, its surrounding environment, and task-relevant objects remains a fundamental challenge. This difficulty arises from the need to jointly capture spatial context, temporal dynamics, robot actions, and task intent at scale, which is a poor match to conventional supervision. We propose ExoActor, a novel framework that leverages the generalization capabilities of large-scale video generation models to address this problem. The key insight in ExoActor is to use third-person video generation as a unified interface for modeling interaction dynamics. Given a task instruction and scene context, ExoActor synthesizes plausible execution processes that implicitly encode coordinated interactions between robot, environment, and objects. Such video output is then transformed into executable humanoid behaviors through a pipeline that estimates human motion and executes it via a general motion controller, yielding a task-conditioned behavior sequence. To validate the proposed framework, we implement it as an end-to-end system and demonstrate its generalization to new scenarios without additional real-world data collection. Furthermore, we conclude by discussing limitations of the current implementation and outlining promising directions for future research, illustrating how ExoActor provides a scalable approach to modeling interaction-rich humanoid behaviors, potentially opening a new avenue for generative models to advance general-purpose humanoid intelligence.

ExoActor : Génération de vidéos exocentriques comme contrôle humanoïde interactif généralisable

ExoActor: Exocentric Video Generation as Generalizable Interactive Humanoid Control

Résumé

Support