InterPrior : Mise à l'échelle du contrôle génératif pour les interactions physiques humain-objet
InterPrior: Scaling Generative Control for Physics-Based Human-Object Interactions
February 5, 2026
papers.authors: Sirui Xu, Samuel Schulter, Morteza Ziyadi, Xialin He, Xiaohan Fei, Yu-Xiong Wang, Liangyan Gui
cs.AI
papers.abstract
Les humains planifient rarement les interactions corps entier avec des objets au niveau des mouvements explicites du corps entier. Des intentions de haut niveau, telles que l'affordance, définissent l'objectif, tandis que l'équilibre coordonné, le contact et la manipulation peuvent émerger naturellement de connaissances préalables physiques et motrices sous-jacentes. L'extrapolation de ces connaissances préalables est essentielle pour permettre aux humanoïdes de composer et de généraliser les compétences de loco-manipulation dans divers contextes tout en maintenant une coordination corps entier physiquement cohérente. À cette fin, nous présentons InterPrior, un cadre évolutif qui apprend un contrôleur génératif unifié grâce à un pré-entraînement par imitation à grande échelle suivi d'un post-entraînement par apprentissage par renforcement. InterPrior distille d'abord un expert d'imitation de référence complète en une politique variationnelle polyvalente conditionnée par un objectif, qui reconstruit le mouvement à partir d'observations multimodales et d'une intention de haut niveau. Bien que la politique distillée reconstruise les comportements d'entraînement, elle ne généralise pas de manière fiable en raison du vaste espace de configuration des interactions humain-objet à grande échelle. Pour remédier à cela, nous appliquons une augmentation de données avec des perturbations physiques, puis effectuons un micro-ajustement par apprentissage par renforcement pour améliorer les compétences sur des objectifs et des initialisations non vus. Ensemble, ces étapes consolident les compétences latentes reconstruites en une variété valide, produisant une connaissance préalable du mouvement qui généralise au-delà des données d'entraînement, par exemple en incorporant de nouveaux comportements tels que des interactions avec des objets non vus. Nous démontrons en outre son efficacité pour le contrôle interactif de l'utilisateur et son potentiel pour un déploiement sur robot réel.
English
Humans rarely plan whole-body interactions with objects at the level of explicit whole-body movements. High-level intentions, such as affordance, define the goal, while coordinated balance, contact, and manipulation can emerge naturally from underlying physical and motor priors. Scaling such priors is key to enabling humanoids to compose and generalize loco-manipulation skills across diverse contexts while maintaining physically coherent whole-body coordination. To this end, we introduce InterPrior, a scalable framework that learns a unified generative controller through large-scale imitation pretraining and post-training by reinforcement learning. InterPrior first distills a full-reference imitation expert into a versatile, goal-conditioned variational policy that reconstructs motion from multimodal observations and high-level intent. While the distilled policy reconstructs training behaviors, it does not generalize reliably due to the vast configuration space of large-scale human-object interactions. To address this, we apply data augmentation with physical perturbations, and then perform reinforcement learning finetuning to improve competence on unseen goals and initializations. Together, these steps consolidate the reconstructed latent skills into a valid manifold, yielding a motion prior that generalizes beyond the training data, e.g., it can incorporate new behaviors such as interactions with unseen objects. We further demonstrate its effectiveness for user-interactive control and its potential for real robot deployment.