ChatPaper.aiChatPaper

InterPrior: 物理ベースの人間-物体相互作用における生成的制御のスケーリング

InterPrior: Scaling Generative Control for Physics-Based Human-Object Interactions

February 5, 2026
著者: Sirui Xu, Samuel Schulter, Morteza Ziyadi, Xialin He, Xiaohan Fei, Yu-Xiong Wang, Liangyan Gui
cs.AI

要旨

人間は、明示的な全身運動のレベルで物体との全身的相互作用を計画することは稀である。アフォーダンスのような高次意図が目標を定義する一方で、協調的なバランス、接触、操作は、基礎となる物理的・運動的な事前分布から自然に創発しうる。このような事前分布を拡張することは、ヒューマノイドが多様な文脈において物理的に一貫した全身協調を維持しつつ、移動操作スキルを構成し一般化することを可能にする鍵である。この目的のために、我々はInterPriorを提案する。これは大規模模倣事前学習と強化学習による事後学習を通じて、統合的な生成制御器を学習するスケーラブルなフレームワークである。InterPriorはまず、完全参照模倣エキスパートから、多様な観測と高次意図から動作を再構築する、目標条件付きの多目的な変分方策を蒸留する。蒸留された方策は学習した動作を再構築するが、大規模な人間-物体相互作用の広大な構成空間のために信頼性のある一般化はできない。この問題に対処するため、物理的摂動を伴うデータ拡張を適用し、続いて強化学習によるファインチューニングを実行して、未見の目標や初期化に対する性能を向上させる。これらのステップを組み合わせることで、再構築された潜在スキルを有効な多様体に統合し、学習データを超えて一般化する動作事前分布を生成する(例えば、未見の物体との相互作用のような新しい行動を取り込むことができる)。さらに、ユーザー対話型制御における有効性と、実ロボットへの展開可能性を実証する。
English
Humans rarely plan whole-body interactions with objects at the level of explicit whole-body movements. High-level intentions, such as affordance, define the goal, while coordinated balance, contact, and manipulation can emerge naturally from underlying physical and motor priors. Scaling such priors is key to enabling humanoids to compose and generalize loco-manipulation skills across diverse contexts while maintaining physically coherent whole-body coordination. To this end, we introduce InterPrior, a scalable framework that learns a unified generative controller through large-scale imitation pretraining and post-training by reinforcement learning. InterPrior first distills a full-reference imitation expert into a versatile, goal-conditioned variational policy that reconstructs motion from multimodal observations and high-level intent. While the distilled policy reconstructs training behaviors, it does not generalize reliably due to the vast configuration space of large-scale human-object interactions. To address this, we apply data augmentation with physical perturbations, and then perform reinforcement learning finetuning to improve competence on unseen goals and initializations. Together, these steps consolidate the reconstructed latent skills into a valid manifold, yielding a motion prior that generalizes beyond the training data, e.g., it can incorporate new behaviors such as interactions with unseen objects. We further demonstrate its effectiveness for user-interactive control and its potential for real robot deployment.
PDF153February 7, 2026