ヒューマノイドロボットのための視覚駆動型反応的サッカー技能の学習
Learning Vision-Driven Reactive Soccer Skills for Humanoid Robots
November 6, 2025
著者: Yushi Wang, Changsheng Luo, Penghui Chen, Jianran Liu, Weijian Sun, Tong Guo, Kechang Yang, Biao Hu, Yangang Zhang, Mingguo Zhao
cs.AI
要旨
ヒューマノイドサッカーは、身体性知能における代表的な課題であり、ロボットが密結合された知覚-行動ループ内で動作することを要求する。しかしながら、既存のシステムは一般に分離されたモジュールに依存しており、動的環境において遅延応答や一貫性のない動作を生じさせている。さらに、実世界の知覚的制限がこれらの問題を悪化させている。本研究では、視覚知覚と動作制御を直接統合することで、ヒューマノイドロボットが反応的なサッカー技能を獲得することを可能にする、強化学習に基づく統合型コントローラを提案する。本手法は、Adversarial Motion Priorsを実世界の動的環境における知覚的設定に拡張し、動作模倣と視覚に基づく動的制御を架橋する。実世界の視覚的特性をモデル化する仮想知覚システムと組み合わせたエンコーダ-デコーダ構造を導入し、政策が不完全な観測から特権状態を回復し、知覚と行動の間の能動的協調を確立することを可能にする。結果として得られるコントローラは、実世界のRoboCup試合を含む様々なシナリオにおいて、一貫性のある堅牢なサッカー動作を持続的に実行する強い反応性を示す。
English
Humanoid soccer poses a representative challenge for embodied intelligence,
requiring robots to operate within a tightly coupled perception-action loop.
However, existing systems typically rely on decoupled modules, resulting in
delayed responses and incoherent behaviors in dynamic environments, while
real-world perceptual limitations further exacerbate these issues. In this
work, we present a unified reinforcement learning-based controller that enables
humanoid robots to acquire reactive soccer skills through the direct
integration of visual perception and motion control. Our approach extends
Adversarial Motion Priors to perceptual settings in real-world dynamic
environments, bridging motion imitation and visually grounded dynamic control.
We introduce an encoder-decoder architecture combined with a virtual perception
system that models real-world visual characteristics, allowing the policy to
recover privileged states from imperfect observations and establish active
coordination between perception and action. The resulting controller
demonstrates strong reactivity, consistently executing coherent and robust
soccer behaviors across various scenarios, including real RoboCup matches.