휴머노이드 로봇을 위한 시각 기반 반응형 축구 기술 학습
Learning Vision-Driven Reactive Soccer Skills for Humanoid Robots
November 6, 2025
저자: Yushi Wang, Changsheng Luo, Penghui Chen, Jianran Liu, Weijian Sun, Tong Guo, Kechang Yang, Biao Hu, Yangang Zhang, Mingguo Zhao
cs.AI
초록
휴머노이드 축구는 구현된 지능의 대표적인 과제로, 로봇이 긴밀하게 결합된 인지-행동 루프 내에서 작동해야 합니다. 그러나 기존 시스템은 일반적으로 분리된 모듈에 의존하여 동적 환경에서 지연된 응답과 비일관적인 행동을 초래하며, 실제 세계의 인지적 한계는 이러한 문제를 더욱 악화시킵니다. 본 연구에서는 시각적 인지와 운동 제어의 직접적 통합을 통해 휴머노이드 로봇이 반응형 축구 기술을 습득할 수 있도록 하는 통합 강화 학습 기반 제어기를 제시합니다. 우리의 접근 방식은 Adversarial Motion Priors를 실제 동적 환경의 인지 설정으로 확장하여 운동 모방과 시각에 기반한 동적 제어를 연결합니다. 실제 세계의 시각적 특성을 모델링하는 가상 인지 시스템과 결합된 인코더-디코더 아키텍처를 도입하여 정책이 불완전한 관측으로부터 권한 상태를 복구하고 인지와 행동 간의 능동적 조정을 확립할 수 있도록 합니다. 결과적인 제어기는 강력한 반응성을 보여주며, 실제 로보컵 경기를 포함한 다양한 시나리오에서 일관되고 견고한 축구 행동을 꾸준히 실행합니다.
English
Humanoid soccer poses a representative challenge for embodied intelligence,
requiring robots to operate within a tightly coupled perception-action loop.
However, existing systems typically rely on decoupled modules, resulting in
delayed responses and incoherent behaviors in dynamic environments, while
real-world perceptual limitations further exacerbate these issues. In this
work, we present a unified reinforcement learning-based controller that enables
humanoid robots to acquire reactive soccer skills through the direct
integration of visual perception and motion control. Our approach extends
Adversarial Motion Priors to perceptual settings in real-world dynamic
environments, bridging motion imitation and visually grounded dynamic control.
We introduce an encoder-decoder architecture combined with a virtual perception
system that models real-world visual characteristics, allowing the policy to
recover privileged states from imperfect observations and establish active
coordination between perception and action. The resulting controller
demonstrates strong reactivity, consistently executing coherent and robust
soccer behaviors across various scenarios, including real RoboCup matches.