ChatPaper.aiChatPaper

샘플 효율적인 연속 제어를 위한 편향 제거된 모델 기반 표현

Debiased Model-based Representations for Sample-efficient Continuous Control

May 12, 2026
저자: Jiafei Lyu, Zichuan Lin, Scott Fujimoto, Kai Yang, Yangkun Chen, Saiyong Yang, Zongqing Lu, Deheng Ye
cs.AI

초록

모델 기반 표현(model-based representations)은 최근 잠재 동역학 정보를 표현에 내재화하여 오프-폴리시 행위자-비평가 학습에 활용하는 유망한 프레임워크로 부각되고 있다. 이는 모델 프리와 모델 기반 접근법의 장점을 암묵적으로 결합하면서도 모델 기반 방법에 수반되는 학습 비용을 회피한다. 그럼에도 불구하고, 기존의 모델 기반 표현 방법은 관련 변수에 대한 충분한 정보를 포착하지 못하고 리플레이 버퍼의 초기 경험에 과적합될 수 있다. 이는 표현 및 행위자-비평가 학습에 편향을 초래하여 성능 저하로 이어진다. 이러한 문제를 해결하기 위해, 우리는 DR.Q 알고리즘이라 명명된 Q-학습을 위한 디바이어스드 모델 기반 표현(Debiased model-based Representations for Q-learning)을 제안한다. DR.Q는 현재 상태-행동 쌍과 다음 상태 간의 상호 정보를 명시적으로 최대화하는 동시에 이들의 편차를 최소화하며, 페이딩 우선순위 경험 재생(faded prioritized experience replay)을 통해 전이를 샘플링한다. 우리는 단일 하이퍼파라미터 세트로 다양한 연속 제어 벤치마크에서 DR.Q를 평가하였으며, 그 결과 DR.Q가 최근의 강력한 기준선과 일치하거나 이를 능가하며, 때로는 큰 폭으로 더 나은 성능을 보임을 입증하였다. 우리의 코드는 https://github.com/dmksjfl/DR.Q에서 확인할 수 있다.
English
Model-based representations recently stand out as a promising framework that embeds latent dynamics information into the representations for downstream off-policy actor-critic learning. It implicitly combines the advantages of both model-free and model-based approaches while avoiding the training costs associated with model-based methods. Nevertheless, existing model-based representation methods can fail to capture sufficient information about relevant variables and can overfit to early experiences in the replay buffer. These incur biases in representation and actor-critic learning, leading to inferior performance. To address this, we propose Debiased model-based Representations for Q-learning, tagged DR.Q algorithm. DR.Q explicitly maximizes the mutual information between the representations of the current state-action pair and the next state besides minimizing their deviations, and samples transitions with faded prioritized experience replay. We evaluate DR.Q on numerous continuous control benchmarks with a single set of hyperparameters, and the results demonstrate that DR.Q can match or surpass recent strong baselines, sometimes outperforming them by a large margin. Our code is available at https://github.com/dmksjfl/DR.Q.
PDF71May 14, 2026