ChatPaper.aiChatPaper

비전 분야에서의 강화 학습: 연구 동향 분석

Reinforcement Learning in Vision: A Survey

August 11, 2025
저자: Weijia Wu, Chen Gao, Joya Chen, Kevin Qinghong Lin, Qingwei Meng, Yiming Zhang, Yuke Qiu, Hong Zhou, Mike Zheng Shou
cs.AI

초록

강화 학습(RL)과 시각 지능의 교차점에서의 최근 발전은 복잡한 시각적 장면을 인지할 뿐만 아니라 그 안에서 추론, 생성, 행동할 수 있는 에이전트를 가능하게 했습니다. 본 조사는 이 분야에 대한 비판적이고 최신의 종합을 제공합니다. 먼저 시각적 RL 문제를 공식화하고, RLHF에서 검증 가능한 보상 패러다임으로, 그리고 Proximal Policy Optimization에서 Group Relative Policy Optimization으로 이어지는 정책 최적화 전략의 진화를 추적합니다. 그런 다음 200개 이상의 대표적인 연구를 다중 모드 대형 언어 모델, 시각적 생성, 통합 모델 프레임워크, 그리고 시각-언어-행동 모델이라는 네 가지 주제 기둥으로 분류합니다. 각 기둥에 대해 알고리즘 설계, 보상 엔지니어링, 벤치마크 진전을 검토하고, 커리큘럼 기반 훈련, 선호도 정렬 확산, 통합 보상 모델링과 같은 트렌드를 도출합니다. 마지막으로, 집합 수준 충실도, 샘플 수준 선호도, 상태 수준 안정성을 아우르는 평가 프로토콜을 검토하고, 샘플 효율성, 일반화, 안전한 배포를 포함한 열린 과제를 식별합니다. 우리의 목표는 연구자와 실무자에게 시각적 RL의 빠르게 확장되는 지형을 일관된 지도로 제공하고, 미래 탐구를 위한 유망한 방향을 강조하는 것입니다. 리소스는 https://github.com/weijiawu/Awesome-Visual-Reinforcement-Learning에서 확인할 수 있습니다.
English
Recent advances at the intersection of reinforcement learning (RL) and visual intelligence have enabled agents that not only perceive complex visual scenes but also reason, generate, and act within them. This survey offers a critical and up-to-date synthesis of the field. We first formalize visual RL problems and trace the evolution of policy-optimization strategies from RLHF to verifiable reward paradigms, and from Proximal Policy Optimization to Group Relative Policy Optimization. We then organize more than 200 representative works into four thematic pillars: multi-modal large language models, visual generation, unified model frameworks, and vision-language-action models. For each pillar we examine algorithmic design, reward engineering, benchmark progress, and we distill trends such as curriculum-driven training, preference-aligned diffusion, and unified reward modeling. Finally, we review evaluation protocols spanning set-level fidelity, sample-level preference, and state-level stability, and we identify open challenges that include sample efficiency, generalization, and safe deployment. Our goal is to provide researchers and practitioners with a coherent map of the rapidly expanding landscape of visual RL and to highlight promising directions for future inquiry. Resources are available at: https://github.com/weijiawu/Awesome-Visual-Reinforcement-Learning.
PDF232August 12, 2025