Versterkend Leren in Visie: Een Overzicht
Reinforcement Learning in Vision: A Survey
August 11, 2025
Auteurs: Weijia Wu, Chen Gao, Joya Chen, Kevin Qinghong Lin, Qingwei Meng, Yiming Zhang, Yuke Qiu, Hong Zhou, Mike Zheng Shou
cs.AI
Samenvatting
Recente ontwikkelingen op het snijvlak van reinforcement learning (RL) en visuele intelligentie hebben agenten mogelijk gemaakt die niet alleen complexe visuele scènes waarnemen, maar er ook binnen redeneren, genereren en handelen. Dit overzicht biedt een kritische en actuele synthese van het vakgebied. We formaliseren eerst visuele RL-problemen en volgen de evolutie van beleidsoptimalisatiestrategieën van RLHF naar verifieerbare beloningsparadigma's, en van Proximale Beleidsoptimalisatie naar Groepsrelatieve Beleidsoptimalisatie. Vervolgens categoriseren we meer dan 200 representatieve werken in vier thematische pijlers: multimodale grote taalmodellen, visuele generatie, geünificeerde modelraamwerken en visie-taal-actie-modellen. Voor elke pijler onderzoeken we algoritmisch ontwerp, beloningsengineering, vooruitgang in benchmarks, en destilleren we trends zoals curriculum-gestuurde training, voorkeursuitgelijnde diffusie en geünificeerde beloningsmodellering. Ten slotte bespreken we evaluatieprotocollen die set-level trouw, sample-level voorkeur en state-level stabiliteit omvatten, en identificeren we open uitdagingen zoals sample-efficiëntie, generalisatie en veilige implementatie. Ons doel is om onderzoekers en praktijkmensen een coherente kaart te bieden van het snel uitdijende landschap van visuele RL en veelbelovende richtingen voor toekomstig onderzoek te belichten. Bronnen zijn beschikbaar op: https://github.com/weijiawu/Awesome-Visual-Reinforcement-Learning.
English
Recent advances at the intersection of reinforcement learning (RL) and visual
intelligence have enabled agents that not only perceive complex visual scenes
but also reason, generate, and act within them. This survey offers a critical
and up-to-date synthesis of the field. We first formalize visual RL problems
and trace the evolution of policy-optimization strategies from RLHF to
verifiable reward paradigms, and from Proximal Policy Optimization to Group
Relative Policy Optimization. We then organize more than 200 representative
works into four thematic pillars: multi-modal large language models, visual
generation, unified model frameworks, and vision-language-action models. For
each pillar we examine algorithmic design, reward engineering, benchmark
progress, and we distill trends such as curriculum-driven training,
preference-aligned diffusion, and unified reward modeling. Finally, we review
evaluation protocols spanning set-level fidelity, sample-level preference, and
state-level stability, and we identify open challenges that include sample
efficiency, generalization, and safe deployment. Our goal is to provide
researchers and practitioners with a coherent map of the rapidly expanding
landscape of visual RL and to highlight promising directions for future
inquiry. Resources are available at:
https://github.com/weijiawu/Awesome-Visual-Reinforcement-Learning.