ChatPaper.aiChatPaper

Versterkend Leren in Visie: Een Overzicht

Reinforcement Learning in Vision: A Survey

August 11, 2025
Auteurs: Weijia Wu, Chen Gao, Joya Chen, Kevin Qinghong Lin, Qingwei Meng, Yiming Zhang, Yuke Qiu, Hong Zhou, Mike Zheng Shou
cs.AI

Samenvatting

Recente ontwikkelingen op het snijvlak van reinforcement learning (RL) en visuele intelligentie hebben agenten mogelijk gemaakt die niet alleen complexe visuele scènes waarnemen, maar er ook binnen redeneren, genereren en handelen. Dit overzicht biedt een kritische en actuele synthese van het vakgebied. We formaliseren eerst visuele RL-problemen en volgen de evolutie van beleidsoptimalisatiestrategieën van RLHF naar verifieerbare beloningsparadigma's, en van Proximale Beleidsoptimalisatie naar Groepsrelatieve Beleidsoptimalisatie. Vervolgens categoriseren we meer dan 200 representatieve werken in vier thematische pijlers: multimodale grote taalmodellen, visuele generatie, geünificeerde modelraamwerken en visie-taal-actie-modellen. Voor elke pijler onderzoeken we algoritmisch ontwerp, beloningsengineering, vooruitgang in benchmarks, en destilleren we trends zoals curriculum-gestuurde training, voorkeursuitgelijnde diffusie en geünificeerde beloningsmodellering. Ten slotte bespreken we evaluatieprotocollen die set-level trouw, sample-level voorkeur en state-level stabiliteit omvatten, en identificeren we open uitdagingen zoals sample-efficiëntie, generalisatie en veilige implementatie. Ons doel is om onderzoekers en praktijkmensen een coherente kaart te bieden van het snel uitdijende landschap van visuele RL en veelbelovende richtingen voor toekomstig onderzoek te belichten. Bronnen zijn beschikbaar op: https://github.com/weijiawu/Awesome-Visual-Reinforcement-Learning.
English
Recent advances at the intersection of reinforcement learning (RL) and visual intelligence have enabled agents that not only perceive complex visual scenes but also reason, generate, and act within them. This survey offers a critical and up-to-date synthesis of the field. We first formalize visual RL problems and trace the evolution of policy-optimization strategies from RLHF to verifiable reward paradigms, and from Proximal Policy Optimization to Group Relative Policy Optimization. We then organize more than 200 representative works into four thematic pillars: multi-modal large language models, visual generation, unified model frameworks, and vision-language-action models. For each pillar we examine algorithmic design, reward engineering, benchmark progress, and we distill trends such as curriculum-driven training, preference-aligned diffusion, and unified reward modeling. Finally, we review evaluation protocols spanning set-level fidelity, sample-level preference, and state-level stability, and we identify open challenges that include sample efficiency, generalization, and safe deployment. Our goal is to provide researchers and practitioners with a coherent map of the rapidly expanding landscape of visual RL and to highlight promising directions for future inquiry. Resources are available at: https://github.com/weijiawu/Awesome-Visual-Reinforcement-Learning.
PDF282August 12, 2025