ChatPaper.aiChatPaper

Verstärkungslernen in der Bildverarbeitung: Ein Überblick

Reinforcement Learning in Vision: A Survey

August 11, 2025
papers.authors: Weijia Wu, Chen Gao, Joya Chen, Kevin Qinghong Lin, Qingwei Meng, Yiming Zhang, Yuke Qiu, Hong Zhou, Mike Zheng Shou
cs.AI

papers.abstract

Jüngste Fortschritte an der Schnittstelle von bestärkendem Lernen (Reinforcement Learning, RL) und visueller Intelligenz haben Agenten ermöglicht, die nicht nur komplexe visuelle Szenen wahrnehmen, sondern auch darin schlussfolgern, generieren und handeln können. Dieser Überblick bietet eine kritische und aktuelle Synthese des Forschungsfeldes. Zunächst formalisieren wir visuelle RL-Probleme und verfolgen die Entwicklung von Strategien zur Politikoptimierung von RLHF bis hin zu verifizierbaren Belohnungsparadigmen sowie von Proximal Policy Optimization zu Group Relative Policy Optimization. Anschließend ordnen wir mehr als 200 repräsentative Arbeiten in vier thematische Säulen ein: multimodale große Sprachmodelle, visuelle Generierung, vereinheitlichte Modellframeworks und Vision-Language-Action-Modelle. Für jede Säule untersuchen wir algorithmisches Design, Belohnungsgestaltung, Fortschritte bei Benchmarks und destillieren Trends wie curriculumgesteuertes Training, präferenzausgerichtete Diffusion und vereinheitlichte Belohnungsmodellierung. Schließlich überprüfen wir Evaluierungsprotokolle, die setbasierte Treue, probenbasierte Präferenz und zustandsbasierte Stabilität umfassen, und identifizieren offene Herausforderungen wie Probeneffizienz, Generalisierung und sichere Bereitstellung. Unser Ziel ist es, Forschern und Praktikern eine kohärente Karte der sich schnell ausdehnenden Landschaft des visuellen RL zu bieten und vielversprechende Richtungen für zukünftige Untersuchungen hervorzuheben. Ressourcen sind verfügbar unter: https://github.com/weijiawu/Awesome-Visual-Reinforcement-Learning.
English
Recent advances at the intersection of reinforcement learning (RL) and visual intelligence have enabled agents that not only perceive complex visual scenes but also reason, generate, and act within them. This survey offers a critical and up-to-date synthesis of the field. We first formalize visual RL problems and trace the evolution of policy-optimization strategies from RLHF to verifiable reward paradigms, and from Proximal Policy Optimization to Group Relative Policy Optimization. We then organize more than 200 representative works into four thematic pillars: multi-modal large language models, visual generation, unified model frameworks, and vision-language-action models. For each pillar we examine algorithmic design, reward engineering, benchmark progress, and we distill trends such as curriculum-driven training, preference-aligned diffusion, and unified reward modeling. Finally, we review evaluation protocols spanning set-level fidelity, sample-level preference, and state-level stability, and we identify open challenges that include sample efficiency, generalization, and safe deployment. Our goal is to provide researchers and practitioners with a coherent map of the rapidly expanding landscape of visual RL and to highlight promising directions for future inquiry. Resources are available at: https://github.com/weijiawu/Awesome-Visual-Reinforcement-Learning.
PDF232August 12, 2025