ChatPaper.aiChatPaper

ReLook: Vision-gestütztes Reinforcement Learning mit einem multimodalen LLM-Kritiker für agentenbasiertes Web-Coding

ReLook: Vision-Grounded RL with a Multimodal LLM Critic for Agentic Web Coding

October 13, 2025
papers.authors: Yuhang Li, Chenchen Zhang, Ruilin Lv, Ao Liu, Ken Deng, Yuanxing Zhang, Jiaheng Liu, Wiggin Zhou, Bo Zhou
cs.AI

papers.abstract

Während Large Language Models (LLMs) bei der algorithmischen Codegenerierung hervorragende Leistungen erbringen, haben sie Schwierigkeiten im Bereich der Frontend-Entwicklung, bei der die Korrektheit anhand gerenderter Pixel und Interaktionen beurteilt wird. Wir stellen ReLook vor, ein agentenbasiertes, visuell fundiertes Reinforcement-Learning-Framework, das einen Agenten befähigt, einen robusten Generieren–Diagnostizieren–Verfeinern-Zyklus zu schließen, indem ein multimodaler LLM (MLLM) als Werkzeug eingesetzt wird. Während des Trainings nutzt der Agent den MLLM-in-the-loop sowohl als visuellen Kritiker – der Code anhand von Screenshots bewertet – als auch als Quelle für umsetzbares, visuell fundiertes Feedback; eine strikte Null-Belohnungsregel für ungültige Renderings sichert die Renderfähigkeit und verhindert Reward-Hacking. Um einen Verhaltenszusammenbruch zu vermeiden, führen wir Forced Optimization ein, eine strikte Akzeptanzregel, die nur verbessernde Revisionen zulässt und somit monoton bessere Trajektorien erzeugt. Bei der Inferenz entkoppeln wir den Kritiker und führen einen leichten, kritikerfreien Selbstbearbeitungszyklus durch, wodurch die Latenz vergleichbar zur Basisdkodierung bleibt, während der Großteil der Gewinne erhalten bleibt. Über drei weit verbreitete Benchmarks hinweg übertrifft ReLook durchweg starke Baseline-Modelle bei der visuell fundierten Frontend-Codegenerierung, was die Vorteile von agentenbasierter Wahrnehmung, visuellen Belohnungen und der Entkopplung von Training und Inferenz unterstreicht.
English
While Large Language Models (LLMs) excel at algorithmic code generation, they struggle with front-end development, where correctness is judged on rendered pixels and interaction. We present ReLook, an agentic, vision-grounded reinforcement learning framework that empowers an agent to close a robust generate--diagnose--refine loop by invoking a multimodal LLM (MLLM) as a tool. During training, the agent uses the MLLM-in-the-loop both as a visual critic--scoring code with screenshots--and as a source of actionable, vision-grounded feedback; a strict zero-reward rule for invalid renders anchors renderability and prevents reward hacking. To prevent behavioral collapse, we introduce Forced Optimization, a strict acceptance rule that admits only improving revisions, yielding monotonically better trajectories. At inference, we decouple the critic and run a lightweight, critic-free self-edit cycle, keeping latency comparable to base decoding while retaining most of the gains. Across three widely used benchmarks, ReLook consistently outperforms strong baselines in vision-grounded front-end code generation, highlighting the benefits of agentic perception, visual rewards, and training-inference decoupling.
PDF102October 14, 2025