ReLook : Apprentissage par Renforcement Visuel avec un Critique LLM Multimodal pour le Codage Web Agentique
ReLook: Vision-Grounded RL with a Multimodal LLM Critic for Agentic Web Coding
October 13, 2025
papers.authors: Yuhang Li, Chenchen Zhang, Ruilin Lv, Ao Liu, Ken Deng, Yuanxing Zhang, Jiaheng Liu, Wiggin Zhou, Bo Zhou
cs.AI
papers.abstract
Si les grands modèles de langage (LLM) excellent dans la génération de code algorithmique, ils peinent dans le développement front-end, où la justesse est jugée sur les pixels rendus et les interactions. Nous présentons ReLook, un cadre d'apprentissage par renforcement agentique et ancré dans la vision, qui permet à un agent de boucler une robuste génération--diagnostic--affinement en invoquant un LLM multimodal (MLLM) comme outil. Pendant l'entraînement, l'agent utilise le MLLM en boucle à la fois comme critique visuel—évaluant le code avec des captures d'écran—et comme source de retours exploitables et ancrés dans la vision ; une règle stricte de zéro récompense pour les rendus invalides ancre la rendabilité et empêche le détournement de récompense. Pour éviter l'effondrement comportemental, nous introduisons l'Optimisation Forcée, une règle d'acceptation stricte qui n'admet que les révisions améliorantes, produisant des trajectoires monotones meilleures. À l'inférence, nous découplons le critique et exécutons un cycle d'auto-édition léger et sans critique, maintenant une latence comparable au décodage de base tout en conservant la plupart des gains. Sur trois benchmarks largement utilisés, ReLook surpasse systématiquement des bases de référence solides dans la génération de code front-end ancré dans la vision, mettant en évidence les bénéfices de la perception agentique, des récompenses visuelles et du découplage entraînement-inférence.
English
While Large Language Models (LLMs) excel at algorithmic code generation, they
struggle with front-end development, where correctness is judged on rendered
pixels and interaction. We present ReLook, an agentic, vision-grounded
reinforcement learning framework that empowers an agent to close a robust
generate--diagnose--refine loop by invoking a multimodal LLM (MLLM) as a tool.
During training, the agent uses the MLLM-in-the-loop both as a visual
critic--scoring code with screenshots--and as a source of actionable,
vision-grounded feedback; a strict zero-reward rule for invalid renders anchors
renderability and prevents reward hacking. To prevent behavioral collapse, we
introduce Forced Optimization, a strict acceptance rule that admits only
improving revisions, yielding monotonically better trajectories. At inference,
we decouple the critic and run a lightweight, critic-free self-edit cycle,
keeping latency comparable to base decoding while retaining most of the gains.
Across three widely used benchmarks, ReLook consistently outperforms strong
baselines in vision-grounded front-end code generation, highlighting the
benefits of agentic perception, visual rewards, and training-inference
decoupling.