ReLook: RL basato sulla visione con un critico LLM multimodale per la codifica web agentica
ReLook: Vision-Grounded RL with a Multimodal LLM Critic for Agentic Web Coding
October 13, 2025
Autori: Yuhang Li, Chenchen Zhang, Ruilin Lv, Ao Liu, Ken Deng, Yuanxing Zhang, Jiaheng Liu, Wiggin Zhou, Bo Zhou
cs.AI
Abstract
Mentre i Large Language Model (LLM) eccellono nella generazione di codice algoritmico, incontrano difficoltà nello sviluppo front-end, dove la correttezza è valutata in base ai pixel renderizzati e all'interazione. Presentiamo ReLook, un framework di reinforcement learning agentico e basato sulla visione che consente a un agente di chiudere un robusto ciclo di generazione-diagnosi-affinamento utilizzando un Multimodal LLM (MLLM) come strumento. Durante l'addestramento, l'agente utilizza l'MLLM-in-the-loop sia come critico visivo—assegnando punteggi al codice con screenshot—sia come fonte di feedback azionabile e basato sulla visione; una regola rigorosa di zero ricompensa per rendering non validi garantisce la renderizzabilità e previene il reward hacking. Per evitare il collasso comportamentale, introduciamo l'Optimizzazione Forzata, una regola di accettazione rigorosa che ammette solo revisioni migliorative, producendo traiettorie monotonicamente migliori. Durante l'inferenza, disaccoppiamo il critico e eseguiamo un ciclo di auto-modifica leggero e privo di critico, mantenendo una latenza comparabile alla decodifica di base mentre conserviamo la maggior parte dei guadagni. Su tre benchmark ampiamente utilizzati, ReLook supera costantemente i baseline forti nella generazione di codice front-end basato sulla visione, evidenziando i vantaggi della percezione agentica, delle ricompense visive e del disaccoppiamento tra addestramento e inferenza.
English
While Large Language Models (LLMs) excel at algorithmic code generation, they
struggle with front-end development, where correctness is judged on rendered
pixels and interaction. We present ReLook, an agentic, vision-grounded
reinforcement learning framework that empowers an agent to close a robust
generate--diagnose--refine loop by invoking a multimodal LLM (MLLM) as a tool.
During training, the agent uses the MLLM-in-the-loop both as a visual
critic--scoring code with screenshots--and as a source of actionable,
vision-grounded feedback; a strict zero-reward rule for invalid renders anchors
renderability and prevents reward hacking. To prevent behavioral collapse, we
introduce Forced Optimization, a strict acceptance rule that admits only
improving revisions, yielding monotonically better trajectories. At inference,
we decouple the critic and run a lightweight, critic-free self-edit cycle,
keeping latency comparable to base decoding while retaining most of the gains.
Across three widely used benchmarks, ReLook consistently outperforms strong
baselines in vision-grounded front-end code generation, highlighting the
benefits of agentic perception, visual rewards, and training-inference
decoupling.