ReLook: RL basato sulla visione con un critico LLM multimodale per la codifica web agentica

Abstract

Mentre i Large Language Model (LLM) eccellono nella generazione di codice algoritmico, incontrano difficoltà nello sviluppo front-end, dove la correttezza è valutata in base ai pixel renderizzati e all'interazione. Presentiamo ReLook, un framework di reinforcement learning agentico e basato sulla visione che consente a un agente di chiudere un robusto ciclo di generazione-diagnosi-affinamento utilizzando un Multimodal LLM (MLLM) come strumento. Durante l'addestramento, l'agente utilizza l'MLLM-in-the-loop sia come critico visivo—assegnando punteggi al codice con screenshot—sia come fonte di feedback azionabile e basato sulla visione; una regola rigorosa di zero ricompensa per rendering non validi garantisce la renderizzabilità e previene il reward hacking. Per evitare il collasso comportamentale, introduciamo l'Optimizzazione Forzata, una regola di accettazione rigorosa che ammette solo revisioni migliorative, producendo traiettorie monotonicamente migliori. Durante l'inferenza, disaccoppiamo il critico e eseguiamo un ciclo di auto-modifica leggero e privo di critico, mantenendo una latenza comparabile alla decodifica di base mentre conserviamo la maggior parte dei guadagni. Su tre benchmark ampiamente utilizzati, ReLook supera costantemente i baseline forti nella generazione di codice front-end basato sulla visione, evidenziando i vantaggi della percezione agentica, delle ricompense visive e del disaccoppiamento tra addestramento e inferenza.

English

While Large Language Models (LLMs) excel at algorithmic code generation, they struggle with front-end development, where correctness is judged on rendered pixels and interaction. We present ReLook, an agentic, vision-grounded reinforcement learning framework that empowers an agent to close a robust generate--diagnose--refine loop by invoking a multimodal LLM (MLLM) as a tool. During training, the agent uses the MLLM-in-the-loop both as a visual critic--scoring code with screenshots--and as a source of actionable, vision-grounded feedback; a strict zero-reward rule for invalid renders anchors renderability and prevents reward hacking. To prevent behavioral collapse, we introduce Forced Optimization, a strict acceptance rule that admits only improving revisions, yielding monotonically better trajectories. At inference, we decouple the critic and run a lightweight, critic-free self-edit cycle, keeping latency comparable to base decoding while retaining most of the gains. Across three widely used benchmarks, ReLook consistently outperforms strong baselines in vision-grounded front-end code generation, highlighting the benefits of agentic perception, visual rewards, and training-inference decoupling.

ReLook: RL basato sulla visione con un critico LLM multimodale per la codifica web agentica

ReLook: Vision-Grounded RL with a Multimodal LLM Critic for Agentic Web Coding

Abstract

Support