ChatPaper.aiChatPaper

ReLook: RL Baseado em Visão com um Crítico Multimodal de LLM para Codificação Web Agente

ReLook: Vision-Grounded RL with a Multimodal LLM Critic for Agentic Web Coding

October 13, 2025
Autores: Yuhang Li, Chenchen Zhang, Ruilin Lv, Ao Liu, Ken Deng, Yuanxing Zhang, Jiaheng Liu, Wiggin Zhou, Bo Zhou
cs.AI

Resumo

Embora os Modelos de Linguagem de Grande Escala (LLMs) se destaquem na geração de código algorítmico, eles enfrentam dificuldades no desenvolvimento de front-end, onde a correção é julgada com base em pixels renderizados e interação. Apresentamos o ReLook, um framework de aprendizado por reforço agentivo e baseado em visão que capacita um agente a fechar um ciclo robusto de geração--diagnóstico--refinamento ao invocar um LLM multimodal (MLLM) como ferramenta. Durante o treinamento, o agente utiliza o MLLM em loop tanto como um crítico visual—avaliando o código com capturas de tela—quanto como uma fonte de feedback acionável e baseado em visão; uma regra estrita de zero-recompensa para renders inválidos ancoram a renderização e previnem a manipulação de recompensas. Para evitar o colapso comportamental, introduzimos a Otimização Forçada, uma regra estrita de aceitação que admite apenas revisões que melhoram, gerando trajetórias monotonicamente melhores. Na inferência, desacoplamos o crítico e executamos um ciclo leve de autoedição sem crítico, mantendo a latência comparável à decodificação base enquanto retém a maior parte dos ganhos. Em três benchmarks amplamente utilizados, o ReLook consistentemente supera as linhas de base fortes na geração de código de front-end baseado em visão, destacando os benefícios da percepção agentiva, recompensas visuais e o desacoplamento entre treinamento e inferência.
English
While Large Language Models (LLMs) excel at algorithmic code generation, they struggle with front-end development, where correctness is judged on rendered pixels and interaction. We present ReLook, an agentic, vision-grounded reinforcement learning framework that empowers an agent to close a robust generate--diagnose--refine loop by invoking a multimodal LLM (MLLM) as a tool. During training, the agent uses the MLLM-in-the-loop both as a visual critic--scoring code with screenshots--and as a source of actionable, vision-grounded feedback; a strict zero-reward rule for invalid renders anchors renderability and prevents reward hacking. To prevent behavioral collapse, we introduce Forced Optimization, a strict acceptance rule that admits only improving revisions, yielding monotonically better trajectories. At inference, we decouple the critic and run a lightweight, critic-free self-edit cycle, keeping latency comparable to base decoding while retaining most of the gains. Across three widely used benchmarks, ReLook consistently outperforms strong baselines in vision-grounded front-end code generation, highlighting the benefits of agentic perception, visual rewards, and training-inference decoupling.
PDF102December 11, 2025