ReLook: Aprendizaje por Refuerzo Basado en Visión con un Crítico Multimodal de LLM para Codificación Web Autónoma
ReLook: Vision-Grounded RL with a Multimodal LLM Critic for Agentic Web Coding
October 13, 2025
Autores: Yuhang Li, Chenchen Zhang, Ruilin Lv, Ao Liu, Ken Deng, Yuanxing Zhang, Jiaheng Liu, Wiggin Zhou, Bo Zhou
cs.AI
Resumen
Si bien los Modelos de Lenguaje de Gran Escala (LLMs) sobresalen en la generación de código algorítmico, tienen dificultades en el desarrollo de front-end, donde la corrección se juzga en función de los píxeles renderizados y la interacción. Presentamos ReLook, un marco de aprendizaje por refuerzo agéntico y basado en visión que permite a un agente cerrar un ciclo robusto de generación-diagnóstico-refinamiento al invocar un LLM multimodal (MLLM) como herramienta. Durante el entrenamiento, el agente utiliza el MLLM-en-el-bucle tanto como un crítico visual—evaluando el código con capturas de pantalla—como una fuente de retroalimentación accionable y basada en visión; una regla estricta de cero recompensa para renders inválidos asegura la renderizabilidad y evita el hackeo de recompensas. Para prevenir el colapso conductual, introducimos la Optimización Forzada, una regla de aceptación estricta que admite solo revisiones que mejoran, generando trayectorias monótonamente mejores. En la inferencia, desacoplamos el crítico y ejecutamos un ciclo ligero de autoedición sin crítico, manteniendo una latencia comparable a la decodificación base mientras conservamos la mayoría de las ganancias. En tres puntos de referencia ampliamente utilizados, ReLook supera consistentemente a líneas base sólidas en la generación de código front-end basado en visión, destacando los beneficios de la percepción agéntica, las recompensas visuales y el desacoplamiento entrenamiento-inferencia.
English
While Large Language Models (LLMs) excel at algorithmic code generation, they
struggle with front-end development, where correctness is judged on rendered
pixels and interaction. We present ReLook, an agentic, vision-grounded
reinforcement learning framework that empowers an agent to close a robust
generate--diagnose--refine loop by invoking a multimodal LLM (MLLM) as a tool.
During training, the agent uses the MLLM-in-the-loop both as a visual
critic--scoring code with screenshots--and as a source of actionable,
vision-grounded feedback; a strict zero-reward rule for invalid renders anchors
renderability and prevents reward hacking. To prevent behavioral collapse, we
introduce Forced Optimization, a strict acceptance rule that admits only
improving revisions, yielding monotonically better trajectories. At inference,
we decouple the critic and run a lightweight, critic-free self-edit cycle,
keeping latency comparable to base decoding while retaining most of the gains.
Across three widely used benchmarks, ReLook consistently outperforms strong
baselines in vision-grounded front-end code generation, highlighting the
benefits of agentic perception, visual rewards, and training-inference
decoupling.