ReLook: Визуально-обоснованное обучение с подкреплением с мультимодальным LLM-критиком для агентного веб-кодирования
ReLook: Vision-Grounded RL with a Multimodal LLM Critic for Agentic Web Coding
October 13, 2025
Авторы: Yuhang Li, Chenchen Zhang, Ruilin Lv, Ao Liu, Ken Deng, Yuanxing Zhang, Jiaheng Liu, Wiggin Zhou, Bo Zhou
cs.AI
Аннотация
Хотя крупные языковые модели (LLM) превосходно справляются с генерацией алгоритмического кода, они испытывают трудности в разработке интерфейсов, где корректность оценивается по отображаемым пикселям и взаимодействию. Мы представляем ReLook — агентную, основанную на визуальном восприятии систему обучения с подкреплением, которая позволяет агенту замкнуть устойчивый цикл "генерация–диагностика–уточнение", используя мультимодальную языковую модель (MLLM) в качестве инструмента. Во время обучения агент использует MLLM в цикле как визуального критика, оценивающего код на основе скриншотов, и как источник практической, основанной на визуальном восприятии обратной связи; строгое правило нулевого вознаграждения за невалидные рендеры обеспечивает рендеринг и предотвращает "взлом" системы вознаграждений. Чтобы избежать коллапса поведения, мы вводим Принудительную Оптимизацию — строгое правило принятия, допускающее только улучшающие изменения, что приводит к монотонному улучшению траекторий. На этапе вывода мы разделяем критика и запускаем легковесный цикл самокоррекции без критика, сохраняя задержку на уровне базового декодирования, при этом сохраняя большую часть достигнутых улучшений. На трех широко используемых бенчмарках ReLook стабильно превосходит сильные базовые модели в генерации интерфейсного кода, основанной на визуальном восприятии, подчеркивая преимущества агентного восприятия, визуальных вознаграждений и разделения обучения и вывода.
English
While Large Language Models (LLMs) excel at algorithmic code generation, they
struggle with front-end development, where correctness is judged on rendered
pixels and interaction. We present ReLook, an agentic, vision-grounded
reinforcement learning framework that empowers an agent to close a robust
generate--diagnose--refine loop by invoking a multimodal LLM (MLLM) as a tool.
During training, the agent uses the MLLM-in-the-loop both as a visual
critic--scoring code with screenshots--and as a source of actionable,
vision-grounded feedback; a strict zero-reward rule for invalid renders anchors
renderability and prevents reward hacking. To prevent behavioral collapse, we
introduce Forced Optimization, a strict acceptance rule that admits only
improving revisions, yielding monotonically better trajectories. At inference,
we decouple the critic and run a lightweight, critic-free self-edit cycle,
keeping latency comparable to base decoding while retaining most of the gains.
Across three widely used benchmarks, ReLook consistently outperforms strong
baselines in vision-grounded front-end code generation, highlighting the
benefits of agentic perception, visual rewards, and training-inference
decoupling.