ChatPaper.aiChatPaper

ReLook: Визуально-обоснованное обучение с подкреплением с мультимодальным LLM-критиком для агентного веб-кодирования

ReLook: Vision-Grounded RL with a Multimodal LLM Critic for Agentic Web Coding

October 13, 2025
Авторы: Yuhang Li, Chenchen Zhang, Ruilin Lv, Ao Liu, Ken Deng, Yuanxing Zhang, Jiaheng Liu, Wiggin Zhou, Bo Zhou
cs.AI

Аннотация

Хотя крупные языковые модели (LLM) превосходно справляются с генерацией алгоритмического кода, они испытывают трудности в разработке интерфейсов, где корректность оценивается по отображаемым пикселям и взаимодействию. Мы представляем ReLook — агентную, основанную на визуальном восприятии систему обучения с подкреплением, которая позволяет агенту замкнуть устойчивый цикл "генерация–диагностика–уточнение", используя мультимодальную языковую модель (MLLM) в качестве инструмента. Во время обучения агент использует MLLM в цикле как визуального критика, оценивающего код на основе скриншотов, и как источник практической, основанной на визуальном восприятии обратной связи; строгое правило нулевого вознаграждения за невалидные рендеры обеспечивает рендеринг и предотвращает "взлом" системы вознаграждений. Чтобы избежать коллапса поведения, мы вводим Принудительную Оптимизацию — строгое правило принятия, допускающее только улучшающие изменения, что приводит к монотонному улучшению траекторий. На этапе вывода мы разделяем критика и запускаем легковесный цикл самокоррекции без критика, сохраняя задержку на уровне базового декодирования, при этом сохраняя большую часть достигнутых улучшений. На трех широко используемых бенчмарках ReLook стабильно превосходит сильные базовые модели в генерации интерфейсного кода, основанной на визуальном восприятии, подчеркивая преимущества агентного восприятия, визуальных вознаграждений и разделения обучения и вывода.
English
While Large Language Models (LLMs) excel at algorithmic code generation, they struggle with front-end development, where correctness is judged on rendered pixels and interaction. We present ReLook, an agentic, vision-grounded reinforcement learning framework that empowers an agent to close a robust generate--diagnose--refine loop by invoking a multimodal LLM (MLLM) as a tool. During training, the agent uses the MLLM-in-the-loop both as a visual critic--scoring code with screenshots--and as a source of actionable, vision-grounded feedback; a strict zero-reward rule for invalid renders anchors renderability and prevents reward hacking. To prevent behavioral collapse, we introduce Forced Optimization, a strict acceptance rule that admits only improving revisions, yielding monotonically better trajectories. At inference, we decouple the critic and run a lightweight, critic-free self-edit cycle, keeping latency comparable to base decoding while retaining most of the gains. Across three widely used benchmarks, ReLook consistently outperforms strong baselines in vision-grounded front-end code generation, highlighting the benefits of agentic perception, visual rewards, and training-inference decoupling.
PDF102October 14, 2025