ChatPaper.aiChatPaper

ReLook: 멀티모달 LLM 비평가를 활용한 비전 기반 강화 학습을 통한 에이전트 웹 코딩

ReLook: Vision-Grounded RL with a Multimodal LLM Critic for Agentic Web Coding

October 13, 2025
저자: Yuhang Li, Chenchen Zhang, Ruilin Lv, Ao Liu, Ken Deng, Yuanxing Zhang, Jiaheng Liu, Wiggin Zhou, Bo Zhou
cs.AI

초록

대형 언어 모델(LLM)은 알고리즘 코드 생성에서 뛰어난 성능을 보이지만, 렌더링된 픽셀과 상호작용으로 정확성이 판단되는 프론트엔드 개발에서는 어려움을 겪습니다. 우리는 ReLook을 제안합니다. ReLook은 다중 모달 LLM(MLLM)을 도구로 활용하여 강력한 생성-진단-개선 루프를 닫을 수 있도록 에이전트를 지원하는 비전 기반 강화 학습 프레임워크입니다. 학습 과정에서 에이전트는 MLLM-in-the-loop를 시각적 비평가(스크린샷으로 코드를 평가)와 실행 가능한 비전 기반 피드백의 원천으로 사용합니다. 무효 렌더링에 대한 엄격한 제로 리워드 규칙은 렌더링 가능성을 고정하고 리워드 해킹을 방지합니다. 행동 붕괴를 방지하기 위해, 개선된 수정만을 허용하는 엄격한 수용 규칙인 Forced Optimization을 도입하여 단조롭게 향상되는 궤적을 얻습니다. 추론 시에는 비평가를 분리하고 경량의 비평가 없는 자체 편집 주기를 실행하여 기본 디코딩과 비슷한 지연 시간을 유지하면서 대부분의 이점을 유지합니다. 널리 사용되는 세 가지 벤치마크에서 ReLook은 비전 기반 프론트엔드 코드 생성에서 강력한 베이스라인을 꾸준히 능가하며, 에이전트적 인식, 시각적 보상, 그리고 학습-추론 분리의 이점을 강조합니다.
English
While Large Language Models (LLMs) excel at algorithmic code generation, they struggle with front-end development, where correctness is judged on rendered pixels and interaction. We present ReLook, an agentic, vision-grounded reinforcement learning framework that empowers an agent to close a robust generate--diagnose--refine loop by invoking a multimodal LLM (MLLM) as a tool. During training, the agent uses the MLLM-in-the-loop both as a visual critic--scoring code with screenshots--and as a source of actionable, vision-grounded feedback; a strict zero-reward rule for invalid renders anchors renderability and prevents reward hacking. To prevent behavioral collapse, we introduce Forced Optimization, a strict acceptance rule that admits only improving revisions, yielding monotonically better trajectories. At inference, we decouple the critic and run a lightweight, critic-free self-edit cycle, keeping latency comparable to base decoding while retaining most of the gains. Across three widely used benchmarks, ReLook consistently outperforms strong baselines in vision-grounded front-end code generation, highlighting the benefits of agentic perception, visual rewards, and training-inference decoupling.
PDF102October 14, 2025