ChatPaper.aiChatPaper

ReLook: マルチモーダルLLM批評家を用いたビジョン基盤型強化学習によるエージェント的ウェブコーディング

ReLook: Vision-Grounded RL with a Multimodal LLM Critic for Agentic Web Coding

October 13, 2025
著者: Yuhang Li, Chenchen Zhang, Ruilin Lv, Ao Liu, Ken Deng, Yuanxing Zhang, Jiaheng Liu, Wiggin Zhou, Bo Zhou
cs.AI

要旨

大規模言語モデル(LLMs)はアルゴリズムコード生成において優れた性能を発揮するが、フロントエンド開発では、正しさがレンダリングされたピクセルやインタラクションによって判断されるため、課題を抱えている。本論文では、ReLookを提案する。これは、エージェントがマルチモーダル大規模言語モデル(MLLM)をツールとして活用し、堅牢な生成―診断―改良ループを閉じることを可能にする、視覚に基づいた強化学習フレームワークである。訓練中、エージェントはMLLMをループ内で視覚批評家として使用し、スクリーンショットを用いてコードを評価するとともに、視覚に基づいた実践的なフィードバックの源として活用する。無効なレンダリングに対しては厳格なゼロ報酬ルールを適用し、レンダリング可能性を確保し、報酬ハッキングを防ぐ。行動の崩壊を防ぐため、改善されたリビジョンのみを受け入れる厳格な受容ルールであるForced Optimizationを導入し、単調に改善される軌跡を実現する。推論時には、批評家を分離し、軽量で批評家不要の自己編集サイクルを実行し、ベースデコードと同等の遅延を保ちつつ、得られた成果の大部分を維持する。広く使用されている3つのベンチマークにおいて、ReLookは視覚に基づいたフロントエンドコード生成において強力なベースラインを一貫して上回り、エージェントの知覚、視覚的報酬、および訓練と推論の分離の利点を強調している。
English
While Large Language Models (LLMs) excel at algorithmic code generation, they struggle with front-end development, where correctness is judged on rendered pixels and interaction. We present ReLook, an agentic, vision-grounded reinforcement learning framework that empowers an agent to close a robust generate--diagnose--refine loop by invoking a multimodal LLM (MLLM) as a tool. During training, the agent uses the MLLM-in-the-loop both as a visual critic--scoring code with screenshots--and as a source of actionable, vision-grounded feedback; a strict zero-reward rule for invalid renders anchors renderability and prevents reward hacking. To prevent behavioral collapse, we introduce Forced Optimization, a strict acceptance rule that admits only improving revisions, yielding monotonically better trajectories. At inference, we decouple the critic and run a lightweight, critic-free self-edit cycle, keeping latency comparable to base decoding while retaining most of the gains. Across three widely used benchmarks, ReLook consistently outperforms strong baselines in vision-grounded front-end code generation, highlighting the benefits of agentic perception, visual rewards, and training-inference decoupling.
PDF102October 14, 2025