ChatPaper.aiChatPaper

WebGen-Agent: 다단계 피드백과 단계별 강화 학습을 통한 인터랙티브 웹사이트 생성 향상

WebGen-Agent: Enhancing Interactive Website Generation with Multi-Level Feedback and Step-Level Reinforcement Learning

September 26, 2025
저자: Zimu Lu, Houxing Ren, Yunqiao Yang, Ke Wang, Zhuofan Zong, Junting Pan, Mingjie Zhan, Hongsheng Li
cs.AI

초록

대형 언어 모델(LLM)으로 구동되는 에이전트 시스템은 리포지토리 수준의 코드 생성 작업에서 인상적인 성능을 보여왔습니다. 그러나 시각적 효과와 사용자 상호작용 피드백에 크게 의존하는 웹사이트 코드베이스 생성과 같은 작업의 경우, 현재의 코드 에이전트는 단순한 코드 실행만을 피드백과 검증 수단으로 사용하고 있습니다. 이 접근 방식은 생성된 코드의 실제 품질을 제대로 반영하지 못합니다. 본 논문에서는 포괄적이고 다단계의 시각적 피드백을 활용하여 웹사이트 코드베이스를 반복적으로 생성하고 개선하는 새로운 웹사이트 생성 에이전트인 WebGen-Agent를 제안합니다. 시각 언어 모델(VLM)은 웹사이트의 스크린샷과 GUI 에이전트 테스트에 대한 상세하고 표현력 있는 텍스트 설명과 제안을 생성하며, 이들의 품질을 수치화한 점수를 제공합니다. 스크린샷과 GUI 에이전트 점수는 백트래킹 및 최적 선택 메커니즘과 통합되어 에이전트의 성능을 향상시킵니다. WebGen-Agent 워크플로우에 내재된 정확한 시각적 점수를 활용하여, 우리는 Step-GRPO with Screenshot and GUI-agent Feedback을 도입하여 LLM이 WebGen-Agent의 추론 엔진으로서의 능력을 개선합니다. 각 단계에서의 스크린샷과 GUI 에이전트 점수를 Step-GRPO의 보상으로 사용함으로써, 우리는 밀도 높고 신뢰할 수 있는 프로세스 감독 신호를 제공하며, 이는 모델의 웹사이트 생성 능력을 효과적으로 향상시킵니다. WebGen-Bench 데이터셋에서 WebGen-Agent는 Claude-3.5-Sonnet의 정확도를 26.4%에서 51.9%로, 외관 점수를 3.0에서 3.9로 증가시켜 기존의 최첨단 에이전트 시스템을 능가했습니다. 또한, 우리의 Step-GRPO 훈련 접근법은 Qwen2.5-Coder-7B-Instruct의 정확도를 38.9%에서 45.4%로, 외관 점수를 3.4에서 3.7로 향상시켰습니다.
English
Agent systems powered by large language models (LLMs) have demonstrated impressive performance on repository-level code-generation tasks. However, for tasks such as website codebase generation, which depend heavily on visual effects and user-interaction feedback, current code agents rely only on simple code execution for feedback and verification. This approach fails to capture the actual quality of the generated code. In this paper, we propose WebGen-Agent, a novel website-generation agent that leverages comprehensive and multi-level visual feedback to iteratively generate and refine the website codebase. Detailed and expressive text descriptions and suggestions regarding the screenshots and GUI-agent testing of the websites are generated by a visual language model (VLM), together with scores that quantify their quality. The screenshot and GUI-agent scores are further integrated with a backtracking and select-best mechanism, enhancing the performance of the agent. Utilizing the accurate visual scores inherent in the WebGen-Agent workflow, we further introduce Step-GRPO with Screenshot and GUI-agent Feedback to improve the ability of LLMs to act as the reasoning engine of WebGen-Agent. By using the screenshot and GUI-agent scores at each step as the reward in Step-GRPO, we provide a dense and reliable process supervision signal, which effectively improves the model's website-generation ability. On the WebGen-Bench dataset, WebGen-Agent increases the accuracy of Claude-3.5-Sonnet from 26.4% to 51.9% and its appearance score from 3.0 to 3.9, outperforming the previous state-of-the-art agent system. Additionally, our Step-GRPO training approach increases the accuracy of Qwen2.5-Coder-7B-Instruct from 38.9% to 45.4% and raises the appearance score from 3.4 to 3.7.
PDF162September 29, 2025