ChatPaper.aiChatPaper

Code2World: 렌더링 가능한 코드 생성을 통한 GUI 세계 모델

Code2World: A GUI World Model via Renderable Code Generation

February 10, 2026
저자: Yuhao Zheng, Li'an Zhong, Yi Wang, Rui Dai, Kaikui Liu, Xiangxiang Chu, Linyuan Lv, Philip Torr, Kevin Qinghong Lin
cs.AI

초록

자율 GUI 에이전트는 인터페이스를 인지하고 행동을 실행함으로써 환경과 상호작용합니다. 가상 샌드박스인 GUI World 모델은 행동 조건부 예측을 가능하게 함으로써 에이전트에 인간과 유사한 예지력을 부여합니다. 그러나 기존의 텍스트 및 픽셀 기반 접근법은 높은 시각적 정확도와 세밀한 구조적 제어 가능성을 동시에 달성하는 데 어려움을 겪습니다. 이를 위해 우리는 렌더링 가능한 코드 생성을 통해 다음 시각적 상태를 시뮬레이션하는 vision-language 코드 생성기인 Code2World를 제안합니다. 구체적으로, 데이터 부족 문제를 해결하기 위해 AndroidCode를 구축하여 GUI 궤적을 고품질 HTML로 변환하고 시각적 피드백 수정 메커니즘을 통해 합성된 코드를 정제하여 80,000개 이상의 고품질 화면-행동 쌍 코퍼스를 생성했습니다. 기존 VLM을 코드 예측에 적용하기 위해 먼저 형식 레이아웃 준수를 위한 콜드 스타트로 SFT를 수행한 다음, 시각적 의미론적 정확도와 행동 일관성을 강화하여 렌더링 결과를 보상 신호로 사용하는 Render-Aware Reinforcement Learning을 추가로 적용합니다. 폭넓은 실험을 통해 Code2World-8B가 최고 수준의 다음 UI 예측 성능을 달성하며, 경쟁력 있는 GPT-5 및 Gemini-3-Pro-Image에 버금가는 성과를 보임을 입증했습니다. 특히 Code2World는 유연한 방식으로 다운스트림 탐색 성공률을 크게 향상시켜 AndroidWorld 탐색에서 Gemini-2.5-Flash의 성능을 +9.5% 향상시켰습니다. 코드는 https://github.com/AMAP-ML/Code2World에서 확인할 수 있습니다.
English
Autonomous GUI agents interact with environments by perceiving interfaces and executing actions. As a virtual sandbox, the GUI World model empowers agents with human-like foresight by enabling action-conditioned prediction. However, existing text- and pixel-based approaches struggle to simultaneously achieve high visual fidelity and fine-grained structural controllability. To this end, we propose Code2World, a vision-language coder that simulates the next visual state via renderable code generation. Specifically, to address the data scarcity problem, we construct AndroidCode by translating GUI trajectories into high-fidelity HTML and refining synthesized code through a visual-feedback revision mechanism, yielding a corpus of over 80K high-quality screen-action pairs. To adapt existing VLMs into code prediction, we first perform SFT as a cold start for format layout following, then further apply Render-Aware Reinforcement Learning which uses rendered outcome as the reward signal by enforcing visual semantic fidelity and action consistency. Extensive experiments demonstrate that Code2World-8B achieves the top-performing next UI prediction, rivaling the competitive GPT-5 and Gemini-3-Pro-Image. Notably, Code2World significantly enhances downstream navigation success rates in a flexible manner, boosting Gemini-2.5-Flash by +9.5% on AndroidWorld navigation. The code is available at https://github.com/AMAP-ML/Code2World.
PDF1682February 12, 2026