ChatPaper.aiChatPaper

Code2World: レンダリング可能なコード生成によるGUI世界モデル

Code2World: A GUI World Model via Renderable Code Generation

February 10, 2026
著者: Yuhao Zheng, Li'an Zhong, Yi Wang, Rui Dai, Kaikui Liu, Xiangxiang Chu, Linyuan Lv, Philip Torr, Kevin Qinghong Lin
cs.AI

要旨

自律型GUIエージェントは、インターフェースを認識しアクションを実行することで環境と相互作用する。仮想サンドボックスとして、GUI Worldモデルはアクション条件付き予測を可能にすることで、エージェントに人間のような先見性を付与する。しかし、既存のテキストおよびピクセルベースの手法では、高い視覚的忠実度と細粒度の構造制御性を同時に達成することが困難である。この課題解決に向け、我々はレンダリング可能なコード生成による次視覚状態のシミュレーションを実現する視覚言語コーダーCode2Worldを提案する。具体的には、データ不足問題に対処するため、GUI軌跡を高忠実なHTMLに変換し、視覚的フィードバック修正機構を通じて合成コードを精緻化することで、8万以上の高品質な画面-アクションペアからなるコーパスAndroidCodeを構築した。既存のVLMをコード予測に適応させるため、まず形式レイアウト追従のコールドスタートとしてSFTを実施し、さらに視覚的意味的忠実性とアクション一貫性を強化するレンダリング結果報酬信号を用いたRender-Aware強化学習を適用する。大規模実験により、Code2World-8Bが競合するGPT-5やGemini-3-Pro-Imageに匹敵する最高性能の次UI予測を達成することを実証した。特筆すべきは、Code2Worldが下流ナビゲーション成功率を柔軟な手法で大幅に向上させ、AndroidWorldナビゲーションにおいてGemini-2.5-Flashを+9.5%向上させた点である。コードはhttps://github.com/AMAP-ML/Code2Worldで公開されている。
English
Autonomous GUI agents interact with environments by perceiving interfaces and executing actions. As a virtual sandbox, the GUI World model empowers agents with human-like foresight by enabling action-conditioned prediction. However, existing text- and pixel-based approaches struggle to simultaneously achieve high visual fidelity and fine-grained structural controllability. To this end, we propose Code2World, a vision-language coder that simulates the next visual state via renderable code generation. Specifically, to address the data scarcity problem, we construct AndroidCode by translating GUI trajectories into high-fidelity HTML and refining synthesized code through a visual-feedback revision mechanism, yielding a corpus of over 80K high-quality screen-action pairs. To adapt existing VLMs into code prediction, we first perform SFT as a cold start for format layout following, then further apply Render-Aware Reinforcement Learning which uses rendered outcome as the reward signal by enforcing visual semantic fidelity and action consistency. Extensive experiments demonstrate that Code2World-8B achieves the top-performing next UI prediction, rivaling the competitive GPT-5 and Gemini-3-Pro-Image. Notably, Code2World significantly enhances downstream navigation success rates in a flexible manner, boosting Gemini-2.5-Flash by +9.5% on AndroidWorld navigation. The code is available at https://github.com/AMAP-ML/Code2World.
PDF1682February 12, 2026