Code2World: Модель графического мира через генерацию визуализируемого кода

Аннотация

Автономные агенты с графическим интерфейсом взаимодействуют со средой, воспринимая интерфейсы и выполняя действия. Модель GUI World, выступая в качестве виртуальной песочницы, наделяет агентов человеческой способностью к предвидению, обеспечивая прогнозирование с учетом действий. Однако существующие подходы на основе текста и пикселей не позволяют одновременно достичь высокой визуальной достоверности и детерминированного структурного управления. Для решения этой проблемы мы предлагаем Code2World — визуально-языковой кодировщик, который моделирует следующее визуальное состояние путем генерации пригодного для рендеринга кода. В частности, для преодоления проблемы нехватки данных мы создали AndroidCode, преобразуя траектории GUI в высококачественный HTML и улучшая синтезированный код с помощью механизма визуально-обратной ревизии, получив корпус из более чем 80 тыс. пар «экран-действие» высокого качества. Для адаптации существующих VLM к прогнозированию кода мы сначала выполнили SFT в качестве «холодного старта» для соблюдения формата разметки, а затем применили Render-Aware Reinforcement Learning, использующий результат рендеринга в качестве сигнала вознаграждения за счет обеспечения визуально-семантической точности и согласованности действий. Масштабные эксперименты демонстрируют, что Code2World-8B достигает наилучших результатов в прогнозировании следующего UI, конкурируя с такими моделями, как GPT-5 и Gemini-3-Pro-Image. Примечательно, что Code2World существенно повышает успешность навигации в downstream-задачах гибким образом, улучшая показатели Gemini-2.5-Flash на +9,5% в навигации AndroidWorld. Код доступен по адресу https://github.com/AMAP-ML/Code2World.

English

Autonomous GUI agents interact with environments by perceiving interfaces and executing actions. As a virtual sandbox, the GUI World model empowers agents with human-like foresight by enabling action-conditioned prediction. However, existing text- and pixel-based approaches struggle to simultaneously achieve high visual fidelity and fine-grained structural controllability. To this end, we propose Code2World, a vision-language coder that simulates the next visual state via renderable code generation. Specifically, to address the data scarcity problem, we construct AndroidCode by translating GUI trajectories into high-fidelity HTML and refining synthesized code through a visual-feedback revision mechanism, yielding a corpus of over 80K high-quality screen-action pairs. To adapt existing VLMs into code prediction, we first perform SFT as a cold start for format layout following, then further apply Render-Aware Reinforcement Learning which uses rendered outcome as the reward signal by enforcing visual semantic fidelity and action consistency. Extensive experiments demonstrate that Code2World-8B achieves the top-performing next UI prediction, rivaling the competitive GPT-5 and Gemini-3-Pro-Image. Notably, Code2World significantly enhances downstream navigation success rates in a flexible manner, boosting Gemini-2.5-Flash by +9.5% on AndroidWorld navigation. The code is available at https://github.com/AMAP-ML/Code2World.

Code2World: Модель графического мира через генерацию визуализируемого кода

Code2World: A GUI World Model via Renderable Code Generation

Аннотация

Support