Генеративные визуальные кодовые мобильные мировые модели

Аннотация

Мобильные графические модели мира (World Models, WM) с графическим интерфейсом (GUI) открывают перспективный путь для повышения производительности мобильных GUI-агентов на этапах обучения и логического вывода. Однако современные подходы сталкиваются с ключевым компромиссом: текстовые WM жертвуют визуальной точностью, в то время как неспособность визуальных WM к точному рендерингу текста вынуждает их полагаться на медленные, сложные конвейеры, зависящие от множества внешних моделей. Мы предлагаем новую парадигму: визуальное моделирование мира через генерацию исполняемого кода, в которой одна модель "визуальный язык" (Vision-Language Model, VLM) предсказывает следующее состояние GUI в виде исполняемого веб-кода, который рендерится в пиксели, а не генерирует пиксели напрямую. Это сочетает преимущества обоих подходов: VLM сохраняют лингвистические априорные знания для точного рендеринга текста, а их предварительное обучение на структурированном веб-коде позволяет обеспечить визуальную генерацию высокой точности. Мы представляем gWorld (8B, 32B) — первые модели визуальных мобильных GUI WM с открытыми весами, построенные на этой парадигме, вместе с фреймворком генерации данных (gWorld), который автоматически синтезирует обучающие данные на основе кода. В ходе всесторонней оценки на 4 внутри- и 2 внераспределенных бенчмарках gWorld устанавливает новую парето-границу по соотношению "точность — размер модели", превосходя 8 передовых моделей с открытыми весами, которые более чем в 50.25 раз крупнее. Дальнейший анализ показывает, что (1) масштабирование обучающих данных с помощью gWorld дает значительный прирост, (2) каждый компонент нашего конвейера улучшает качество данных и (3) более сильное моделирование мира повышает производительность политик мобильного GUI на последующих задачах.

English

Mobile Graphical User Interface (GUI) World Models (WMs) offer a promising path for improving mobile GUI agent performance at train- and inference-time. However, current approaches face a critical trade-off: text-based WMs sacrifice visual fidelity, while the inability of visual WMs in precise text rendering led to their reliance on slow, complex pipelines dependent on numerous external models. We propose a novel paradigm: visual world modeling via renderable code generation, where a single Vision-Language Model (VLM) predicts the next GUI state as executable web code that renders to pixels, rather than generating pixels directly. This combines the strengths of both approaches: VLMs retain their linguistic priors for precise text rendering while their pre-training on structured web code enables high-fidelity visual generation. We introduce gWorld (8B, 32B), the first open-weight visual mobile GUI WMs built on this paradigm, along with a data generation framework (gWorld) that automatically synthesizes code-based training data. In extensive evaluation across 4 in- and 2 out-of-distribution benchmarks, gWorld sets a new pareto frontier in accuracy versus model size, outperforming 8 frontier open-weight models over 50.25x larger. Further analyses show that (1) scaling training data via gWorld yields meaningful gains, (2) each component of our pipeline improves data quality, and (3) stronger world modeling improves downstream mobile GUI policy performance.

Генеративные визуальные кодовые мобильные мировые модели

Generative Visual Code Mobile World Models

Аннотация

Support