NeuralOS: ニューラル生成モデルによるオペレーティングシステムのシミュレーションに向けて
NeuralOS: Towards Simulating Operating Systems via Neural Generative Models
July 11, 2025
著者: Luke Rivard, Sun Sun, Hongyu Guo, Wenhu Chen, Yuntian Deng
cs.AI
要旨
NeuralOSを紹介します。これは、マウスの動きやクリック、キーボードイベントなどのユーザー入力に応じて、画面フレームを直接予測することでオペレーティングシステムのグラフィカルユーザーインターフェース(GUI)をシミュレートするニューラルフレームワークです。NeuralOSは、コンピュータの状態を追跡するリカレントニューラルネットワーク(RNN)と、画面画像を生成する拡散ベースのニューラルレンダラーを組み合わせています。このモデルは、Ubuntu XFCEの記録からなる大規模なデータセットでトレーニングされており、ランダムに生成されたインタラクションとAIエージェントによって生成された現実的なインタラクションの両方が含まれています。実験では、NeuralOSが現実的なGUIシーケンスをレンダリングし、マウスインタラクションを正確に捉え、アプリケーションの起動などの状態遷移を確実に予測することが示されています。細かいキーボードインタラクションを正確にモデル化することは依然として課題ですが、NeuralOSは、将来の人間とコンピュータのインタラクションシステムに向けた完全に適応可能な生成型ニューラルインターフェースの実現に向けた一歩を提供します。
English
We introduce NeuralOS, a neural framework that simulates graphical user
interfaces (GUIs) of operating systems by directly predicting screen frames in
response to user inputs such as mouse movements, clicks, and keyboard events.
NeuralOS combines a recurrent neural network (RNN), which tracks computer
state, with a diffusion-based neural renderer that generates screen images. The
model is trained on a large-scale dataset of Ubuntu XFCE recordings, which
include both randomly generated interactions and realistic interactions
produced by AI agents. Experiments show that NeuralOS successfully renders
realistic GUI sequences, accurately captures mouse interactions, and reliably
predicts state transitions like application launches. Although modeling
fine-grained keyboard interactions precisely remains challenging, NeuralOS
offers a step toward creating fully adaptive, generative neural interfaces for
future human-computer interaction systems.