NeuralOS : Vers la simulation de systèmes d'exploitation via des modèles génératifs neuronaux
NeuralOS: Towards Simulating Operating Systems via Neural Generative Models
July 11, 2025
papers.authors: Luke Rivard, Sun Sun, Hongyu Guo, Wenhu Chen, Yuntian Deng
cs.AI
papers.abstract
Nous présentons NeuralOS, un cadre neuronal qui simule les interfaces graphiques (GUIs) des systèmes d'exploitation en prédisant directement les images d'écran en réponse aux entrées utilisateur telles que les mouvements de souris, les clics et les événements clavier. NeuralOS combine un réseau de neurones récurrent (RNN), qui suit l'état de l'ordinateur, avec un rendu neuronal basé sur la diffusion qui génère les images d'écran. Le modèle est entraîné sur un vaste ensemble de données d'enregistrements d'Ubuntu XFCE, comprenant à la fois des interactions générées aléatoirement et des interactions réalistes produites par des agents IA. Les expériences montrent que NeuralOS parvient à rendre des séquences d'interfaces graphiques réalistes, capture avec précision les interactions de la souris et prédit de manière fiable les transitions d'état comme le lancement d'applications. Bien que la modélisation précise des interactions clavier fines reste un défi, NeuralOS représente une étape vers la création d'interfaces neuronales génératives et entièrement adaptatives pour les futurs systèmes d'interaction homme-machine.
English
We introduce NeuralOS, a neural framework that simulates graphical user
interfaces (GUIs) of operating systems by directly predicting screen frames in
response to user inputs such as mouse movements, clicks, and keyboard events.
NeuralOS combines a recurrent neural network (RNN), which tracks computer
state, with a diffusion-based neural renderer that generates screen images. The
model is trained on a large-scale dataset of Ubuntu XFCE recordings, which
include both randomly generated interactions and realistic interactions
produced by AI agents. Experiments show that NeuralOS successfully renders
realistic GUI sequences, accurately captures mouse interactions, and reliably
predicts state transitions like application launches. Although modeling
fine-grained keyboard interactions precisely remains challenging, NeuralOS
offers a step toward creating fully adaptive, generative neural interfaces for
future human-computer interaction systems.