NeuralOS: Hacia la Simulación de Sistemas Operativos mediante Modelos Generativos Neuronales
NeuralOS: Towards Simulating Operating Systems via Neural Generative Models
July 11, 2025
Autores: Luke Rivard, Sun Sun, Hongyu Guo, Wenhu Chen, Yuntian Deng
cs.AI
Resumen
Presentamos NeuralOS, un marco neuronal que simula interfaces gráficas de usuario (GUI) de sistemas operativos al predecir directamente los fotogramas de pantalla en respuesta a entradas del usuario, como movimientos del ratón, clics y eventos de teclado. NeuralOS combina una red neuronal recurrente (RNN), que rastrea el estado de la computadora, con un renderizador neuronal basado en difusión que genera imágenes de pantalla. El modelo se entrena con un conjunto de datos a gran escala de grabaciones de Ubuntu XFCE, que incluyen tanto interacciones generadas aleatoriamente como interacciones realistas producidas por agentes de IA. Los experimentos muestran que NeuralOS renderiza con éxito secuencias de GUI realistas, captura con precisión las interacciones del ratón y predice de manera confiable transiciones de estado, como el lanzamiento de aplicaciones. Aunque modelar con precisión interacciones detalladas del teclado sigue siendo un desafío, NeuralOS ofrece un paso hacia la creación de interfaces neuronales generativas y completamente adaptativas para futuros sistemas de interacción humano-computadora.
English
We introduce NeuralOS, a neural framework that simulates graphical user
interfaces (GUIs) of operating systems by directly predicting screen frames in
response to user inputs such as mouse movements, clicks, and keyboard events.
NeuralOS combines a recurrent neural network (RNN), which tracks computer
state, with a diffusion-based neural renderer that generates screen images. The
model is trained on a large-scale dataset of Ubuntu XFCE recordings, which
include both randomly generated interactions and realistic interactions
produced by AI agents. Experiments show that NeuralOS successfully renders
realistic GUI sequences, accurately captures mouse interactions, and reliably
predicts state transitions like application launches. Although modeling
fine-grained keyboard interactions precisely remains challenging, NeuralOS
offers a step toward creating fully adaptive, generative neural interfaces for
future human-computer interaction systems.