LLM-en-Sandbox Elicita Inteligencia Agéntica General
LLM-in-Sandbox Elicits General Agentic Intelligence
January 22, 2026
Autores: Daixuan Cheng, Shaohan Huang, Yuxian Gu, Huatong Song, Guoxin Chen, Li Dong, Wayne Xin Zhao, Ji-Rong Wen, Furu Wei
cs.AI
Resumen
Presentamos LLM-in-Sandbox, un método que permite a los LLM explorar dentro de un *sandbox* de código (es decir, un ordenador virtual), para desarrollar inteligencia general en dominios que no son de código. Primero demostramos que los LLMs potentes, sin entrenamiento adicional, exhiben capacidades de generalización para aprovechar el *sandbox* de código en tareas no relacionadas con programación. Por ejemplo, los LLMs acceden espontáneamente a recursos externos para adquirir nuevos conocimientos, aprovechan el sistema de archivos para manejar contextos extensos y ejecutan scripts para satisfacer requisitos de formato. Además, mostramos que estas capacidades agentivas pueden mejorarse mediante el Refuerzo del Aprendizaje en *Sandbox* (LLM-in-Sandbox-RL), que utiliza únicamente datos no agentivos para entrenar modelos en la exploración del *sandbox*. Los experimentos demuestran que LLM-in-Sandbox, tanto en configuraciones sin entrenamiento como posteriores al entrenamiento, logra una generalización robusta que abarca matemáticas, física, química, biomedicina, comprensión de contextos largos y seguimiento de instrucciones. Finalmente, analizamos la eficiencia de LLM-in-Sandbox desde perspectivas computacionales y de sistema, y lo publicamos como un paquete de código abierto en Python para facilitar su implementación en entornos reales.
English
We introduce LLM-in-Sandbox, enabling LLMs to explore within a code sandbox (i.e., a virtual computer), to elicit general intelligence in non-code domains. We first demonstrate that strong LLMs, without additional training, exhibit generalization capabilities to leverage the code sandbox for non-code tasks. For example, LLMs spontaneously access external resources to acquire new knowledge, leverage the file system to handle long contexts, and execute scripts to satisfy formatting requirements. We further show that these agentic capabilities can be enhanced through LLM-in-Sandbox Reinforcement Learning (LLM-in-Sandbox-RL), which uses only non-agentic data to train models for sandbox exploration. Experiments demonstrate that LLM-in-Sandbox, in both training-free and post-trained settings, achieves robust generalization spanning mathematics, physics, chemistry, biomedicine, long-context understanding, and instruction following. Finally, we analyze LLM-in-Sandbox's efficiency from computational and system perspectives, and open-source it as a Python package to facilitate real-world deployment.