LLM-in-Sandbox Ontlokt Algemene Agentische Intelligentie
LLM-in-Sandbox Elicits General Agentic Intelligence
January 22, 2026
Auteurs: Daixuan Cheng, Shaohan Huang, Yuxian Gu, Huatong Song, Guoxin Chen, Li Dong, Wayne Xin Zhao, Ji-Rong Wen, Furu Wei
cs.AI
Samenvatting
Wij introduceren LLM-in-Sandbox, waarmee grote taalmodellen (LLMs) kunnen opereren binnen een code-sandbox (een virtuele computer) om algemene intelligentie aan te wakkeren in niet-code-domeinen. We tonen eerst aan dat krachtige LLMs, zonder aanvullende training, generalisatievermogen vertonen om de code-sandbox in te zetten voor niet-code-taken. LLMs benaderen bijvoorbeeld spontaan externe bronnen om nieuwe kennis te vergaren, gebruiken het bestandssysteem om lange contexten te verwerken, en voeren scripts uit om aan opmaakvereisten te voldoen. Verder laten we zien dat deze agent-capaciteiten versterkt kunnen worden via LLM-in-Sandbox Reinforcement Learning (LLM-in-Sandbox-RL), waarbij alleen niet-agent-gegevens worden gebruikt om modellen te trainen voor sandbox-verkenning. Experimenten tonen aan dat LLM-in-Sandbox, zowel in training-vrije als nagescholen settings, robuuste generalisatie bereikt over domeinen als wiskunde, natuurkunde, scheikunde, biomedische wetenschappen, begrip van lange contexten en het opvolgen van instructies. Ten slotte analyseren we de efficiëntie van LLM-in-Sandbox vanuit computationeel en systeemperspectief, en maken we het openbaar beschikbaar als een Python-pakket om praktische implementatie te vergemakkelijken.
English
We introduce LLM-in-Sandbox, enabling LLMs to explore within a code sandbox (i.e., a virtual computer), to elicit general intelligence in non-code domains. We first demonstrate that strong LLMs, without additional training, exhibit generalization capabilities to leverage the code sandbox for non-code tasks. For example, LLMs spontaneously access external resources to acquire new knowledge, leverage the file system to handle long contexts, and execute scripts to satisfy formatting requirements. We further show that these agentic capabilities can be enhanced through LLM-in-Sandbox Reinforcement Learning (LLM-in-Sandbox-RL), which uses only non-agentic data to train models for sandbox exploration. Experiments demonstrate that LLM-in-Sandbox, in both training-free and post-trained settings, achieves robust generalization spanning mathematics, physics, chemistry, biomedicine, long-context understanding, and instruction following. Finally, we analyze LLM-in-Sandbox's efficiency from computational and system perspectives, and open-source it as a Python package to facilitate real-world deployment.