ChatPaper.aiChatPaper

L'intelligence agentique générale émergente des LLM en bac à sable

LLM-in-Sandbox Elicits General Agentic Intelligence

January 22, 2026
papers.authors: Daixuan Cheng, Shaohan Huang, Yuxian Gu, Huatong Song, Guoxin Chen, Li Dong, Wayne Xin Zhao, Ji-Rong Wen, Furu Wei
cs.AI

papers.abstract

Nous présentons LLM-in-Sandbox, une approche permettant aux LLMs d'explorer un bac à sable de code (c'est-à-dire un ordinateur virtuel) pour susciter une intelligence générale dans des domaines non liés au code. Nous démontrons d'abord que des LLMs performants, sans entraînement supplémentaire, possèdent des capacités de généralisation leur permettant d'utiliser le bac à sable de code pour des tâches non codées. Par exemple, les LLMs accèdent spontanément à des ressources externes pour acquérir de nouvelles connaissances, exploitent le système de fichiers pour gérer des contextes longs et exécutent des scripts pour satisfaire des exigences de formatage. Nous montrons en outre que ces capacités agentielles peuvent être renforcées via l'apprentissage par renforcement LLM-in-Sandbox (LLM-in-Sandbox-RL), qui utilise uniquement des données non agentielles pour entraîner les modèles à l'exploration du bac à sable. Les expériences démontrent que LLM-in-Sandbox, dans des configurations sans entraînement et post-entraînement, atteint une généralisation robuste couvrant les mathématiques, la physique, la chimie, la biomédecine, la compréhension de contextes longs et le suivi d'instructions. Enfin, nous analysons l'efficacité de LLM-in-Sandbox sous les angles computationnel et système, et l'ouvrons en tant que package Python pour faciliter son déploiement en conditions réelles.
English
We introduce LLM-in-Sandbox, enabling LLMs to explore within a code sandbox (i.e., a virtual computer), to elicit general intelligence in non-code domains. We first demonstrate that strong LLMs, without additional training, exhibit generalization capabilities to leverage the code sandbox for non-code tasks. For example, LLMs spontaneously access external resources to acquire new knowledge, leverage the file system to handle long contexts, and execute scripts to satisfy formatting requirements. We further show that these agentic capabilities can be enhanced through LLM-in-Sandbox Reinforcement Learning (LLM-in-Sandbox-RL), which uses only non-agentic data to train models for sandbox exploration. Experiments demonstrate that LLM-in-Sandbox, in both training-free and post-trained settings, achieves robust generalization spanning mathematics, physics, chemistry, biomedicine, long-context understanding, and instruction following. Finally, we analyze LLM-in-Sandbox's efficiency from computational and system perspectives, and open-source it as a Python package to facilitate real-world deployment.
PDF462January 24, 2026