ChatPaper.aiChatPaper

LLM-in-Sandbox вызывает общий агентный интеллект

LLM-in-Sandbox Elicits General Agentic Intelligence

January 22, 2026
Авторы: Daixuan Cheng, Shaohan Huang, Yuxian Gu, Huatong Song, Guoxin Chen, Li Dong, Wayne Xin Zhao, Ji-Rong Wen, Furu Wei
cs.AI

Аннотация

Мы представляем метод LLM-in-Sandbox, который позволяет большим языковым моделям (LLM) исследовать среду внутри песочницы для кода (т.е. виртуального компьютера) для проявления общего интеллекта в предметных областях, не связанных с программированием. Сначала мы демонстрируем, что мощные LLM, без дополнительного обучения, проявляют способности к обобщению, используя код-песочницу для решения задач, не связанных с кодом. Например, LLM спонтанно обращаются к внешним ресурсам для получения новых знаний, используют файловую систему для работы с длинными контекстами и выполняют скрипты для соблюдения требований к форматированию. Мы также показываем, что эти агентские способности можно усилить с помощью обучения с подкреплением в песочнице (LLM-in-Sandbox-RL), которое использует только не-агентские данные для обучения моделей исследованию песочницы. Эксперименты демонстрируют, что LLM-in-Sandbox, как в настройках без обучения, так и после дообучения, достигает устойчивого обобщения в таких областях, как математика, физика, химия, биомедицина, понимание длинных контекстов и следование инструкциям. Наконец, мы анализируем эффективность LLM-in-Sandbox с вычислительной и системной точек зрения и публикуем его в виде пакета Python с открытым исходным кодом для облегчения практического внедрения.
English
We introduce LLM-in-Sandbox, enabling LLMs to explore within a code sandbox (i.e., a virtual computer), to elicit general intelligence in non-code domains. We first demonstrate that strong LLMs, without additional training, exhibit generalization capabilities to leverage the code sandbox for non-code tasks. For example, LLMs spontaneously access external resources to acquire new knowledge, leverage the file system to handle long contexts, and execute scripts to satisfy formatting requirements. We further show that these agentic capabilities can be enhanced through LLM-in-Sandbox Reinforcement Learning (LLM-in-Sandbox-RL), which uses only non-agentic data to train models for sandbox exploration. Experiments demonstrate that LLM-in-Sandbox, in both training-free and post-trained settings, achieves robust generalization spanning mathematics, physics, chemistry, biomedicine, long-context understanding, and instruction following. Finally, we analyze LLM-in-Sandbox's efficiency from computational and system perspectives, and open-source it as a Python package to facilitate real-world deployment.
PDF462January 24, 2026