LLM-in-Sandbox Evoca Inteligência Agêntica Geral

Resumo

Apresentamos o LLM-in-Sandbox, uma abordagem que permite que LLMs explorem dentro de um sandbox de código (ou seja, um computador virtual) para eliciar inteligência geral em domínios que não são de código. Primeiro, demonstramos que LLMs robustos, sem treinamento adicional, exibem capacidades de generalização para alavancar o sandbox de código em tarefas não relacionadas a código. Por exemplo, os LLMs acessam espontaneamente recursos externos para adquirir novos conhecimentos, utilizam o sistema de arquivos para lidar com contextos longos e executam scripts para atender a requisitos de formatação. Mostramos ainda que essas capacidades agentivas podem ser aprimoradas por meio do Reforço de Aprendizado LLM-in-Sandbox (LLM-in-Sandbox-RL), que utiliza apenas dados não agentivos para treinar modelos para exploração do sandbox. Experimentos demonstram que o LLM-in-Sandbox, tanto em configurações livres de treinamento quanto pós-treinadas, alcança generalização robusta abrangendo matemática, física, química, biomedicina, compreensão de contexto longo e seguimento de instruções. Por fim, analisamos a eficiência do LLM-in-Sandbox sob as perspectivas computacional e de sistema, e disponibilizamos o código aberto como um pacote Python para facilitar a implantação no mundo real.

English

We introduce LLM-in-Sandbox, enabling LLMs to explore within a code sandbox (i.e., a virtual computer), to elicit general intelligence in non-code domains. We first demonstrate that strong LLMs, without additional training, exhibit generalization capabilities to leverage the code sandbox for non-code tasks. For example, LLMs spontaneously access external resources to acquire new knowledge, leverage the file system to handle long contexts, and execute scripts to satisfy formatting requirements. We further show that these agentic capabilities can be enhanced through LLM-in-Sandbox Reinforcement Learning (LLM-in-Sandbox-RL), which uses only non-agentic data to train models for sandbox exploration. Experiments demonstrate that LLM-in-Sandbox, in both training-free and post-trained settings, achieves robust generalization spanning mathematics, physics, chemistry, biomedicine, long-context understanding, and instruction following. Finally, we analyze LLM-in-Sandbox's efficiency from computational and system perspectives, and open-source it as a Python package to facilitate real-world deployment.

LLM-in-Sandbox Evoca Inteligência Agêntica Geral

LLM-in-Sandbox Elicits General Agentic Intelligence

Resumo

Support