Erros de Exploração e Exploração São Mensuráveis para Agentes de Modelo de Linguagem

Resumo

Os agentes de Modelos de Linguagem (LM) são cada vez mais utilizados em tarefas complexas de tomada de decisão de natureza aberta, desde programação de IA até IA física. Um requisito fundamental nestes contextos é a capacidade de explorar o espaço do problema e de explorar o conhecimento adquirido de forma eficaz. No entanto, distinguir e quantificar sistematicamente a exploração e a exploração a partir de ações observadas, sem acesso à política interna do agente, continua a ser um desafio. Para resolver isto, concebemos ambientes controláveis inspirados em cenários práticos de IA incorporada. Cada ambiente consiste num mapa de grelha 2D parcialmente observável e num Grafo Acíclico Direcionado (DAG) de tarefa desconhecida. A geração do mapa pode ser ajustada programaticamente para enfatizar a dificuldade de exploração ou de exploração. Para permitir uma avaliação independente da política, concebemos uma métrica para quantificar os erros de exploração e de exploração a partir das ações do agente. Avaliamos uma variedade de agentes LM de ponta e descobrimos que mesmo os modelos mais avançados têm dificuldades na nossa tarefa, com diferentes modelos a exibirem modos de falha distintos. Observámos ainda que os modelos de raciocínio resolvem a tarefa de forma mais eficaz e mostram que tanto a exploração como a exploração podem ser significativamente melhoradas através de uma engenharia de contenção mínima. Lançamos o nosso código https://github.com/jjj-madison/measurable-explore-exploit{aqui}.

English

Language Model (LM) agents are increasingly used in complex open-ended decision-making tasks, from AI coding to physical AI. A core requirement in these settings is the ability to both explore the problem space and exploit acquired knowledge effectively. However, systematically distinguishing and quantifying exploration and exploitation from observed actions without access to the agent's internal policy remains challenging. To address this, we design controllable environments inspired by practical embodied AI scenarios. Each environment consists of a partially observable 2D grid map and an unknown task Directed Acyclic Graph (DAG). The map generation can be programmatically adjusted to emphasize exploration or exploitation difficulty. To enable policy-agnostic evaluation, we design a metric to quantify exploration and exploitation errors from agent's actions. We evaluate a variety of frontier LM agents and find that even state-of-the-art models struggle on our task, with different models exhibiting distinct failure modes. We further observe that reasoning models solve the task more effectively and show both exploration and exploitation can be significantly improved through minimal harness engineering. We release our code https://github.com/jjj-madison/measurable-explore-exploit{here}.

Erros de Exploração e Exploração São Mensuráveis para Agentes de Modelo de Linguagem

Exploration and Exploitation Errors Are Measurable for Language Model Agents

Resumo

Support