Verkenning en Exploitatiefouten zijn Meetbaar voor Taalmodelagenten

Samenvatting

Taalmodel (LM) agenten worden steeds vaker ingezet voor complexe, open-einde besluitvormingstaken, van AI-codering tot fysieke AI. Een kernvereiste in deze contexten is het vermogen om zowel de probleemruimte te verkennen als verworven kennis effectief te benutten. Het blijft echter een uitdaging om exploratie en exploitatie systematisch te onderscheiden en te kwantificeren op basis van waargenomen acties, zonder inzage in het interne beleid van de agent. Om dit aan te pakken, ontwerpen we controleerbare omgevingen geïnspireerd op praktische scenarios van belichaamde AI. Elke omgeving bestaat uit een gedeeltelijk waarneembare 2D-rasterkaart en een onbekende Directed Acyclic Graph (DAG) voor de taak. De kaartgeneratie kan programmatisch worden aangepast om de moeilijkheidsgraad van exploratie of exploitatie te benadrukken. Om beleidonafhankelijke evaluatie mogelijk te maken, ontwerpen we een maatstaf om exploratie- en exploitatiefouten te kwantificeren op basis van de acties van de agent. We evalueren diverse vooruitstrevende LM-agenten en constateren dat zelfs state-of-the-art modellen moeite hebben met onze taak, waarbij verschillende modellen distincte faalmodi vertonen. We observeren verder dat redenerende modellen de taak effectiever oplossen en laten zien dat zowel exploratie als exploitatie aanzienlijk kunnen worden verbeterd door minimale harness-engineering. We geven onze code vrij op https://github.com/jjj-madison/measurable-explore-exploit.

English

Language Model (LM) agents are increasingly used in complex open-ended decision-making tasks, from AI coding to physical AI. A core requirement in these settings is the ability to both explore the problem space and exploit acquired knowledge effectively. However, systematically distinguishing and quantifying exploration and exploitation from observed actions without access to the agent's internal policy remains challenging. To address this, we design controllable environments inspired by practical embodied AI scenarios. Each environment consists of a partially observable 2D grid map and an unknown task Directed Acyclic Graph (DAG). The map generation can be programmatically adjusted to emphasize exploration or exploitation difficulty. To enable policy-agnostic evaluation, we design a metric to quantify exploration and exploitation errors from agent's actions. We evaluate a variety of frontier LM agents and find that even state-of-the-art models struggle on our task, with different models exhibiting distinct failure modes. We further observe that reasoning models solve the task more effectively and show both exploration and exploitation can be significantly improved through minimal harness engineering. We release our code https://github.com/jjj-madison/measurable-explore-exploit{here}.

Verkenning en Exploitatiefouten zijn Meetbaar voor Taalmodelagenten

Exploration and Exploitation Errors Are Measurable for Language Model Agents

Samenvatting

Support