Agenten erkunden, aber Agenten ignorieren: KI-Großsprachmodelle mangelt es an Umweltneugier

Zusammenfassung

Es wird angenommen, dass LLM-basierte Agenten Umgebungsbeobachtungen in ihre Schlussfolgerungen integrierieren: Die Entdeckung hochrelevanter, aber unerwarteter Informationen sollte natürlicherweise dazu führen, dass ein Modell seine eigenen Entdeckungen nutzt. Wir zeigen, dass diese Annahme für aktuelle LLM-basierte Agenten falsch ist, die Schwierigkeiten haben, auf unerwartete Informationen zu reflektieren oder zu reagieren. In drei Benchmarks (Terminal-Bench, SWE-Bench, AppWorld) injizieren wir vollständige Aufgabenlösungen in die Agentenumgebungen, um einem Modell die Lösung einer Aufgabe gezielt zugänglich zu machen. Während Agenten diese Lösungen auf Terminal-Bench in 79–81 % der Durchläufe entdecken, interagieren sie mit diesen oder nutzen sie nur in 37–50 % der Fälle aus. Diese Kluft ist in AppWorld am deutlichsten: Agenten sehen in über 90 % der Versuche eine Dokumentation, die besagt, dass ein Befehl „die vollständige Lösung für diese Aufgabe zurückgibt“, nutzen dies aber in weniger als 7 % der Versuche aus. Wir zeigen, dass Agenten das fehlt, was wir als *Environmental Curiosity* (Umgebungsneugier) bezeichnen: die Fähigkeit, unerwartete, aber relevante Beobachtungen zu erkennen und als Reaktion auf Umgebungsreize zu untersuchen. Wir identifizieren drei Hauptfaktoren, die die Umgebungsneugier beeinflussen: die verfügbaren Werkzeuge im Agenten-Scaffold, die Rechenkapazität zur Laufzeit (Inferenz) und die Verteilung der Trainingsdaten. Unsere Ergebnisse zeigen, dass Konfigurationen, die die Neugier maximieren, auch die beste Leistung in den unveränderten Benchmarks erzielen. Doch selbst gemeinsam optimierte Agenten ignorieren in der Mehrheit der Versuche entdeckte Lösungen: Aktuelle Agenten nutzen die Umgebung, um erwartete Informationen abzurufen, aber nicht, um ihre Strategie zu überarbeiten oder nützliche Reize maximal auszubeuten.

English

LLM-based agents are assumed to integrate environmental observations into their reasoning: discovering highly relevant but unexpected information should naturally lead to a model exploiting its own discoveries. We show that this assumption is false for current LLM-based agents, which struggle to reflect or react to unexpected information. Across three benchmarks (Terminal-Bench, SWE-Bench, AppWorld), we inject complete task solutions into the agent environments to deliberately expose a task's solution to a model. While agents discover these solutions on Terminal-Bench in 79-81% of runs, they interact, or exploit, them in only 37-50% of cases. This gap is starkest in AppWorld: agents see documentation stating that a command "returns the complete solution to this task" in over 90% of attempts but exploit this in fewer than 7% of trials. We show that agents lack what we call environmental curiosity: the capability to recognize and investigate unexpected but relevant observations in response to environmental stimuli. We identify three main factors influencing environmental curiosity: available tools in the agent scaffold, test-time compute, and training data distribution. Our findings identify configurations that maximize curiosity also achieve the best performance on the unmodified benchmarks. Yet even jointly optimized agents still ignore discovered solutions in the majority of trials: current agents use the environment to fetch expected information, but not to revise their strategy or maximally exploit useful stimuli.

Agenten erkunden, aber Agenten ignorieren: KI-Großsprachmodelle mangelt es an Umweltneugier

Agents Explore but Agents Ignore: LLMs Lack Environmental Curiosity

Zusammenfassung

Support