Erfahrungsgeleitete Anpassung von Inferenzzeit-Ressourcenstrategien

papers.abstract

Die Fähigkeit agentenbasierter KI-Systeme, ihre Problemlösungsansätze auf der Grundlage von Interaktionen nach dem Training anzupassen, bleibt eine grundlegende Herausforderung. Zwar wurden Systeme vorgeschlagen, die während der Inferenzphase einen Speicher aktualisieren und pflegen, doch bestehende Entwürfe steuern das System lediglich durch Modifikation der textuellen Eingabe für ein Sprachmodell oder einen Agenten. Dies bedeutet, dass sie keine Sampling-Parameter ändern, Werkzeuge entfernen, System-Prompts anpassen oder zwischen agentenbasierten und Workflow-Paradigmen wechseln können. Systeme, die flexibler adaptieren, erfordern hingegen eine Offline-Optimierung und bleiben nach dem Deployment statisch. Wir präsentieren den Experience-Guided Reasoner (EGuR), der maßgeschneiderte Strategien – vollständige Berechnungsprozeduren, die LLM-Aufrufe, Werkzeuge, Sampling-Parameter und Kontrolllogik umfassen – dynamisch zur Inferenzzeit auf Basis gesammelter Erfahrungen generiert. Dies erreichen wir durch eine LLM-basierte Meta-Strategie – eine Strategie, die Strategien ausgibt – und ermöglichen so die Anpassung aller Strategiekomponenten (Prompts, Sampling-Parameter, Werkzeugkonfigurationen und Kontrolllogik). EGuR operiert mittels zwei Komponenten: Ein Guide generiert mehrere Kandidatenstrategien, bedingt durch das aktuelle Problem und den strukturierten Speicher vergangener Erfahrungen, während ein Consolidator Ausführungsfeedback integriert, um zukünftige Strategiegenerierung zu verbessern. Dies produziert vollständige, sofort ausführbare Strategien, die für jedes Problem optimiert sind, zwischengespeichert, abgerufen und bei Bedarf ausgeführt werden können, ohne Ressourcen zu verschwenden. In fünf anspruchsvollen Benchmarks (AIME 2025, 3-SAT und drei Big Bench Extra Hard-Aufgaben) erzielt EGuR bis zu 14 % höhere Genauigkeit als die stärksten Baseline-Methoden bei gleichzeitiger Reduktion der Rechenkosten um bis zum 111-Fachen, wobei beide Metriken mit zunehmender Erfahrung des Systems weiter steigen.

English

Enabling agentic AI systems to adapt their problem-solving approaches based on post-training interactions remains a fundamental challenge. While systems that update and maintain a memory at inference time have been proposed, existing designs only steer the system by modifying textual input to a language model or agent, which means that they cannot change sampling parameters, remove tools, modify system prompts, or switch between agentic and workflow paradigms. On the other hand, systems that adapt more flexibly require offline optimization and remain static once deployed. We present Experience-Guided Reasoner (EGuR), which generates tailored strategies -- complete computational procedures involving LLM calls, tools, sampling parameters, and control logic -- dynamically at inference time based on accumulated experience. We achieve this using an LLM-based meta-strategy -- a strategy that outputs strategies -- enabling adaptation of all strategy components (prompts, sampling parameters, tool configurations, and control logic). EGuR operates through two components: a Guide generates multiple candidate strategies conditioned on the current problem and structured memory of past experiences, while a Consolidator integrates execution feedback to improve future strategy generation. This produces complete, ready-to-run strategies optimized for each problem, which can be cached, retrieved, and executed as needed without wasting resources. Across five challenging benchmarks (AIME 2025, 3-SAT, and three Big Bench Extra Hard tasks), EGuR achieves up to 14% accuracy improvements over the strongest baselines while reducing computational costs by up to 111x, with both metrics improving as the system gains experience.

Erfahrungsgeleitete Anpassung von Inferenzzeit-Ressourcenstrategien

Experience-Guided Adaptation of Inference-Time Reasoning Strategies

papers.abstract

Support