Adaptation des Stratégies de Raisonnement en Temps d'Inférence Guidée par l'Expérience
Experience-Guided Adaptation of Inference-Time Reasoning Strategies
November 14, 2025
papers.authors: Adam Stein, Matthew Trager, Benjamin Bowman, Michael Kleinman, Aditya Chattopadhyay, Wei Xia, Stefano Soatto
cs.AI
papers.abstract
Permettre aux systèmes d'IA agentiques d'adapter leurs approches de résolution de problèmes sur la base d'interactions post-entraînement demeure un défi fondamental. Bien que des systèmes mettant à jour et maintenant une mémoire au moment de l'inférence aient été proposés, les conceptions existantes ne pilotent le système qu'en modifiant l'entrée textuelle d'un modèle de langage ou d'un agent, ce qui signifie qu'elles ne peuvent pas modifier les paramètres d'échantillonnage, supprimer des outils, modifier les prompts système ou alterner entre les paradigmes agentiques et les workflows. D'autre part, les systèmes qui s'adaptent plus flexiblement nécessitent une optimisation hors ligne et restent statiques une fois déployés. Nous présentons l'Experience-Guided Reasoner (EGuR), qui génère des stratégies sur mesure – des procédures computationnelles complètes impliquant des appels à des LLM, des outils, des paramètres d'échantillonnage et une logique de contrôle – dynamiquement au moment de l'inférence, en se basant sur l'expérience accumulée. Nous y parvenons en utilisant une méta-stratégie basée sur un LLM – une stratégie qui produit des stratégies – permettant l'adaptation de tous les composants stratégiques (prompts, paramètres d'échantillonnage, configurations d'outils et logique de contrôle). EGuR fonctionne via deux composants : un Guide génère plusieurs stratégies candidates conditionnées par le problème actuel et la mémoire structurée des expériences passées, tandis qu'un Consolidateur intègre les retours d'exécution pour améliorer la génération future de stratégies. Cela produit des stratégies complètes, prêtes à l'emploi et optimisées pour chaque problème, qui peuvent être mises en cache, récupérées et exécutées selon les besoins sans gaspiller de ressources. Sur cinq benchmarks exigeants (AIME 2025, 3-SAT et trois tâches Big Bench Extra Hard), EGuR obtient des améliorations de précision allant jusqu'à 14 % par rapport aux lignes de base les plus solides, tout en réduisant les coûts computationnels jusqu'à 111 fois, ces deux métriques s'améliorant à mesure que le système acquiert de l'expérience.
English
Enabling agentic AI systems to adapt their problem-solving approaches based on post-training interactions remains a fundamental challenge. While systems that update and maintain a memory at inference time have been proposed, existing designs only steer the system by modifying textual input to a language model or agent, which means that they cannot change sampling parameters, remove tools, modify system prompts, or switch between agentic and workflow paradigms. On the other hand, systems that adapt more flexibly require offline optimization and remain static once deployed. We present Experience-Guided Reasoner (EGuR), which generates tailored strategies -- complete computational procedures involving LLM calls, tools, sampling parameters, and control logic -- dynamically at inference time based on accumulated experience. We achieve this using an LLM-based meta-strategy -- a strategy that outputs strategies -- enabling adaptation of all strategy components (prompts, sampling parameters, tool configurations, and control logic). EGuR operates through two components: a Guide generates multiple candidate strategies conditioned on the current problem and structured memory of past experiences, while a Consolidator integrates execution feedback to improve future strategy generation. This produces complete, ready-to-run strategies optimized for each problem, which can be cached, retrieved, and executed as needed without wasting resources. Across five challenging benchmarks (AIME 2025, 3-SAT, and three Big Bench Extra Hard tasks), EGuR achieves up to 14% accuracy improvements over the strongest baselines while reducing computational costs by up to 111x, with both metrics improving as the system gains experience.