ChatPaper.aiChatPaper

Adattamento Guidato dall'Esperienza delle Strategie di Ragionamento al Momento dell'Inferenza

Experience-Guided Adaptation of Inference-Time Reasoning Strategies

November 14, 2025
Autori: Adam Stein, Matthew Trager, Benjamin Bowman, Michael Kleinman, Aditya Chattopadhyay, Wei Xia, Stefano Soatto
cs.AI

Abstract

Consentire ai sistemi di IA agentivi di adattare le proprie strategie di problem-solving sulla base di interazioni post-addestramento rimane una sfida fondamentale. Sebbene siano stati proposti sistemi che aggiornano e mantengono una memoria durante l'inferenza, i progetti esistenti guidano il sistema solo modificando l'input testuale di un modello linguistico o agente, il che impedisce di alterare parametri di campionamento, rimuovere strumenti, modificare prompt di sistema o passare tra paradigmi agentivi e di workflow. D'altro canto, i sistemi che si adattano in modo più flessibile richiedono ottimizzazione offline e rimangono statici una volta distribuiti. Presentiamo Experience-Guided Reasoner (EGuR), che genera strategie personalizzate – procedure computazionali complete che coinvolgono chiamate a LLM, strumenti, parametri di campionamento e logica di controllo – dinamicamente durante l'inferenza, basandosi sull'esperienza accumulata. Raggiungiamo questo obiettivo utilizzando una meta-strategia basata su LLM – una strategia che produce strategie – consentendo l'adattamento di tutti i componenti strategici (prompt, parametri di campionamento, configurazioni di strumenti e logica di controllo). EGuR opera attraverso due componenti: una Guida genera multiple strategie candidate condizionate al problema corrente e alla memoria strutturata delle esperienze passate, mentre un Consolidatore integra il feedback esecutivo per migliorare la generazione strategica futura. Ciò produce strategie complete, pronte per l'esecuzione e ottimizzate per ogni problema, che possono essere memorizzate nella cache, recuperate ed eseguite secondo necessità senza spreco di risorse. Su cinque benchmark complessi (AIME 2025, 3-SAT e tre task Big Bench Extra Hard), EGuR raggiunge miglioramenti di accuratezza fino al 14% rispetto ai baseline più robusti, riducendo simultaneamente i costi computazionali fino a 111 volte, con entrambe le metriche che migliorano man mano che il sistema acquisisce esperienza.
English
Enabling agentic AI systems to adapt their problem-solving approaches based on post-training interactions remains a fundamental challenge. While systems that update and maintain a memory at inference time have been proposed, existing designs only steer the system by modifying textual input to a language model or agent, which means that they cannot change sampling parameters, remove tools, modify system prompts, or switch between agentic and workflow paradigms. On the other hand, systems that adapt more flexibly require offline optimization and remain static once deployed. We present Experience-Guided Reasoner (EGuR), which generates tailored strategies -- complete computational procedures involving LLM calls, tools, sampling parameters, and control logic -- dynamically at inference time based on accumulated experience. We achieve this using an LLM-based meta-strategy -- a strategy that outputs strategies -- enabling adaptation of all strategy components (prompts, sampling parameters, tool configurations, and control logic). EGuR operates through two components: a Guide generates multiple candidate strategies conditioned on the current problem and structured memory of past experiences, while a Consolidator integrates execution feedback to improve future strategy generation. This produces complete, ready-to-run strategies optimized for each problem, which can be cached, retrieved, and executed as needed without wasting resources. Across five challenging benchmarks (AIME 2025, 3-SAT, and three Big Bench Extra Hard tasks), EGuR achieves up to 14% accuracy improvements over the strongest baselines while reducing computational costs by up to 111x, with both metrics improving as the system gains experience.
PDF32December 1, 2025