ChatPaper.aiChatPaper

Adaptación Guiada por la Experiencia de Estrategias de Razonamiento en el Momento de la Inferencia

Experience-Guided Adaptation of Inference-Time Reasoning Strategies

November 14, 2025
Autores: Adam Stein, Matthew Trager, Benjamin Bowman, Michael Kleinman, Aditya Chattopadhyay, Wei Xia, Stefano Soatto
cs.AI

Resumen

Permitir que los sistemas de IA agenticos adapten sus enfoques de resolución de problemas basándose en interacciones posteriores al entrenamiento sigue siendo un desafío fundamental. Si bien se han propuesto sistemas que actualizan y mantienen una memoria durante el tiempo de inferencia, los diseños existentes solo dirigen el sistema modificando la entrada textual a un modelo de lenguaje o agente, lo que significa que no pueden cambiar parámetros de muestreo, eliminar herramientas, modificar instrucciones del sistema o cambiar entre paradigmas agenticos y de flujo de trabajo. Por otro lado, los sistemas que se adaptan de manera más flexible requieren optimización fuera de línea y permanecen estáticos una vez desplegados. Presentamos Experience-Guided Reasoner (EGuR), que genera estrategias personalizadas —procedimientos computacionales completos que involucran llamadas a LLM, herramientas, parámetros de muestreo y lógica de control— de forma dinámica durante el tiempo de inferencia basándose en la experiencia acumulada. Logramos esto utilizando una meta-estrategia basada en LLM —una estrategia que genera estrategias— permitiendo la adaptación de todos los componentes de la estrategia (instrucciones, parámetros de muestreo, configuraciones de herramientas y lógica de control). EGuR opera mediante dos componentes: una Guía genera múltiples estrategias candidatas condicionadas al problema actual y a una memoria estructurada de experiencias pasadas, mientras que un Consolidador integra la retroalimentación de la ejecución para mejorar la generación futura de estrategias. Esto produce estrategias completas y listas para ejecutar, optimizadas para cada problema, que pueden almacenarse en caché, recuperarse y ejecutarse según sea necesario sin desperdiciar recursos. En cinco benchmarks desafiantes (AIME 2025, 3-SAT y tres tareas Big Bench Extra Hard), EGuR logra mejoras de precisión de hasta el 14 % respecto a las líneas base más sólidas, mientras reduce los costos computacionales hasta en 111 veces, mejorando ambas métricas a medida que el sistema gana experiencia.
English
Enabling agentic AI systems to adapt their problem-solving approaches based on post-training interactions remains a fundamental challenge. While systems that update and maintain a memory at inference time have been proposed, existing designs only steer the system by modifying textual input to a language model or agent, which means that they cannot change sampling parameters, remove tools, modify system prompts, or switch between agentic and workflow paradigms. On the other hand, systems that adapt more flexibly require offline optimization and remain static once deployed. We present Experience-Guided Reasoner (EGuR), which generates tailored strategies -- complete computational procedures involving LLM calls, tools, sampling parameters, and control logic -- dynamically at inference time based on accumulated experience. We achieve this using an LLM-based meta-strategy -- a strategy that outputs strategies -- enabling adaptation of all strategy components (prompts, sampling parameters, tool configurations, and control logic). EGuR operates through two components: a Guide generates multiple candidate strategies conditioned on the current problem and structured memory of past experiences, while a Consolidator integrates execution feedback to improve future strategy generation. This produces complete, ready-to-run strategies optimized for each problem, which can be cached, retrieved, and executed as needed without wasting resources. Across five challenging benchmarks (AIME 2025, 3-SAT, and three Big Bench Extra Hard tasks), EGuR achieves up to 14% accuracy improvements over the strongest baselines while reducing computational costs by up to 111x, with both metrics improving as the system gains experience.
PDF32December 1, 2025