Aprendizaje por Refuerzo en Contexto para el Uso de Herramientas en Modelos de Lenguaje a Gran Escala

Resumen

Si bien los grandes modelos de lenguaje (LLM) exhiben sólidas capacidades de razonamiento, su rendimiento en tareas complejas a menudo se ve limitado por las restricciones de su conocimiento interno. Un enfoque convincente para superar este desafío es aumentar estos modelos con herramientas externas, como intérpretes de Python para cálculos matemáticos o motores de búsqueda para recuperar información factual. Sin embargo, permitir que los modelos utilicen estas herramientas de manera efectiva sigue siendo un reto significativo. Los métodos existentes suelen depender de pipelines de inicio en frío que comienzan con el ajuste fino supervisado (SFT), seguido del aprendizaje por refuerzo (RL). Estos enfoques a menudo requieren grandes cantidades de datos etiquetados para el SFT, los cuales son costosos de anotar o sintetizar. En este trabajo, proponemos el Aprendizaje por Refuerzo en Contexto (ICRL), un marco basado únicamente en RL que elimina la necesidad de SFT aprovechando el prompting de pocos ejemplos durante la fase de despliegue del RL. Específicamente, ICRL introduce ejemplos en contexto dentro de los prompts de despliegue para enseñar al modelo cómo invocar herramientas externas. Además, a medida que avanza el entrenamiento, el número de ejemplos en contexto se reduce gradualmente, llegando eventualmente a un entorno de cero ejemplos donde el modelo aprende a llamar a las herramientas de forma independiente. Realizamos extensos experimentos en una variedad de benchmarks de razonamiento y uso de herramientas. Los resultados muestran que ICRL logra un rendimiento de vanguardia, demostrando su eficacia como una alternativa escalable y eficiente en datos a los pipelines tradicionales basados en SFT.

English

While large language models (LLMs) exhibit strong reasoning abilities, their performance on complex tasks is often constrained by the limitations of their internal knowledge. A compelling approach to overcome this challenge is to augment these models with external tools -- such as Python interpreters for mathematical computations or search engines for retrieving factual information. However, enabling models to use these tools effectively remains a significant challenge. Existing methods typically rely on cold-start pipelines that begin with supervised fine-tuning (SFT), followed by reinforcement learning (RL). These approaches often require substantial amounts of labeled data for SFT, which is expensive to annotate or synthesize. In this work, we propose In-Context Reinforcement Learning (ICRL), an RL-only framework that eliminates the need for SFT by leveraging few-shot prompting during the rollout stage of RL. Specifically, ICRL introduces in-context examples within the rollout prompts to teach the model how to invoke external tools. Furthermore, as training progresses, the number of in-context examples is gradually reduced, eventually reaching a zero-shot setting where the model learns to call tools independently. We conduct extensive experiments across a range of reasoning and tool-use benchmarks. Results show that ICRL achieves state-of-the-art performance, demonstrating its effectiveness as a scalable, data-efficient alternative to traditional SFT-based pipelines.

Aprendizaje por Refuerzo en Contexto para el Uso de Herramientas en Modelos de Lenguaje a Gran Escala

In-Context Reinforcement Learning for Tool Use in Large Language Models

Resumen

Support