Aprendizaje por Refuerzo Consciente del Contexto para LLMs Agentivos y Multimodales

Resumen

Los grandes modelos de lenguaje (LLMs) a menudo fallan cuando responder requiere identificar una pequeña pero decisiva pieza de evidencia dentro de un contexto largo o complejo, como una sola línea en un rastro de herramienta o un detalle sutil en una imagen. Proponemos ContextRL, un método de aprendizaje por refuerzo (RL) consciente del contexto que mejora el razonamiento a largo plazo y el rendimiento multimodal mediante un objetivo auxiliar indirecto. En lugar de supervisar solo la respuesta final, ContextRL presenta al modelo una consulta, una respuesta y dos contextos muy similares, y lo recompensa por seleccionar el contexto que respalda el par consulta-respuesta, fomentando así un anclaje detallado. Construimos datos de contexto contrastivos en dos dominios: para agentes de codificación, las trayectorias sirven como contextos, obteniendo 1k pares construidos mediante filtrado de condiciones; para el razonamiento multimodal, las imágenes sirven como contextos, obteniendo 7K pares construidos mediante edición generativa y búsqueda de similitud. ContextRL logra ganancias promedio de +2.2% sobre GRPO estándar en 5 puntos de referencia de razonamiento a largo plazo, y +1.8% en 12 puntos de referencia diversos de respuesta a preguntas visuales. Para desenredar el efecto del objetivo propuesto del efecto de los datos adicionales, comparamos con líneas base de aumento de datos que reutilizan los mismos contextos contrastivos como ejemplos estándar de consulta-contexto-respuesta. Estas líneas base proporcionan poca o ninguna mejora, lo que demuestra que las ganancias surgen del objetivo de selección de contexto propuesto y no únicamente de los datos contrastivos.

English

Large language models (LLMs) often fail when answering requires identifying a small but decisive piece of evidence within a long or complex context, such as a single line in a tool trace or a subtle detail in an image. We propose ContextRL, a context-aware reinforcement learning (RL) method that improves long-horizon reasoning and multimodal performance through an indirect auxiliary objective. Instead of supervising only the final answer, ContextRL presents the model with a query, an answer, and two highly similar contexts, and rewards it for selecting the context that supports the query--answer pair, thereby encouraging fine-grained grounding. We construct contrastive context data in two domains: for coding agents, trajectories serve as contexts, yielding 1k pairs built via condition filtering; for multimodal reasoning, images serve as contexts, yielding 7K pairs built via generative editing and similarity search. ContextRL achieves average gains of +2.2% over standard GRPO on 5 long-horizon benchmarks, and +1.8% across 12 diverse visual question answering benchmarks. To disentangle the effect of the proposed objective from that of additional data, we compare against data-augmentation baselines that repurpose the same contrastive contexts as standard query--context--answer examples. These baselines provide little to no improvement, showing that the gains arise from the proposed context-selection objective rather than from the contrastive data alone.