Apprentissage par renforcement contextuel pour les LLM agentiques et multimodaux

Résumé

Les grands modèles de langage (LLMs) échouent souvent lorsque la réponse nécessite d'identifier un indice petit mais décisif dans un contexte long ou complexe, comme une seule ligne dans une trace d'outil ou un détail subtil dans une image. Nous proposons ContextRL, une méthode d'apprentissage par renforcement (RL) contextuelle qui améliore le raisonnement à long horizon et les performances multimodales grâce à un objectif auxiliaire indirect. Au lieu de superviser uniquement la réponse finale, ContextRL présente au modèle une requête, une réponse et deux contextes très similaires, et le récompense pour avoir sélectionné le contexte qui soutient le couple requête-réponse, encourageant ainsi un ancrage précis. Nous construisons des données contextuelles contrastives dans deux domaines : pour les agents de codage, les trajectoires servent de contextes, produisant 1 000 paires construites par filtrage de conditions ; pour le raisonnement multimodal, les images servent de contextes, produisant 7 000 paires construites par édition générative et recherche de similarité. ContextRL obtient des gains moyens de +2,2 % par rapport à GRPO standard sur 5 benchmarks à long horizon, et de +1,8 % sur 12 benchmarks variés de questions-réponses visuelles. Pour dissocier l'effet de l'objectif proposé de celui de données supplémentaires, nous comparons à des lignes de base d'augmentation de données qui réutilisent les mêmes contextes contrastifs comme exemples standard requête-contexte-réponse. Ces lignes de base n'apportent que peu ou pas d'amélioration, montrant que les gains proviennent de l'objectif de sélection de contexte proposé plutôt que des seules données contrastives.

English

Large language models (LLMs) often fail when answering requires identifying a small but decisive piece of evidence within a long or complex context, such as a single line in a tool trace or a subtle detail in an image. We propose ContextRL, a context-aware reinforcement learning (RL) method that improves long-horizon reasoning and multimodal performance through an indirect auxiliary objective. Instead of supervising only the final answer, ContextRL presents the model with a query, an answer, and two highly similar contexts, and rewards it for selecting the context that supports the query--answer pair, thereby encouraging fine-grained grounding. We construct contrastive context data in two domains: for coding agents, trajectories serve as contexts, yielding 1k pairs built via condition filtering; for multimodal reasoning, images serve as contexts, yielding 7K pairs built via generative editing and similarity search. ContextRL achieves average gains of +2.2% over standard GRPO on 5 long-horizon benchmarks, and +1.8% across 12 diverse visual question answering benchmarks. To disentangle the effect of the proposed objective from that of additional data, we compare against data-augmentation baselines that repurpose the same contrastive contexts as standard query--context--answer examples. These baselines provide little to no improvement, showing that the gains arise from the proposed context-selection objective rather than from the contrastive data alone.