Contextbewust RL voor agentische en multimodale grote taalmodellen

Samenvatting

Grote taalmodellen (LLM's) falen vaak wanneer het beantwoorden van een vraag vereist dat een klein maar doorslaggevend stuk bewijs wordt geïdentificeerd binnen een lange of complexe context, zoals een enkele regel in een tooltrace of een subtiel detail in een afbeelding. We stellen ContextRL voor, een contextbewuste versterkend leren (RL)-methode die redeneren over lange horizon en multimodale prestaties verbetert via een indirecte hulpdoelstelling. In plaats van alleen het uiteindelijke antwoord te superviseren, presenteert ContextRL het model met een vraag, een antwoord en twee sterk vergelijkbare contexten, en beloont het voor het selecteren van de context die het vraag-antwoordpaar ondersteunt, waardoor fijnmazige verankering wordt aangemoedigd. We construeren contrastieve contextgegevens in twee domeinen: voor codeeragenten dienen trajecten als contexten, wat 1000 paren oplevert die zijn gebouwd via conditiefiltering; voor multimodaal redeneren dienen afbeeldingen als contexten, wat 7000 paren oplevert die zijn gebouwd via generatieve bewerking en gelijkeniszoektocht. ContextRL behaalt gemiddelde winsten van +2,2% ten opzichte van standaard GRPO op 5 benchmarks voor lange horizon, en +1,8% op 12 diverse benchmarks voor visuele vraagbeantwoording. Om het effect van de voorgestelde doelstelling te ontwarren van dat van extra gegevens, vergelijken we met basislijnen voor data-augmentatie die dezelfde contrastieve contexten hergebruiken als standaard vraag-context-antwoord voorbeelden. Deze basislijnen leveren weinig tot geen verbetering op, wat aantoont dat de winsten voortkomen uit de voorgestelde contextselectiedoelstelling en niet uit de contrastieve gegevens alleen.

English

Large language models (LLMs) often fail when answering requires identifying a small but decisive piece of evidence within a long or complex context, such as a single line in a tool trace or a subtle detail in an image. We propose ContextRL, a context-aware reinforcement learning (RL) method that improves long-horizon reasoning and multimodal performance through an indirect auxiliary objective. Instead of supervising only the final answer, ContextRL presents the model with a query, an answer, and two highly similar contexts, and rewards it for selecting the context that supports the query--answer pair, thereby encouraging fine-grained grounding. We construct contrastive context data in two domains: for coding agents, trajectories serve as contexts, yielding 1k pairs built via condition filtering; for multimodal reasoning, images serve as contexts, yielding 7K pairs built via generative editing and similarity search. ContextRL achieves average gains of +2.2% over standard GRPO on 5 long-horizon benchmarks, and +1.8% across 12 diverse visual question answering benchmarks. To disentangle the effect of the proposed objective from that of additional data, we compare against data-augmentation baselines that repurpose the same contrastive contexts as standard query--context--answer examples. These baselines provide little to no improvement, showing that the gains arise from the proposed context-selection objective rather than from the contrastive data alone.