Kontextbewusstes RL für agentische und multimodale LLMs

Zusammenfassung

Große Sprachmodelle (LLMs) scheitern häufig, wenn eine Antwort die Identifizierung eines kleinen, aber entscheidenden Beweisstücks innerhalb eines langen oder komplexen Kontexts erfordert, etwa einer einzelnen Zeile in einer Werkzeugspur oder eines subtilen Details in einem Bild. Wir schlagen ContextRL vor, eine kontextbewusste Methode des bestärkenden Lernens (RL), die durch ein indirektes Hilfsziel die Leistung bei langfristigem Denken und multimodalen Aufgaben verbessert. Anstatt nur die endgültige Antwort zu überwachen, präsentiert ContextRL dem Modell eine Abfrage, eine Antwort und zwei sehr ähnliche Kontexte und belohnt es für die Auswahl des Kontexts, der das Abfrage-Antwort-Paar stützt, wodurch eine feinkörnige Verankerung gefördert wird. Wir konstruieren kontrastive Kontextdaten in zwei Bereichen: Bei Code-Agenten dienen Trajektorien als Kontexte, was durch Bedingungsfilterung 1.000 Paare ergibt; bei multimodaler Argumentation dienen Bilder als Kontexte, was durch generative Bearbeitung und Ähnlichkeitssuche 7.000 Paare ergibt. ContextRL erzielt durchschnittliche Verbesserungen von +2,2% gegenüber standardmäßigem GRPO bei 5 Benchmarks für langfristiges Denken und +1,8% bei 12 verschiedenen Benchmarks für visuelles Fragenbeantworten. Um den Effekt der vorgeschlagenen Zielsetzung von dem der zusätzlichen Daten zu trennen, vergleichen wir mit Datenanreicherungs-Baselines, die dieselben kontrastiven Kontexte als standardmäßige Abfrage-Kontext-Antwort-Beispiele umnutzen. Diese Baselines erzielen kaum oder gar keine Verbesserungen, was zeigt, dass die Zuwächse auf die vorgeschlagene Kontextauswahl-Zielsetzung zurückzuführen sind und nicht allein auf die kontrastiven Daten.

English

Large language models (LLMs) often fail when answering requires identifying a small but decisive piece of evidence within a long or complex context, such as a single line in a tool trace or a subtle detail in an image. We propose ContextRL, a context-aware reinforcement learning (RL) method that improves long-horizon reasoning and multimodal performance through an indirect auxiliary objective. Instead of supervising only the final answer, ContextRL presents the model with a query, an answer, and two highly similar contexts, and rewards it for selecting the context that supports the query--answer pair, thereby encouraging fine-grained grounding. We construct contrastive context data in two domains: for coding agents, trajectories serve as contexts, yielding 1k pairs built via condition filtering; for multimodal reasoning, images serve as contexts, yielding 7K pairs built via generative editing and similarity search. ContextRL achieves average gains of +2.2% over standard GRPO on 5 long-horizon benchmarks, and +1.8% across 12 diverse visual question answering benchmarks. To disentangle the effect of the proposed objective from that of additional data, we compare against data-augmentation baselines that repurpose the same contrastive contexts as standard query--context--answer examples. These baselines provide little to no improvement, showing that the gains arise from the proposed context-selection objective rather than from the contrastive data alone.