RL Consciente de Contexto para LLMs Agênticos e Multimodais

Resumo

Grandes modelos de linguagem (LLMs) frequentemente falham quando a resposta exige identificar uma evidência pequena, porém decisiva, dentro de um contexto longo ou complexo, como uma única linha em um rastro de ferramentas ou um detalhe sutil em uma imagem. Propomos o ContextRL, um método de aprendizado por reforço (RL) ciente do contexto que melhora o raciocínio de longo horizonte e o desempenho multimodal por meio de um objetivo auxiliar indireto. Em vez de supervisionar apenas a resposta final, o ContextRL apresenta ao modelo uma consulta, uma resposta e dois contextos altamente semelhantes, recompensando-o por selecionar o contexto que sustenta o par consulta-resposta, incentivando assim um detalhamento refinado. Construímos dados de contexto contrastivos em dois domínios: para agentes de codificação, as trajetórias servem como contextos, gerando 1.000 pares construídos por filtragem condicional; para raciocínio multimodal, as imagens servem como contextos, gerando 7.000 pares construídos por edição generativa e busca por similaridade. O ContextRL alcança ganhos médios de +2,2% em relação ao GRPO padrão em cinco benchmarks de longo horizonte e +1,8% em doze benchmarks diversos de resposta a perguntas visuais. Para desassociar o efeito do objetivo proposto do efeito dos dados adicionais, comparamos com linhas de base de aumento de dados que reutilizam os mesmos contextos contrastivos como exemplos padrão de consulta-contexto-resposta. Essas linhas de base fornecem pouca ou nenhuma melhoria, mostrando que os ganhos decorrem do objetivo proposto de seleção de contexto, e não apenas dos dados contrastivos em si.

English

Large language models (LLMs) often fail when answering requires identifying a small but decisive piece of evidence within a long or complex context, such as a single line in a tool trace or a subtle detail in an image. We propose ContextRL, a context-aware reinforcement learning (RL) method that improves long-horizon reasoning and multimodal performance through an indirect auxiliary objective. Instead of supervising only the final answer, ContextRL presents the model with a query, an answer, and two highly similar contexts, and rewards it for selecting the context that supports the query--answer pair, thereby encouraging fine-grained grounding. We construct contrastive context data in two domains: for coding agents, trajectories serve as contexts, yielding 1k pairs built via condition filtering; for multimodal reasoning, images serve as contexts, yielding 7K pairs built via generative editing and similarity search. ContextRL achieves average gains of +2.2% over standard GRPO on 5 long-horizon benchmarks, and +1.8% across 12 diverse visual question answering benchmarks. To disentangle the effect of the proposed objective from that of additional data, we compare against data-augmentation baselines that repurpose the same contrastive contexts as standard query--context--answer examples. These baselines provide little to no improvement, showing that the gains arise from the proposed context-selection objective rather than from the contrastive data alone.