Контекстно-зависимое обучение с подкреплением для агентных и мультимодальных больших языковых моделей

Аннотация

Большие языковые модели (LLMs) часто дают сбой, когда ответ требует выявления небольшого, но решающего фрагмента доказательств в длинном или сложном контексте, например, одной строки в трассировке инструментов или тонкой детали на изображении. Мы предлагаем ContextRL — контекстно-зависимый метод обучения с подкреплением (RL), который улучшает долгосрочное рассуждение и мультимодальную производительность с помощью косвенной вспомогательной цели. Вместо контроля только финального ответа, ContextRL предъявляет модели запрос, ответ и два очень похожих контекста, а затем вознаграждает её за выбор контекста, который подтверждает пару «запрос–ответ», тем самым стимулируя точное обоснование. Мы формируем контрастные контекстные данные в двух областях: для программных агентов в качестве контекстов выступают траектории, что даёт 1 тыс. пар, построенных с помощью фильтрации по условиям; для мультимодального рассуждения в качестве контекстов выступают изображения, что даёт 7 тыс. пар, построенных с помощью генеративного редактирования и поиска по сходству. ContextRL достигает среднего прироста +2.2% по сравнению со стандартным GRPO на 5 долгосрочных бенчмарках и +1.8% на 12 разнообразных бенчмарках вопросно-ответных задач по изображениям. Чтобы отделить влияние предложенной цели от влияния дополнительных данных, мы сравниваем её с базовыми линиями увеличения данных, которые используют те же контрастные контексты в качестве стандартных примеров «запрос–контекст–ответ». Эти базовые линии дают незначительное улучшение или не дают его вовсе, что свидетельствует о том, что выигрыш возникает благодаря предложенной цели выбора контекста, а не только за счёт контрастных данных.

English

Large language models (LLMs) often fail when answering requires identifying a small but decisive piece of evidence within a long or complex context, such as a single line in a tool trace or a subtle detail in an image. We propose ContextRL, a context-aware reinforcement learning (RL) method that improves long-horizon reasoning and multimodal performance through an indirect auxiliary objective. Instead of supervising only the final answer, ContextRL presents the model with a query, an answer, and two highly similar contexts, and rewards it for selecting the context that supports the query--answer pair, thereby encouraging fine-grained grounding. We construct contrastive context data in two domains: for coding agents, trajectories serve as contexts, yielding 1k pairs built via condition filtering; for multimodal reasoning, images serve as contexts, yielding 7K pairs built via generative editing and similarity search. ContextRL achieves average gains of +2.2% over standard GRPO on 5 long-horizon benchmarks, and +1.8% across 12 diverse visual question answering benchmarks. To disentangle the effect of the proposed objective from that of additional data, we compare against data-augmentation baselines that repurpose the same contrastive contexts as standard query--context--answer examples. These baselines provide little to no improvement, showing that the gains arise from the proposed context-selection objective rather than from the contrastive data alone.