Контекстно-зависимое обучение с подкреплением для агентных и мультимодальных больших языковых моделей
Context-Aware RL for Agentic and Multimodal LLMs
June 15, 2026
Авторы: Peiyang Xu, Bangzheng Li, Sijia Liu, Karthik R. Narasimhan, Pramod Viswanath, Prateek Mittal, Xingyu Fu
cs.AI
Аннотация
Большие языковые модели (LLMs) часто дают сбой, когда ответ требует выявления небольшого, но решающего фрагмента доказательств в длинном или сложном контексте, например, одной строки в трассировке инструментов или тонкой детали на изображении. Мы предлагаем ContextRL — контекстно-зависимый метод обучения с подкреплением (RL), который улучшает долгосрочное рассуждение и мультимодальную производительность с помощью косвенной вспомогательной цели. Вместо контроля только финального ответа, ContextRL предъявляет модели запрос, ответ и два очень похожих контекста, а затем вознаграждает её за выбор контекста, который подтверждает пару «запрос–ответ», тем самым стимулируя точное обоснование. Мы формируем контрастные контекстные данные в двух областях: для программных агентов в качестве контекстов выступают траектории, что даёт 1 тыс. пар, построенных с помощью фильтрации по условиям; для мультимодального рассуждения в качестве контекстов выступают изображения, что даёт 7 тыс. пар, построенных с помощью генеративного редактирования и поиска по сходству. ContextRL достигает среднего прироста +2.2% по сравнению со стандартным GRPO на 5 долгосрочных бенчмарках и +1.8% на 12 разнообразных бенчмарках вопросно-ответных задач по изображениям. Чтобы отделить влияние предложенной цели от влияния дополнительных данных, мы сравниваем её с базовыми линиями увеличения данных, которые используют те же контрастные контексты в качестве стандартных примеров «запрос–контекст–ответ». Эти базовые линии дают незначительное улучшение или не дают его вовсе, что свидетельствует о том, что выигрыш возникает благодаря предложенной цели выбора контекста, а не только за счёт контрастных данных.
English
Large language models (LLMs) often fail when answering requires identifying a small but decisive piece of evidence within a long or complex context, such as a single line in a tool trace or a subtle detail in an image. We propose ContextRL, a context-aware reinforcement learning (RL) method that improves long-horizon reasoning and multimodal performance through an indirect auxiliary objective. Instead of supervising only the final answer, ContextRL presents the model with a query, an answer, and two highly similar contexts, and rewards it for selecting the context that supports the query--answer pair, thereby encouraging fine-grained grounding. We construct contrastive context data in two domains: for coding agents, trajectories serve as contexts, yielding 1k pairs built via condition filtering; for multimodal reasoning, images serve as contexts, yielding 7K pairs built via generative editing and similarity search. ContextRL achieves average gains of +2.2% over standard GRPO on 5 long-horizon benchmarks, and +1.8% across 12 diverse visual question answering benchmarks. To disentangle the effect of the proposed objective from that of additional data, we compare against data-augmentation baselines that repurpose the same contrastive contexts as standard query--context--answer examples. These baselines provide little to no improvement, showing that the gains arise from the proposed context-selection objective rather than from the contrastive data alone.