ChatPaper.aiChatPaper

Выделение обучающих данных для замороженных больших языковых моделей

Learning Evidence Highlighting for Frozen LLMs

April 24, 2026
Авторы: Shaoang Li, Yanhang Shi, Yufei Li, Mingfu Liang, Xiaohan Wei, Yunchen Pu, Fei Tian, Chonglin Sun, Frank Shyu, Luke Simon, Sandeep Pandey, Xi Liu, Jian Li
cs.AI

Аннотация

Крупные языковые модели (LLM) обладают развитыми способностями к рассуждению, однако часто упускают решающие доказательства, когда они скрыты в длинных, зашумленных контекстах. Мы представляем HiLight — фреймворк акцентирования доказательств, который разделяет выбор доказательств и процесс рассуждений для замороженных решателей LLM. HiLight избегает сжатия или переформулирования входных данных, что может привести к потере или искажению доказательств, путем обучения легковесного Актора акцентирования, который вставляет минимальные теги выделения вокруг ключевых фрагментов в неизмененном контексте. Затем замороженный Решатель выполняет последующие рассуждения на основе акцентированного ввода. Мы формулируем выделение как слабо контролируемую проблему принятия решений и оптимизируем Актора с помощью обучения с подкреплением, используя только целевое вознаграждение Решателя, что не требует размеченных доказательств, доступа к Решателю или его модификации. В задачах последовательных рекомендаций и ответов на вопросы по длинным контекстам HiLight стабильно повышает производительность по сравнению с сильными базовыми методами на основе промптов и автоматической оптимизации промптов. Изученная политика акцентирования передается с нулевым разгоном как на меньшие, так и на большие непредвиденные семейства Решателей, включая Решатель на основе API, что позволяет предположить, что Актор улавливает подлинную, пригодную для повторного использования структуру доказательств, а не переобучается под единственную базовую архитектуру.
English
Large Language Models (LLMs) can reason well, yet often miss decisive evidence when it is buried in long, noisy contexts. We introduce HiLight, an Evidence Emphasis framework that decouples evidence selection from reasoning for frozen LLM solvers. HiLight avoids compressing or rewriting the input, which can discard or distort evidence, by training a lightweight Emphasis Actor to insert minimal highlight tags around pivotal spans in the unaltered context. A frozen Solver then performs downstream reasoning on the emphasized input. We cast highlighting as a weakly supervised decision-making problem and optimize the Actor with reinforcement learning using only the Solver's task reward, requiring no evidence labels and no access to or modification of the Solver. Across sequential recommendation and long-context question answering, HiLight consistently improves performance over strong prompt-based and automated prompt-optimization baselines. The learned emphasis policy transfers zero-shot to both smaller and larger unseen Solver families, including an API-based Solver, suggesting that the Actor captures genuine, reusable evidence structure rather than overfitting to a single backbone.
PDF20April 28, 2026