Mise en évidence des preuves d'apprentissage pour les LLM figés

Résumé

Les grands modèles de langage (LLM) raisonnent efficacement mais négligent souvent des preuves décisives lorsqu'elles sont noyées dans des contextes longs et bruyants. Nous présentons HiLight, un cadre d'accentuation des preuves qui dissocie la sélection des preuves du raisonnement pour les solveurs LLM figés. HiLight évite de compresser ou de reformuler l'entrée - ce qui pourrait supprimer ou déformer les preuves - en entraînant un Acteur d'accentuation léger à insérer des balises de surlignage minimales autour des passages pivots dans le contexte original. Un Solveur figé effectue ensuite le raisonnement en aval sur l'entrée accentuée. Nous modélisons le surlignage comme un problème décisionnel faiblement supervisé et optimisons l'Acteur par apprentissage par renforcement en utilisant uniquement la récompense tâche du Solveur, sans nécessiter d'annotations de preuves ni d'accès ou modification du Solveur. Sur des tâches de recommandation séquentielle et de question-réponse en contexte long, HiLight améliore constamment les performances par rapport à des méthodes de référence basées sur l'optimisation automatique d'invites. La politique d'accentuation apprise se transfère zero-shot à des familles de Solveurs non vues, plus petites ou plus grandes, y compris un Solveur basé sur une API, suggérant que l'Acteur capture une structure probante authentique et réutilisable plutôt que de surajuster à une architecture unique.

English

Large Language Models (LLMs) can reason well, yet often miss decisive evidence when it is buried in long, noisy contexts. We introduce HiLight, an Evidence Emphasis framework that decouples evidence selection from reasoning for frozen LLM solvers. HiLight avoids compressing or rewriting the input, which can discard or distort evidence, by training a lightweight Emphasis Actor to insert minimal highlight tags around pivotal spans in the unaltered context. A frozen Solver then performs downstream reasoning on the emphasized input. We cast highlighting as a weakly supervised decision-making problem and optimize the Actor with reinforcement learning using only the Solver's task reward, requiring no evidence labels and no access to or modification of the Solver. Across sequential recommendation and long-context question answering, HiLight consistently improves performance over strong prompt-based and automated prompt-optimization baselines. The learned emphasis policy transfers zero-shot to both smaller and larger unseen Solver families, including an API-based Solver, suggesting that the Actor captures genuine, reusable evidence structure rather than overfitting to a single backbone.

Mise en évidence des preuves d'apprentissage pour les LLM figés

Learning Evidence Highlighting for Frozen LLMs

Résumé

Support