Leren om bewijsmateriaal te markeren voor bevroren LLM's

Samenvatting

Grote Taalmodellen (LLM's) kunnen goed redeneren, maar missen vaak doorslaggevend bewijsmateriaal wanneer dit begraven ligt in lange, ruisrijke contexten. Wij introduceren HiLight, een *Evidence Emphasis* raamwerk dat bewijsselectie ontkoppelt van redeneren voor bevroren LLM-oplossers. HiLight vermijdt het comprimeren of herschrijven van de invoer, wat bewijs kan verwijderen of vervormen, door een lichtgewicht *Emphasis Actor* te trainen om minimale markeringstags in te voegen rond cruciale passages in de ongewijzigde context. Een bevroren *Solver* voert vervolgens downstream-redenering uit op de benadrukte invoer. Wij formuleren markeren als een zwak gesuperviseerd besluitvormingsprobleem en optimaliseren de Actor met reinforcement learning door alleen de taakbeloning van de Solver te gebruiken, zonder bewijslabels en zonder toegang tot of aanpassing van de Solver. Bij sequentiële aanbeveling en vraagbeantwoording in lange contexten verbetert HiLight consistent de prestaties ten opzichte van sterke op prompts gebaseerde en geautomatiseerde prompt-optimalisatie-baselines. Het geleerde benadrukingsbeleid transfereert *zero-shot* naar zowel kleinere als grotere onzichtbare Solver-families, inclusief een op API gebaseerde Solver, wat suggereert dat de Actor authentieke, herbruikbare bewijsstructuur vastlegt in plaats van overfitting te vertonen naar een enkele backbone.

English

Large Language Models (LLMs) can reason well, yet often miss decisive evidence when it is buried in long, noisy contexts. We introduce HiLight, an Evidence Emphasis framework that decouples evidence selection from reasoning for frozen LLM solvers. HiLight avoids compressing or rewriting the input, which can discard or distort evidence, by training a lightweight Emphasis Actor to insert minimal highlight tags around pivotal spans in the unaltered context. A frozen Solver then performs downstream reasoning on the emphasized input. We cast highlighting as a weakly supervised decision-making problem and optimize the Actor with reinforcement learning using only the Solver's task reward, requiring no evidence labels and no access to or modification of the Solver. Across sequential recommendation and long-context question answering, HiLight consistently improves performance over strong prompt-based and automated prompt-optimization baselines. The learned emphasis policy transfers zero-shot to both smaller and larger unseen Solver families, including an API-based Solver, suggesting that the Actor captures genuine, reusable evidence structure rather than overfitting to a single backbone.

Leren om bewijsmateriaal te markeren voor bevroren LLM's

Learning Evidence Highlighting for Frozen LLMs

Samenvatting

Support