Evidenziamento delle Prove di Apprendimento per LLM Congelati

Abstract

I grandi modelli linguistici (LLM) possiedono notevoli capacità di ragionamento, ma spesso trascurano prove decisive quando queste sono sepolte in contesti lunghi e rumorosi. Introduciamo HiLight, un framework di Evidenziazione delle Prove che separa la selezione delle prove dal ragionamento per risolutori LLM congelati. HiLight evita di comprimere o riscrivere l'input, operazioni che potrebbero scartare o distorcere le prove, addestrando un Attore di Evidenziazione leggero a inserire tag di evidenziazione minimi attorno agli span pivotali nel contesto originale. Un Risolutore congelato esegue quindi il ragionamento downstream sull'input evidenziato. Inquadriamo l'evidenziazione come un problema decisionale debolmente supervisionato e ottimizziamo l'Attore con l'apprendimento per rinforzo utilizzando solo la ricompensa del compito del Risolutore, senza necessità di etichette sulle prove né di accesso o modifica del Risolutore. In ambiti come la raccomandazione sequenziale e la risposta a domande su contesti lunghi, HiLight migliora costantemente le prestazioni rispetto a solide baseline basate su prompt e sull'ottimizzazione automatica dei prompt. La politica di evidenziazione appresa si trasferisce zero-shot sia a famiglie di Risolutori più piccole che più grandi non viste durante l'addestramento, inclusi Risolutori basati su API, suggerendo che l'Attore cattura una struttura delle prove genuina e riutilizzabile piuttosto che adattarsi eccessivamente a un singolo modello di base.

English

Large Language Models (LLMs) can reason well, yet often miss decisive evidence when it is buried in long, noisy contexts. We introduce HiLight, an Evidence Emphasis framework that decouples evidence selection from reasoning for frozen LLM solvers. HiLight avoids compressing or rewriting the input, which can discard or distort evidence, by training a lightweight Emphasis Actor to insert minimal highlight tags around pivotal spans in the unaltered context. A frozen Solver then performs downstream reasoning on the emphasized input. We cast highlighting as a weakly supervised decision-making problem and optimize the Actor with reinforcement learning using only the Solver's task reward, requiring no evidence labels and no access to or modification of the Solver. Across sequential recommendation and long-context question answering, HiLight consistently improves performance over strong prompt-based and automated prompt-optimization baselines. The learned emphasis policy transfers zero-shot to both smaller and larger unseen Solver families, including an API-based Solver, suggesting that the Actor captures genuine, reusable evidence structure rather than overfitting to a single backbone.

Evidenziamento delle Prove di Apprendimento per LLM Congelati

Learning Evidence Highlighting for Frozen LLMs

Abstract

Support