Lernevidenz-Hervorhebung für eingefrorene große Sprachmodelle

Zusammenfassung

Große Sprachmodelle (LLMs) können gut schlussfolgern, verpassen jedoch oft entscheidende Beweise, wenn diese in langen, verrauschten Kontexten verborgen sind. Wir stellen HiLight vor, ein Evidenz-Hervorhebungs-Framework, das die Beweisauswahl vom Schlussfolgern für eingefrorene LLM-Löser entkoppelt. HiLight vermeidet die Komprimierung oder Neufassung der Eingabe, was Beweise verwerfen oder verzerren kann, indem es einen leichtgewichtigen Hervorhebungs-Aktor trainiert, der minimale Hervorhebungs-Tags um entscheidende Textabschnitte im unveränderten Kontext einfügt. Ein eingefrorener Löser führt dann das nachgelagerte Schlussfolgern auf der hervorgehobenen Eingabe durch. Wir fassen Hervorhebung als ein schwach überwachtes Entscheidungsproblem auf und optimieren den Aktor mittels Verstärkungslernen unter Verwendung ausschließlich der Aufgabenbelohnung des Lösers, ohne dass Beweis-Labels oder Zugriff auf bzw. Modifikation des Lösers erforderlich sind. In den Bereichen sequenzielle Empfehlungssysteme und Fragebeantwortung mit langem Kontext verbessert HiLight durchgängig die Leistung gegenüber starken prompt-basierten und automatisierten Prompt-Optimierungs-Baselines. Die erlernte Hervorhebungs-Strategie überträgt Zero-Shot sowohl auf kleinere als auch größere ungesehene Löser-Familien, einschließlich eines API-basierten Lösers, was darauf hindeutet, dass der Aktor echte, wiederverwendbare Beweisstrukturen erfasst und nicht an ein einzelnes Backbone-Modell overfittet.

English

Large Language Models (LLMs) can reason well, yet often miss decisive evidence when it is buried in long, noisy contexts. We introduce HiLight, an Evidence Emphasis framework that decouples evidence selection from reasoning for frozen LLM solvers. HiLight avoids compressing or rewriting the input, which can discard or distort evidence, by training a lightweight Emphasis Actor to insert minimal highlight tags around pivotal spans in the unaltered context. A frozen Solver then performs downstream reasoning on the emphasized input. We cast highlighting as a weakly supervised decision-making problem and optimize the Actor with reinforcement learning using only the Solver's task reward, requiring no evidence labels and no access to or modification of the Solver. Across sequential recommendation and long-context question answering, HiLight consistently improves performance over strong prompt-based and automated prompt-optimization baselines. The learned emphasis policy transfers zero-shot to both smaller and larger unseen Solver families, including an API-based Solver, suggesting that the Actor captures genuine, reusable evidence structure rather than overfitting to a single backbone.

Lernevidenz-Hervorhebung für eingefrorene große Sprachmodelle

Learning Evidence Highlighting for Frozen LLMs

Zusammenfassung

Support