Destacado de Evidencia de Aprendizaje para Modelos de Lenguaje Congelados

Resumen

Los Modelos de Lenguaje Grandes (LLMs) razonan eficazmente, pero a menudo pasan por alto evidencia decisiva cuando esta se encuentra enterrada en contextos largos y ruidosos. Presentamos HiLight, un marco de Énfasis de Evidencia que desacopla la selección de evidencia del razonamiento para solucionadores LLM congelados. HiLight evita comprimir o reescribir la entrada, lo que puede descartar o distorsionar la evidencia, entrenando a un Actor de Énfasis ligero para insertar etiquetas de resaltado mínimas alrededor de los fragmentos cruciales en el contexto sin alterar. Un Solucionador congelado realiza luego el razonamiento posterior sobre la entrada enfatizada. Planteamos el resaltado como un problema de toma de decisiones débilmente supervisado y optimizamos al Actor con aprendizaje por refuerzo utilizando únicamente la recompensa de la tarea del Solucionador, sin requerir etiquetas de evidencia ni acceso o modificación del Solucionador. En tareas de recomendación secuencial y respuesta a preguntas de contexto largo, HiLight mejora consistentemente el rendimiento respecto a sólidos métodos de referencia basados en prompts y de optimización automática de prompts. La política de énfasis aprendida se transfiere *zero-shot* tanto a familias de Solucionadores no vistos más pequeñas como más grandes, incluido un Solucionador basado en API, lo que sugiere que el Actor captura una estructura de evidencia genuina y reutilizable en lugar de sobreajustarse a una única arquitectura base.

English

Large Language Models (LLMs) can reason well, yet often miss decisive evidence when it is buried in long, noisy contexts. We introduce HiLight, an Evidence Emphasis framework that decouples evidence selection from reasoning for frozen LLM solvers. HiLight avoids compressing or rewriting the input, which can discard or distort evidence, by training a lightweight Emphasis Actor to insert minimal highlight tags around pivotal spans in the unaltered context. A frozen Solver then performs downstream reasoning on the emphasized input. We cast highlighting as a weakly supervised decision-making problem and optimize the Actor with reinforcement learning using only the Solver's task reward, requiring no evidence labels and no access to or modification of the Solver. Across sequential recommendation and long-context question answering, HiLight consistently improves performance over strong prompt-based and automated prompt-optimization baselines. The learned emphasis policy transfers zero-shot to both smaller and larger unseen Solver families, including an API-based Solver, suggesting that the Actor captures genuine, reusable evidence structure rather than overfitting to a single backbone.

Destacado de Evidencia de Aprendizaje para Modelos de Lenguaje Congelados

Learning Evidence Highlighting for Frozen LLMs

Resumen

Support