Destacamento de Evidências de Aprendizado para LLMs Congelados

Resumo

Os Grandes Modelos de Linguagem (LLMs) raciocinam bem, mas frequentemente deixam escapar evidências decisivas quando estas estão enterradas em contextos longos e ruidosos. Apresentamos o HiLight, uma estrutura de Ênfase em Evidências que desacopla a seleção de evidências do raciocínio para solucionadores LLM congelados. O HiLight evita comprimir ou reescrever a entrada – o que pode descartar ou distorcer evidências – treinando um Ator de Ênfase leve para inserir tags de destaque mínimas em torno de trechos pivô no contexto original e inalterado. Um Solucionador congelado executa então o raciocínio subsequente sobre a entrada enfatizada. Enquadramos o realce como um problema de tomada de decisão com supervisão fraca e otimizamos o Ator com aprendizado por reforço usando apenas a recompensa da tarefa do Solucionador, sem necessidade de rótulos de evidência, acesso ou modificação do Solucionador. Em tarefas de recomendação sequencial e resposta a perguntas de contexto longo, o HiLight melhora consistentemente o desempenho em relação a baselines fortes baseados em prompt e otimização automática de prompt. A política de ênfase aprendida transfere-se de forma zero-shot para famílias de Solucionadores não vistos, tanto menores quanto maiores, incluindo um Solucionador baseado em API, sugerindo que o Ator captura uma estrutura de evidência genuína e reutilizável, em vez de se ajustar excessivamente a uma única arquitetura.

English

Large Language Models (LLMs) can reason well, yet often miss decisive evidence when it is buried in long, noisy contexts. We introduce HiLight, an Evidence Emphasis framework that decouples evidence selection from reasoning for frozen LLM solvers. HiLight avoids compressing or rewriting the input, which can discard or distort evidence, by training a lightweight Emphasis Actor to insert minimal highlight tags around pivotal spans in the unaltered context. A frozen Solver then performs downstream reasoning on the emphasized input. We cast highlighting as a weakly supervised decision-making problem and optimize the Actor with reinforcement learning using only the Solver's task reward, requiring no evidence labels and no access to or modification of the Solver. Across sequential recommendation and long-context question answering, HiLight consistently improves performance over strong prompt-based and automated prompt-optimization baselines. The learned emphasis policy transfers zero-shot to both smaller and larger unseen Solver families, including an API-based Solver, suggesting that the Actor captures genuine, reusable evidence structure rather than overfitting to a single backbone.

Destacamento de Evidências de Aprendizado para LLMs Congelados

Learning Evidence Highlighting for Frozen LLMs

Resumo

Support