Quando Pensamentos Encontram Fatos: Raciocínio Reutilizável para Modelos de Linguagem de Longo Contexto
When Thoughts Meet Facts: Reusable Reasoning for Long-Context LMs
October 8, 2025
Autores: Soyeong Jeong, Taehee Jung, Sung Ju Hwang, Joo-Kyung Kim, Dongyeop Kang
cs.AI
Resumo
Modelos de Linguagem de Contexto Longo (LCLMs) recentes podem processar centenas de milhares de tokens em um único prompt, abrindo novas oportunidades para raciocínio multi-hop intensivo em conhecimento, ao integrar grandes conjuntos de documentos recuperados ou, em alguns casos, diretamente todas as informações necessárias. No entanto, simplesmente alimentar mais documentos na janela de contexto não captura como as evidências devem ser conectadas. Abordamos essa lacuna com modelos de pensamento (thought templates), que reformulam o raciocínio como caches de pensamento reutilizáveis, derivados de traços de resolução de problemas anteriores, estruturando como as evidências são combinadas e guiando a inferência multi-hop com documentos factuais. Para manter esses modelos eficazes, propomos uma estratégia de atualização que refina iterativamente os modelos derivados de dados de treinamento por meio de feedback em linguagem natural. Em diversos benchmarks e famílias de LCLMs, nossa abordagem oferece ganhos consistentes em relação a baselines robustas, tanto em cenários baseados em recuperação quanto em cenários sem recuperação. Além disso, mostramos que modelos otimizados podem ser destilados em modelos menores de código aberto, demonstrando sua ampla aplicabilidade e reutilização transparente de raciocínio. Nos referimos ao nosso framework como LCLMs Aumentados por Modelos de Pensamento (ToTAL).
English
Recent Long-Context Language Models (LCLMs) can process hundreds of thousands
of tokens in a single prompt, enabling new opportunities for
knowledge-intensive multi-hop reasoning by integrating large sets of retrieved
documents or, in some cases, directly all necessary information. However,
simply feeding more documents into the context window fails to capture how
evidence should be connected. We address this gap with thought templates, which
recast reasoning as reusable thought caches, derived from prior problem solving
traces, structuring how evidence is combined and guiding multi-hop inference
with factual documents. To keep these templates effective, we propose an update
strategy that iteratively refines templates derived from training data through
natural-language feedback. Across diverse benchmarks and LCLM families, our
approach delivers consistent gains over strong baselines in both
retrieval-based and retrieval-free settings. Furthermore, we show that
optimized templates can be distilled into smaller open-source models,
demonstrating its broad applicability and transparent reasoning reuse. We refer
to our framework as Thought Template Augmented LCLMs (ToTAL).