Quand les pensées rencontrent les faits : Raisonnement réutilisable pour les modèles de langage à contexte long
When Thoughts Meet Facts: Reusable Reasoning for Long-Context LMs
October 8, 2025
papers.authors: Soyeong Jeong, Taehee Jung, Sung Ju Hwang, Joo-Kyung Kim, Dongyeop Kang
cs.AI
papers.abstract
Les modèles de langage à contexte étendu récents (LCLMs) peuvent traiter des centaines de milliers de tokens en une seule requête, ouvrant de nouvelles opportunités pour le raisonnement multi-étapes intensif en connaissances en intégrant de grands ensembles de documents récupérés ou, dans certains cas, directement toutes les informations nécessaires. Cependant, simplement alimenter plus de documents dans la fenêtre contextuelle ne parvient pas à capturer la manière dont les preuves devraient être connectées. Nous comblons cette lacune avec des modèles de pensée, qui reformulent le raisonnement en caches de pensée réutilisables, dérivés de traces de résolution de problèmes antérieures, structurant la manière dont les preuves sont combinées et guidant l'inférence multi-étapes avec des documents factuels. Pour maintenir l'efficacité de ces modèles, nous proposons une stratégie de mise à jour qui affine itérativement les modèles dérivés des données d'entraînement grâce à des retours en langage naturel. Sur divers benchmarks et familles de LCLMs, notre approche apporte des gains constants par rapport à des bases de référence solides, tant dans des contextes basés sur la récupération que sans récupération. De plus, nous montrons que les modèles optimisés peuvent être distillés dans des modèles open-source plus petits, démontrant ainsi leur applicabilité étendue et la réutilisation transparente du raisonnement. Nous désignons notre cadre sous le nom de LCLMs Augmentés par Modèles de Pensée (ToTAL).
English
Recent Long-Context Language Models (LCLMs) can process hundreds of thousands
of tokens in a single prompt, enabling new opportunities for
knowledge-intensive multi-hop reasoning by integrating large sets of retrieved
documents or, in some cases, directly all necessary information. However,
simply feeding more documents into the context window fails to capture how
evidence should be connected. We address this gap with thought templates, which
recast reasoning as reusable thought caches, derived from prior problem solving
traces, structuring how evidence is combined and guiding multi-hop inference
with factual documents. To keep these templates effective, we propose an update
strategy that iteratively refines templates derived from training data through
natural-language feedback. Across diverse benchmarks and LCLM families, our
approach delivers consistent gains over strong baselines in both
retrieval-based and retrieval-free settings. Furthermore, we show that
optimized templates can be distilled into smaller open-source models,
demonstrating its broad applicability and transparent reasoning reuse. We refer
to our framework as Thought Template Augmented LCLMs (ToTAL).