Quand les pensées rencontrent les faits : Raisonnement réutilisable pour les modèles de langage à contexte long

papers.abstract

Les modèles de langage à contexte étendu récents (LCLMs) peuvent traiter des centaines de milliers de tokens en une seule requête, ouvrant de nouvelles opportunités pour le raisonnement multi-étapes intensif en connaissances en intégrant de grands ensembles de documents récupérés ou, dans certains cas, directement toutes les informations nécessaires. Cependant, simplement alimenter plus de documents dans la fenêtre contextuelle ne parvient pas à capturer la manière dont les preuves devraient être connectées. Nous comblons cette lacune avec des modèles de pensée, qui reformulent le raisonnement en caches de pensée réutilisables, dérivés de traces de résolution de problèmes antérieures, structurant la manière dont les preuves sont combinées et guidant l'inférence multi-étapes avec des documents factuels. Pour maintenir l'efficacité de ces modèles, nous proposons une stratégie de mise à jour qui affine itérativement les modèles dérivés des données d'entraînement grâce à des retours en langage naturel. Sur divers benchmarks et familles de LCLMs, notre approche apporte des gains constants par rapport à des bases de référence solides, tant dans des contextes basés sur la récupération que sans récupération. De plus, nous montrons que les modèles optimisés peuvent être distillés dans des modèles open-source plus petits, démontrant ainsi leur applicabilité étendue et la réutilisation transparente du raisonnement. Nous désignons notre cadre sous le nom de LCLMs Augmentés par Modèles de Pensée (ToTAL).

English

Recent Long-Context Language Models (LCLMs) can process hundreds of thousands of tokens in a single prompt, enabling new opportunities for knowledge-intensive multi-hop reasoning by integrating large sets of retrieved documents or, in some cases, directly all necessary information. However, simply feeding more documents into the context window fails to capture how evidence should be connected. We address this gap with thought templates, which recast reasoning as reusable thought caches, derived from prior problem solving traces, structuring how evidence is combined and guiding multi-hop inference with factual documents. To keep these templates effective, we propose an update strategy that iteratively refines templates derived from training data through natural-language feedback. Across diverse benchmarks and LCLM families, our approach delivers consistent gains over strong baselines in both retrieval-based and retrieval-free settings. Furthermore, we show that optimized templates can be distilled into smaller open-source models, demonstrating its broad applicability and transparent reasoning reuse. We refer to our framework as Thought Template Augmented LCLMs (ToTAL).

Quand les pensées rencontrent les faits : Raisonnement réutilisable pour les modèles de langage à contexte long

When Thoughts Meet Facts: Reusable Reasoning for Long-Context LMs

papers.abstract

Support