Quando i Pensieri Incontrano i Fatti: Ragionamento Riutilizzabile per Modelli Linguistici a Lungo Contesto

Abstract

I recenti modelli linguistici a contesto lungo (LCLM) sono in grado di elaborare centinaia di migliaia di token in un singolo prompt, aprendo nuove opportunità per il ragionamento multi-hop basato su conoscenze estese, integrando grandi insiemi di documenti recuperati o, in alcuni casi, direttamente tutte le informazioni necessarie. Tuttavia, il semplice inserimento di più documenti nella finestra contestuale non riesce a catturare come le evidenze dovrebbero essere connesse. Affrontiamo questa lacuna con i modelli di pensiero (thought templates), che riformulano il ragionamento come cache di pensiero riutilizzabili, derivate da tracce di risoluzione di problemi precedenti, strutturando come le evidenze vengono combinate e guidando l'inferenza multi-hop con documenti fattuali. Per mantenere efficaci questi modelli, proponiamo una strategia di aggiornamento che perfeziona iterativamente i modelli derivati dai dati di training attraverso feedback in linguaggio naturale. Su diversi benchmark e famiglie di LCLM, il nostro approccio fornisce miglioramenti consistenti rispetto a baseline solide, sia in contesti basati su recupero che senza recupero. Inoltre, dimostriamo che i modelli ottimizzati possono essere distillati in modelli open-source più piccoli, evidenziando la sua ampia applicabilità e il riutilizzo trasparente del ragionamento. Definiamo il nostro framework come LCLM Aumentati da Modelli di Pensiero (ToTAL).

English

Recent Long-Context Language Models (LCLMs) can process hundreds of thousands of tokens in a single prompt, enabling new opportunities for knowledge-intensive multi-hop reasoning by integrating large sets of retrieved documents or, in some cases, directly all necessary information. However, simply feeding more documents into the context window fails to capture how evidence should be connected. We address this gap with thought templates, which recast reasoning as reusable thought caches, derived from prior problem solving traces, structuring how evidence is combined and guiding multi-hop inference with factual documents. To keep these templates effective, we propose an update strategy that iteratively refines templates derived from training data through natural-language feedback. Across diverse benchmarks and LCLM families, our approach delivers consistent gains over strong baselines in both retrieval-based and retrieval-free settings. Furthermore, we show that optimized templates can be distilled into smaller open-source models, demonstrating its broad applicability and transparent reasoning reuse. We refer to our framework as Thought Template Augmented LCLMs (ToTAL).

Quando i Pensieri Incontrano i Fatti: Ragionamento Riutilizzabile per Modelli Linguistici a Lungo Contesto

When Thoughts Meet Facts: Reusable Reasoning for Long-Context LMs

Abstract

Support