ChatPaper.aiChatPaper

Oltre i Limiti del Contesto: Fili Subconsci per il Ragionamento a Lungo Termine

Beyond Context Limits: Subconscious Threads for Long-Horizon Reasoning

July 22, 2025
Autori: Hongyin Luo, Nathaniel Morgan, Tina Li, Derek Zhao, Ai Vy Ngo, Philip Schroeder, Lijie Yang, Assaf Ben-Kish, Jack O'Brien, James Glass
cs.AI

Abstract

Per superare i limiti contestuali dei grandi modelli linguistici (LLM) che ostacolano l'accuratezza e l'efficienza del ragionamento, proponiamo il Thread Inference Model (TIM), una famiglia di LLM addestrati per la risoluzione ricorsiva e scomponibile di problemi, e TIMRUN, un runtime di inferenza che abilita il ragionamento strutturato a lungo orizzonte oltre i limiti contestuali. Insieme, TIM ospitato su TIMRUN supporta una memoria di lavoro virtualmente illimitata e chiamate multi-hop a strumenti all'interno di una singola inferenza di un modello linguistico, superando i limiti di output, i vincoli degli embedding posizionali e i colli di bottiglia della memoria GPU. Le prestazioni sono ottenute modellando il linguaggio naturale come alberi di ragionamento misurati sia in lunghezza che in profondità, anziché come sequenze lineari. Gli alberi di ragionamento consistono in task con pensieri, sottotask ricorsivi e conclusioni basati sul concetto che abbiamo proposto in Schroeder et al., 2025. Durante la generazione, manteniamo una memoria di lavoro che conserva solo gli stati chiave-valore dei token contestuali più rilevanti, selezionati da un meccanismo di potatura dei sottotask basato su regole, consentendo il riutilizzo degli embedding posizionali e delle pagine di memoria GPU durante il ragionamento. I risultati sperimentali mostrano che il nostro sistema mantiene un'elevata velocità di inferenza, anche quando manipola fino al 90% della cache KV nella memoria GPU. Inoltre, fornisce un ragionamento accurato su task matematici e gestisce sfide di recupero delle informazioni che richiedono ragionamento a lungo orizzonte e uso multi-hop di strumenti.
English
To break the context limits of large language models (LLMs) that bottleneck reasoning accuracy and efficiency, we propose the Thread Inference Model (TIM), a family of LLMs trained for recursive and decompositional problem solving, and TIMRUN, an inference runtime enabling long-horizon structured reasoning beyond context limits. Together, TIM hosted on TIMRUN supports virtually unlimited working memory and multi-hop tool calls within a single language model inference, overcoming output limits, positional-embedding constraints, and GPU-memory bottlenecks. Performance is achieved by modeling natural language as reasoning trees measured by both length and depth instead of linear sequences. The reasoning trees consist of tasks with thoughts, recursive subtasks, and conclusions based on the concept we proposed in Schroeder et al, 2025. During generation, we maintain a working memory that retains only the key-value states of the most relevant context tokens, selected by a rule-based subtask-pruning mechanism, enabling reuse of positional embeddings and GPU memory pages throughout reasoning. Experimental results show that our system sustains high inference throughput, even when manipulating up to 90% of the KV cache in GPU memory. It also delivers accurate reasoning on mathematical tasks and handles information retrieval challenges that require long-horizon reasoning and multi-hop tool use.
PDF11310July 23, 2025