ChatPaper.aiChatPaper

Au-delà des limites du contexte : Fils subconscients pour un raisonnement à long terme

Beyond Context Limits: Subconscious Threads for Long-Horizon Reasoning

July 22, 2025
papers.authors: Hongyin Luo, Nathaniel Morgan, Tina Li, Derek Zhao, Ai Vy Ngo, Philip Schroeder, Lijie Yang, Assaf Ben-Kish, Jack O'Brien, James Glass
cs.AI

papers.abstract

Pour dépasser les limites de contexte des grands modèles de langage (LLMs) qui entravent la précision et l'efficacité du raisonnement, nous proposons le Thread Inference Model (TIM), une famille de LLMs entraînés pour la résolution de problèmes récursive et décompositionnelle, ainsi que TIMRUN, un runtime d'inférence permettant un raisonnement structuré à long terme au-delà des limites de contexte. Ensemble, TIM hébergé sur TIMRUN prend en charge une mémoire de travail virtuellement illimitée et des appels d'outils multi-sauts au sein d'une seule inférence de modèle de langage, surmontant les limites de sortie, les contraintes d'encodage positionnel et les goulots d'étranglement de la mémoire GPU. Cette performance est atteinte en modélisant le langage naturel sous forme d'arbres de raisonnement mesurés à la fois par la longueur et la profondeur, plutôt que par des séquences linéaires. Les arbres de raisonnement sont composés de tâches avec des pensées, des sous-tâches récursives et des conclusions basées sur le concept que nous avons proposé dans Schroeder et al, 2025. Pendant la génération, nous maintenons une mémoire de travail qui ne conserve que les états clé-valeur des tokens de contexte les plus pertinents, sélectionnés par un mécanisme d'élagage de sous-tâches basé sur des règles, permettant la réutilisation des encodages positionnels et des pages de mémoire GPU tout au long du raisonnement. Les résultats expérimentaux montrent que notre système maintient un débit d'inférence élevé, même lors de la manipulation de jusqu'à 90 % du cache KV en mémoire GPU. Il offre également un raisonnement précis sur des tâches mathématiques et gère les défis de recherche d'information nécessitant un raisonnement à long terme et l'utilisation d'outils multi-sauts.
English
To break the context limits of large language models (LLMs) that bottleneck reasoning accuracy and efficiency, we propose the Thread Inference Model (TIM), a family of LLMs trained for recursive and decompositional problem solving, and TIMRUN, an inference runtime enabling long-horizon structured reasoning beyond context limits. Together, TIM hosted on TIMRUN supports virtually unlimited working memory and multi-hop tool calls within a single language model inference, overcoming output limits, positional-embedding constraints, and GPU-memory bottlenecks. Performance is achieved by modeling natural language as reasoning trees measured by both length and depth instead of linear sequences. The reasoning trees consist of tasks with thoughts, recursive subtasks, and conclusions based on the concept we proposed in Schroeder et al, 2025. During generation, we maintain a working memory that retains only the key-value states of the most relevant context tokens, selected by a rule-based subtask-pruning mechanism, enabling reuse of positional embeddings and GPU memory pages throughout reasoning. Experimental results show that our system sustains high inference throughput, even when manipulating up to 90% of the KV cache in GPU memory. It also delivers accurate reasoning on mathematical tasks and handles information retrieval challenges that require long-horizon reasoning and multi-hop tool use.
PDF959July 23, 2025