ChatPaper.aiChatPaper

文脈の限界を超えて:長期推論のための潜在的な糸

Beyond Context Limits: Subconscious Threads for Long-Horizon Reasoning

July 22, 2025
著者: Hongyin Luo, Nathaniel Morgan, Tina Li, Derek Zhao, Ai Vy Ngo, Philip Schroeder, Lijie Yang, Assaf Ben-Kish, Jack O'Brien, James Glass
cs.AI

要旨

大規模言語モデル(LLMs)のコンテキスト制限が推論の精度と効率を妨げる問題を打破するため、我々は再帰的かつ分解的な問題解決のために訓練されたLLMファミリーであるThread Inference Model(TIM)と、コンテキスト制限を超えた長期的な構造化推論を可能にする推論ランタイムであるTIMRUNを提案する。TIMRUN上で動作するTIMは、単一の言語モデル推論内で事実上無制限の作業メモリとマルチホップツール呼び出しをサポートし、出力制限、位置埋め込みの制約、およびGPUメモリのボトルネックを克服する。この性能は、自然言語を線形シーケンスではなく長さと深さで測定される推論ツリーとしてモデル化することで達成される。推論ツリーは、Schroeder et al, 2025で提案された概念に基づくタスク、思考、再帰的サブタスク、および結論から構成される。生成中、我々はルールベースのサブタスク剪定メカニズムによって選択された最も関連性の高いコンテキストトークンのキー値状態のみを保持する作業メモリを維持し、推論全体を通じて位置埋め込みとGPUメモリページの再利用を可能にする。実験結果は、我々のシステムがGPUメモリ内のKVキャッシュの最大90%を操作する場合でも高い推論スループットを維持し、数学的タスクでの正確な推論と、長期的な推論とマルチホップツールの使用を必要とする情報検索の課題に対処できることを示している。
English
To break the context limits of large language models (LLMs) that bottleneck reasoning accuracy and efficiency, we propose the Thread Inference Model (TIM), a family of LLMs trained for recursive and decompositional problem solving, and TIMRUN, an inference runtime enabling long-horizon structured reasoning beyond context limits. Together, TIM hosted on TIMRUN supports virtually unlimited working memory and multi-hop tool calls within a single language model inference, overcoming output limits, positional-embedding constraints, and GPU-memory bottlenecks. Performance is achieved by modeling natural language as reasoning trees measured by both length and depth instead of linear sequences. The reasoning trees consist of tasks with thoughts, recursive subtasks, and conclusions based on the concept we proposed in Schroeder et al, 2025. During generation, we maintain a working memory that retains only the key-value states of the most relevant context tokens, selected by a rule-based subtask-pruning mechanism, enabling reuse of positional embeddings and GPU memory pages throughout reasoning. Experimental results show that our system sustains high inference throughput, even when manipulating up to 90% of the KV cache in GPU memory. It also delivers accurate reasoning on mathematical tasks and handles information retrieval challenges that require long-horizon reasoning and multi-hop tool use.
PDF959July 23, 2025