ChatPaper.aiChatPaper

Além dos Limites de Contexto: Fios Subconscientes para Raciocínio de Longo Prazo

Beyond Context Limits: Subconscious Threads for Long-Horizon Reasoning

July 22, 2025
Autores: Hongyin Luo, Nathaniel Morgan, Tina Li, Derek Zhao, Ai Vy Ngo, Philip Schroeder, Lijie Yang, Assaf Ben-Kish, Jack O'Brien, James Glass
cs.AI

Resumo

Para superar os limites de contexto dos grandes modelos de linguagem (LLMs) que prejudicam a precisão e eficiência do raciocínio, propomos o Modelo de Inferência em Threads (TIM), uma família de LLMs treinados para resolução recursiva e decomposicional de problemas, e o TIMRUN, um ambiente de execução de inferência que permite raciocínio estruturado de longo horizonte além dos limites de contexto. Juntos, o TIM hospedado no TIMRUN suporta uma memória de trabalho virtualmente ilimitada e chamadas de ferramentas multi-hop dentro de uma única inferência de modelo de linguagem, superando limites de saída, restrições de embeddings posicionais e gargalos de memória da GPU. O desempenho é alcançado ao modelar a linguagem natural como árvores de raciocínio medidas tanto por comprimento quanto por profundidade, em vez de sequências lineares. As árvores de raciocínio consistem em tarefas com pensamentos, subtarefas recursivas e conclusões, baseadas no conceito que propusemos em Schroeder et al, 2025. Durante a geração, mantemos uma memória de trabalho que retém apenas os estados chave-valor dos tokens de contexto mais relevantes, selecionados por um mecanismo de poda de subtarefas baseado em regras, permitindo a reutilização de embeddings posicionais e páginas de memória da GPU ao longo do raciocínio. Resultados experimentais mostram que nosso sistema mantém alta taxa de transferência de inferência, mesmo ao manipular até 90% do cache KV na memória da GPU. Ele também fornece raciocínio preciso em tarefas matemáticas e lida com desafios de recuperação de informação que exigem raciocínio de longo horizonte e uso de ferramentas multi-hop.
English
To break the context limits of large language models (LLMs) that bottleneck reasoning accuracy and efficiency, we propose the Thread Inference Model (TIM), a family of LLMs trained for recursive and decompositional problem solving, and TIMRUN, an inference runtime enabling long-horizon structured reasoning beyond context limits. Together, TIM hosted on TIMRUN supports virtually unlimited working memory and multi-hop tool calls within a single language model inference, overcoming output limits, positional-embedding constraints, and GPU-memory bottlenecks. Performance is achieved by modeling natural language as reasoning trees measured by both length and depth instead of linear sequences. The reasoning trees consist of tasks with thoughts, recursive subtasks, and conclusions based on the concept we proposed in Schroeder et al, 2025. During generation, we maintain a working memory that retains only the key-value states of the most relevant context tokens, selected by a rule-based subtask-pruning mechanism, enabling reuse of positional embeddings and GPU memory pages throughout reasoning. Experimental results show that our system sustains high inference throughput, even when manipulating up to 90% of the KV cache in GPU memory. It also delivers accurate reasoning on mathematical tasks and handles information retrieval challenges that require long-horizon reasoning and multi-hop tool use.
PDF11310July 23, 2025