Cadeia de Pensamento Focalizada: Raciocínio Eficiente em LLMs por meio de Informação de Entrada Estruturada

Resumo

Os modelos de linguagem grandes recentes alcançam forte desempenho de raciocínio gerando traços detalhados de cadeia de pensamento (chain-of-thought), mas isso frequentemente leva ao uso excessivo de tokens e alta latência de inferência. As abordagens de eficiência existentes normalmente focam em intervenções centradas no modelo, como aprendizado por reforço ou ajuste fino supervisionado, para reduzir a verbosidade. Em contraste, propomos uma abordagem livre de treinamento e centrada na entrada. Inspirados pela psicologia cognitiva, introduzimos a Cadeia de Pensamento Focada (F-CoT), que separa a extração de informação do processo de raciocínio. A F-CoT primeiro organiza as informações essenciais de uma consulta em um contexto estruturado e conciso e depois orienta o modelo a raciocinar exclusivamente sobre este contexto. Ao evitar a atenção a detalhes irrelevantes, a F-CoT naturalmente produz caminhos de raciocínio mais curtos. Em problemas aritméticos de enunciado, a F-CoT reduz os tokens gerados em 2 a 3 vezes, mantendo uma precisão comparável ao CoT padrão zero-shot. Esses resultados destacam a entrada estruturada como uma alavanca simples, porém eficaz, para um raciocínio mais eficiente em LLMs.

English

Recent large language models achieve strong reasoning performance by generating detailed chain-of-thought traces, but this often leads to excessive token use and high inference latency. Existing efficiency approaches typically focus on model-centric interventions, such as reinforcement learning or supervised fine-tuning, to reduce verbosity. In contrast, we propose a training-free, input-centric approach. Inspired by cognitive psychology, we introduce Focused Chain-of-Thought (F-CoT), which separates information extraction from the reasoning process. F-CoT first organizes the essential information from a query into a concise, structured context and then guides the model to reason exclusively over this context. By preventing attention to irrelevant details, F-CoT naturally produces shorter reasoning paths. On arithmetic word problems, F-CoT reduces generated tokens by 2-3x while maintaining accuracy comparable to standard zero-shot CoT. These results highlight structured input as a simple yet effective lever for more efficient LLM reasoning.

Cadeia de Pensamento Focalizada: Raciocínio Eficiente em LLMs por meio de Informação de Entrada Estruturada

Focused Chain-of-Thought: Efficient LLM Reasoning via Structured Input Information

Resumo

Support