Conectando Raciocínio ao Aprendizado: Desvendando Ilusões usando Generalização de Complexidade Fora da Distribuição
Bridging Reasoning to Learning: Unmasking Illusions using Complexity Out of Distribution Generalization
October 6, 2025
Autores: Mohammad Mahdi Samiei Paqaleh, Arash Marioriyad, Arman Tahmasebi-Zadeh, Mohamadreza Fereydooni, Mahdi Ghaznavai, Mahdieh Soleymani Baghshah
cs.AI
Resumo
Os avanços recentes têm expandido as fronteiras da IA, levando-a de tarefas de reconhecimento de padrões para problemas que exigem raciocínio passo a passo, no estilo do Sistema 2, especialmente com modelos de linguagem de grande escala. No entanto, ao contrário do aprendizado, onde conceitos de generalização e avaliação fora da distribuição (OoD) são bem formalizados, não há uma definição ou métrica clara e consistente para a capacidade de raciocínio. Propomos a generalização de Complexidade Fora da Distribuição (Complexity OoD) como uma estrutura e configuração de problema para definir e medir o raciocínio. Um modelo exibe generalização de Complexity OoD quando mantém o desempenho em instâncias de teste cuja complexidade mínima necessária para a solução, seja representacional (estrutura de solução mais rica) ou computacional (mais etapas de raciocínio/comprimento do programa), excede a de todos os exemplos de treinamento. Formalizamos a complexidade por meio da complexidade de Kolmogorov da descrição da solução e proxies operacionais (por exemplo, contagens de objetos/relações; contagens de etapas de raciocínio), esclarecendo como a Complexity OoD difere da OoD de comprimento e composicional. Essa perspectiva unifica aprendizado e raciocínio: muitos casos solucionáveis com processamento semelhante ao Sistema 1 em baixa complexidade tornam-se semelhantes ao Sistema 2 sob pressão de complexidade, enquanto o Sistema 2 pode ser visto como generalização sobre estruturas de solução. Traduzimos essa perspectiva para a prática com recomendações para operacionalizar a Complexity OoD em toda a pilha: incorporar a complexidade no design de benchmarks e métricas de avaliação, repensar a supervisão para focar em traços de solução, buscar e projetar vieses indutivos para generalização de Complexity OoD, abordar transbordamentos de aprendizado para raciocínio, como atalhos espúrios, robustez semântica, esquecimento catastrófico e calibração passo a passo. Como a Complexity OoD não pode ser resolvida apenas com o escalonamento de dados, o progresso em direção a um raciocínio robusto exigirá arquiteturas e regimes de treinamento que modelam e alocam computação explicitamente em relação à complexidade.
English
Recent progress has pushed AI frontiers from pattern recognition tasks toward
problems that require step by step, System2 style reasoning, especially with
large language models. Yet, unlike learning, where generalization and out of
distribution (OoD) evaluation concepts are well formalized, there is no clear,
consistent definition or metric for reasoning ability. We propose Complexity
Out of Distribution (Complexity OoD) generalization as a framework and problem
setting to define and measure reasoning. A model exhibits Complexity OoD
generalization when it maintains performance on test instances whose minimal
required solution complexity, either representational (richer solution
structure) or computational (more reasoning steps/program length), exceeds that
of all training examples. We formalize complexity via solution description
Kolmogorov complexity and operational proxies (e.g., object/relation counts;
reasoning step counts), clarifying how Complexity OoD differs from length and
compositional OoD. This lens unifies learning and reasoning: many cases
solvable with System1 like processing at low complexity become System2 like
under complexity pressure, while System2 can be viewed as generalization over
solution structures. We translate this perspective into practice with
recommendations for operationalizing Complexity OoD across the stack:
incorporating complexity into benchmark and evaluation metric design,
rethinking supervision to target solution traces, seeking and designing
inductive biases for Complexity OoD generalization, addressing learning to
reason spillovers such as spurious shortcuts, semantic robustness, catastrophic
forgetting, and step wise calibration. Because Complexity OoD cannot be solved
by scaling data alone, progress toward robust reasoning will require
architectures and training regimes that explicitly model and allocate
computation with respect to complexity.