Modelo de Raciocínio Universal

Resumo

Os transformadores universais (UTs) têm sido amplamente utilizados para tarefas complexas de raciocínio, como ARC-AGI e Sudoku, mas as fontes específicas de seus ganhos de desempenho permanecem pouco exploradas. Neste trabalho, analisamos sistematicamente variantes de UTs e demonstramos que as melhorias no ARC-AGI surgem principalmente do viés indutivo recorrente e dos fortes componentes não lineares do Transformer, em vez de projetos arquiteturais elaborados. Motivados por essa descoberta, propomos o Modelo Universal de Raciocínio (URM), que aprimora o UT com convolução curta e retropropagação truncada. Nossa abordagem melhora substancialmente o desempenho do raciocínio, atingindo o estado da arte de 53,8% pass@1 no ARC-AGI 1 e 16,0% pass@1 no ARC-AGI 2. Nosso código está disponível em https://github.com/zitian-gao/URM.

English

Universal transformers (UTs) have been widely used for complex reasoning tasks such as ARC-AGI and Sudoku, yet the specific sources of their performance gains remain underexplored. In this work, we systematically analyze UTs variants and show that improvements on ARC-AGI primarily arise from the recurrent inductive bias and strong nonlinear components of Transformer, rather than from elaborate architectural designs. Motivated by this finding, we propose the Universal Reasoning Model (URM), which enhances the UT with short convolution and truncated backpropagation. Our approach substantially improves reasoning performance, achieving state-of-the-art 53.8% pass@1 on ARC-AGI 1 and 16.0% pass@1 on ARC-AGI 2. Our code is avaliable at https://github.com/zitian-gao/URM.