LoopViT: Escalonamento de ARC Visual com Transformers em Loop

Resumo

Os recentes avanços no raciocínio visual têm aproveitado os transformadores de visão (vision transformers) para abordar o benchmark ARC-AGI. No entanto, argumentamos que a arquitetura *feed-forward*, na qual a profundidade computacional está estritamente vinculada ao tamanho dos parâmetros, é insuficiente para capturar a natureza iterativa e algorítmica da indução humana. Neste trabalho, propomos uma arquitetura recursiva denominada Loop-ViT, que desacopla a profundidade do raciocínio da capacidade do modelo através de recorrência com pesos compartilhados. O Loop-ViT itera um Bloco Híbrido com pesos compartilhados, combinando convoluções locais e atenção global, para formar uma cadeia latente de pensamento. Crucialmente, introduzimos um mecanismo de Saída Dinâmica (*Dynamic Exit*) sem parâmetros, baseado na entropia preditiva: o modelo interrompe a inferência quando seu estado interno "cristaliza" em um atrator de baixa incerteza. Resultados empíricos no benchmark ARC-AGI-1 validam esta perspetiva: o nosso modelo de 18M parâmetros atinge uma precisão de 65,8%, superando *ensembles* massivos de 73M parâmetros. Estes resultados demonstram que a computação iterativa adaptativa oferece um eixo de escalabilidade muito mais eficiente para o raciocínio visual do que simplesmente aumentar a largura da rede. O código está disponível em https://github.com/WenjieShu/LoopViT.

English

Recent advances in visual reasoning have leveraged vision transformers to tackle the ARC-AGI benchmark. However, we argue that the feed-forward architecture, where computational depth is strictly bound to parameter size, falls short of capturing the iterative, algorithmic nature of human induction. In this work, we propose a recursive architecture called Loop-ViT, which decouples reasoning depth from model capacity through weight-tied recurrence. Loop-ViT iterates a weight-tied Hybrid Block, combining local convolutions and global attention, to form a latent chain of thought. Crucially, we introduce a parameter-free Dynamic Exit mechanism based on predictive entropy: the model halts inference when its internal state ``crystallizes" into a low-uncertainty attractor. Empirical results on the ARC-AGI-1 benchmark validate this perspective: our 18M model achieves 65.8% accuracy, outperforming massive 73M-parameter ensembles. These findings demonstrate that adaptive iterative computation offers a far more efficient scaling axis for visual reasoning than simply increasing network width. The code is available at https://github.com/WenjieShu/LoopViT.

LoopViT: Escalonamento de ARC Visual com Transformers em Loop

LoopViT: Scaling Visual ARC with Looped Transformers

Resumo

Support