LoopViT : Mise à l'échelle de l'ARC visuel avec des Transformers bouclés
LoopViT: Scaling Visual ARC with Looped Transformers
February 2, 2026
papers.authors: Wen-Jie Shu, Xuerui Qiu, Rui-Jie Zhu, Harold Haodong Chen, Yexin Liu, Harry Yang
cs.AI
papers.abstract
Les progrès récents en raisonnement visuel ont exploité les transformers visionnels pour aborder le benchmark ARC-AGI. Cependant, nous soutenons que l'architecture feed-forward, où la profondeur computationnelle est strictement liée à la taille des paramètres, ne parvient pas à capturer la nature itérative et algorithmique de l'induction humaine. Dans ce travail, nous proposons une architecture récursive appelée Loop-ViT, qui découple la profondeur de raisonnement de la capacité du modèle via une récurrence à poids partagés. Loop-ViT itère un Bloc Hybride à poids partagés, combinant des convolutions locales et une attention globale, pour former une chaîne de pensée latente. Plus crucial encore, nous introduisons un mécanisme de Sortie Dynamique sans paramètre basé sur l'entropie prédictive : le modèle interrompt l'inférence lorsque son état interne se « cristallise » en un attracteur à faible incertitude. Les résultats empiriques sur le benchmark ARC-AGI-1 valident cette perspective : notre modèle de 18 millions de paramètres atteint une précision de 65,8 %, surpassant des ensembles massifs de 73 millions de paramètres. Ces résultats démontrent que le calcul itératif adaptatif offre un axe de mise à l'échelle bien plus efficace pour le raisonnement visuel que la simple augmentation de la largeur du réseau. Le code est disponible à l'adresse https://github.com/WenjieShu/LoopViT.
English
Recent advances in visual reasoning have leveraged vision transformers to tackle the ARC-AGI benchmark. However, we argue that the feed-forward architecture, where computational depth is strictly bound to parameter size, falls short of capturing the iterative, algorithmic nature of human induction. In this work, we propose a recursive architecture called Loop-ViT, which decouples reasoning depth from model capacity through weight-tied recurrence. Loop-ViT iterates a weight-tied Hybrid Block, combining local convolutions and global attention, to form a latent chain of thought. Crucially, we introduce a parameter-free Dynamic Exit mechanism based on predictive entropy: the model halts inference when its internal state ``crystallizes" into a low-uncertainty attractor. Empirical results on the ARC-AGI-1 benchmark validate this perspective: our 18M model achieves 65.8% accuracy, outperforming massive 73M-parameter ensembles. These findings demonstrate that adaptive iterative computation offers a far more efficient scaling axis for visual reasoning than simply increasing network width. The code is available at https://github.com/WenjieShu/LoopViT.