LoopViT: Escalando el Arco Visual con Transformadores en Bucle
LoopViT: Scaling Visual ARC with Looped Transformers
February 2, 2026
Autores: Wen-Jie Shu, Xuerui Qiu, Rui-Jie Zhu, Harold Haodong Chen, Yexin Liu, Harry Yang
cs.AI
Resumen
Los recientes avances en razonamiento visual han utilizado transformadores de visión para abordar el benchmark ARC-AGI. Sin embargo, sostenemos que la arquitectura de avance (feed-forward), donde la profundidad computacional está estrictamente ligada al tamaño de los parámetros, no logra capturar la naturaleza iterativa y algorítmica de la inducción humana. En este trabajo, proponemos una arquitectura recursiva llamada Loop-ViT, que desacopla la profundidad del razonamiento de la capacidad del modelo mediante recurrencia con pesos compartidos. Loop-ViT itera un Bloque Híbrido con pesos compartidos, que combina convoluciones locales y atención global, para formar una cadena de pensamiento latente. Crucialmente, introducimos un mecanismo de Salida Dinámica (Dynamic Exit) sin parámetros basado en la entropía predictiva: el modelo detiene la inferencia cuando su estado interno se "cristaliza" en un atractor de baja incertidumbre. Los resultados empíricos en el benchmark ARC-AGI-1 validan esta perspectiva: nuestro modelo de 18M parámetros alcanza una precisión del 65.8%, superando a ensembles masivos de 73M parámetros. Estos hallazgos demuestran que el cómputo iterativo adaptativo ofrece un eje de escalabilidad mucho más eficiente para el razonamiento visual que simplemente aumentar la amplitud de la red. El código está disponible en https://github.com/WenjieShu/LoopViT.
English
Recent advances in visual reasoning have leveraged vision transformers to tackle the ARC-AGI benchmark. However, we argue that the feed-forward architecture, where computational depth is strictly bound to parameter size, falls short of capturing the iterative, algorithmic nature of human induction. In this work, we propose a recursive architecture called Loop-ViT, which decouples reasoning depth from model capacity through weight-tied recurrence. Loop-ViT iterates a weight-tied Hybrid Block, combining local convolutions and global attention, to form a latent chain of thought. Crucially, we introduce a parameter-free Dynamic Exit mechanism based on predictive entropy: the model halts inference when its internal state ``crystallizes" into a low-uncertainty attractor. Empirical results on the ARC-AGI-1 benchmark validate this perspective: our 18M model achieves 65.8% accuracy, outperforming massive 73M-parameter ensembles. These findings demonstrate that adaptive iterative computation offers a far more efficient scaling axis for visual reasoning than simply increasing network width. The code is available at https://github.com/WenjieShu/LoopViT.