ChatPaper.aiChatPaper

LoopViT: Skalierung visueller ARC mit geloopten Transformatoren

LoopViT: Scaling Visual ARC with Looped Transformers

February 2, 2026
papers.authors: Wen-Jie Shu, Xuerui Qiu, Rui-Jie Zhu, Harold Haodong Chen, Yexin Liu, Harry Yang
cs.AI

papers.abstract

Jüngste Fortschritte im Bereich des visuellen Schließens haben Vision-Transformer eingesetzt, um den ARC-AGI-Benchmark zu bewältigen. Wir vertreten jedoch die Auffassung, dass die Feedforward-Architektur, bei der die rechnerische Tiefe strikt an die Parametergröße gebunden ist, nicht in der Lage ist, die iterative, algorithmische Natur menschlicher Induktion zu erfassen. In dieser Arbeit schlagen wir eine rekursive Architektur namens Loop-ViT vor, die die Schließtiefe von der Modellkapazität durch gewichtsgebundene Rekurrenz entkoppelt. Loop-ViT iteriert einen gewichtsgebundenen Hybrid-Block, der lokale Faltungen und globale Aufmerksamkeit kombiniert, um eine latente Gedankenkette zu bilden. Entscheidend ist, dass wir einen parameterfreien Dynamic-Exit-Mechanismus einführen, der auf prädiktiver Entropie basiert: Das Modell beendet den Inferenzvorgang, wenn sein interner Zustand in einen Attraktor mit geringer Unsicherheit „kristallisiert“. Empirische Ergebnisse auf dem ARC-AGI-1-Benchmark validieren diese Perspektive: Unser 18-Millionen-Parameter-Modell erreicht eine Genauigkeit von 65,8 % und übertrifft damit massive Ensembles mit 73 Millionen Parametern. Diese Ergebnisse zeigen, dass adaptive iterative Berechnung eine weitaus effizientere Skalierungsachse für visuelles Schließen bietet als das bloße Erhöhen der Netzwerkbreite. Der Code ist unter https://github.com/WenjieShu/LoopViT verfügbar.
English
Recent advances in visual reasoning have leveraged vision transformers to tackle the ARC-AGI benchmark. However, we argue that the feed-forward architecture, where computational depth is strictly bound to parameter size, falls short of capturing the iterative, algorithmic nature of human induction. In this work, we propose a recursive architecture called Loop-ViT, which decouples reasoning depth from model capacity through weight-tied recurrence. Loop-ViT iterates a weight-tied Hybrid Block, combining local convolutions and global attention, to form a latent chain of thought. Crucially, we introduce a parameter-free Dynamic Exit mechanism based on predictive entropy: the model halts inference when its internal state ``crystallizes" into a low-uncertainty attractor. Empirical results on the ARC-AGI-1 benchmark validate this perspective: our 18M model achieves 65.8% accuracy, outperforming massive 73M-parameter ensembles. These findings demonstrate that adaptive iterative computation offers a far more efficient scaling axis for visual reasoning than simply increasing network width. The code is available at https://github.com/WenjieShu/LoopViT.
PDF112February 7, 2026