LoopViT: 순환 트랜스포머를 통한 시각 ARC 확장
LoopViT: Scaling Visual ARC with Looped Transformers
February 2, 2026
저자: Wen-Jie Shu, Xuerui Qiu, Rui-Jie Zhu, Harold Haodong Chen, Yexin Liu, Harry Yang
cs.AI
초록
시각적 추론 분야의 최근 발전은 ARC-AGI 벤치마크 해결을 위해 비전 트랜스포머를 활용해 왔습니다. 그러나 계산 깊이가 매개변수 크기에 엄격하게 종속되는 순전향(Feed-Forward) 아키텍처는 인간의 귀납적 사고가 지닌 반복적이고 알고리즘적인 특성을 제대로 포착하지 못한다고 우리는 주장합니다. 본 연구에서는 가중치 공유(Weight-Tied) 재귀를 통해 추론 깊이와 모델 용량을 분리하는 Loop-ViT라는 재귀적 아키텍처를 제안합니다. Loop-ViT는 지역적 합성곱(Convolution)과 전역적 어텐션(Attention)을 결합한 가중치 공유 Hybrid Block을 반복하여 잠재적 사고 사슬(Chain of Thought)을 형성합니다. 중요한 것은 예측 엔트로피(Predictive Entropy)에 기반한 매개변수 없는 동적 종료(Dynamic Exit) 메커니즘을 도입했다는 점입니다. 이 메커니즘은 모델의 내부 상태가 낮은 불확실성의 끌개(Attractor) 상태로 "결정화"될 때 추론을 중단합니다. ARC-AGI-1 벤치마크에 대한 실험 결과는 이러한 관점을 입증합니다: 18M 규모의 우리 모델은 65.8%의 정확도를 달성하여 73M 매개변수 규모의 대규모 앙상블 모델들을 능가했습니다. 이러한 결과는 적응형 반복 계산이 네트워크 폭을 단순히 증가시키는 것보다 시각적 추론을 위한 훨씬 더 효율적인 확장 축을 제공함을 보여줍니다. 코드는 https://github.com/WenjieShu/LoopViT 에서 확인할 수 있습니다.
English
Recent advances in visual reasoning have leveraged vision transformers to tackle the ARC-AGI benchmark. However, we argue that the feed-forward architecture, where computational depth is strictly bound to parameter size, falls short of capturing the iterative, algorithmic nature of human induction. In this work, we propose a recursive architecture called Loop-ViT, which decouples reasoning depth from model capacity through weight-tied recurrence. Loop-ViT iterates a weight-tied Hybrid Block, combining local convolutions and global attention, to form a latent chain of thought. Crucially, we introduce a parameter-free Dynamic Exit mechanism based on predictive entropy: the model halts inference when its internal state ``crystallizes" into a low-uncertainty attractor. Empirical results on the ARC-AGI-1 benchmark validate this perspective: our 18M model achieves 65.8% accuracy, outperforming massive 73M-parameter ensembles. These findings demonstrate that adaptive iterative computation offers a far more efficient scaling axis for visual reasoning than simply increasing network width. The code is available at https://github.com/WenjieShu/LoopViT.