ChatPaper.aiChatPaper

LoopViT:ループ構造を導入したトランスフォーマーによる視覚的ARCのスケーリング

LoopViT: Scaling Visual ARC with Looped Transformers

February 2, 2026
著者: Wen-Jie Shu, Xuerui Qiu, Rui-Jie Zhu, Harold Haodong Chen, Yexin Liu, Harry Yang
cs.AI

要旨

視覚的推論の最近の進展では、ARC-AGIベンチマークに取り組むためにビジョントランスフォーマーが活用されている。しかし我々は、計算深度がパラメータサイズに厳密に縛られるフィードフォワード構造は、人間の帰納推論が持つ反復的・アルゴリズム的な性質を捉えるには不十分であると論じる。本論文では、Loop-ViTと名付けた再帰的構造を提案する。これは重み共有型の反復を通じて、推論の深度とモデル容量を分離するものである。Loop-ViTは、局所的な畳み込みと大域的なアテンションを組み合わせた重み共有のハイブリッドブロックを反復処理し、潜在的な思考の連鎖を形成する。決定的な点は、予測エントロピーに基づくパラメータフリーの動的終了機構を導入したことである。これは、モデルの内部状態が低不確実性のアトラクタに「結晶化」したときに推論を停止させる。ARC-AGI-1ベンチマークでの実験結果はこの視点を裏付ける:1800万パラメータの我々のモデルは65.8%の精度を達成し、7300万パラメータの大規模アンサンブルモデルを性能で上回った。これらの発見は、適応的反復計算が、単にネットワークの幅を増やすよりも、視覚推論においてはるかに効率的なスケーリング軸を提供することを実証している。コードはhttps://github.com/WenjieShu/LoopViTで公開されている。
English
Recent advances in visual reasoning have leveraged vision transformers to tackle the ARC-AGI benchmark. However, we argue that the feed-forward architecture, where computational depth is strictly bound to parameter size, falls short of capturing the iterative, algorithmic nature of human induction. In this work, we propose a recursive architecture called Loop-ViT, which decouples reasoning depth from model capacity through weight-tied recurrence. Loop-ViT iterates a weight-tied Hybrid Block, combining local convolutions and global attention, to form a latent chain of thought. Crucially, we introduce a parameter-free Dynamic Exit mechanism based on predictive entropy: the model halts inference when its internal state ``crystallizes" into a low-uncertainty attractor. Empirical results on the ARC-AGI-1 benchmark validate this perspective: our 18M model achieves 65.8% accuracy, outperforming massive 73M-parameter ensembles. These findings demonstrate that adaptive iterative computation offers a far more efficient scaling axis for visual reasoning than simply increasing network width. The code is available at https://github.com/WenjieShu/LoopViT.
PDF112February 7, 2026