ChatPaper.aiChatPaper

LoopViT: Масштабирование визуальной ARC с помощью зацикленных транссформеров

LoopViT: Scaling Visual ARC with Looped Transformers

February 2, 2026
Авторы: Wen-Jie Shu, Xuerui Qiu, Rui-Jie Zhu, Harold Haodong Chen, Yexin Liu, Harry Yang
cs.AI

Аннотация

Последние достижения в области визуального мышления позволили использовать трансформеры для работы с бенчмарком ARC-AGI. Однако мы полагаем, что прямая архитектура, в которой вычислительная глубина строго ограничена размером параметров, не способна уловить итеративную, алгоритмическую природу человеческой индукции. В данной работе мы предлагаем рекурсивную архитектуру под названием Loop-ViT, которая разделяет глубину рассуждений и емкость модели за счет повторения со связанными весами. Loop-ViT итеративно применяет связанный гибридный блок, сочетающий локальные свертки и глобальную механизм внимания, для формирования скрытой цепи рассуждений. Ключевым моментом является введение беспараметрового механизма динамического выхода на основе предсказательной энтропии: модель останавливает вывод, когда ее внутреннее состояние «кристаллизуется» в аттрактор с низкой неопределенностью. Эмпирические результаты на бенчмарке ARC-AGI-1 подтверждают эту точку зрения: наша модель с 18 млн параметров достигает точности 65,8%, превосходя крупные ансамбли с 73 млн параметров. Эти результаты демонстрируют, что адаптивные итеративные вычисления предлагают гораздо более эффективный путь масштабирования для визуального мышления, чем простое увеличение ширины сети. Код доступен по адресу https://github.com/WenjieShu/LoopViT.
English
Recent advances in visual reasoning have leveraged vision transformers to tackle the ARC-AGI benchmark. However, we argue that the feed-forward architecture, where computational depth is strictly bound to parameter size, falls short of capturing the iterative, algorithmic nature of human induction. In this work, we propose a recursive architecture called Loop-ViT, which decouples reasoning depth from model capacity through weight-tied recurrence. Loop-ViT iterates a weight-tied Hybrid Block, combining local convolutions and global attention, to form a latent chain of thought. Crucially, we introduce a parameter-free Dynamic Exit mechanism based on predictive entropy: the model halts inference when its internal state ``crystallizes" into a low-uncertainty attractor. Empirical results on the ARC-AGI-1 benchmark validate this perspective: our 18M model achieves 65.8% accuracy, outperforming massive 73M-parameter ensembles. These findings demonstrate that adaptive iterative computation offers a far more efficient scaling axis for visual reasoning than simply increasing network width. The code is available at https://github.com/WenjieShu/LoopViT.
PDF112February 7, 2026