LoopViT: Scalabilità dell'ARC Visivo con Trasformatori ad Anello

Abstract

I recenti progressi nel ragionamento visivo hanno sfruttato i vision transformer per affrontare il benchmark ARC-AGI. Tuttavia, sosteniamo che l'architettura feed-forward, in cui la profondità computazionale è strettamente vincolata alla dimensione dei parametri, non riesca a cogliere la natura iterativa e algoritmica dell'induzione umana. In questo lavoro, proponiamo un'architettura ricorsiva chiamata Loop-ViT, che disaccoppia la profondità di ragionamento dalla capacità del modello attraverso una ricorrenza con pesi condivisi. Loop-ViT itera un Blocco Ibrido a pesi condivisi, combinando convoluzioni locali e attenzione globale, per formare una catena di pensiero latente. In modo cruciale, introduciamo un meccanismo di Uscita Dinamica senza parametri basato sull'entropia predittiva: il modello interrompe l'inferenza quando il suo stato interno "cristallizza" in un attrattore a bassa incertezza. I risultati empirici sul benchmark ARC-AGI-1 convalidano questa prospettiva: il nostro modello da 18M parametri raggiunge un'accuratezza del 65,8%, superando ensemble massicci da 73M parametri. Questi risultati dimostrano che il calcolo iterativo adattivo offre un asse di scalabilità molto più efficiente per il ragionamento visivo rispetto al semplice aumento della larghezza della rete. Il codice è disponibile all'indirizzo https://github.com/WenjieShu/LoopViT.

English

Recent advances in visual reasoning have leveraged vision transformers to tackle the ARC-AGI benchmark. However, we argue that the feed-forward architecture, where computational depth is strictly bound to parameter size, falls short of capturing the iterative, algorithmic nature of human induction. In this work, we propose a recursive architecture called Loop-ViT, which decouples reasoning depth from model capacity through weight-tied recurrence. Loop-ViT iterates a weight-tied Hybrid Block, combining local convolutions and global attention, to form a latent chain of thought. Crucially, we introduce a parameter-free Dynamic Exit mechanism based on predictive entropy: the model halts inference when its internal state ``crystallizes" into a low-uncertainty attractor. Empirical results on the ARC-AGI-1 benchmark validate this perspective: our 18M model achieves 65.8% accuracy, outperforming massive 73M-parameter ensembles. These findings demonstrate that adaptive iterative computation offers a far more efficient scaling axis for visual reasoning than simply increasing network width. The code is available at https://github.com/WenjieShu/LoopViT.

LoopViT: Scalabilità dell'ARC Visivo con Trasformatori ad Anello

LoopViT: Scaling Visual ARC with Looped Transformers

Abstract

Support