ChatPaper.aiChatPaper

Leggi di scalabilità nella patchificazione: Un'immagine vale 50.176 token e oltre

Scaling Laws in Patchification: An Image Is Worth 50,176 Tokens And More

February 6, 2025
Autori: Feng Wang, Yaodong Yu, Guoyizhe Wei, Wei Shao, Yuyin Zhou, Alan Yuille, Cihang Xie
cs.AI

Abstract

Sin dall'introduzione del Vision Transformer (ViT), la patchificazione è stata a lungo considerata un approccio de facto per la tokenizzazione delle immagini per architetture visive semplici. Comprimendo le dimensioni spaziali delle immagini, questo approccio può accorciare efficacemente la sequenza di token e ridurre il costo computazionale delle architetture visive semplici simili a ViT. In questo lavoro, ci proponiamo di esaminare approfonditamente la perdita di informazioni causata da questo paradigma di codifica compressiva basato sulla patchificazione e come ciò influisce sulla comprensione visiva. Conduciamo ampie sperimentazioni sulla riduzione delle dimensioni delle patch e osserviamo con entusiasmo una legge di ridimensionamento intrigante nella patchificazione: i modelli possono trarre costantemente beneficio dalla diminuzione delle dimensioni delle patch e ottenere un miglioramento delle prestazioni predittive, fino a raggiungere la dimensione minima della patch di 1x1, cioè la tokenizzazione dei pixel. Questa conclusione è ampiamente applicabile a diversi compiti visivi, varie scale di input e diverse architetture come ViT e i recenti modelli Mamba. Inoltre, come risultato collaterale, scopriamo che con patch più piccole, le testate decoder specifiche del compito diventano meno critiche per la predizione densa. Negli esperimenti, riusciamo a scalare la sequenza visiva fino a una lunghezza eccezionale di 50.176 token, raggiungendo un'accuratezza di test competitiva dell'84,6% con un modello di dimensioni di base sul benchmark ImageNet-1k. Speriamo che questo studio possa fornire spunti e basi teoriche per futuri lavori sulla costruzione di modelli visivi non compressivi. Il codice è disponibile su https://github.com/wangf3014/Patch_Scaling.
English
Since the introduction of Vision Transformer (ViT), patchification has long been regarded as a de facto image tokenization approach for plain visual architectures. By compressing the spatial size of images, this approach can effectively shorten the token sequence and reduce the computational cost of ViT-like plain architectures. In this work, we aim to thoroughly examine the information loss caused by this patchification-based compressive encoding paradigm and how it affects visual understanding. We conduct extensive patch size scaling experiments and excitedly observe an intriguing scaling law in patchification: the models can consistently benefit from decreased patch sizes and attain improved predictive performance, until it reaches the minimum patch size of 1x1, i.e., pixel tokenization. This conclusion is broadly applicable across different vision tasks, various input scales, and diverse architectures such as ViT and the recent Mamba models. Moreover, as a by-product, we discover that with smaller patches, task-specific decoder heads become less critical for dense prediction. In the experiments, we successfully scale up the visual sequence to an exceptional length of 50,176 tokens, achieving a competitive test accuracy of 84.6% with a base-sized model on the ImageNet-1k benchmark. We hope this study can provide insights and theoretical foundations for future works of building non-compressive vision models. Code is available at https://github.com/wangf3014/Patch_Scaling.

Summary

AI-Generated Summary

PDF112February 10, 2025