Skalierungsgesetze in Patchification: Ein Bild ist 50.176 Token und mehr wert.
Scaling Laws in Patchification: An Image Is Worth 50,176 Tokens And More
February 6, 2025
Autoren: Feng Wang, Yaodong Yu, Guoyizhe Wei, Wei Shao, Yuyin Zhou, Alan Yuille, Cihang Xie
cs.AI
Zusammenfassung
Seit der Einführung des Vision Transformers (ViT) wird die Patchifizierung schon lange als eine quasi Standardmethode zur Tokenisierung von Bildern für einfache visuelle Architekturen angesehen. Durch die Komprimierung der räumlichen Größe von Bildern kann dieser Ansatz die Tokenfolge effektiv verkürzen und die Rechenkosten von ViT-ähnlichen einfachen Architekturen reduzieren. In dieser Arbeit zielen wir darauf ab, den Informationsverlust zu untersuchen, der durch dieses auf Patchifizierung basierende komprimierende Kodierparadigma verursacht wird, und wie es das visuelle Verständnis beeinflusst. Wir führen umfangreiche Experimente zum Skalieren der Patchgröße durch und beobachten mit Begeisterung ein faszinierendes Skalierungsgesetz bei der Patchifizierung: Die Modelle können kontinuierlich von kleineren Patchgrößen profitieren und eine verbesserte Vorhersageleistung erzielen, bis sie die minimale Patchgröße von 1x1 erreichen, d.h., die Pixel-Tokenisierung. Diese Schlussfolgerung ist weitgehend auf verschiedene Vision-Aufgaben, verschiedene Eingabemaßstäbe und verschiedene Architekturen wie ViT und die neueren Mamba-Modelle anwendbar. Darüber hinaus entdecken wir als Nebenprodukt, dass bei kleineren Patches aufgabenbezogene Decoder-Köpfe für dichte Vorhersagen weniger kritisch werden. In den Experimenten skalieren wir erfolgreich die visuelle Sequenz auf eine außergewöhnliche Länge von 50.176 Token und erreichen eine wettbewerbsfähige Testgenauigkeit von 84,6% mit einem Modell in Basisgröße auf dem ImageNet-1k-Benchmark. Wir hoffen, dass diese Studie Einblicke und theoretische Grundlagen für zukünftige Arbeiten zum Aufbau nicht-kompressiver Vision-Modelle bieten kann. Der Code ist verfügbar unter https://github.com/wangf3014/Patch_Scaling.
English
Since the introduction of Vision Transformer (ViT), patchification has long
been regarded as a de facto image tokenization approach for plain visual
architectures. By compressing the spatial size of images, this approach can
effectively shorten the token sequence and reduce the computational cost of
ViT-like plain architectures. In this work, we aim to thoroughly examine the
information loss caused by this patchification-based compressive encoding
paradigm and how it affects visual understanding. We conduct extensive patch
size scaling experiments and excitedly observe an intriguing scaling law in
patchification: the models can consistently benefit from decreased patch sizes
and attain improved predictive performance, until it reaches the minimum patch
size of 1x1, i.e., pixel tokenization. This conclusion is broadly applicable
across different vision tasks, various input scales, and diverse architectures
such as ViT and the recent Mamba models. Moreover, as a by-product, we discover
that with smaller patches, task-specific decoder heads become less critical for
dense prediction. In the experiments, we successfully scale up the visual
sequence to an exceptional length of 50,176 tokens, achieving a competitive
test accuracy of 84.6% with a base-sized model on the ImageNet-1k benchmark. We
hope this study can provide insights and theoretical foundations for future
works of building non-compressive vision models. Code is available at
https://github.com/wangf3014/Patch_Scaling.Summary
AI-Generated Summary