ChatPaper.aiChatPaper

Leyes de Escala en la Patchificación: Una Imagen Vale 50,176 Tokens y Más

Scaling Laws in Patchification: An Image Is Worth 50,176 Tokens And More

February 6, 2025
Autores: Feng Wang, Yaodong Yu, Guoyizhe Wei, Wei Shao, Yuyin Zhou, Alan Yuille, Cihang Xie
cs.AI

Resumen

Desde la introducción del Transformador de Visión (ViT), la "patchificación" ha sido considerada durante mucho tiempo como un enfoque de tokenización de imágenes de facto para arquitecturas visuales simples. Al comprimir el tamaño espacial de las imágenes, este enfoque puede acortar efectivamente la secuencia de tokens y reducir el costo computacional de arquitecturas visuales simples similares a ViT. En este trabajo, nuestro objetivo es examinar exhaustivamente la pérdida de información causada por este paradigma de codificación compresiva basado en la "patchificación" y cómo afecta la comprensión visual. Realizamos extensos experimentos de escala de tamaño de parches y observamos con entusiasmo una ley de escala intrigante en la "patchificación": los modelos pueden beneficiarse de manera consistente de tamaños de parches más pequeños y lograr un rendimiento predictivo mejorado, hasta llegar al tamaño mínimo de parche de 1x1, es decir, la tokenización de píxeles. Esta conclusión es ampliamente aplicable en diferentes tareas visuales, diversas escalas de entrada y arquitecturas diversas como ViT y los recientes modelos Mamba. Además, como subproducto, descubrimos que con parches más pequeños, las cabezas decodificadoras específicas de la tarea se vuelven menos críticas para la predicción densa. En los experimentos, logramos escalar con éxito la secuencia visual a una longitud excepcional de 50,176 tokens, alcanzando una precisión de prueba competitiva del 84.6% con un modelo de tamaño base en el benchmark de ImageNet-1k. Esperamos que este estudio pueda proporcionar ideas y fundamentos teóricos para futuros trabajos en la construcción de modelos visuales no compresivos. El código está disponible en https://github.com/wangf3014/Patch_Scaling.
English
Since the introduction of Vision Transformer (ViT), patchification has long been regarded as a de facto image tokenization approach for plain visual architectures. By compressing the spatial size of images, this approach can effectively shorten the token sequence and reduce the computational cost of ViT-like plain architectures. In this work, we aim to thoroughly examine the information loss caused by this patchification-based compressive encoding paradigm and how it affects visual understanding. We conduct extensive patch size scaling experiments and excitedly observe an intriguing scaling law in patchification: the models can consistently benefit from decreased patch sizes and attain improved predictive performance, until it reaches the minimum patch size of 1x1, i.e., pixel tokenization. This conclusion is broadly applicable across different vision tasks, various input scales, and diverse architectures such as ViT and the recent Mamba models. Moreover, as a by-product, we discover that with smaller patches, task-specific decoder heads become less critical for dense prediction. In the experiments, we successfully scale up the visual sequence to an exceptional length of 50,176 tokens, achieving a competitive test accuracy of 84.6% with a base-sized model on the ImageNet-1k benchmark. We hope this study can provide insights and theoretical foundations for future works of building non-compressive vision models. Code is available at https://github.com/wangf3014/Patch_Scaling.

Summary

AI-Generated Summary

PDF112February 10, 2025