Tokenización Visual Factorizada y Generación
Factorized Visual Tokenization and Generation
November 25, 2024
Autores: Zechen Bai, Jianxiong Gao, Ziteng Gao, Pichao Wang, Zheng Zhang, Tong He, Mike Zheng Shou
cs.AI
Resumen
Los tokenizadores visuales son fundamentales para la generación de imágenes. Convierten los datos visuales en tokens discretos, permitiendo que los modelos basados en transformadores destaquen en la generación de imágenes. A pesar de su éxito, los tokenizadores basados en VQ, como VQGAN, enfrentan limitaciones significativas debido a tamaños de vocabulario restringidos. Simplemente expandir el libro de códigos a menudo conduce a inestabilidad en el entrenamiento y a una disminución en los avances de rendimiento, lo que convierte a la escalabilidad en un desafío crítico. En este trabajo, presentamos la Cuantización Factorizada (FQ), un enfoque novedoso que revitaliza los tokenizadores basados en VQ al descomponer un gran libro de códigos en múltiples sub-libros de códigos independientes. Esta factorización reduce la complejidad de búsqueda de grandes libros de códigos, permitiendo una tokenización visual más eficiente y escalable. Para asegurar que cada sub-libro de códigos capture información distinta y complementaria, proponemos una regularización de desentrelazado que reduce explícitamente la redundancia, promoviendo la diversidad entre los sub-libros de códigos. Además, integramos el aprendizaje de representaciones en el proceso de entrenamiento, aprovechando modelos de visión preentrenados como CLIP y DINO para infundir riqueza semántica en las representaciones aprendidas. Este diseño asegura que nuestro tokenizador capture diversos niveles semánticos, lo que resulta en representaciones más expresivas y desentrelazadas. Los experimentos muestran que el modelo propuesto FQGAN mejora sustancialmente la calidad de reconstrucción de los tokenizadores visuales, logrando un rendimiento de vanguardia. Además, demostramos que este tokenizador puede adaptarse de manera efectiva a la generación de imágenes auto-regresiva. https://showlab.github.io/FQGAN
English
Visual tokenizers are fundamental to image generation. They convert visual
data into discrete tokens, enabling transformer-based models to excel at image
generation. Despite their success, VQ-based tokenizers like VQGAN face
significant limitations due to constrained vocabulary sizes. Simply expanding
the codebook often leads to training instability and diminishing performance
gains, making scalability a critical challenge. In this work, we introduce
Factorized Quantization (FQ), a novel approach that revitalizes VQ-based
tokenizers by decomposing a large codebook into multiple independent
sub-codebooks. This factorization reduces the lookup complexity of large
codebooks, enabling more efficient and scalable visual tokenization. To ensure
each sub-codebook captures distinct and complementary information, we propose a
disentanglement regularization that explicitly reduces redundancy, promoting
diversity across the sub-codebooks. Furthermore, we integrate representation
learning into the training process, leveraging pretrained vision models like
CLIP and DINO to infuse semantic richness into the learned representations.
This design ensures our tokenizer captures diverse semantic levels, leading to
more expressive and disentangled representations. Experiments show that the
proposed FQGAN model substantially improves the reconstruction quality of
visual tokenizers, achieving state-of-the-art performance. We further
demonstrate that this tokenizer can be effectively adapted into auto-regressive
image generation. https://showlab.github.io/FQGANSummary
AI-Generated Summary