Topic-VQ-VAE: Aprovechando los Libros de Códigos Latentes para la Generación Flexible de Documentos Guiada por Temas

Resumen

Este artículo presenta un enfoque novedoso para el modelado de temas utilizando codebooks latentes de un Autoencoder Variacional Cuantizado Vectorial (VQ-VAE), encapsulando discretamente la rica información de los embeddings preentrenados, como los de un modelo de lenguaje preentrenado. A partir de una nueva interpretación de los codebooks latentes y los embeddings como una bolsa de palabras conceptual, proponemos un nuevo modelo generativo de temas llamado Topic-VQ-VAE (TVQ-VAE), que genera inversamente los documentos originales relacionados con el codebook latente respectivo. El TVQ-VAE puede visualizar los temas con diversas distribuciones generativas, incluyendo la distribución tradicional de bolsa de palabras (BoW) y la generación autoregresiva de imágenes. Nuestros resultados experimentales en análisis de documentos y generación de imágenes demuestran que el TVQ-VAE captura efectivamente el contexto temático, revelando las estructuras subyacentes del conjunto de datos y permitiendo formas flexibles de generación de documentos. La implementación oficial del TVQ-VAE propuesto está disponible en https://github.com/clovaai/TVQ-VAE.

English

This paper introduces a novel approach for topic modeling utilizing latent codebooks from Vector-Quantized Variational Auto-Encoder~(VQ-VAE), discretely encapsulating the rich information of the pre-trained embeddings such as the pre-trained language model. From the novel interpretation of the latent codebooks and embeddings as conceptual bag-of-words, we propose a new generative topic model called Topic-VQ-VAE~(TVQ-VAE) which inversely generates the original documents related to the respective latent codebook. The TVQ-VAE can visualize the topics with various generative distributions including the traditional BoW distribution and the autoregressive image generation. Our experimental results on document analysis and image generation demonstrate that TVQ-VAE effectively captures the topic context which reveals the underlying structures of the dataset and supports flexible forms of document generation. Official implementation of the proposed TVQ-VAE is available at https://github.com/clovaai/TVQ-VAE.

Topic-VQ-VAE: Aprovechando los Libros de Códigos Latentes para la Generación Flexible de Documentos Guiada por Temas

Topic-VQ-VAE: Leveraging Latent Codebooks for Flexible Topic-Guided Document Generation

Resumen

Support