Topic-VQ-VAE: Nutzung latenter Codebücher für flexible themengeleitete Dokumentgenerierung
Topic-VQ-VAE: Leveraging Latent Codebooks for Flexible Topic-Guided Document Generation
December 15, 2023
Autoren: YoungJoon Yoo, Jongwon Choi
cs.AI
Zusammenfassung
Dieses Papier stellt einen neuartigen Ansatz für Topic Modeling vor, der latente Codebücher aus einem Vector-Quantized Variational Auto-Encoder (VQ-VAE) nutzt, um die umfangreichen Informationen vortrainierter Embeddings, wie z.B. eines vortrainierten Sprachmodells, diskret zu erfassen. Ausgehend von einer neuen Interpretation der latenten Codebücher und Embeddings als konzeptionelle Bag-of-Words schlagen wir ein neues generatives Topic-Modell namens Topic-VQ-VAE (TVQ-VAE) vor, das die ursprünglichen Dokumente, die mit dem jeweiligen latenten Codebuch verbunden sind, invers generiert. Das TVQ-VAE kann die Themen mit verschiedenen generativen Verteilungen visualisieren, einschließlich der traditionellen BoW-Verteilung und der autoregressiven Bildgenerierung. Unsere experimentellen Ergebnisse zur Dokumentenanalyse und Bildgenerierung zeigen, dass TVQ-VAE den Themenkontext effektiv erfasst, was die zugrunde liegenden Strukturen des Datensatzes offenlegt und flexible Formen der Dokumentengenerierung unterstützt. Die offizielle Implementierung des vorgeschlagenen TVQ-VAE ist unter https://github.com/clovaai/TVQ-VAE verfügbar.
English
This paper introduces a novel approach for topic modeling utilizing latent
codebooks from Vector-Quantized Variational Auto-Encoder~(VQ-VAE), discretely
encapsulating the rich information of the pre-trained embeddings such as the
pre-trained language model. From the novel interpretation of the latent
codebooks and embeddings as conceptual bag-of-words, we propose a new
generative topic model called Topic-VQ-VAE~(TVQ-VAE) which inversely generates
the original documents related to the respective latent codebook. The TVQ-VAE
can visualize the topics with various generative distributions including the
traditional BoW distribution and the autoregressive image generation. Our
experimental results on document analysis and image generation demonstrate that
TVQ-VAE effectively captures the topic context which reveals the underlying
structures of the dataset and supports flexible forms of document generation.
Official implementation of the proposed TVQ-VAE is available at
https://github.com/clovaai/TVQ-VAE.