Topic-VQ-VAE: Использование латентных кодовых книг для гибкого генерации документов с учетом тематики

Аннотация

В данной статье представлен новый подход к тематическому моделированию, использующий латентные кодовые книги из векторно-квантованного вариационного автоэнкодера (VQ-VAE), которые дискретно инкапсулируют богатую информацию предобученных эмбеддингов, таких как предобученные языковые модели. На основе новой интерпретации латентных кодовых книг и эмбеддингов как концептуального мешка слов мы предлагаем новую генеративную модель тем, называемую Topic-VQ-VAE (TVQ-VAE), которая обратно генерирует исходные документы, связанные с соответствующими латентными кодовыми книгами. TVQ-VAE позволяет визуализировать темы с помощью различных генеративных распределений, включая традиционное распределение мешка слов и авторегрессивную генерацию изображений. Наши экспериментальные результаты в области анализа документов и генерации изображений демонстрируют, что TVQ-VAE эффективно захватывает контекст тем, раскрывая скрытые структуры набора данных и поддерживая гибкие формы генерации документов. Официальная реализация предложенной модели TVQ-VAE доступна по адресу https://github.com/clovaai/TVQ-VAE.

English

This paper introduces a novel approach for topic modeling utilizing latent codebooks from Vector-Quantized Variational Auto-Encoder~(VQ-VAE), discretely encapsulating the rich information of the pre-trained embeddings such as the pre-trained language model. From the novel interpretation of the latent codebooks and embeddings as conceptual bag-of-words, we propose a new generative topic model called Topic-VQ-VAE~(TVQ-VAE) which inversely generates the original documents related to the respective latent codebook. The TVQ-VAE can visualize the topics with various generative distributions including the traditional BoW distribution and the autoregressive image generation. Our experimental results on document analysis and image generation demonstrate that TVQ-VAE effectively captures the topic context which reveals the underlying structures of the dataset and supports flexible forms of document generation. Official implementation of the proposed TVQ-VAE is available at https://github.com/clovaai/TVQ-VAE.

Topic-VQ-VAE: Использование латентных кодовых книг для гибкого генерации документов с учетом тематики

Topic-VQ-VAE: Leveraging Latent Codebooks for Flexible Topic-Guided Document Generation

Аннотация

Support