A Representação Neural Implícita Facilita a Codificação Visual Universal Unificada

Resumo

Os modelos para aprendizagem de representação de imagens são normalmente concebidos para reconhecimento ou geração. Várias formas de aprendizagem contrastiva ajudam os modelos a aprender a converter imagens em *embeddings* úteis para classificação, deteção e segmentação. Por outro lado, os modelos podem ser treinados para reconstruir imagens com perdas *pixel-wise*, percetuais e adversariais, de modo a aprender um espaço latente útil para geração de imagens. Procuramos unificar estas duas direções com um modelo pioneiro que aprende representações simultaneamente úteis para reconhecimento e geração. Treinamos o nosso modelo como uma *hyper-network* para representação neural implícita, que aprende a mapear imagens para pesos do modelo, permitindo uma reconstrução rápida e precisa. Integramos ainda a nossa *hyper-network* de representação neural implícita com destilação de conhecimento para melhorar a sua generalização e desempenho. Para além do design de treino inovador, o modelo também aprende um espaço de *embedding* comprimido sem precedentes, com desempenho excecional em várias tarefas visuais. O modelo completo compete com os resultados de ponta em aprendizagem de representação de imagens, permitindo também capacidades generativas através dos seus *embeddings* compactos de alta qualidade. O código está disponível em https://github.com/tiktok/huvr.

English

Models for image representation learning are typically designed for either recognition or generation. Various forms of contrastive learning help models learn to convert images to embeddings that are useful for classification, detection, and segmentation. On the other hand, models can be trained to reconstruct images with pixel-wise, perceptual, and adversarial losses in order to learn a latent space that is useful for image generation. We seek to unify these two directions with a first-of-its-kind model that learns representations which are simultaneously useful for recognition and generation. We train our model as a hyper-network for implicit neural representation, which learns to map images to model weights for fast, accurate reconstruction. We further integrate our INR hyper-network with knowledge distillation to improve its generalization and performance. Beyond the novel training design, the model also learns an unprecedented compressed embedding space with outstanding performance for various visual tasks. The complete model competes with state-of-the-art results for image representation learning, while also enabling generative capabilities with its high-quality tiny embeddings. The code is available at https://github.com/tiktok/huvr.

A Representação Neural Implícita Facilita a Codificação Visual Universal Unificada

Implicit Neural Representation Facilitates Unified Universal Vision Encoding

Resumo

Support