La Rappresentazione Neurale Implicita Facilita la Codifica Visiva Universale Unificata

Abstract

I modelli per l'apprendimento della rappresentazione di immagini sono tipicamente progettati per il riconoscimento o la generazione. Varie forme di apprendimento contrastivo aiutano i modelli a imparare a convertire le immagini in embedding utili per classificazione, rilevamento e segmentazione. D'altro canto, i modelli possono essere addestrati a ricostruire immagini con perdite pixel-wise, percettive e adversarial per apprendere uno spazio latente utile alla generazione di immagini. Cerchiamo di unificare queste due direzioni con un modello pionieristico che apprende rappresentazioni simultaneamente utili per riconoscimento e generazione. Addestriamo il nostro modello come un iper-rete per rappresentazione neurale implicita, che impara a mappare immagini a pesi del modello per una ricostruzione rapida e accurata. Integriamo ulteriormente la nostra iper-rete INR con la distillazione della conoscenza per migliorarne la generalizzazione e le prestazioni. Oltre alla progettazione innovativa dell'addestramento, il modello apprende anche uno spazio di embedding compresso senza precedenti con prestazioni eccezionali per varie attività visive. Il modello completo compete con risultati all'avanguardia per l'apprendimento della rappresentazione di immagini, consentendo anche capacità generative grazie ai suoi embedding compressi di alta qualità. Il codice è disponibile all'indirizzo https://github.com/tiktok/huvr.

English

Models for image representation learning are typically designed for either recognition or generation. Various forms of contrastive learning help models learn to convert images to embeddings that are useful for classification, detection, and segmentation. On the other hand, models can be trained to reconstruct images with pixel-wise, perceptual, and adversarial losses in order to learn a latent space that is useful for image generation. We seek to unify these two directions with a first-of-its-kind model that learns representations which are simultaneously useful for recognition and generation. We train our model as a hyper-network for implicit neural representation, which learns to map images to model weights for fast, accurate reconstruction. We further integrate our INR hyper-network with knowledge distillation to improve its generalization and performance. Beyond the novel training design, the model also learns an unprecedented compressed embedding space with outstanding performance for various visual tasks. The complete model competes with state-of-the-art results for image representation learning, while also enabling generative capabilities with its high-quality tiny embeddings. The code is available at https://github.com/tiktok/huvr.

La Rappresentazione Neurale Implicita Facilita la Codifica Visiva Universale Unificata

Implicit Neural Representation Facilitates Unified Universal Vision Encoding

Abstract

Support