Impliciete Neurale Representatie Faciliteert Uniforme Universele Visuele Codering

Samenvatting

Modellen voor het leren van beeldrepresentaties zijn doorgaans ontworpen voor óf herkenning óf generatie. Verschillende vormen van contrastief leren helpen modellen om beelden om te zetten in embeddings die nuttig zijn voor classificatie, detectie en segmentatie. Anderzijds kunnen modellen worden getraind om beelden te reconstrueren met pixelgewijze, perceptuele en adversariële verliesfuncties, om zo een latente ruimte aan te leren die geschikt is voor beeldgeneratie. Wij streven ernaar deze twee richtingen te verenigen met een model van een nieuw soort, dat representaties leert die tegelijkertijd bruikbaar zijn voor herkenning en generatie. We trainen ons model als een hypernetwerk voor impliciete neurale representatie, dat leert om beelden af te beelden naar modelgewichten voor snelle, nauwkeurige reconstructie. We integreren ons INR-hypernetwerk verder met knowledge distillation om de generalisatie en prestaties te verbeteren. Naast de nieuwe trainingsopzet leert het model ook een ongekend gecomprimeerde embeddingruimte met uitstekende prestaties voor diverse visuele taken. Het complete model kan concurreren met state-of-the-art resultaten voor beeldrepresentatieleren, terwijl het tevens generatieve mogelijkheden biedt dankzij zijn hoogwaardige, compacte embeddings. De code is beschikbaar op https://github.com/tiktok/huvr.

English

Models for image representation learning are typically designed for either recognition or generation. Various forms of contrastive learning help models learn to convert images to embeddings that are useful for classification, detection, and segmentation. On the other hand, models can be trained to reconstruct images with pixel-wise, perceptual, and adversarial losses in order to learn a latent space that is useful for image generation. We seek to unify these two directions with a first-of-its-kind model that learns representations which are simultaneously useful for recognition and generation. We train our model as a hyper-network for implicit neural representation, which learns to map images to model weights for fast, accurate reconstruction. We further integrate our INR hyper-network with knowledge distillation to improve its generalization and performance. Beyond the novel training design, the model also learns an unprecedented compressed embedding space with outstanding performance for various visual tasks. The complete model competes with state-of-the-art results for image representation learning, while also enabling generative capabilities with its high-quality tiny embeddings. The code is available at https://github.com/tiktok/huvr.

Impliciete Neurale Representatie Faciliteert Uniforme Universele Visuele Codering

Implicit Neural Representation Facilitates Unified Universal Vision Encoding

Samenvatting

Support