ChatPaper.aiChatPaper

La représentation neuronale implicite facilite un encodage visuel universel unifié.

Implicit Neural Representation Facilitates Unified Universal Vision Encoding

January 20, 2026
papers.authors: Matthew Gwilliam, Xiao Wang, Xuefeng Hu, Zhenheng Yang
cs.AI

papers.abstract

Les modèles d'apprentissage de représentation d'images sont généralement conçus pour soit la reconnaissance, soit la génération. Diverses formes d'apprentissage contrastif aident les modèles à apprendre à convertir les images en embeddings utiles pour la classification, la détection et la segmentation. D'autre part, les modèles peuvent être entraînés à reconstruire des images avec des pertes pixel, perceptuelles et adversaires afin d'apprendre un espace latent utile pour la génération d'images. Nous cherchons à unifier ces deux approches avec un modèle pionnier qui apprend des représentations simultanément utiles pour la reconnaissance et la génération. Nous entraînons notre modèle comme un hyper-réseau pour la représentation neuronale implicite, qui apprend à mapper les images vers des poids de modèle pour une reconstruction rapide et précise. Nous intégrons en outre notre hyper-réseau RNI avec la distillation de connaissances pour améliorer sa généralisation et ses performances. Au-delà de la conception novatrice de l'entraînement, le modèle apprend également un espace d'embedding compressé sans précédent, offrant des performances exceptionnelles pour diverses tâches visuelles. Le modèle complet rivalise avec les résultats de pointe en apprentissage de représentation d'images, tout en permettant des capacités génératives grâce à ses embeddings compressés de haute qualité. Le code est disponible à l'adresse https://github.com/tiktok/huvr.
English
Models for image representation learning are typically designed for either recognition or generation. Various forms of contrastive learning help models learn to convert images to embeddings that are useful for classification, detection, and segmentation. On the other hand, models can be trained to reconstruct images with pixel-wise, perceptual, and adversarial losses in order to learn a latent space that is useful for image generation. We seek to unify these two directions with a first-of-its-kind model that learns representations which are simultaneously useful for recognition and generation. We train our model as a hyper-network for implicit neural representation, which learns to map images to model weights for fast, accurate reconstruction. We further integrate our INR hyper-network with knowledge distillation to improve its generalization and performance. Beyond the novel training design, the model also learns an unprecedented compressed embedding space with outstanding performance for various visual tasks. The complete model competes with state-of-the-art results for image representation learning, while also enabling generative capabilities with its high-quality tiny embeddings. The code is available at https://github.com/tiktok/huvr.
PDF51January 23, 2026