Implizite Neuronale Repräsentation Ermöglicht Vereinheitlichte Universelle Bildkodierung
Implicit Neural Representation Facilitates Unified Universal Vision Encoding
January 20, 2026
papers.authors: Matthew Gwilliam, Xiao Wang, Xuefeng Hu, Zhenheng Yang
cs.AI
papers.abstract
Modelle für das Erlernen von Bildrepräsentationen sind in der Regel entweder für die Erkennung oder die Generierung konzipiertiert. Verschiedene Formen des kontrastiven Lernens helfen Modellen dabei, zu lernen, wie sie Bilder in Einbettungen (Embeddings) umwandeln, die für Klassifizierung, Detektion und Segmentierung nützlich sind. Andererseits können Modelle so trainiert werden, dass sie Bilder unter Verwendung von pixelbasierten, perzeptuellen und adversen Verlustfunktionen rekonstruieren, um einen latenten Raum zu erlernen, der für die Bildgenerierung geeignet ist. Wir streben danach, diese beiden Ansätze mit einem Modell zu vereinen, das in dieser Form einzigartig ist und Repräsentationen erlernt, die gleichzeitig für die Erkennung und die Generierung nützlich sind. Wir trainieren unser Modell als Hyper-Netzwerk für implizite neuronale Repräsentationen, das lernt, Bilder auf Modellgewichte abzubilden, um eine schnelle und präzise Rekonstruktion zu ermöglichen. Darüber hinaus integrieren wir unser INR-Hyper-Netzwerk mit Wissensdistillation, um dessen Generalisierungsfähigkeit und Leistung zu verbessern. Über das neuartige Trainingsdesign hinaus lernt das Modell auch einen beispiellos komprimierten Einbettungsraum mit herausragender Leistung für verschiedene visuelle Aufgaben. Das vollständige Modell kann mit state-of-the-art Ergebnissen für das Erlernen von Bildrepräsentationen konkurrieren und ermöglicht gleichzeitig generative Fähigkeiten durch seine hochwertigen, kompakten Einbettungen. Der Code ist verfügbar unter https://github.com/tiktok/huvr.
English
Models for image representation learning are typically designed for either recognition or generation. Various forms of contrastive learning help models learn to convert images to embeddings that are useful for classification, detection, and segmentation. On the other hand, models can be trained to reconstruct images with pixel-wise, perceptual, and adversarial losses in order to learn a latent space that is useful for image generation. We seek to unify these two directions with a first-of-its-kind model that learns representations which are simultaneously useful for recognition and generation. We train our model as a hyper-network for implicit neural representation, which learns to map images to model weights for fast, accurate reconstruction. We further integrate our INR hyper-network with knowledge distillation to improve its generalization and performance. Beyond the novel training design, the model also learns an unprecedented compressed embedding space with outstanding performance for various visual tasks. The complete model competes with state-of-the-art results for image representation learning, while also enabling generative capabilities with its high-quality tiny embeddings. The code is available at https://github.com/tiktok/huvr.