Неявное нейронное представление способствует унифицированному кодированию универсального зрительного восприятия
Implicit Neural Representation Facilitates Unified Universal Vision Encoding
January 20, 2026
Авторы: Matthew Gwilliam, Xiao Wang, Xuefeng Hu, Zhenheng Yang
cs.AI
Аннотация
Модели для обучения представлений изображений традиционно разрабатываются либо для распознавания, либо для генерации. Различные формы контрастного обучения помогают моделям научиться преобразовывать изображения в эмбеддинги, полезные для классификации, детекции и сегментации. С другой стороны, модели можно обучать реконструкции изображений с использованием потерь на уровне пикселей, перцептивных и состязательных потерь, чтобы изучить латентное пространство, пригодное для генерации изображений. Мы стремимся объединить эти два направления с помощью первой в своем роде модели, которая изучает представления, одновременно полезные как для распознавания, так и для генерации. Мы обучаем нашу модель как гиперсеть для неявного нейронного представления, которая учится отображать изображения в веса модели для быстрой и точной реконструкции. Мы дополнительно интегрируем нашу INR-гиперсеть с дистилляцией знаний, чтобы улучшить ее обобщающую способность и производительность. Помимо новой архитектуры обучения, модель также изучает беспрецедентно сжатое пространство эмбеддингов с выдающейся производительностью для различных визуальных задач. Полная модель конкурирует с современными результатами в области обучения представлений изображений, а также обеспечивает генеративные возможности благодаря своим высококачественным компактным эмбеддингам. Код доступен по адресу https://github.com/tiktok/huvr.
English
Models for image representation learning are typically designed for either recognition or generation. Various forms of contrastive learning help models learn to convert images to embeddings that are useful for classification, detection, and segmentation. On the other hand, models can be trained to reconstruct images with pixel-wise, perceptual, and adversarial losses in order to learn a latent space that is useful for image generation. We seek to unify these two directions with a first-of-its-kind model that learns representations which are simultaneously useful for recognition and generation. We train our model as a hyper-network for implicit neural representation, which learns to map images to model weights for fast, accurate reconstruction. We further integrate our INR hyper-network with knowledge distillation to improve its generalization and performance. Beyond the novel training design, the model also learns an unprecedented compressed embedding space with outstanding performance for various visual tasks. The complete model competes with state-of-the-art results for image representation learning, while also enabling generative capabilities with its high-quality tiny embeddings. The code is available at https://github.com/tiktok/huvr.