ChatPaper.aiChatPaper

La Representación Neuronal Implícita Facilita la Codificación Visual Universal Unificada

Implicit Neural Representation Facilitates Unified Universal Vision Encoding

January 20, 2026
Autores: Matthew Gwilliam, Xiao Wang, Xuefeng Hu, Zhenheng Yang
cs.AI

Resumen

Los modelos para el aprendizaje de representación de imágenes suelen diseñarse para reconocimiento o generación. Diversas formas de aprendizaje contrastivo ayudan a los modelos a convertir imágenes en incrustaciones útiles para clasificación, detección y segmentación. Por otro lado, los modelos pueden entrenarse para reconstruir imágenes mediante pérdidas a nivel de píxel, perceptuales y adversariales, con el fin de aprender un espacio latente útil para la generación de imágenes. Buscamos unificar estas dos direcciones con un modelo pionero que aprenda representaciones simultáneamente útiles para reconocimiento y generación. Entrenamos nuestro modelo como una hiper-red para representación neuronal implícita, que aprende a mapear imágenes a pesos del modelo para una reconstrucción rápida y precisa. Además, integramos nuestra hiper-red INR con destilación de conocimiento para mejorar su generalización y rendimiento. Más allá del novedoso diseño de entrenamiento, el modelo también aprende un espacio de incrustaciones comprimido sin precedentes con rendimiento excepcional para diversas tareas visuales. El modelo completo compite con los mejores resultados actuales en aprendizaje de representación de imágenes, a la vez que habilita capacidades generativas mediante sus incrustaciones minúsculas de alta calidad. El código está disponible en https://github.com/tiktok/huvr.
English
Models for image representation learning are typically designed for either recognition or generation. Various forms of contrastive learning help models learn to convert images to embeddings that are useful for classification, detection, and segmentation. On the other hand, models can be trained to reconstruct images with pixel-wise, perceptual, and adversarial losses in order to learn a latent space that is useful for image generation. We seek to unify these two directions with a first-of-its-kind model that learns representations which are simultaneously useful for recognition and generation. We train our model as a hyper-network for implicit neural representation, which learns to map images to model weights for fast, accurate reconstruction. We further integrate our INR hyper-network with knowledge distillation to improve its generalization and performance. Beyond the novel training design, the model also learns an unprecedented compressed embedding space with outstanding performance for various visual tasks. The complete model competes with state-of-the-art results for image representation learning, while also enabling generative capabilities with its high-quality tiny embeddings. The code is available at https://github.com/tiktok/huvr.
PDF51January 23, 2026