암시적 신경 표현이 통합된 범용 비전 인코딩을 가능하게 한다
Implicit Neural Representation Facilitates Unified Universal Vision Encoding
January 20, 2026
저자: Matthew Gwilliam, Xiao Wang, Xuefeng Hu, Zhenheng Yang
cs.AI
초록
이미지 표현 학습 모델은 일반적으로 인식(recognition) 또는 생성(generation) 중 한 가지 목적을 위해 설계됩니다. 다양한 형태의 대조 학습(contrastive learning)은 이미지를 분류, 탐지, 분할 작업에 유용한 임베딩으로 변환하는 방법을 모델에 학습시킵니다. 반면, 모델은 이미지 생성에 유용한 잠재 공간(latent space)을 학습하기 위해 픽셀 단위(pixel-wise), 지각(perceptual), 적대적(adversarial) 손실 함수를 사용한 이미지 재구성 작업으로 훈련될 수 있습니다. 본 연구는 인식과 생성에 동시에 유용한 표현을 학습하는 최초의 모델로 이 두 방향을 통합하고자 합니다. 우리는 빠르고 정확한 재구성을 위해 이미지를 모델 가중치에 매핑하는 방법을 학습하는 암묵적 신경 표현(implicit neural representation)을 위한 하이퍼 네트워크(hyper-network)로 모델을 훈련시킵니다. 또한 일반화 성능과 성능 향상을 위해 지식 증류(knowledge distillation)를 하이퍼 네트워크에 통합합니다. 이러한 새로운 훈련 설계를 넘어, 이 모델은 다양한 시각 작업에서 뛰어난 성능을 보이는 전례 없는 압축 임베딩 공간을 학습합니다. 완성된 모델은 이미지 표현 학습 분야에서 최첨단 결과와 경쟁할 수 있는 동시에 고품질의 소형 임베딩을 통한 생성 기능도 가능하게 합니다. 코드는 https://github.com/tiktok/huvr에서 확인할 수 있습니다.
English
Models for image representation learning are typically designed for either recognition or generation. Various forms of contrastive learning help models learn to convert images to embeddings that are useful for classification, detection, and segmentation. On the other hand, models can be trained to reconstruct images with pixel-wise, perceptual, and adversarial losses in order to learn a latent space that is useful for image generation. We seek to unify these two directions with a first-of-its-kind model that learns representations which are simultaneously useful for recognition and generation. We train our model as a hyper-network for implicit neural representation, which learns to map images to model weights for fast, accurate reconstruction. We further integrate our INR hyper-network with knowledge distillation to improve its generalization and performance. Beyond the novel training design, the model also learns an unprecedented compressed embedding space with outstanding performance for various visual tasks. The complete model competes with state-of-the-art results for image representation learning, while also enabling generative capabilities with its high-quality tiny embeddings. The code is available at https://github.com/tiktok/huvr.