ChatPaper.aiChatPaper

暗黙的ニューラル表現による統一的汎用視覚符号化の実現

Implicit Neural Representation Facilitates Unified Universal Vision Encoding

January 20, 2026
著者: Matthew Gwilliam, Xiao Wang, Xuefeng Hu, Zhenheng Yang
cs.AI

要旨

画像表現学習のモデルは、通常、認識または生成のいずれかを目的として設計されています。様々な形態の対照学習は、分類、検出、セグメンテーションに有用な埋め込みへ画像を変換することをモデルに学習させます。一方、画像生成に有用な潜在空間を学習するために、ピクセル単位、知覚的、敵対的損失による画像再構築をモデルに学習させることも可能です。我々は、認識と生成の両方に同時に有用な表現を学習する、前例のないモデルにより、これら二つの方向性を統合することを目指します。我々のモデルは、暗黙的神経表現のためのハイパーネットワークとして学習し、高速かつ正確な再構築のためのモデル重みへ画像を写像することを学びます。さらに、INRハイパーネットワークに知識蒸留を統合し、汎化性能とパフォーマンスを向上させます。新しい学習設計に加えて、本モデルは様々な視覚タスクで優れた性能を発揮する、前例のない圧縮埋め込み空間も学習します。この完全なモデルは、画像表現学習における最新の結果と競合するだけでなく、高品質な極小埋め込みにより生成機能も実現します。コードはhttps://github.com/tiktok/huvr で公開されています。
English
Models for image representation learning are typically designed for either recognition or generation. Various forms of contrastive learning help models learn to convert images to embeddings that are useful for classification, detection, and segmentation. On the other hand, models can be trained to reconstruct images with pixel-wise, perceptual, and adversarial losses in order to learn a latent space that is useful for image generation. We seek to unify these two directions with a first-of-its-kind model that learns representations which are simultaneously useful for recognition and generation. We train our model as a hyper-network for implicit neural representation, which learns to map images to model weights for fast, accurate reconstruction. We further integrate our INR hyper-network with knowledge distillation to improve its generalization and performance. Beyond the novel training design, the model also learns an unprecedented compressed embedding space with outstanding performance for various visual tasks. The complete model competes with state-of-the-art results for image representation learning, while also enabling generative capabilities with its high-quality tiny embeddings. The code is available at https://github.com/tiktok/huvr.
PDF51January 23, 2026