SHIC: キーポイント監視なしの形状-画像対応付け
SHIC: Shape-Image Correspondences with no Keypoint Supervision
July 26, 2024
著者: Aleksandar Shtedritski, Christian Rupprecht, Andrea Vedaldi
cs.AI
要旨
正準表面マッピングは、物体の各ピクセルを3Dテンプレート上の対応する点に割り当てることで、キーポイント検出を一般化します。DensePoseによって人間の解析のために普及したこの概念は、その後、より多くのカテゴリに適用しようとする試みがなされてきましたが、手動による監督のコストが高いため、限定的な成功しか収めていません。本研究では、SHICという手法を導入し、手動の監督なしで正準マップを学習し、ほとんどのカテゴリで教師あり手法よりも優れた結果を達成します。私たちのアイデアは、DINOやStable Diffusionのような基盤となるコンピュータビジョンモデルを活用することです。これらのモデルはオープンエンドであり、自然なカテゴリに対する優れた事前知識を持っています。SHICは、基盤モデルの特徴を使用して、画像からテンプレートへの対応関係を推定する問題を、画像から画像への対応関係を予測する問題に還元します。この還元は、物体の画像をテンプレートの非写実的なレンダリングとマッチングすることで行われ、このタスクのための手動アノテーションを収集するプロセスを模倣します。これらの対応関係は、対象となる任意の物体の高品質な正準マップを監督するために使用されます。また、画像生成器がテンプレートビューのリアリズムをさらに向上させ、モデルのための追加の監督源を提供することも示します。
English
Canonical surface mapping generalizes keypoint detection by assigning each
pixel of an object to a corresponding point in a 3D template. Popularised by
DensePose for the analysis of humans, authors have since attempted to apply the
concept to more categories, but with limited success due to the high cost of
manual supervision. In this work, we introduce SHIC, a method to learn
canonical maps without manual supervision which achieves better results than
supervised methods for most categories. Our idea is to leverage foundation
computer vision models such as DINO and Stable Diffusion that are open-ended
and thus possess excellent priors over natural categories. SHIC reduces the
problem of estimating image-to-template correspondences to predicting
image-to-image correspondences using features from the foundation models. The
reduction works by matching images of the object to non-photorealistic renders
of the template, which emulates the process of collecting manual annotations
for this task. These correspondences are then used to supervise high-quality
canonical maps for any object of interest. We also show that image generators
can further improve the realism of the template views, which provide an
additional source of supervision for the model.Summary
AI-Generated Summary