SHIC: キーポイント監視なしの形状-画像対応付けSHIC: Shape-Image Correspondences with no Keypoint Supervision
正準表面マッピングは、物体の各ピクセルを3Dテンプレート上の対応する点に割り当てることで、キーポイント検出を一般化します。DensePoseによって人間の解析のために普及したこの概念は、その後、より多くのカテゴリに適用しようとする試みがなされてきましたが、手動による監督のコストが高いため、限定的な成功しか収めていません。本研究では、SHICという手法を導入し、手動の監督なしで正準マップを学習し、ほとんどのカテゴリで教師あり手法よりも優れた結果を達成します。私たちのアイデアは、DINOやStable Diffusionのような基盤となるコンピュータビジョンモデルを活用することです。これらのモデルはオープンエンドであり、自然なカテゴリに対する優れた事前知識を持っています。SHICは、基盤モデルの特徴を使用して、画像からテンプレートへの対応関係を推定する問題を、画像から画像への対応関係を予測する問題に還元します。この還元は、物体の画像をテンプレートの非写実的なレンダリングとマッチングすることで行われ、このタスクのための手動アノテーションを収集するプロセスを模倣します。これらの対応関係は、対象となる任意の物体の高品質な正準マップを監督するために使用されます。また、画像生成器がテンプレートビューのリアリズムをさらに向上させ、モデルのための追加の監督源を提供することも示します。