Voir par le toucher : Localisation visuelle des régions matérielles pilotée par la perception tactile
Seeing Through Touch: Tactile-Driven Visual Localization of Material Regions
April 13, 2026
Auteurs: Seongyu Kim, Seungwoo Lee, Hyeonggon Ryu, Joon Son Chung, Arda Senocak
cs.AI
Résumé
Nous abordons le problème de la localisation tactile, dont l'objectif est d'identifier les régions d'une image qui partagent les mêmes propriétés matérielles qu'une entrée tactile. Les méthodes visuo-tactiles existantes reposent sur un alignement global et échouent ainsi à capturer les correspondances locales à granularité fine nécessaires pour cette tâche. Ce défi est amplifié par les jeux de données existants, qui contiennent principalement des images en gros plan et à faible diversité. Nous proposons un modèle qui apprend l'alignement visuo-tactile local via des interactions denses de caractéristiques cross-modales, produisant des cartes de saillance tactile pour la segmentation de matériaux conditionnée par le toucher. Pour surmonter les contraintes des jeux de données, nous introduisons : (i) des images de scènes multi-matériaux en conditions réelles qui augmentent la diversité visuelle, et (ii) une stratégie d'appariement par diversité matérielle qui aligne chaque échantillon tactile avec des images visuellement variées mais tactilement cohérentes, améliorant la localisation contextuelle et la robustesse aux signaux faibles. Nous construisons également deux nouveaux jeux de données de segmentation de matériaux ancrés dans le tactile pour l'évaluation quantitative. Les expériences menées sur de nouveaux benchmarks ainsi que sur des références existantes montrent que notre approche surpasse substantiellement les méthodes visuo-tactiles précédentes en matière de localisation tactile.
English
We address the problem of tactile localization, where the goal is to identify image regions that share the same material properties as a tactile input. Existing visuo-tactile methods rely on global alignment and thus fail to capture the fine-grained local correspondences required for this task. The challenge is amplified by existing datasets, which predominantly contain close-up, low-diversity images. We propose a model that learns local visuo-tactile alignment via dense cross-modal feature interactions, producing tactile saliency maps for touch-conditioned material segmentation. To overcome dataset constraints, we introduce: (i) in-the-wild multi-material scene images that expand visual diversity, and (ii) a material-diversity pairing strategy that aligns each tactile sample with visually varied yet tactilely consistent images, improving contextual localization and robustness to weak signals. We also construct two new tactile-grounded material segmentation datasets for quantitative evaluation. Experiments on both new and existing benchmarks show that our approach substantially outperforms prior visuo-tactile methods in tactile localization.