Enxergando pelo Toque: Localização Visual de Regiões Materiais Guiada por Tato
Seeing Through Touch: Tactile-Driven Visual Localization of Material Regions
April 13, 2026
Autores: Seongyu Kim, Seungwoo Lee, Hyeonggon Ryu, Joon Son Chung, Arda Senocak
cs.AI
Resumo
Abordamos o problema da localização tátil, cujo objetivo é identificar regiões de imagem que compartilham as mesmas propriedades materiais de uma entrada tátil. Os métodos visuo-táteis existentes dependem de alinhamento global e, portanto, falham em capturar as correspondências locais de alta granularidade necessárias para esta tarefa. O desafio é amplificado pelos conjuntos de dados existentes, que contêm predominantemente imagens de close-up com baixa diversidade. Propomos um modelo que aprende o alinhamento visuo-tátil local por meio de interações densas de características cross-modais, produzindo mapas de saliência tátil para segmentação de materiais condicionada ao toque. Para superar as limitações dos conjuntos de dados, introduzimos: (i) imagens de cenas com múltiplos materiais em ambientes não controlados que expandem a diversidade visual, e (ii) uma estratégia de emparelhamento por diversidade material que alinha cada amostra tátil com imagens visualmente variadas, mas tactilemente consistentes, melhorando a localização contextual e a robustez a sinais fracos. Também construímos dois novos conjuntos de dados de segmentação de materiais com base tátil para avaliação quantitativa. Experimentos em benchmarks novos e existentes mostram que nossa abordagem supera substancialmente os métodos visuo-táteis anteriores em localização tátil.
English
We address the problem of tactile localization, where the goal is to identify image regions that share the same material properties as a tactile input. Existing visuo-tactile methods rely on global alignment and thus fail to capture the fine-grained local correspondences required for this task. The challenge is amplified by existing datasets, which predominantly contain close-up, low-diversity images. We propose a model that learns local visuo-tactile alignment via dense cross-modal feature interactions, producing tactile saliency maps for touch-conditioned material segmentation. To overcome dataset constraints, we introduce: (i) in-the-wild multi-material scene images that expand visual diversity, and (ii) a material-diversity pairing strategy that aligns each tactile sample with visually varied yet tactilely consistent images, improving contextual localization and robustness to weak signals. We also construct two new tactile-grounded material segmentation datasets for quantitative evaluation. Experiments on both new and existing benchmarks show that our approach substantially outperforms prior visuo-tactile methods in tactile localization.