Видение через осязание: тактильно-управляемая визуальная локализация материальных областей
Seeing Through Touch: Tactile-Driven Visual Localization of Material Regions
April 13, 2026
Авторы: Seongyu Kim, Seungwoo Lee, Hyeonggon Ryu, Joon Son Chung, Arda Senocak
cs.AI
Аннотация
Мы рассматриваем задачу тактильной локализации, целью которой является идентификация областей изображения, обладающих теми же материальными свойствами, что и тактильный сигнал. Существующие визуально-тактильные методы опираются на глобальное выравнивание и, следовательно, не способны уловить тонкие локальные соответствия, необходимые для решения данной задачи. Проблема усугубляется существующими наборами данных, которые в основном содержат изображения с малым разнообразием, сделанные с близкого расстояния. Мы предлагаем модель, которая изучает локальное визуально-тактильное соответствие посредством плотных кросс-модальных взаимодействий признаков, генерируя карты тактильной значимости для сегментации материалов по тактильному условию. Чтобы преодолеть ограничения наборов данных, мы вводим: (i) изображения многоматериальных сцен в естественных условиях, расширяющие визуальное разнообразие, и (ii) стратегию парного формирования выборок по материальному разнообразию, которая сопоставляет каждый тактильный образец с визуально различными, но тактильно согласованными изображениями, улучшая контекстную локализацию и устойчивость к слабым сигналам. Мы также создали два новых набора данных для тактильной сегментации материалов для количественной оценки. Эксперименты на новых и существующих бенчмарках показывают, что наш подход значительно превосходит предыдущие визуально-тактильные методы в задаче тактильной локализации.
English
We address the problem of tactile localization, where the goal is to identify image regions that share the same material properties as a tactile input. Existing visuo-tactile methods rely on global alignment and thus fail to capture the fine-grained local correspondences required for this task. The challenge is amplified by existing datasets, which predominantly contain close-up, low-diversity images. We propose a model that learns local visuo-tactile alignment via dense cross-modal feature interactions, producing tactile saliency maps for touch-conditioned material segmentation. To overcome dataset constraints, we introduce: (i) in-the-wild multi-material scene images that expand visual diversity, and (ii) a material-diversity pairing strategy that aligns each tactile sample with visually varied yet tactilely consistent images, improving contextual localization and robustness to weak signals. We also construct two new tactile-grounded material segmentation datasets for quantitative evaluation. Experiments on both new and existing benchmarks show that our approach substantially outperforms prior visuo-tactile methods in tactile localization.