ChatPaper.aiChatPaper

HI-TransPA: Персональный ассистент для перевода с учётом нарушений слуха

HI-TransPA: Hearing Impairments Translation Personal Assistant

November 13, 2025
Авторы: Zhiming Ma, Shiyu Gan, Junhao Zhao, Xianming Li, Qingyun Pan, Peidong Wang, Mingjun Pan, Yuhao Mo, Jiajie Cheng, Chengxin Chen, Zhonglun Cao, Chonghan Liu, Shi Cheng
cs.AI

Аннотация

Для обеспечения унифицированного и гибкого решения для повседневного общения слабослышащих людей мы внедряем парадигму Omni-Model в ассистивные технологии и представляем HI-TransPA — управляемый инструкциями аудиовизуальный персональный ассистент. Модель объединяет неразборчивую речь с высокочастотной динамикой губ, обеспечивая как перевод, так и диалог в рамках единой мультимодальной системы. Для решения проблем зашумленных и гетерогенных исходных данных, а также ограниченной адаптивности существующих Omni-Models к речи слабослышащих, мы разработали комплексный конвейер предобработки и курации, который детектирует лицевые landmarks, изолирует и стабилизирует область губ, а также количественно оценивает качество мультимодальных образцов. Эти оценки качества направляют стратегию curriculum learning, при которой обучение начинается с чистых, высококачественных образцов с постепенным включением более сложных случаев для повышения устойчивости модели. Мы также используем кодировщик SigLIP в сочетании с Unified 3D-Resampler для эффективного кодирования высокочастотных движений губ. Эксперименты на специально созданном наборе данных HI-Dialogue демонстрируют, что HI-TransPA достигает передовых результатов как по буквальной точности, так и по семантической достоверности. Данная работа закладывает основу для применения Omni-Models в ассистивных коммуникационных технологиях, предоставляя сквозную модель framework и необходимые инструменты обработки для будущих исследований.
English
To provide a unified and flexible solution for daily communication among hearing-impaired individuals, we introduce the Omni-Model paradigm into assistive technology and present HI-TransPA, an instruction-driven audio-visual personal assistant. The model fuses indistinct speech with high-frame-rate lip dynamics, enabling both translation and dialogue within a single multimodal framework. To tackle the challenges of noisy and heterogeneous raw data and the limited adaptability of existing Omni-Models to hearing-impaired speech, we construct a comprehensive preprocessing and curation pipeline that detects facial landmarks, isolates and stabilizes the lip region, and quantitatively assesses multimodal sample quality. These quality scores guide a curriculum learning strategy that first trains on clean, high-confidence samples and progressively incorporates harder cases to strengthen model robustness. We further adopt a SigLIP encoder combined with a Unified 3D-Resampler to efficiently encode high-frame-rate lip motion. Experiments on our purpose-built HI-Dialogue dataset show that HI-TransPA achieves state-of-the-art performance in both literal accuracy and semantic fidelity. This work establishes a foundation for applying Omni-Models to assistive communication technology, providing an end-to-end modeling framework and essential processing tools for future research.
PDF62December 1, 2025