HI-TransPA : Assistant Personnel de Traduction pour les Déficiences Auditives
HI-TransPA: Hearing Impairments Translation Personal Assistant
November 13, 2025
papers.authors: Zhiming Ma, Shiyu Gan, Junhao Zhao, Xianming Li, Qingyun Pan, Peidong Wang, Mingjun Pan, Yuhao Mo, Jiajie Cheng, Chengxin Chen, Zhonglun Cao, Chonghan Liu, Shi Cheng
cs.AI
papers.abstract
Pour offrir une solution unifiée et flexible destinée à la communication quotidienne des personnes malentendantes, nous introduisons le paradigme Omni-Model dans les technologies d'assistance et présentons HI-TransPA, un assistant personnel audiovisuel piloté par instructions. Le modèle fusionne une parole indistincte avec une dynamique labiale à haute fréquence d'images, permettant à la fois la traduction et le dialogue au sein d'un même cadre multimodal. Pour relever les défis posés par des données brutes bruitées et hétérogènes, et par la capacité d'adaptation limitée des modèles omnimodaux existants face à la parole malentendante, nous avons conçu un pipeline complet de prétraitement et de curation qui détecte les points de repère faciaux, isole et stabilise la région labiale, et évalue quantitativement la qualité des échantillons multimodaux. Ces scores de qualité orientent une stratégie d'apprentissage curriculaire qui entraîne d'abord le modèle sur des échantillons propres et de haute confiance, puis intègre progressivement des cas plus complexes pour renforcer sa robustesse. Nous adoptons en outre un encodeur SigLIP combiné à un rééchantillonneur 3D unifié pour encoder efficacement le mouvement labial à haute fréquence. Les expériences menées sur notre jeu de données HI-Dialogue, construit spécifiquement, montrent que HI-TransPA obtient des performances à l'état de l'art en termes de précision littérale et de fidélité sémantique. Ce travail jette les bases de l'application des modèles omnimodaux aux technologies de communication assistée, en fournissant un cadre de modélisation de bout en bout et des outils de traitement essentiels pour les recherches futures.
English
To provide a unified and flexible solution for daily communication among hearing-impaired individuals, we introduce the Omni-Model paradigm into assistive technology and present HI-TransPA, an instruction-driven audio-visual personal assistant. The model fuses indistinct speech with high-frame-rate lip dynamics, enabling both translation and dialogue within a single multimodal framework. To tackle the challenges of noisy and heterogeneous raw data and the limited adaptability of existing Omni-Models to hearing-impaired speech, we construct a comprehensive preprocessing and curation pipeline that detects facial landmarks, isolates and stabilizes the lip region, and quantitatively assesses multimodal sample quality. These quality scores guide a curriculum learning strategy that first trains on clean, high-confidence samples and progressively incorporates harder cases to strengthen model robustness. We further adopt a SigLIP encoder combined with a Unified 3D-Resampler to efficiently encode high-frame-rate lip motion. Experiments on our purpose-built HI-Dialogue dataset show that HI-TransPA achieves state-of-the-art performance in both literal accuracy and semantic fidelity. This work establishes a foundation for applying Omni-Models to assistive communication technology, providing an end-to-end modeling framework and essential processing tools for future research.