ChatPaper.aiChatPaper

HI-TransPA: Assistente Personale per la Traduzione per Disabilità Uditive

HI-TransPA: Hearing Impairments Translation Personal Assistant

November 13, 2025
Autori: Zhiming Ma, Shiyu Gan, Junhao Zhao, Xianming Li, Qingyun Pan, Peidong Wang, Mingjun Pan, Yuhao Mo, Jiajie Cheng, Chengxin Chen, Zhonglun Cao, Chonghan Liu, Shi Cheng
cs.AI

Abstract

Per fornire una soluzione unificata e flessibile per la comunicazione quotidiana delle persone con deficit uditivo, introduciamo il paradigma Omni-Model nella tecnologia assistiva e presentiamo HI-TransPA, un assistente personale audiovisivo guidato da istruzioni. Il modello fonde un parlato indistinto con la dinamica labiale ad alto frame rate, abilitando sia la traduzione che il dialogo all'interno di un unico framework multimodale. Per affrontare le sfide dei dati grezzi rumorosi ed eterogenei e della limitata adattabilità degli Omni-Model esistenti al parlato dei soggetti ipoudenti, abbiamo costruito una pipeline completa di pre-elaborazione e curazione dei dati che rileva i punti di riferimento facciali, isola e stabilizza la regione labiale e valuta quantitativamente la qualità dei campioni multimodali. Questi punteggi di qualità guidano una strategia di curriculum learning che addestra inizialmente su campioni puliti e ad alta confidenza, per incorporare progressivamente casi più difficili al fine di rafforzare la robustezza del modello. Adottiamo inoltre un encoder SigLIP combinato con un Unified 3D-Resampler per codificare efficientemente il movimento labiale ad alto frame rate. Esperimenti sul nostro dataset appositamente costruito, HI-Dialogue, dimostrano che HI-TransPA raggiunge prestazioni allo stato dell'arte sia in accuratezza letterale che in fedeltà semantica. Questo lavoro getta le basi per l'applicazione degli Omni-Model alla tecnologia di comunicazione assistiva, fornendo un framework di modellazione end-to-end e strumenti di elaborazione essenziali per la ricerca futura.
English
To provide a unified and flexible solution for daily communication among hearing-impaired individuals, we introduce the Omni-Model paradigm into assistive technology and present HI-TransPA, an instruction-driven audio-visual personal assistant. The model fuses indistinct speech with high-frame-rate lip dynamics, enabling both translation and dialogue within a single multimodal framework. To tackle the challenges of noisy and heterogeneous raw data and the limited adaptability of existing Omni-Models to hearing-impaired speech, we construct a comprehensive preprocessing and curation pipeline that detects facial landmarks, isolates and stabilizes the lip region, and quantitatively assesses multimodal sample quality. These quality scores guide a curriculum learning strategy that first trains on clean, high-confidence samples and progressively incorporates harder cases to strengthen model robustness. We further adopt a SigLIP encoder combined with a Unified 3D-Resampler to efficiently encode high-frame-rate lip motion. Experiments on our purpose-built HI-Dialogue dataset show that HI-TransPA achieves state-of-the-art performance in both literal accuracy and semantic fidelity. This work establishes a foundation for applying Omni-Models to assistive communication technology, providing an end-to-end modeling framework and essential processing tools for future research.
PDF62December 1, 2025