ChatPaper.aiChatPaper

HI-TransPA: Persoonlijke Vertaalassistent voor Gehoorstoornissen

HI-TransPA: Hearing Impairments Translation Personal Assistant

November 13, 2025
Auteurs: Zhiming Ma, Shiyu Gan, Junhao Zhao, Xianming Li, Qingyun Pan, Peidong Wang, Mingjun Pan, Yuhao Mo, Jiajie Cheng, Chengxin Chen, Zhonglun Cao, Chonghan Liu, Shi Cheng
cs.AI

Samenvatting

Om een uniforme en flexibele oplossing te bieden voor de dagelijkse communicatie van slechthorenden, introduceren we het Omni-Model-paradigma in de hulptechnologie en presenteren HI-TransPA, een instructiegestuurde audiovisuele persoonlijke assistent. Het model integreert onduidelijke spraak met lipdynamiek met een hoog framesnelheid, waardoor zowel vertaling als dialoog binnen één multimodaal kader mogelijk wordt. Om de uitdagingen van ruwe, lawaaierige en heterogene data en de beperkte aanpasbaarheid van bestaande Omni-Modellen aan slechthorende spraak aan te pakken, ontwikkelden we een uitgebreide pijplijn voor gegevensvoorbewerking en -curatie. Deze detecteert gezichtslandmarken, isoleert en stabiliseert het lippengebied, en beoordeelt kwantitatief de kwaliteit van multimodale samples. Deze kwaliteitsscores sturen een curriculumleerstrategie aan die eerst traint op schone, hoogwaardige samples en geleidelijk complexere gevallen incorporeert om de robuustheid van het model te versterken. Verder gebruiken we een SigLIP-encoder gecombineerd met een Unified 3D-Resampler om lipbewegingen met hoge framesnelheid efficiënt te coderen. Experimenten op onze speciaal samengestelde HI-Dialogue-dataset tonen aan dat HI-TransPA state-of-the-art prestaties levert in zowel letterlijke nauwkeurigheid als semantische trouw. Dit werk legt een basis voor de toepassing van Omni-Modellen in ondersteunende communicatietechnologie, en biedt een end-to-end modelleerkader en essentiële verwerkingstools voor toekomstig onderzoek.
English
To provide a unified and flexible solution for daily communication among hearing-impaired individuals, we introduce the Omni-Model paradigm into assistive technology and present HI-TransPA, an instruction-driven audio-visual personal assistant. The model fuses indistinct speech with high-frame-rate lip dynamics, enabling both translation and dialogue within a single multimodal framework. To tackle the challenges of noisy and heterogeneous raw data and the limited adaptability of existing Omni-Models to hearing-impaired speech, we construct a comprehensive preprocessing and curation pipeline that detects facial landmarks, isolates and stabilizes the lip region, and quantitatively assesses multimodal sample quality. These quality scores guide a curriculum learning strategy that first trains on clean, high-confidence samples and progressively incorporates harder cases to strengthen model robustness. We further adopt a SigLIP encoder combined with a Unified 3D-Resampler to efficiently encode high-frame-rate lip motion. Experiments on our purpose-built HI-Dialogue dataset show that HI-TransPA achieves state-of-the-art performance in both literal accuracy and semantic fidelity. This work establishes a foundation for applying Omni-Models to assistive communication technology, providing an end-to-end modeling framework and essential processing tools for future research.
PDF62December 1, 2025