HI-TransPA: Persönlicher Übersetzungsassistent für Hörbeeinträchtigungen
HI-TransPA: Hearing Impairments Translation Personal Assistant
November 13, 2025
papers.authors: Zhiming Ma, Shiyu Gan, Junhao Zhao, Xianming Li, Qingyun Pan, Peidong Wang, Mingjun Pan, Yuhao Mo, Jiajie Cheng, Chengxin Chen, Zhonglun Cao, Chonghan Liu, Shi Cheng
cs.AI
papers.abstract
Um eine einheitliche und flexible Lösung für die tägliche Kommunikation hörgeschädigter Menschen zu bieten, führen wir das Omni-Modell-Paradigma in die assistive Technologie ein und präsentieren HI-TransPA, einen befehlsgesteuerten audiovisuellen persönlichen Assistenten. Das Modell fusioniert undeutliche Sprache mit hochfrequenten Lippenbewegungen und ermöglicht sowohl Übersetzung als auch Dialog innerhalb eines einzigen multimodalen Rahmens. Um die Herausforderungen von verrauschten und heterogenen Rohdaten sowie der begrenzten Anpassungsfähigkeit bestehender Omni-Modelle an hörgeschädigte Sprache zu bewältigen, entwickeln wir eine umfassende Vorverarbeitungs- und Kuratierungspipeline, die Gesichtsmerkmale erkennt, den Lippenbereich isoliert und stabilisiert sowie die multimodale Probenqualität quantitativ bewertet. Diese Qualitätsbewertungen leiten eine Curriculum-Learning-Strategie an, die zunächst mit sauberen, hochvertrauenswürdigen Proben trainiert und schrittweise schwierigere Fälle einbezieht, um die Robustheit des Modells zu stärken. Wir setzen weiterhin einen SigLIP-Encoder in Kombination mit einem Unified 3D-Resampler ein, um hochfrequente Lippenbewegungen effizient zu kodieren. Experimente auf unserem speziell entwickelten HI-Dialogue-Datensatz zeigen, dass HI-TransPA state-of-the-art Leistung sowohl in wörtlicher Genauigkeit als auch semantischer Treue erreicht. Diese Arbeit legt eine Grundlage für die Anwendung von Omni-Modellen in assistiver Kommunikationstechnologie, indem sie einen end-to-end Modellierungsrahmen und essentielle Verarbeitungswerkzeuge für zukünftige Forschung bereitstellt.
English
To provide a unified and flexible solution for daily communication among hearing-impaired individuals, we introduce the Omni-Model paradigm into assistive technology and present HI-TransPA, an instruction-driven audio-visual personal assistant. The model fuses indistinct speech with high-frame-rate lip dynamics, enabling both translation and dialogue within a single multimodal framework. To tackle the challenges of noisy and heterogeneous raw data and the limited adaptability of existing Omni-Models to hearing-impaired speech, we construct a comprehensive preprocessing and curation pipeline that detects facial landmarks, isolates and stabilizes the lip region, and quantitatively assesses multimodal sample quality. These quality scores guide a curriculum learning strategy that first trains on clean, high-confidence samples and progressively incorporates harder cases to strengthen model robustness. We further adopt a SigLIP encoder combined with a Unified 3D-Resampler to efficiently encode high-frame-rate lip motion. Experiments on our purpose-built HI-Dialogue dataset show that HI-TransPA achieves state-of-the-art performance in both literal accuracy and semantic fidelity. This work establishes a foundation for applying Omni-Models to assistive communication technology, providing an end-to-end modeling framework and essential processing tools for future research.