HI-TransPA: 聴覚障害者向け翻訳パーソナルアシスタント
HI-TransPA: Hearing Impairments Translation Personal Assistant
November 13, 2025
著者: Zhiming Ma, Shiyu Gan, Junhao Zhao, Xianming Li, Qingyun Pan, Peidong Wang, Mingjun Pan, Yuhao Mo, Jiajie Cheng, Chengxin Chen, Zhonglun Cao, Chonghan Liu, Shi Cheng
cs.AI
要旨
聴覚障害者の日常的なコミュニケーションを統一かつ柔軟に支援するため、本論文では支援技術にOmni-Modelパラダイムを導入し、指示駆動型の視聴覚パーソナルアシスタントであるHI-TransPAを提案する。本モデルは不明瞭な音声と高フレームレートの唇の動態を融合し、単一のマルチモーダルフレームワーク内で翻訳と対話の両方を実現する。雑音の多い不均質な生データと、既存のOmni-Modelが聴覚障害者音声に適応できない課題に対処するため、顔のランドマーク検出、唇領域の分離・安定化、マルチモーダルサンプル品質の定量的評価を含む包括的な前処理・選定パイプラインを構築した。これらの品質スコアはカリキュラム学習戦略を導き、最初にクリーンで高信頼性のサンプルで学習し、段階的に難易度の高い事例を組み込むことでモデルの頑健性を強化する。さらにSigLIPエンコーダとUnified 3D-Resamplerを組み合わせ、高フレームレートの唇運動を効率的に符号化する。目的に沿って構築したHI-Dialogueデータセットによる実験では、HI-TransPAが文字通りの正確さと意味的忠実度の両方で最先端の性能を達成することを示す。本研究はOmni-Modelを支援コミュニケーション技術に応用する基盤を確立し、将来の研究のためのエンドツーエンドのモデリングフレームワークと必須の処理ツールを提供する。
English
To provide a unified and flexible solution for daily communication among hearing-impaired individuals, we introduce the Omni-Model paradigm into assistive technology and present HI-TransPA, an instruction-driven audio-visual personal assistant. The model fuses indistinct speech with high-frame-rate lip dynamics, enabling both translation and dialogue within a single multimodal framework. To tackle the challenges of noisy and heterogeneous raw data and the limited adaptability of existing Omni-Models to hearing-impaired speech, we construct a comprehensive preprocessing and curation pipeline that detects facial landmarks, isolates and stabilizes the lip region, and quantitatively assesses multimodal sample quality. These quality scores guide a curriculum learning strategy that first trains on clean, high-confidence samples and progressively incorporates harder cases to strengthen model robustness. We further adopt a SigLIP encoder combined with a Unified 3D-Resampler to efficiently encode high-frame-rate lip motion. Experiments on our purpose-built HI-Dialogue dataset show that HI-TransPA achieves state-of-the-art performance in both literal accuracy and semantic fidelity. This work establishes a foundation for applying Omni-Models to assistive communication technology, providing an end-to-end modeling framework and essential processing tools for future research.