ChatPaper.aiChatPaper

HI-TransPA: 청각 장애인 맞춤형 번역 도우미

HI-TransPA: Hearing Impairments Translation Personal Assistant

November 13, 2025
저자: Zhiming Ma, Shiyu Gan, Junhao Zhao, Xianming Li, Qingyun Pan, Peidong Wang, Mingjun Pan, Yuhao Mo, Jiajie Cheng, Chengxin Chen, Zhonglun Cao, Chonghan Liu, Shi Cheng
cs.AI

초록

청각 장애인들의 일상적 의사소통을 위한 통합적이고 유연한 솔루션을 제공하기 위해, 우리는 보조 기술에 Omni-Model 패러다임을 도입하고 지시 기반 오디오-비주얼 개인 비서인 HI-TransPA를 제안한다. 본 모델은 불분명한 음성과 고프레임율의 입술 동역학을 융합하여 단일 다중모달 프레임워크 내에서 번역과 대화를 모두 가능하게 한다. 잡음이 많고 이질적인 원시 데이터의 도전 과제와 기존 Omni-Model이 청각 장애인 음성에 대한 적응성이 제한적인 문제를 해결하기 위해, 우리는 얼굴 특징점을 감지하고 입술 영역을 분리 및 안정화하며 다중모달 샘플 품질을 정량적으로 평가하는 포괄적인 전처리 및 정제 파이프라인을 구축하였다. 이러한 품질 점수는 깨끗하고 높은 신뢰도를 가진 샘플로 먼저 학습을 시작하여 점차 더 어려운 사례를 포함시켜 모델의 강건성을 강화하는 교과 과정 학습 전략을 안내한다. 또한 SigLIP 인코더와 Unified 3D-Resampler를 결합하여 고프레임율 입술 움직임을 효율적으로 인코딩한다. 목적에 맞게 구축한 HI-Dialogue 데이터셋에서의 실험 결과, HI-TransPA는 문자적 정확도와 의미적 정확도 모두에서 최첨단 성능을 달성함을 보여준다. 본 연구는 Omni-Model을 보조 의사소통 기술에 적용하는 기초를 마련함으로써, 종단간 모델링 프레임워크와 향후 연구를 위한 필수 처리 도구를 제공한다.
English
To provide a unified and flexible solution for daily communication among hearing-impaired individuals, we introduce the Omni-Model paradigm into assistive technology and present HI-TransPA, an instruction-driven audio-visual personal assistant. The model fuses indistinct speech with high-frame-rate lip dynamics, enabling both translation and dialogue within a single multimodal framework. To tackle the challenges of noisy and heterogeneous raw data and the limited adaptability of existing Omni-Models to hearing-impaired speech, we construct a comprehensive preprocessing and curation pipeline that detects facial landmarks, isolates and stabilizes the lip region, and quantitatively assesses multimodal sample quality. These quality scores guide a curriculum learning strategy that first trains on clean, high-confidence samples and progressively incorporates harder cases to strengthen model robustness. We further adopt a SigLIP encoder combined with a Unified 3D-Resampler to efficiently encode high-frame-rate lip motion. Experiments on our purpose-built HI-Dialogue dataset show that HI-TransPA achieves state-of-the-art performance in both literal accuracy and semantic fidelity. This work establishes a foundation for applying Omni-Models to assistive communication technology, providing an end-to-end modeling framework and essential processing tools for future research.
PDF62December 1, 2025