HI-TransPA: Asistente Personal de Traducción para Deficiencias Auditivas
HI-TransPA: Hearing Impairments Translation Personal Assistant
November 13, 2025
Autores: Zhiming Ma, Shiyu Gan, Junhao Zhao, Xianming Li, Qingyun Pan, Peidong Wang, Mingjun Pan, Yuhao Mo, Jiajie Cheng, Chengxin Chen, Zhonglun Cao, Chonghan Liu, Shi Cheng
cs.AI
Resumen
Para ofrecer una solución unificada y flexible para la comunicación diaria de personas con discapacidad auditiva, introducimos el paradigma *Omni-Model* en la tecnología de asistencia y presentamos HI-TransPA, un asistente personal audiovisual basado en instrucciones. El modelo fusiona el habla poco clara con la dinámica labial de alta frecuencia de cuadros, permitiendo tanto la traducción como el diálogo dentro de un único marco multimodal. Para abordar los desafíos de los datos brutos ruidosos y heterogéneos y la adaptabilidad limitada de los *Omni-Models* existentes al habla con discapacidad auditiva, construimos una canalización integral de preprocesamiento y curación que detecta puntos de referencia faciales, aísla y estabiliza la región labial y evalúa cuantitativamente la calidad de las muestras multimodales. Estas puntuaciones de calidad guían una estrategia de aprendizaje curricular que primero entrena con muestras limpias y de alta confianza e incorpora progresivamente casos más difíciles para fortalecer la robustez del modelo. Además, adoptamos un codificador SigLIP combinado con un *Unified 3D-Resampler* para codificar eficientemente el movimiento labial de alta frecuencia de cuadros. Los experimentos en nuestro conjunto de datos HI-Dialogue, creado específicamente, muestran que HI-TransPA logra un rendimiento de vanguardia tanto en precisión literal como en fidelidad semántica. Este trabajo establece una base para aplicar los *Omni-Models* a la tecnología de comunicación asistiva, proporcionando un marco de modelado integral y herramientas de procesamiento esenciales para futuras investigaciones.
English
To provide a unified and flexible solution for daily communication among hearing-impaired individuals, we introduce the Omni-Model paradigm into assistive technology and present HI-TransPA, an instruction-driven audio-visual personal assistant. The model fuses indistinct speech with high-frame-rate lip dynamics, enabling both translation and dialogue within a single multimodal framework. To tackle the challenges of noisy and heterogeneous raw data and the limited adaptability of existing Omni-Models to hearing-impaired speech, we construct a comprehensive preprocessing and curation pipeline that detects facial landmarks, isolates and stabilizes the lip region, and quantitatively assesses multimodal sample quality. These quality scores guide a curriculum learning strategy that first trains on clean, high-confidence samples and progressively incorporates harder cases to strengthen model robustness. We further adopt a SigLIP encoder combined with a Unified 3D-Resampler to efficiently encode high-frame-rate lip motion. Experiments on our purpose-built HI-Dialogue dataset show that HI-TransPA achieves state-of-the-art performance in both literal accuracy and semantic fidelity. This work establishes a foundation for applying Omni-Models to assistive communication technology, providing an end-to-end modeling framework and essential processing tools for future research.