HI-TransPA: Assistente Pessoal de Tradução para Deficiências Auditivas

Resumo

Para oferecer uma solução unificada e flexível para a comunicação diária de indivíduos com deficiência auditiva, introduzimos o paradigma Omni-Model na tecnologia assistiva e apresentamos o HI-TransPA, um assistente pessoal audiovisual orientado por instruções. O modelo funde fala indistinta com dinâmicas labiais de alta taxa de quadros, permitindo tanto tradução quanto diálogo dentro de uma única estrutura multimodal. Para enfrentar os desafios dos dados brutos ruidosos e heterogéneos e da adaptabilidade limitada dos Omni-Models existentes à fala com deficiência auditiva, construímos um pipeline abrangente de pré-processamento e curadoria que deteta marcos faciais, isola e estabiliza a região labial e avalia quantitativamente a qualidade das amostras multimodais. Essas pontuações de qualidade orientam uma estratégia de aprendizagem curricular que primeiro treina com amostras limpas e de alta confiança e progressivamente incorpora casos mais difíceis para fortalecer a robustez do modelo. Adotamos ainda um codificador SigLIP combinado com um Reamostrador 3D Unificado para codificar eficientemente o movimento labial de alta taxa de quadros. Experiências no nosso conjunto de dados HI-Dialogue, construído para este fim, mostram que o HI-TransPA alcança desempenho de ponta tanto em precisão literal quanto em fidelidade semântica. Este trabalho estabelece uma base para a aplicação de Omni-Models na tecnologia de comunicação assistiva, fornecendo uma estrutura de modelação de ponta a ponta e ferramentas de processamento essenciais para pesquisas futuras.

English

To provide a unified and flexible solution for daily communication among hearing-impaired individuals, we introduce the Omni-Model paradigm into assistive technology and present HI-TransPA, an instruction-driven audio-visual personal assistant. The model fuses indistinct speech with high-frame-rate lip dynamics, enabling both translation and dialogue within a single multimodal framework. To tackle the challenges of noisy and heterogeneous raw data and the limited adaptability of existing Omni-Models to hearing-impaired speech, we construct a comprehensive preprocessing and curation pipeline that detects facial landmarks, isolates and stabilizes the lip region, and quantitatively assesses multimodal sample quality. These quality scores guide a curriculum learning strategy that first trains on clean, high-confidence samples and progressively incorporates harder cases to strengthen model robustness. We further adopt a SigLIP encoder combined with a Unified 3D-Resampler to efficiently encode high-frame-rate lip motion. Experiments on our purpose-built HI-Dialogue dataset show that HI-TransPA achieves state-of-the-art performance in both literal accuracy and semantic fidelity. This work establishes a foundation for applying Omni-Models to assistive communication technology, providing an end-to-end modeling framework and essential processing tools for future research.

HI-TransPA: Assistente Pessoal de Tradução para Deficiências Auditivas

HI-TransPA: Hearing Impairments Translation Personal Assistant

Resumo

Support