ChatPaper.aiChatPaper

OpenSTBench: 음성 번역을 위한 의미 평가를 넘어서

OpenSTBench: Beyond Semantic Evaluation for Speech Translation

May 29, 2026
저자: Yanjie An, Yuxiang Zhao, Yichi Zhang, Qixi Zheng, Yujie Tu, Keqi Deng, Kai Yu, Xie Chen
cs.AI

초록

음성 번역 시스템은 점차 음성-텍스트 번역(S2TT), 음성-음성 번역(S2ST), 오프라인 번역, 스트리밍 생성을 포괄하며, 양식, 음성 구현 및 타이밍 동작 측면에서 서로 다른 출력을 생성한다. 기존 평가 관행은 번역 품질, 음성 품질, 시간적 품질과 같은 중요한 측면을 평가하지만, 이러한 측면들은 종종 별도의 프로토콜로 평가되어 이기종 시스템을 종합적으로 비교하기 어렵게 만든다. 이러한 문제를 해결하기 위해, 본 논문에서는 이질적인 음성 번역 출력을 공통 평가 형식으로 구성하는 통합 다차원 평가 프레임워크인 OpenSTBench를 제시한다. OpenSTBench는 오프라인 및 스트리밍 환경에서 S2TT 및 S2ST 시스템을 모두 지원하며, 번역 품질, 음성 품질, 화자 보존, 감정 및 준언어적 충실도, 시간적 일관성, 지연 시간을 공동으로 평가한다. 대표적인 음성 번역 시스템에 대한 실험을 통해, 번역 품질이 우수한 시스템이라도 음성 품질 및 시간적 품질에서 상당한 차이를 보일 수 있음을 확인하였다. OpenSTBench는 이러한 차원 간 차이를 분석하고 응용 지향적인 음성 번역 시스템 비교를 지원하는 재현 가능한 프로토콜을 제공한다. 코드와 데이터셋은 https://github.com/sjtuayj/OpenSTBench에서 확인할 수 있다.
English
Speech translation systems increasingly span speech-to-text translation (S2TT), speech-to-speech translation (S2ST), offline translation, and streaming generation, producing outputs that differ in modality, speech realization, and timing behavior. Existing evaluation practices assess important aspects such as translation quality, speech quality, and temporal quality, but these aspects are often evaluated under separate protocols, making it difficult to compare heterogeneous systems comprehensively. To address this gap, we present OpenSTBench, a unified multidimensional evaluation framework that organizes heterogeneous speech translation outputs into a shared evaluation format. OpenSTBench supports both S2TT and S2ST systems in offline and streaming settings, and jointly evaluates translation quality, speech quality, speaker preservation, emotion and paralinguistic fidelity, temporal consistency, and latency. Through experiments on representative speech translation systems, we show that systems with strong translation quality can still differ substantially in speech quality, as well as in temporal quality. OpenSTBench provides a reproducible protocol for analyzing these cross-dimensional differences and supporting application-oriented comparison of speech translation systems. The code and datasets are available at https://github.com/sjtuayj/OpenSTBench.