PARSA-Bench: Un Punto de Referencia Integral para Modelos de Lenguaje y Audio en Persa

Resumen

El persa plantea desafíos únicos de comprensión auditiva a través de su poesía clásica, música tradicional y la omnipresente alternancia de códigos, ninguno de los cuales está capturado por los puntos de referencia existentes. Presentamos PARSA-Bench (Punto de Referencia para la Evaluación del Razonamiento Auditivo y del Habla en Persa), el primer benchmark para evaluar modelos grandes de audio y lenguaje en la lengua y cultura persas, que comprende 16 tareas y más de 8.000 muestras en comprensión del habla, análisis paralingüístico y comprensión de audio cultural. Se introducen diez tareas nuevas, incluyendo la detección de metro y estilo poético, la comprensión de la música tradicional persa y la detección de alternancia de códigos. Los modelos de referencia basados únicamente en texto superan consistentemente a sus homólogos de audio, lo que sugiere que los modelos podrían no estar aprovechando la información específica del audio más allá de lo que proporciona únicamente la transcripción. Las tareas con base cultural exponen un modo de fallo cualitativamente distinto: todos los modelos tienen un rendimiento cercano al azar en la detección del *vazn*, independientemente de su escala, lo que sugiere que la percepción prosódica sigue estando fuera del alcance de los modelos actuales. El conjunto de datos está disponible públicamente en https://huggingface.co/datasets/MohammadJRanjbar/PARSA-Bench.

English

Persian poses unique audio understanding challenges through its classical poetry, traditional music, and pervasive code-switching - none captured by existing benchmarks. We introduce PARSA-Bench (Persian Audio Reasoning and Speech Assessment Benchmark), the first benchmark for evaluating large audio-language models on Persian language and culture, comprising 16 tasks and over 8,000 samples across speech understanding, paralinguistic analysis, and cultural audio understanding. Ten tasks are newly introduced, including poetry meter and style detection, traditional Persian music understanding, and code-switching detection. Text-only baselines consistently outperform audio counterparts, suggesting models may not leverage audio-specific information beyond what transcription alone provides. Culturally-grounded tasks expose a qualitatively distinct failure mode: all models perform near random chance on vazn detection regardless of scale, suggesting prosodic perception remains beyond the reach of current models. The dataset is publicly available at https://huggingface.co/datasets/MohammadJRanjbar/PARSA-Bench

PARSA-Bench: Un Punto de Referencia Integral para Modelos de Lenguaje y Audio en Persa

PARSA-Bench: A Comprehensive Persian Audio-Language Model Benchmark

Resumen

Support