PARSA-Bench : Un benchmark complet pour les modèles audio-langue persans

Résumé

Le persan présente des défis uniques en compréhension audio à travers sa poésie classique, sa musique traditionnelle et son alternance codique omniprésente - aucun n'étant capturé par les benchmarks existants. Nous présentons PARSA-Bench (Persian Audio Reasoning and Speech Assessment Benchmark), le premier benchmark pour évaluer les grands modèles audio-linguistiques sur la langue et la culture persanes, comprenant 16 tâches et plus de 8 000 échantillons couvrant la compréhension de la parole, l'analyse paralinguistique et la compréhension audio culturelle. Dix tâches sont nouvellement introduites, incluant la détection du mètre et du style poétique, la compréhension de la musique traditionnelle persane et la détection de l'alternance codique. Les modèles de référence textuels surpassent systématiquement leurs équivalents audio, suggérant que les modèles n'exploitent peut-être pas les informations spécifiques à l'audio au-delà de ce que la transcription seule fournit. Les tâches ancrées culturellement révèlent un mode d'échec qualitativement distinct : tous les modèles obtiennent des résultats proches du hasard pour la détection du vazn, quelle que soit leur échelle, indiquant que la perception prosodique reste hors de portée des modèles actuels. Le jeu de données est publiquement disponible à l'adresse https://huggingface.co/datasets/MohammadJRanjbar/PARSA-Bench

English

Persian poses unique audio understanding challenges through its classical poetry, traditional music, and pervasive code-switching - none captured by existing benchmarks. We introduce PARSA-Bench (Persian Audio Reasoning and Speech Assessment Benchmark), the first benchmark for evaluating large audio-language models on Persian language and culture, comprising 16 tasks and over 8,000 samples across speech understanding, paralinguistic analysis, and cultural audio understanding. Ten tasks are newly introduced, including poetry meter and style detection, traditional Persian music understanding, and code-switching detection. Text-only baselines consistently outperform audio counterparts, suggesting models may not leverage audio-specific information beyond what transcription alone provides. Culturally-grounded tasks expose a qualitatively distinct failure mode: all models perform near random chance on vazn detection regardless of scale, suggesting prosodic perception remains beyond the reach of current models. The dataset is publicly available at https://huggingface.co/datasets/MohammadJRanjbar/PARSA-Bench

PARSA-Bench : Un benchmark complet pour les modèles audio-langue persans

PARSA-Bench: A Comprehensive Persian Audio-Language Model Benchmark

Résumé

Support