PARSA-Bench: Комплексный эталонный тест для персоязычных аудио-языковых моделей
PARSA-Bench: A Comprehensive Persian Audio-Language Model Benchmark
March 15, 2026
Авторы: Mohammad Javad Ranjbar Kalahroodi, Mohammad Amini, Parmis Bathayan, Heshaam Faili, Azadeh Shakery
cs.AI
Аннотация
Персидский язык представляет уникальные задачи для аудиопонимания из-за своей классической поэзии, традиционной музыки и повсеместного смешения кодов — ни один из этих аспектов не отражен в существующих бенчмарках. Мы представляем PARSA-Bench (Persian Audio Reasoning and Speech Assessment Benchmark) — первый бенчмарк для оценки больших аудио-языковых моделей на персидском языке и культуре, включающий 16 задач и более 8000 образцов в областях понимания речи, паралингвистического анализа и понимания культурного аудиоконтента. Десять задач являются нововведениями, включая определение метра и стиля поэзии, понимание традиционной персидской музыки и детекцию смешения кодов. Текстовые базовые модели последовательно превосходят аудиомодели, что позволяет предположить, что модели могут не использовать аудиоспецифичную информацию за пределами того, что предоставляет транскрипция. Задачи, основанные на культурных особенностях, выявляют качественно иную модель ошибок: все модели показывают результаты близкие к случайным в определении вазна независимо от масштаба, что свидетельствует о том, что восприятие просодии остается недостижимым для современных моделей. Набор данных общедоступен по адресу: https://huggingface.co/datasets/MohammadJRanjbar/PARSA-Bench.
English
Persian poses unique audio understanding challenges through its classical poetry, traditional music, and pervasive code-switching - none captured by existing benchmarks. We introduce PARSA-Bench (Persian Audio Reasoning and Speech Assessment Benchmark), the first benchmark for evaluating large audio-language models on Persian language and culture, comprising 16 tasks and over 8,000 samples across speech understanding, paralinguistic analysis, and cultural audio understanding. Ten tasks are newly introduced, including poetry meter and style detection, traditional Persian music understanding, and code-switching detection. Text-only baselines consistently outperform audio counterparts, suggesting models may not leverage audio-specific information beyond what transcription alone provides. Culturally-grounded tasks expose a qualitatively distinct failure mode: all models perform near random chance on vazn detection regardless of scale, suggesting prosodic perception remains beyond the reach of current models. The dataset is publicly available at https://huggingface.co/datasets/MohammadJRanjbar/PARSA-Bench