간극에 주목하라! 대규모 오디오 모델의 정적 및 상호작용적 평가
Mind the Gap! Static and Interactive Evaluations of Large Audio Models
February 21, 2025
저자: Minzhi Li, William Barr Held, Michael J Ryan, Kunat Pipatanakul, Potsawee Manakul, Hao Zhu, Diyi Yang
cs.AI
초록
AI 챗봇이 보편화됨에 따라 음성 상호작용은 의미적, 사회적 신호 모두를 위한 빠르고 고대역폭의 커뮤니케이션을 가능하게 하는 매력적인 방식으로 부상하고 있습니다. 이는 음성 중심 경험을 구동하기 위한 대형 오디오 모델(Large Audio Models, LAMs) 연구를 촉진시켰습니다. 그러나 LAM 개발을 사용자 목표와 일치시키기 위해서는 신뢰할 수 있는 진척 지표를 수립하기 위해 사용자 요구와 선호도를 명확히 이해해야 합니다. 본 연구는 LAM을 평가하기 위한 상호작용적 접근 방식을 도입하고 484명의 참가자로부터 7,500건의 LAM 상호작용 데이터를 수집함으로써 이러한 과제를 해결합니다. 사용자 질의의 토픽 모델링을 통해 오디오 인터페이스의 주요 사용 사례를 식별합니다. 그런 다음 사용자 선호도 순위와 질적 피드백을 분석하여 사용자 요구와 가장 잘 부합하는 모델을 결정합니다. 마지막으로, 정적 벤치마크가 상호작용 성능을 얼마나 잘 예측하는지 평가합니다. 우리의 분석 결과, 어떤 개별 벤치마크도 상호작용 결과와 강한 상관관계를 보이지 않았습니다(모든 벤치마크에서 tau ≤ 0.33). 여러 개의 대략적인 특징을 결합하면 약간의 예측력을 얻을 수 있지만(R^2=0.30), 음성 질의 응답과 연령 예측에 관한 20개 데이터셋 중 단 두 개만이 유의미한 양의 상관관계를 보였습니다. 이는 사용자 선호도와 더 잘 부합하는 LAM 평가 방법의 개발이 필요함을 시사합니다.
English
As AI chatbots become ubiquitous, voice interaction presents a compelling way
to enable rapid, high-bandwidth communication for both semantic and social
signals. This has driven research into Large Audio Models (LAMs) to power
voice-native experiences. However, aligning LAM development with user goals
requires a clear understanding of user needs and preferences to establish
reliable progress metrics. This study addresses these challenges by introducing
an interactive approach to evaluate LAMs and collecting 7,500 LAM interactions
from 484 participants. Through topic modeling of user queries, we identify
primary use cases for audio interfaces. We then analyze user preference
rankings and qualitative feedback to determine which models best align with
user needs. Finally, we evaluate how static benchmarks predict interactive
performance - our analysis reveals no individual benchmark strongly correlates
with interactive results (tau leq 0.33 for all benchmarks). While combining
multiple coarse-grained features yields modest predictive power (R^2=0.30),
only two out of twenty datasets on spoken question answering and age prediction
show significantly positive correlations. This suggests a clear need to develop
LAM evaluations that better correlate with user preferences.Summary
AI-Generated Summary