¡Atención a la brecha! Evaluaciones estáticas e interactivas de modelos de audio de gran escala
Mind the Gap! Static and Interactive Evaluations of Large Audio Models
February 21, 2025
Autores: Minzhi Li, William Barr Held, Michael J Ryan, Kunat Pipatanakul, Potsawee Manakul, Hao Zhu, Diyi Yang
cs.AI
Resumen
A medida que los chatbots de IA se vuelven omnipresentes, la interacción por voz representa una forma convincente de habilitar una comunicación rápida y de alto ancho de banda tanto para señales semánticas como sociales. Esto ha impulsado la investigación en Modelos de Audio a Gran Escala (LAMs, por sus siglas en inglés) para potenciar experiencias nativas de voz. Sin embargo, alinear el desarrollo de LAMs con los objetivos del usuario requiere una comprensión clara de las necesidades y preferencias de los usuarios para establecer métricas de progreso confiables. Este estudio aborda estos desafíos al introducir un enfoque interactivo para evaluar LAMs y recopilar 7,500 interacciones con LAMs de 484 participantes. Mediante el modelado de temas de las consultas de los usuarios, identificamos los casos de uso principales para interfaces de audio. Luego, analizamos las clasificaciones de preferencia de los usuarios y los comentarios cualitativos para determinar qué modelos se alinean mejor con las necesidades de los usuarios. Finalmente, evaluamos cómo los puntos de referencia estáticos predicen el rendimiento interactivo: nuestro análisis revela que ningún punto de referencia individual se correlaciona fuertemente con los resultados interactivos (tau ≤ 0.33 para todos los puntos de referencia). Si bien la combinación de múltiples características de grano grueso ofrece un poder predictivo modesto (R^2=0.30), solo dos de los veinte conjuntos de datos sobre respuestas a preguntas habladas y predicción de edad muestran correlaciones significativamente positivas. Esto sugiere una clara necesidad de desarrollar evaluaciones de LAMs que se correlacionen mejor con las preferencias de los usuarios.
English
As AI chatbots become ubiquitous, voice interaction presents a compelling way
to enable rapid, high-bandwidth communication for both semantic and social
signals. This has driven research into Large Audio Models (LAMs) to power
voice-native experiences. However, aligning LAM development with user goals
requires a clear understanding of user needs and preferences to establish
reliable progress metrics. This study addresses these challenges by introducing
an interactive approach to evaluate LAMs and collecting 7,500 LAM interactions
from 484 participants. Through topic modeling of user queries, we identify
primary use cases for audio interfaces. We then analyze user preference
rankings and qualitative feedback to determine which models best align with
user needs. Finally, we evaluate how static benchmarks predict interactive
performance - our analysis reveals no individual benchmark strongly correlates
with interactive results (tau leq 0.33 for all benchmarks). While combining
multiple coarse-grained features yields modest predictive power (R^2=0.30),
only two out of twenty datasets on spoken question answering and age prediction
show significantly positive correlations. This suggests a clear need to develop
LAM evaluations that better correlate with user preferences.Summary
AI-Generated Summary