¡Atención a la brecha! Evaluaciones estáticas e interactivas de modelos de audio de gran escala

Resumen

A medida que los chatbots de IA se vuelven omnipresentes, la interacción por voz representa una forma convincente de habilitar una comunicación rápida y de alto ancho de banda tanto para señales semánticas como sociales. Esto ha impulsado la investigación en Modelos de Audio a Gran Escala (LAMs, por sus siglas en inglés) para potenciar experiencias nativas de voz. Sin embargo, alinear el desarrollo de LAMs con los objetivos del usuario requiere una comprensión clara de las necesidades y preferencias de los usuarios para establecer métricas de progreso confiables. Este estudio aborda estos desafíos al introducir un enfoque interactivo para evaluar LAMs y recopilar 7,500 interacciones con LAMs de 484 participantes. Mediante el modelado de temas de las consultas de los usuarios, identificamos los casos de uso principales para interfaces de audio. Luego, analizamos las clasificaciones de preferencia de los usuarios y los comentarios cualitativos para determinar qué modelos se alinean mejor con las necesidades de los usuarios. Finalmente, evaluamos cómo los puntos de referencia estáticos predicen el rendimiento interactivo: nuestro análisis revela que ningún punto de referencia individual se correlaciona fuertemente con los resultados interactivos (tau ≤ 0.33 para todos los puntos de referencia). Si bien la combinación de múltiples características de grano grueso ofrece un poder predictivo modesto (R^2=0.30), solo dos de los veinte conjuntos de datos sobre respuestas a preguntas habladas y predicción de edad muestran correlaciones significativamente positivas. Esto sugiere una clara necesidad de desarrollar evaluaciones de LAMs que se correlacionen mejor con las preferencias de los usuarios.

English

As AI chatbots become ubiquitous, voice interaction presents a compelling way to enable rapid, high-bandwidth communication for both semantic and social signals. This has driven research into Large Audio Models (LAMs) to power voice-native experiences. However, aligning LAM development with user goals requires a clear understanding of user needs and preferences to establish reliable progress metrics. This study addresses these challenges by introducing an interactive approach to evaluate LAMs and collecting 7,500 LAM interactions from 484 participants. Through topic modeling of user queries, we identify primary use cases for audio interfaces. We then analyze user preference rankings and qualitative feedback to determine which models best align with user needs. Finally, we evaluate how static benchmarks predict interactive performance - our analysis reveals no individual benchmark strongly correlates with interactive results (tau leq 0.33 for all benchmarks). While combining multiple coarse-grained features yields modest predictive power (R^2=0.30), only two out of twenty datasets on spoken question answering and age prediction show significantly positive correlations. This suggests a clear need to develop LAM evaluations that better correlate with user preferences.

¡Atención a la brecha! Evaluaciones estáticas e interactivas de modelos de audio de gran escala

Mind the Gap! Static and Interactive Evaluations of Large Audio Models

Resumen

Support