Edición de Prompts en Contexto para la Generación Condicional de Audio
In-Context Prompt Editing For Conditional Audio Generation
November 1, 2023
Autores: Ernie Chang, Pin-Jie Lin, Yang Li, Sidd Srinivasan, Gael Le Lan, David Kant, Yangyang Shi, Forrest Iandola, Vikas Chandra
cs.AI
Resumen
El cambio distribucional es un desafío central en el despliegue de modelos de aprendizaje automático, ya que estos pueden estar mal preparados para datos del mundo real. Esto es particularmente evidente en la generación de texto a audio, donde las representaciones codificadas se ven fácilmente comprometidas por instrucciones no vistas, lo que lleva a la degradación del audio generado. El conjunto limitado de pares texto-audio sigue siendo insuficiente para la generación condicional de audio en entornos reales, ya que las instrucciones de los usuarios suelen estar subespecificadas. En particular, observamos una degradación consistente en la calidad del audio generado con instrucciones de usuarios, en comparación con las instrucciones del conjunto de entrenamiento. Para abordar esto, presentamos un marco de edición de instrucciones en contexto basado en recuperación, que aprovecha las descripciones de entrenamiento como ejemplos demostrativos para revisar las instrucciones de los usuarios. Demostramos que este marco mejoró la calidad del audio en el conjunto de instrucciones de usuarios recopiladas, las cuales fueron editadas tomando como referencia las descripciones de entrenamiento como ejemplos.
English
Distributional shift is a central challenge in the deployment of machine
learning models as they can be ill-equipped for real-world data. This is
particularly evident in text-to-audio generation where the encoded
representations are easily undermined by unseen prompts, which leads to the
degradation of generated audio -- the limited set of the text-audio pairs
remains inadequate for conditional audio generation in the wild as user prompts
are under-specified. In particular, we observe a consistent audio quality
degradation in generated audio samples with user prompts, as opposed to
training set prompts. To this end, we present a retrieval-based in-context
prompt editing framework that leverages the training captions as demonstrative
exemplars to revisit the user prompts. We show that the framework enhanced the
audio quality across the set of collected user prompts, which were edited with
reference to the training captions as exemplars.