ChatPaper.aiChatPaper

Edición de Prompts en Contexto para la Generación Condicional de Audio

In-Context Prompt Editing For Conditional Audio Generation

November 1, 2023
Autores: Ernie Chang, Pin-Jie Lin, Yang Li, Sidd Srinivasan, Gael Le Lan, David Kant, Yangyang Shi, Forrest Iandola, Vikas Chandra
cs.AI

Resumen

El cambio distribucional es un desafío central en el despliegue de modelos de aprendizaje automático, ya que estos pueden estar mal preparados para datos del mundo real. Esto es particularmente evidente en la generación de texto a audio, donde las representaciones codificadas se ven fácilmente comprometidas por instrucciones no vistas, lo que lleva a la degradación del audio generado. El conjunto limitado de pares texto-audio sigue siendo insuficiente para la generación condicional de audio en entornos reales, ya que las instrucciones de los usuarios suelen estar subespecificadas. En particular, observamos una degradación consistente en la calidad del audio generado con instrucciones de usuarios, en comparación con las instrucciones del conjunto de entrenamiento. Para abordar esto, presentamos un marco de edición de instrucciones en contexto basado en recuperación, que aprovecha las descripciones de entrenamiento como ejemplos demostrativos para revisar las instrucciones de los usuarios. Demostramos que este marco mejoró la calidad del audio en el conjunto de instrucciones de usuarios recopiladas, las cuales fueron editadas tomando como referencia las descripciones de entrenamiento como ejemplos.
English
Distributional shift is a central challenge in the deployment of machine learning models as they can be ill-equipped for real-world data. This is particularly evident in text-to-audio generation where the encoded representations are easily undermined by unseen prompts, which leads to the degradation of generated audio -- the limited set of the text-audio pairs remains inadequate for conditional audio generation in the wild as user prompts are under-specified. In particular, we observe a consistent audio quality degradation in generated audio samples with user prompts, as opposed to training set prompts. To this end, we present a retrieval-based in-context prompt editing framework that leverages the training captions as demonstrative exemplars to revisit the user prompts. We show that the framework enhanced the audio quality across the set of collected user prompts, which were edited with reference to the training captions as exemplars.
PDF111December 15, 2024