AudioSlots: Un modelo generativo centrado en slots para la separación de audio
AudioSlots: A slot-centric generative model for audio separation
May 9, 2023
Autores: Pradyumna Reddy, Scott Wisdom, Klaus Greff, John R. Hershey, Thomas Kipf
cs.AI
Resumen
En una serie de trabajos recientes, se ha demostrado que las arquitecturas centradas en objetos son adecuadas para la descomposición de escenas no supervisada en el dominio visual. Inspirados por estos métodos, presentamos AudioSlots, un modelo generativo centrado en slots para la separación ciega de fuentes en el dominio auditivo. AudioSlots está construido utilizando redes codificadoras y decodificadoras permutacionalmente equivariantes. La red codificadora, basada en la arquitectura Transformer, aprende a mapear un espectrograma de audio mixto a un conjunto no ordenado de embeddings de fuentes independientes. La red decodificadora de difusión espacial aprende a generar los espectrogramas de las fuentes a partir de los embeddings de las fuentes. Entrenamos el modelo de extremo a extremo utilizando una función de pérdida invariante a permutaciones. Nuestros resultados en la separación de habla de Libri2Mix constituyen una prueba de concepto de que este enfoque es prometedor. Discutimos en detalle los resultados y limitaciones de nuestro enfoque, y además esbozamos posibles formas de superar las limitaciones y direcciones para trabajos futuros.
English
In a range of recent works, object-centric architectures have been shown to
be suitable for unsupervised scene decomposition in the vision domain. Inspired
by these methods we present AudioSlots, a slot-centric generative model for
blind source separation in the audio domain. AudioSlots is built using
permutation-equivariant encoder and decoder networks. The encoder network based
on the Transformer architecture learns to map a mixed audio spectrogram to an
unordered set of independent source embeddings. The spatial broadcast decoder
network learns to generate the source spectrograms from the source embeddings.
We train the model in an end-to-end manner using a permutation invariant loss
function. Our results on Libri2Mix speech separation constitute a proof of
concept that this approach shows promise. We discuss the results and
limitations of our approach in detail, and further outline potential ways to
overcome the limitations and directions for future work.