Zipper: Een Multi-Toren Decoder Architectuur voor het Fuseren van Modaliteiten
Zipper: A Multi-Tower Decoder Architecture for Fusing Modalities
May 29, 2024
Auteurs: Vicky Zayats, Peter Chen, Melissa Merrari, Dirk Padfield
cs.AI
Samenvatting
Het integreren van meerdere generatieve basis modellen, vooral die getraind zijn op verschillende modaliteiten, tot iets dat groter is dan de som der delen, brengt aanzienlijke uitdagingen met zich mee. Twee belangrijke hindernissen zijn de beschikbaarheid van uitgelijnde data (concepten die een vergelijkbare betekenis bevatten, maar anders worden uitgedrukt in verschillende modaliteiten), en het effectief benutten van unimodale representaties in cross-domein generatieve taken, zonder hun oorspronkelijke unimodale capaciteiten aan te tasten.
Wij stellen Zipper voor, een multi-tower decoder architectuur die deze problemen aanpakt door cross-attention te gebruiken om flexibel multimodale generatieve modellen samen te stellen uit onafhankelijk voorgetrainde unimodale decoders. In onze experimenten waarbij spraak- en tekstmodaliteiten worden samengevoegd, tonen we aan dat de voorgestelde architectuur zeer competitief presteert in scenario's met beperkte uitgelijnde tekst-spraakdata. We demonstreren ook de flexibiliteit van ons model om selectief unimodale (bijvoorbeeld tekst-naar-tekst generatie) generatieprestaties te behouden door de corresponderende modale tower (bijvoorbeeld tekst) te bevriezen. In cross-modale taken zoals automatische spraakherkenning (ASR) waarbij de uitvoermodaliteit tekst is, laten we zien dat het bevriezen van de tekst-backbone resulteert in een verwaarloosbare prestatievermindering. In cross-modale taken zoals tekst-naar-spraakgeneratie (TTS) waarbij de uitvoermodaliteit spraak is, tonen we aan dat het gebruik van een voorgetrainde spraak-backbone resulteert in superieure prestaties ten opzichte van de baseline.
English
Integrating multiple generative foundation models, especially those trained
on different modalities, into something greater than the sum of its parts poses
significant challenges. Two key hurdles are the availability of aligned data
(concepts that contain similar meaning but is expressed differently in
different modalities), and effectively leveraging unimodal representations in
cross-domain generative tasks, without compromising their original unimodal
capabilities.
We propose Zipper, a multi-tower decoder architecture that addresses these
concerns by using cross-attention to flexibly compose multimodal generative
models from independently pre-trained unimodal decoders. In our experiments
fusing speech and text modalities, we show the proposed architecture performs
very competitively in scenarios with limited aligned text-speech data. We also
showcase the flexibility of our model to selectively maintain unimodal (e.g.,
text-to-text generation) generation performance by freezing the corresponding
modal tower (e.g. text). In cross-modal tasks such as automatic speech
recognition (ASR) where the output modality is text, we show that freezing the
text backbone results in negligible performance degradation. In cross-modal
tasks such as text-to-speech generation (TTS) where the output modality is
speech, we show that using a pre-trained speech backbone results in superior
performance to the baseline.