Zipper: Een Multi-Toren Decoder Architectuur voor het Fuseren van Modaliteiten

Samenvatting

Het integreren van meerdere generatieve basis modellen, vooral die getraind zijn op verschillende modaliteiten, tot iets dat groter is dan de som der delen, brengt aanzienlijke uitdagingen met zich mee. Twee belangrijke hindernissen zijn de beschikbaarheid van uitgelijnde data (concepten die een vergelijkbare betekenis bevatten, maar anders worden uitgedrukt in verschillende modaliteiten), en het effectief benutten van unimodale representaties in cross-domein generatieve taken, zonder hun oorspronkelijke unimodale capaciteiten aan te tasten. Wij stellen Zipper voor, een multi-tower decoder architectuur die deze problemen aanpakt door cross-attention te gebruiken om flexibel multimodale generatieve modellen samen te stellen uit onafhankelijk voorgetrainde unimodale decoders. In onze experimenten waarbij spraak- en tekstmodaliteiten worden samengevoegd, tonen we aan dat de voorgestelde architectuur zeer competitief presteert in scenario's met beperkte uitgelijnde tekst-spraakdata. We demonstreren ook de flexibiliteit van ons model om selectief unimodale (bijvoorbeeld tekst-naar-tekst generatie) generatieprestaties te behouden door de corresponderende modale tower (bijvoorbeeld tekst) te bevriezen. In cross-modale taken zoals automatische spraakherkenning (ASR) waarbij de uitvoermodaliteit tekst is, laten we zien dat het bevriezen van de tekst-backbone resulteert in een verwaarloosbare prestatievermindering. In cross-modale taken zoals tekst-naar-spraakgeneratie (TTS) waarbij de uitvoermodaliteit spraak is, tonen we aan dat het gebruik van een voorgetrainde spraak-backbone resulteert in superieure prestaties ten opzichte van de baseline.

English

Integrating multiple generative foundation models, especially those trained on different modalities, into something greater than the sum of its parts poses significant challenges. Two key hurdles are the availability of aligned data (concepts that contain similar meaning but is expressed differently in different modalities), and effectively leveraging unimodal representations in cross-domain generative tasks, without compromising their original unimodal capabilities. We propose Zipper, a multi-tower decoder architecture that addresses these concerns by using cross-attention to flexibly compose multimodal generative models from independently pre-trained unimodal decoders. In our experiments fusing speech and text modalities, we show the proposed architecture performs very competitively in scenarios with limited aligned text-speech data. We also showcase the flexibility of our model to selectively maintain unimodal (e.g., text-to-text generation) generation performance by freezing the corresponding modal tower (e.g. text). In cross-modal tasks such as automatic speech recognition (ASR) where the output modality is text, we show that freezing the text backbone results in negligible performance degradation. In cross-modal tasks such as text-to-speech generation (TTS) where the output modality is speech, we show that using a pre-trained speech backbone results in superior performance to the baseline.

Zipper: Een Multi-Toren Decoder Architectuur voor het Fuseren van Modaliteiten

Zipper: A Multi-Tower Decoder Architecture for Fusing Modalities

Samenvatting

Support