ChatPaper.aiChatPaper

Zipper: 다중 모달리티 융합을 위한 멀티 타워 디코더 아키텍처

Zipper: A Multi-Tower Decoder Architecture for Fusing Modalities

May 29, 2024
저자: Vicky Zayats, Peter Chen, Melissa Merrari, Dirk Padfield
cs.AI

초록

여러 생성형 기반 모델, 특히 서로 다른 양식(modality)으로 훈련된 모델들을 통합하여 단순한 합 이상의 성능을 달성하는 것은 상당한 도전 과제를 안고 있습니다. 두 가지 주요 장벽은 정렬된 데이터의 가용성(서로 다른 양식에서 유사한 의미를 지니지만 다르게 표현된 개념들)과, 원래의 단일 양식 능력을 저해하지 않으면서 교차 도메인 생성 작업에서 단일 양식 표현을 효과적으로 활용하는 것입니다. 이러한 문제를 해결하기 위해, 우리는 Zipper라는 다중 타워 디코더 아키텍처를 제안합니다. 이 아키텍처는 독립적으로 사전 훈련된 단일 양식 디코더들을 교차 주의(cross-attention)를 통해 유연하게 조합하여 다중 양식 생성 모델을 구성합니다. 음성과 텍스트 양식을 융합한 실험에서, 우리는 제안된 아키텍처가 정렬된 텍스트-음성 데이터가 제한된 시나리오에서도 매우 경쟁력 있는 성능을 보임을 입증했습니다. 또한, 우리 모델이 해당 양식 타워(예: 텍스트)를 고정함으로써 단일 양식(예: 텍스트-텍스트 생성) 생성 성능을 선택적으로 유지할 수 있는 유연성을 보여줍니다. 출력 양식이 텍스트인 자동 음성 인식(ASR)과 같은 교차 양식 작업에서는 텍스트 백본을 고정해도 성능 저하가 미미함을 확인했습니다. 출력 양식이 음성인 텍스트-음성 생성(TTS)과 같은 교차 양식 작업에서는 사전 훈련된 음성 백본을 사용할 때 기준선보다 우수한 성능을 보임을 입증했습니다.
English
Integrating multiple generative foundation models, especially those trained on different modalities, into something greater than the sum of its parts poses significant challenges. Two key hurdles are the availability of aligned data (concepts that contain similar meaning but is expressed differently in different modalities), and effectively leveraging unimodal representations in cross-domain generative tasks, without compromising their original unimodal capabilities. We propose Zipper, a multi-tower decoder architecture that addresses these concerns by using cross-attention to flexibly compose multimodal generative models from independently pre-trained unimodal decoders. In our experiments fusing speech and text modalities, we show the proposed architecture performs very competitively in scenarios with limited aligned text-speech data. We also showcase the flexibility of our model to selectively maintain unimodal (e.g., text-to-text generation) generation performance by freezing the corresponding modal tower (e.g. text). In cross-modal tasks such as automatic speech recognition (ASR) where the output modality is text, we show that freezing the text backbone results in negligible performance degradation. In cross-modal tasks such as text-to-speech generation (TTS) where the output modality is speech, we show that using a pre-trained speech backbone results in superior performance to the baseline.

Summary

AI-Generated Summary

PDF120December 12, 2024