Mini-Omni: Modelos de Linguagem Podem Ouvir, Falar Enquanto Pensam em Tempo RealMini-Omni: Language Models Can Hear, Talk While Thinking in Streaming
Avanços recentes em modelos de linguagem alcançaram progressos significativos. O GPT-4o, como um novo marco, possibilitou conversas em tempo real com humanos, demonstrando uma fluência natural quase humana. Essa interação humano-computador exige modelos com a capacidade de realizar raciocínio diretamente com a modalidade de áudio e gerar saída em streaming. No entanto, isso ainda está além do alcance dos modelos acadêmicos atuais, pois geralmente dependem de sistemas TTS adicionais para síntese de fala, resultando em latência indesejada. Este artigo apresenta o Mini-Omni, um modelo de conversação baseado em áudio de ponta a ponta, capaz de interação em tempo real por voz. Para alcançar essa capacidade, propomos um método de geração de fala instruída por texto, juntamente com estratégias de paralelização em lote durante a inferência para impulsionar ainda mais o desempenho. Nosso método também ajuda a manter as capacidades linguísticas originais do modelo com degradação mínima, permitindo que outros trabalhos estabeleçam capacidades de interação em tempo real. Chamamos esse método de treinamento de "Qualquer Modelo Pode Falar". Também introduzimos o conjunto de dados VoiceAssistant-400K para ajustar modelos otimizados para saída de fala. Até onde sabemos, o Mini-Omni é o primeiro modelo totalmente de ponta a ponta e de código aberto para interação em tempo real por voz, oferecendo um potencial valioso para pesquisas futuras.