# Relatório Técnico do Qwen3-TTS ## Resumo Executivo O Qwen3-TTS (Text-to-Speech) representa um avanço significativo na tecnologia de síntese de voz neural, incorporando arquiteturas inovadoras e técnicas de treinamento que estabelecem novos padrões de qualidade, naturalidade e eficiência. Este relatório detalha a arquitetura do modelo, metodologias de treinamento, avaliações abrangentes e aplicações práticas do sistema. ## 1. Introdução A evolução dos sistemas de síntese de voz tem progredido rapidamente, com modelos neurais superando abordagens tradicionais em termos de naturalidade e expressividade. O Qwen3-TTS foi desenvolvido para enfrentar os desafios remanescentes na geração de fala, incluindo a modelagem prosódica refinada, a estabilidade em longas sequências e a adaptação a múltiplos idiomas e falantes. ## 2. Arquitetura do Modelo ### 2.1. Visão Geral do Sistema O Qwen3-TTS emprega uma arquitetura encoder-decoder com mecanismos de atenção avançados. O sistema é composto por três componentes principais: - **Front-End Textual**: Processamento linguístico robusto para normalização de texto e extração de características - **Gerador de Características Acústicas**: Rede neural que converte representações linguísticas em características acústicas - **Vocoder Neural**: Conversão de características acústicas em formas de onda de áudio ### 2.2. Inovações Arquiteturais - **Mecanismo de Atenção Multi-Head Aprimorado**: Incorpora pesos de atenção dinâmicos para melhor capturar dependências de longo alcance - **Camadas Normalizadas por Lote Adaptativas**: Otimizadas para treinamento estável em datasets de grande escala - **Convoluções Dilatadas Hierárquicas**: Permitindo modelagem contextual eficiente em múltiplas escalas temporais ## 3. Metodologia de Treinamento ### 3.1. Pré-processamento de Dados O modelo foi treinado em um corpus diversificado contendo mais de 50.000 horas de dados de fala em múltiplos idiomas. O pré-processamento incluiu: - Normalização textual consistente - Remoção de ruído e enhancement de sinal - Alinhamento automático texto-fone ### 3.2. Estratégias de Otimização - **Treinamento Multi-Etapa**: Combinação de pré-treinamento não supervisionado e fine-tuning supervisionado - **Regularização Adversarial**: Melhora a robustez e generalização do modelo - **Agendamento de Taxa de Aprendizado Adaptativo**: Baseado na curvatura do espaço de parâmetros ## 4. Avaliação Experimental ### 4.1. Métricas de Avaliação O sistema foi avaliado usando métricas objetivas e subjetivas: - **MOS (Mean Opinion Score)**: 4.5±0.2 em naturalidade - **WER (Word Error Rate)**: 2.1% em inteligibilidade - **F0 RMSE**: 8.2 Hz em precisão prosódica ### 4.2. Comparação com Sistemas do Estado da Arte O Qwen3-TTS superou sistemas concorrentes em: - Naturalidade da voz (8% de melhoria no MOS) - Estabilidade em textos longos (15% de redução em falhas) - Eficiência computacional (30% menos operações) ## 5. Aplicações e Implementação ### 5.1. Casos de Uso Principais - **Sistemas de Assistência Virtual**: Integração com assistentes de voz - **Conteúdo Audiovisual**: Geração de narrações automáticas - **Acessibilidade**: Ferramentas de leitura de tela aprimoradas ### 5.2. Considerações de Implantação - **Otimização para Dispositivos Móveis**: Modelos compactos com <50MB - **API em Tempo Real**: Latência <100ms para aplicações interativas - **Suporte Multi-idioma**: 15 idiomas com qualidade consistente ## 6. Conclusão e Trabalho Futuro O Qwen3-TTS estabelece novos marcos em qualidade de síntese de voz, demonstrando avanços significativos em naturalidade, robustez e eficiência. Futuras direções de pesquisa incluem: - Modelagem emocional mais refinada - Adaptação em tempo real ao estilo do falante - Expansão para idiomas de baixo recurso ## 7. Referências [Lista de publicações e recursos técnicos relevantes]

Resumo

Neste relatório, apresentamos a série Qwen3-TTS, uma família de modelos avançados de conversão de texto em fala (TTS) multilingues, controláveis, robustos e com capacidade de streaming. O Qwen3-TTS suporta a clonagem de voz de última geração em 3 segundos e o controle baseado em descrição, permitindo tanto a criação de vozes totalmente novas quanto a manipulação de granularidade fina da fala gerada. Treinado com mais de 5 milhões de horas de dados de fala abrangendo 10 idiomas, o Qwen3-TTS adota uma arquitetura de Modelo de Linguagem (LM) de via dupla para síntese em tempo real, acoplada a dois tokenizadores de fala: 1) O Qwen-TTS-Tokenizer-25Hz é um codec de livro de códigos único que prioriza o conteúdo semântico, oferecendo integração perfeita com o Qwen-Audio e permitindo a reconstrução da forma de onda em streaming por meio de um DiT (Transformer de Difusão) baseado em blocos. 2) O Qwen-TTS-Tokenizer-12Hz alcança uma redução extrema de taxa de bits e streaming de latência ultrabaixa, permitindo a emissão imediata do primeiro pacote (97 ms) através de seu design multicodebook de 12,5 Hz e 16 camadas e de uma ConvNet causal leve. Experimentos extensivos indicam desempenho de última geração em diversas avaliações objetivas e subjetivas (por exemplo, conjunto de testes multilingue para TTS, InstructTTSEval e nosso conjunto de testes de fala longa). Para facilitar a pesquisa e o desenvolvimento da comunidade, disponibilizamos tanto os tokenizadores quanto os modelos sob a licença Apache 2.0.

English

In this report, we present the Qwen3-TTS series, a family of advanced multilingual, controllable, robust, and streaming text-to-speech models. Qwen3-TTS supports state-of-the-art 3-second voice cloning and description-based control, allowing both the creation of entirely novel voices and fine-grained manipulation over the output speech. Trained on over 5 million hours of speech data spanning 10 languages, Qwen3-TTS adopts a dual-track LM architecture for real-time synthesis, coupled with two speech tokenizers: 1) Qwen-TTS-Tokenizer-25Hz is a single-codebook codec emphasizing semantic content, which offers seamlessly integration with Qwen-Audio and enables streaming waveform reconstruction via a block-wise DiT. 2) Qwen-TTS-Tokenizer-12Hz achieves extreme bitrate reduction and ultra-low-latency streaming, enabling immediate first-packet emission (97,ms) through its 12.5 Hz, 16-layer multi-codebook design and a lightweight causal ConvNet. Extensive experiments indicate state-of-the-art performance across diverse objective and subjective benchmark (e.g., TTS multilingual test set, InstructTTSEval, and our long speech test set). To facilitate community research and development, we release both tokenizers and models under the Apache 2.0 license.

Qwen3-TTS Technical Report

Resumo

Support