Artigos de Pesquisa em IA Diários

Mini-Omni: Modelos de Linguagem Podem Ouvir, Falar Enquanto Pensam em Tempo Real

Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming

Aug 29

ByZhifei Xie, Changqiao Wu

Avanços recentes em modelos de linguagem alcançaram progressos significativos. O GPT-4o, como um novo marco, possibilitou conversas em tempo real com humanos, demonstrando uma fluência natural quase humana. Essa interação humano-computador exige modelos com a capacidade de realizar raciocínio diretamente com a modalidade de áudio e gerar saída em streaming. No entanto, isso ainda está além do alcance dos modelos acadêmicos atuais, pois geralmente dependem de sistemas TTS adicionais para síntese de fala, resultando em latência indesejada. Este artigo apresenta o Mini-Omni, um modelo de conversação baseado em áudio de ponta a ponta, capaz de interação em tempo real por voz. Para alcançar essa capacidade, propomos um método de geração de fala instruída por texto, juntamente com estratégias de paralelização em lote durante a inferência para impulsionar ainda mais o desempenho. Nosso método também ajuda a manter as capacidades linguísticas originais do modelo com degradação mínima, permitindo que outros trabalhos estabeleçam capacidades de interação em tempo real. Chamamos esse método de treinamento de "Qualquer Modelo Pode Falar". Também introduzimos o conjunto de dados VoiceAssistant-400K para ajustar modelos otimizados para saída de fala. Até onde sabemos, o Mini-Omni é o primeiro modelo totalmente de ponta a ponta e de código aberto para interação em tempo real por voz, oferecendo um potencial valioso para pesquisas futuras.

VisionTS: Autoencoders Visuais Mascarejados São Previsores de Séries Temporais Zero-Shot de Almoço Grátis

VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters

Aug 30

ByMouxiang Chen, Lefei Shen, Zhuo Li, Xiaoyun Joy Wang, Jianling Sun, Chenghao Liu

Os modelos fundamentais surgiram como uma abordagem promissora na previsão de séries temporais (PST). As abordagens existentes envolvem o ajuste fino de grandes modelos de linguagem (LLMs) ou a construção de conjuntos de dados de séries temporais em larga escala para desenvolver modelos fundamentais de PST. No entanto, esses métodos enfrentam desafios devido à grande lacuna entre domínios ou à heterogeneidade dentro do domínio. Neste artigo, exploramos um novo caminho para construir um modelo fundamental de PST a partir de imagens naturais ricas e de alta qualidade, com base nas similaridades intrínsecas entre imagens e séries temporais. Para superar a lacuna entre os dois domínios, reformulamos a tarefa de PST como uma tarefa de reconstrução de imagem, que é posteriormente processada por um autoencoder visual mascarado (MAE) pré-treinado de forma auto-supervisionada no conjunto de dados ImageNet. Surpreendentemente, sem mais adaptações no domínio de séries temporais, o VisionTS proposto conseguiu alcançar um desempenho superior na previsão de zero-shot em comparação com os modelos fundamentais de PST existentes. Com um ajuste fino mínimo, o VisionTS pôde melhorar ainda mais a previsão e alcançar um desempenho de ponta na maioria dos casos. Essas descobertas sugerem que os modelos visuais poderiam representar uma solução fácil para PST e destacam o potencial para futuras pesquisas interdisciplinares entre visão computacional e PST. Nosso código está publicamente disponível em https://github.com/Keytoyze/VisionTS.

•