Artigos de pesquisa em IA selecionados diariamente com traduções
Os fatores motrizes por trás do desenvolvimento de modelos de linguagem de grande escala (LLMs, na sigla em inglês) com capacidades impressionantes de aprendizado são seus tamanhos colossais e conjuntos de dados de treinamento extensos. Juntamente com os avanços no processamento de linguagem natural, os LLMs têm sido frequentemente disponibilizados ao público para fomentar investigações mais profundas e aplicações. No entanto, quando se trata dos conjuntos de dados de treinamento para esses LLMs, especialmente os modelos mais recentes e de ponta, eles muitas vezes não são totalmente divulgados. A criação de dados de treinamento para LLMs de alto desempenho envolve uma limpeza e deduplicação extensas para garantir o nível necessário de qualidade. A falta de transparência em relação aos dados de treinamento tem, assim, dificultado a pesquisa sobre a atribuição e a abordagem de problemas como alucinações e vieses nos LLMs, prejudicando esforços de replicação e avanços adicionais na comunidade. Esses desafios tornam-se ainda mais pronunciados em cenários de aprendizado multilíngue, onde os conjuntos de dados de texto multilíngue disponíveis são frequentemente coletados e limpos de forma inadequada. Consequentemente, há uma escassez de conjuntos de dados de código aberto e prontamente utilizáveis para treinar LLMs de forma eficaz em vários idiomas. Para superar esse problema, apresentamos o CulturaX, um conjunto de dados multilíngue substancial com 6,3 trilhões de tokens em 167 idiomas, projetado para o desenvolvimento de LLMs. Nosso conjunto de dados passa por uma limpeza e deduplicação meticulosas por meio de um pipeline rigoroso de múltiplos estágios para alcançar a melhor qualidade para o treinamento de modelos, incluindo identificação de idioma, filtragem baseada em URL, limpeza baseada em métricas, refinamento de documentos e deduplicação de dados. O CulturaX é totalmente disponibilizado ao público no HuggingFace para facilitar pesquisas e avanços em LLMs multilíngues: https://huggingface.co/datasets/uonlp/CulturaX.
Exploramos como o pré-treinamento contínuo em corpora específicos de domínio influencia grandes modelos de linguagem, revelando que o treinamento em corpora brutos confere ao modelo conhecimento do domínio, mas prejudica drasticamente sua capacidade de resposta a prompts para tarefas de questionamento. Inspirados pela aprendizagem humana por meio de compreensão de leitura—a prática após a leitura melhora a capacidade de responder perguntas com base no conhecimento adquirido—propusemos um método simples para transformar corpora brutos em textos de compreensão de leitura. Cada texto bruto é enriquecido com uma série de tarefas relacionadas ao seu conteúdo. Nosso método, altamente escalável e aplicável a qualquer corpora de pré-treinamento, melhora consistentemente o desempenho em várias tarefas em três domínios diferentes: biomedicina, finanças e direito. Notavelmente, nosso modelo de linguagem de 7B alcança desempenho competitivo com modelos específicos de domínio de escalas muito maiores, como o BloombergGPT-50B. Além disso, demonstramos que textos de compreensão de leitura específicos do domínio podem melhorar o desempenho do modelo mesmo em benchmarks gerais, mostrando o potencial de desenvolver um modelo geral em ainda mais domínios. Nosso modelo, código e dados estarão disponíveis em https://github.com/microsoft/LMOps.
Modelos de Linguagem de Grande Escala (LLMs) enfrentam desafios na tarefa de resposta a perguntas sobre documentos (QA) em situações onde o documento não pode ser acomodado no pequeno comprimento de contexto de um LLM. Para superar esse problema, a maioria dos trabalhos existentes se concentra em recuperar o contexto relevante do documento, representando-o como texto simples. No entanto, documentos como PDFs, páginas da web e apresentações são naturalmente estruturados com diferentes páginas, tabelas, seções e assim por diante. Representar esses documentos estruturados como texto simples é incongruente com o modelo mental que os usuários têm desses documentos, que possuem uma estrutura rica. Quando um sistema precisa consultar o documento para obter contexto, essa incongruência se torna evidente, e perguntas aparentemente triviais podem confundir o sistema de QA. Para preencher essa lacuna fundamental no tratamento de documentos estruturados, propomos uma abordagem chamada PDFTriage, que permite que os modelos recuperem o contexto com base na estrutura ou no conteúdo. Nossos experimentos demonstram a eficácia dos modelos aprimorados com PDFTriage em várias classes de perguntas onde os LLMs aprimorados com recuperação de contexto existentes falham. Para facilitar pesquisas adicionais sobre esse problema fundamental, disponibilizamos nosso conjunto de dados de referência, que consiste em mais de 900 perguntas geradas por humanos sobre 80 documentos estruturados, abrangendo 10 categorias diferentes de tipos de perguntas para QA em documentos.
Este artigo apresenta uma pesquisa abrangente sobre a taxonomia e a evolução de modelos de base multimodal que demonstram capacidades visuais e de visão-linguagem, com foco na transição de modelos especializados para assistentes de propósito geral. O panorama da pesquisa abrange cinco tópicos principais, categorizados em duas classes. (i) Começamos com uma revisão de áreas de pesquisa bem estabelecidas: modelos de base multimodal pré-treinados para propósitos específicos, incluindo dois tópicos -- métodos de aprendizagem de backbones visuais para compreensão visual e geração de texto para imagem. (ii) Em seguida, apresentamos avanços recentes em áreas de pesquisa exploratórias e abertas: modelos de base multimodal que visam desempenhar o papel de assistentes de propósito geral, incluindo três tópicos -- modelos visuais unificados inspirados em grandes modelos de linguagem (LLMs), treinamento end-to-end de LLMs multimodais e encadeamento de ferramentas multimodais com LLMs. O público-alvo deste artigo são pesquisadores, estudantes de pós-graduação e profissionais das comunidades de visão computacional e multimodalidade visão-linguagem que desejam aprender os fundamentos e os avanços recentes em modelos de base multimodal.
Demonstramos que o Decodificação Contrastiva -- um método simples, computacionalmente leve e livre de treinamento para geração de texto proposto por Li et al. em 2022 -- alcança grandes melhorias imediatas em relação à decodificação gananciosa em uma variedade de tarefas de raciocínio. Originalmente mostrado para melhorar a qualidade percebida da geração de texto de longa forma, a Decodificação Contrastiva busca por sequências que maximizam uma diferença ponderada na probabilidade entre modelos fortes e fracos. Mostramos que a Decodificação Contrastiva leva o LLaMA-65B a superar o LLaMA 2, GPT-3.5 e PaLM 2-L no benchmark de raciocínio de senso comum HellaSwag, e a superar o LLaMA 2, GPT-3.5 e PaLM-540B no benchmark de raciocínio matemático GSM8K, além de melhorias em uma coleção de outras tarefas. A análise sugere que a Decodificação Contrastiva melhora em relação aos métodos existentes ao prevenir alguns erros de raciocínio abstrato, bem como ao evitar modos mais simples, como copiar seções da entrada durante o raciocínio em cadeia. No geral, a Decodificação Contrastiva supera a amostragem por núcleo para geração de texto de longa forma e a decodificação gananciosa para tarefas de raciocínio, tornando-a um método de propósito geral poderoso para gerar texto a partir de modelos de linguagem.
O rápido avanço dos grandes modelos de linguagem (LLMs) revolucionou o processamento de linguagem natural (PLN). Embora esses modelos se destaquem na compreensão e geração de texto semelhante ao humano, sua implantação em larga escala pode ser proibitivamente cara. O SortedNet é uma técnica recente de treinamento que permite inferência dinâmica em redes neurais profundas. Ele aproveita a modularidade da rede para criar submodelos com cargas computacionais variadas, organizando-os de forma aninhada com base em características de computação/precisão. Estendemos o SortedNet para tarefas generativas de PLN, tornando os grandes modelos de linguagem dinâmicos sem qualquer pré-treinamento e apenas substituindo o Ajuste Fino Supervisionado (SFT) padrão pelo Ajuste Fino Ordenado (SoFT) com os mesmos custos. Nossa abordagem aumenta a eficiência do modelo, eliminando a necessidade de múltiplos modelos para diversos cenários durante a inferência. Mostramos que, ao usar essa abordagem, conseguimos desbloquear o potencial das camadas intermediárias dos transformadores na geração da saída desejada. Nossos submodelos permanecem componentes integrais do modelo original, minimizando os requisitos de armazenamento e os custos de transição entre diferentes orçamentos de computação/latência. Ao aplicar essa abordagem no LLaMa 2 13B para ajuste fino no conjunto de dados Stanford Alpaca e compará-lo ao ajuste fino normal e à saída antecipada via benchmark PandaLM, mostramos que o Ajuste Fino Ordenado pode entregar modelos duas vezes mais rápidos que o modelo original, mantendo ou superando o desempenho.
Modelos de linguagem de grande escala (LLMs) demonstraram desempenho notável em uma variedade de tarefas de processamento de linguagem natural com base em apenas alguns exemplos de instruções em linguagem natural, reduzindo a necessidade de extensa engenharia de características. No entanto, a maioria dos LLMs mais poderosos são de código fechado ou possuem capacidades limitadas para idiomas além do inglês. Neste relatório técnico, apresentamos o Baichuan 2, uma série de modelos de linguagem multilíngue de grande escala contendo 7 bilhões e 13 bilhões de parâmetros, treinados do zero com 2,6 trilhões de tokens. O Baichuan 2 iguala ou supera outros modelos de código aberto de tamanho similar em benchmarks públicos como MMLU, CMMLU, GSM8K e HumanEval. Além disso, o Baichuan 2 se destaca em domínios verticais como medicina e direito. Liberaremos todos os checkpoints dos modelos de pré-treinamento para beneficiar a comunidade de pesquisa, permitindo um melhor entendimento da dinâmica de treinamento do Baichuan 2.
O ajuste fino por instrução visual tem mostrado progressos encorajadores recentemente com modelos multimodais grandes (LMM) de código aberto, como LLaVA e MiniGPT-4. No entanto, a maioria dos estudos existentes sobre LMM de código aberto é realizada usando modelos com 13 bilhões de parâmetros ou menos. Neste artigo, apresentamos um estudo empírico sobre a escalabilidade do LLaVA até 33B e 65B/70B, e compartilhamos nossas descobertas a partir de explorações em resolução de imagem, mistura de dados e métodos de treinamento eficiente em parâmetros, como LoRA/QLoRA. Esses aspectos são avaliados pelo seu impacto nas capacidades multimodais e de linguagem ao realizar tarefas do mundo real. Descobrimos que a escalabilidade do LMM melhora consistentemente o desempenho do modelo e aprimora as capacidades de linguagem, e o desempenho do ajuste fino com LoRA/QLoRA em LMM é comparável ao ajuste fino completo do modelo. Além disso, o estudo destaca a importância de resoluções de imagem mais altas e da mistura de dados multimodais e de linguagem para melhorar o desempenho do LMM, e o ajuste fino por instrução visual pode, em alguns casos, aprimorar a capacidade puramente linguística do LMM. Esperamos que este estudo torne a pesquisa de ponta em LMM em maior escala mais acessível, ajudando assim a estabelecer bases mais sólidas para pesquisas futuras. O código e os checkpoints serão disponibilizados publicamente.
A geração de layouts gráficos, um campo de pesquisa em crescimento, desempenha um papel significativo no engajamento do usuário e na percepção de informações. Os métodos existentes tratam principalmente a geração de layout como uma tarefa de otimização numérica, focando em aspectos quantitativos enquanto negligenciam as informações semânticas do layout, como a relação entre cada elemento do layout. Neste artigo, propomos o LayoutNUWA, o primeiro modelo que trata a geração de layout como uma tarefa de geração de código para aprimorar as informações semânticas e aproveitar o conhecimento oculto de layout dos grandes modelos de linguagem (LLMs, na sigla em inglês). Mais concretamente, desenvolvemos uma abordagem de Code Instruct Tuning (CIT) composta por três módulos interconectados: 1) o módulo de Inicialização de Código (CI) quantifica as condições numéricas e as inicializa como código HTML com máscaras estrategicamente posicionadas; 2) o módulo de Conclusão de Código (CC) emprega o conhecimento de formatação dos LLMs para preencher as partes mascaradas dentro do código HTML; 3) o módulo de Renderização de Código (CR) transforma o código concluído no layout final, garantindo um procedimento de geração de layout altamente interpretável e transparente que mapeia diretamente o código para um layout visualizado. Alcançamos um desempenho significativo de última geração (melhorias de mais de 50%) em múltiplos conjuntos de dados, demonstrando as fortes capacidades do LayoutNUWA. Nosso código está disponível em https://github.com/ProjectNUWA/LayoutNUWA.
À medida que o rápido avanço das aplicações práticas baseadas em Modelos de Linguagem de Grande Escala (LLMs) continua, a importância de extrapolar o desempenho cresceu exponencialmente no domínio da pesquisa. Em nosso estudo, identificamos um comportamento anômalo em modelos Transformer que havia sido previamente negligenciado, resultando em um caos em torno dos tokens mais próximos que carregavam as informações mais importantes. Batizamos essa descoberta de "dor de cabeça dos Transformers". Para abordar esse problema em sua essência, introduzimos uma nova estrutura de autoatenção chamada Atenção com Restrição Colinear (CoCA). Essa estrutura pode ser integrada de forma contínua com métodos existentes de extrapolação, interpolação e outras estratégias de otimização projetadas para modelos Transformer tradicionais. Conseguimos um excelente desempenho de extrapolação, mesmo para comprimentos de sequência de 16 a 24 vezes maiores durante a inferência, sem qualquer ajuste fino em nosso modelo. Também aprimoramos a eficiência computacional e espacial da CoCA para garantir sua praticidade. Planejamos disponibilizar o código-fonte da CoCA em breve. Enquanto isso, disponibilizamos nosso código no apêndice para a reprodução dos experimentos.
Modelos de Linguagem de Grande Escala (LLMs) têm a capacidade de realizar agendamentos complexos em um sistema multiagente e podem coordenar esses agentes para concluir tarefas sofisticadas que exigem colaboração extensiva. No entanto, apesar da introdução de inúmeras estruturas de jogos, a comunidade carece de benchmarks suficientes para a construção de uma infraestrutura geral de colaboração multiagente que abranja tanto a colaboração entre LLMs quanto entre humanos e NPCs. Neste trabalho, propomos uma nova infraestrutura - MindAgent - para avaliar capacidades emergentes de planejamento e coordenação para interação em jogos. Em particular, nossa infraestrutura aproveita estruturas de jogos existentes para: i) exigir a compreensão do coordenador de um sistema multiagente, ii) colaborar com jogadores humanos por meio de instruções adequadas sem ajuste fino, e iii) estabelecer um aprendizado em contexto com poucos exemplos e feedback. Além disso, introduzimos CUISINEWORLD, um novo cenário de jogo e benchmark relacionado que despacha a eficiência de colaboração multiagente e supervisiona múltiplos agentes jogando simultaneamente. Realizamos avaliações abrangentes com uma nova métrica automática, CoS, para calcular a eficiência de colaboração. Por fim, nossa infraestrutura pode ser implantada em cenários de jogos do mundo real em uma versão personalizada de CUISINEWORLD em realidade virtual e adaptada ao domínio mais amplo de jogos do Minecraft. Esperamos que nossas descobertas sobre LLMs e a nova infraestrutura para agendamento e coordenação de propósito geral possam ajudar a esclarecer como tais habilidades podem ser obtidas por meio do aprendizado de grandes corpora de linguagem.
Os Modelos de Linguagem de Grande Escala (LLMs) revolucionaram o processamento de linguagem natural, mas alinhar esses modelos com valores e preferências humanas usando Aprendizado por Reforço com Feedback Humano (RLHF) continua sendo um desafio significativo. Esse desafio é caracterizado por várias instabilidades, como o hacking de recompensas e o esquecimento catastrófico. Neste relatório técnico, propomos duas inovações para estabilizar o treinamento de RLHF: 1) o Modelo de Vantagem, que modela diretamente a pontuação de vantagem, ou seja, a recompensa extra em comparação com as recompensas esperadas, e regula as distribuições de pontuação entre tarefas para prevenir o hacking de recompensas; 2) a Revisão Seletiva, que mitiga o esquecimento catastrófico ao selecionar estrategicamente dados para o treinamento de Otimização de Políticas Proximais (PPO) e a revisão de conhecimento. Nossa análise experimental em conjuntos de dados públicos e proprietários revela que os métodos propostos não apenas aumentam a estabilidade no treinamento de RLHF, mas também alcançam pontuações de recompensa e taxas de vitória mais altas.
Apesar do poder dos Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês), como o GPT-4, eles ainda enfrentam dificuldades em tarefas que exigem a geração de saídas complexas e estruturadas. Neste estudo, avaliamos a capacidade dos LLMs atuais em gerar dados estruturados complexos e propomos uma abordagem de ajuste fino (fine-tuning) consciente da estrutura como solução para melhorar essa habilidade. Para realizar uma avaliação abrangente, propomos o Struc-Bench, incluindo cinco LLMs representativos (ou seja, GPT-NeoX 20B, GPT-3.5, GPT-4 e Vicuna) e os avaliamos em nossos conjuntos de dados cuidadosamente construídos, abrangendo texto bruto, HTML e tabelas em LaTeX. Com base em nossa análise do desempenho atual dos modelos, identificamos erros comuns de formatação e áreas de potencial melhoria. Para atender a requisitos complexos de formatação, utilizamos o FormatCoT (Chain-of-Thought) para gerar instruções de formatação a partir de saídas desejadas. Nossos experimentos mostram que nosso método de ajuste fino consciente da estrutura, quando aplicado ao LLaMA-7B, melhora significativamente a adesão às restrições de linguagem natural, superando outros LLMs avaliados. Com base nesses resultados, apresentamos um mapa de habilidades dos modelos em seis dimensões (ou seja, cobertura, formatação, raciocínio, compreensão, pragmática e alucinação). Esse mapa destaca as fraquezas dos LLMs no tratamento de saídas estruturadas complexas e sugere direções promissoras para trabalhos futuros. Nosso código e modelos estão disponíveis em https://github.com/gersteinlab/Struc-Bench.
Modelos de linguagem de grande escala com habilidades de seguir instruções revolucionaram o campo da inteligência artificial. Esses modelos demonstram uma generalização excepcional para lidar com diversas tarefas do mundo real por meio de suas interfaces de linguagem natural. No entanto, seu desempenho depende fortemente de dados exemplares de alta qualidade, que muitas vezes são difíceis de obter. Esse desafio é ainda mais agravado quando se trata de seguir instruções multimodais. Apresentamos o TextBind, uma estrutura quase livre de anotações que capacita modelos de linguagem maiores com a capacidade de seguir instruções multimodais intercaladas em múltiplos turnos. Nossa abordagem requer apenas pares de imagem-legenda e gera conversas multimodais de instrução-resposta em múltiplos turnos a partir de um modelo de linguagem. Disponibilizamos nosso conjunto de dados, modelo e demonstração para promover pesquisas futuras na área de seguir instruções multimodais.
O Shampoo é um algoritmo de otimização online e estocástico que pertence à família de métodos AdaGrad para o treinamento de redes neurais. Ele constrói um pré-condicionador em bloco diagonal, onde cada bloco consiste em uma aproximação grosseira do produto de Kronecker para o AdaGrad de matriz completa aplicado a cada parâmetro da rede neural. Neste trabalho, fornecemos uma descrição completa do algoritmo, bem como das otimizações de desempenho que nossa implementação utiliza para treinar redes profundas em grande escala no PyTorch. Nossa implementação permite um treinamento distribuído rápido em multi-GPU com paralelismo de dados, distribuindo a memória e a computação associadas aos blocos de cada parâmetro por meio da estrutura de dados DTensor do PyTorch e realizando uma operação primitiva AllGather nas direções de busca calculadas em cada iteração. Esse aprimoramento significativo de desempenho nos permite alcançar, no máximo, uma redução de 10% no tempo de execução por etapa em comparação com métodos adaptativos de gradiente baseados em escalonamento diagonal padrão. Validamos nossa implementação realizando um estudo de ablação no treinamento do ResNet50 no ImageNet, demonstrando a superioridade do Shampoo sobre receitas de treinamento padrão com ajuste mínimo de hiperparâmetros.
Na geração de música baseada em modelagem de linguagem, uma forma de onda gerada é representada por uma sequência de pilhas hierárquicas de tokens que podem ser decodificadas de maneira auto-regressiva ou em paralelo, dependendo dos padrões do codebook. Em particular, o achatamento dos codebooks representa a estratégia de decodificação de maior qualidade, embora seja notoriamente lenta. Para isso, propomos uma nova estratégia de decodificação no estilo "stack-and-delay" para melhorar a decodificação do padrão achatado, onde a velocidade de geração é quatro vezes mais rápida em comparação com a decodificação achatada tradicional. Isso aproxima o tempo de inferência ao da estratégia de decodificação com atraso e permite uma inferência mais rápida em GPU para tamanhos pequenos de lote. Com o mesmo orçamento de eficiência de inferência que o padrão de atraso, mostramos que a abordagem proposta tem um desempenho melhor em avaliações objetivas, quase fechando a lacuna de qualidade em relação ao padrão achatado. Os resultados são corroborados por avaliações subjetivas, que mostram que as amostras geradas pelo novo modelo são ligeiramente mais preferidas do que as amostras geradas pelo modelo concorrente, dados os mesmos prompts de texto.
O problema tradicional de Rastreamento de Estado de Diálogo (DST, na sigla em inglês) visa acompanhar as preferências e intenções do usuário em conversas entre usuário e agente. Embora seja suficiente para sistemas de diálogo orientados a tarefas que suportam aplicações de domínio restrito, o advento de sistemas de chat baseados em Modelos de Linguagem de Grande Escala (LLMs) introduziu muitas complexidades do mundo real em diálogos de domínio aberto. Essas complexidades se manifestam na forma de maior interação contextual, sessões de diálogo prolongadas que abrangem uma diversidade de tópicos e mudanças contextuais mais frequentes. Para lidar com essas complexidades decorrentes da evolução dos sistemas de chat baseados em LLMs, propomos a segmentação conjunta de diálogos e o rastreamento de estado por segmento em sistemas de diálogo de domínio aberto. Assumindo um cenário zero-shot apropriado para um verdadeiro sistema de diálogo de domínio aberto, propomos o S3-DST, uma técnica de prompt estruturado que utiliza a Recolha Pré-Analítica, um mecanismo de fundamentação inovador que projetamos para melhorar o rastreamento de contexto longo. Para demonstrar a eficácia de nossa abordagem proposta em segmentação conjunta e rastreamento de estado, avaliamos o S3-DST em um conjunto de dados proprietário e anonimizado de diálogos de domínio aberto, bem como em conjuntos de dados públicos de DST e segmentação. Em todos os conjuntos de dados e configurações, o S3-DST supera consistentemente o estado da arte, demonstrando sua potência e robustez para a próxima geração de sistemas de chat baseados em LLMs.
A adaptação de modelos é crucial para lidar com a discrepância entre os dados de treinamento proxy e os dados reais dos usuários recebidos. Para realizar a adaptação de forma eficaz, os dados textuais dos usuários são normalmente armazenados em servidores ou em seus dispositivos locais, onde modelos de processamento de linguagem natural (PLN) podem ser treinados diretamente usando esses dados do domínio específico. No entanto, isso pode levantar preocupações de privacidade e segurança devido aos riscos adicionais de expor informações dos usuários a adversários. A substituição de informações identificáveis em dados textuais por marcadores genéricos tem sido explorada recentemente. Neste trabalho, aproveitamos grandes modelos de linguagem (LLMs) para sugerir substitutos de tokens mascarados e avaliamos sua eficácia em tarefas de modelagem de linguagem. Especificamente, propomos múltiplas abordagens baseadas em LLMs pré-treinados e ajustados e realizamos estudos empíricos em diversos conjuntos de dados para comparar esses métodos. Os resultados experimentais mostram que os modelos treinados em corpora ofuscados são capazes de alcançar desempenho comparável aos treinados nos dados originais sem a preservação de privacidade por meio do mascaramento de tokens.
Este artigo apresenta uma abordagem inovadora para aprimorar o controle sobre a geração de áudio, enfatizando o alinhamento entre as representações de áudio e texto durante o treinamento do modelo. No contexto da geração de áudio baseada em modelos de linguagem, o modelo utiliza entradas tanto de representações de tokens de texto quanto de áudio para prever os tokens de áudio subsequentes. No entanto, a configuração atual carece de regularização explícita para garantir o alinhamento entre a representação de texto escolhida e as previsões do modelo de linguagem. Nossa proposta envolve a incorporação de regularização de representações de áudio e texto, particularmente durante a fase de orientação sem classificador (CFG), onde a condição de texto é excluída da atenção cruzada durante o treinamento do modelo de linguagem. O objetivo dessa regularização de representação proposta é minimizar discrepâncias na similaridade entre áudio e texto em comparação com outras amostras dentro do mesmo lote de treinamento. Resultados experimentais em tarefas de geração de música e áudio demonstram que nossos métodos propostos levam a melhorias em métricas objetivas tanto para a geração de áudio quanto de música, além de um aprimoramento na percepção humana para a geração de áudio.
A análise semântica de fala (SSP, do inglês Spoken Semantic Parsing) envolve a geração de análises compreensíveis por máquina a partir de entradas de fala. Treinar modelos robustos para domínios de aplicação existentes representados em dados de treinamento ou estender para novos domínios requer tripletos correspondentes de dados de fala-transcrição-análise semântica, que são caros de obter. Neste artigo, abordamos esse desafio examinando métodos que podem usar dados de transcrição-análise semântica (texto não pareado) sem a fala correspondente. Primeiro, quando o texto não pareado é extraído de corpora textuais existentes, comparamos Joint Audio Text (JAT) e Text-to-Speech (TTS) como formas de gerar representações de fala para texto não pareado. Experimentos no conjunto de dados STOP mostram que o texto não pareado de domínios existentes e novos melhora o desempenho em 2% e 30% em Exact Match (EM) absoluto, respectivamente. Segundo, consideramos o cenário em que o texto não pareado não está disponível em corpora textuais existentes. Propomos usar Large Language Models (LLMs) para gerar texto não pareado para domínios existentes e novos. Experimentos mostram que exemplos e palavras que co-ocorrem com intenções podem ser usados para gerar texto não pareado com Llama 2.0. Usar o texto gerado com JAT e TTS para análise semântica de fala melhora o EM no STOP em 1,4% e 2,6% absoluto para domínios existentes e novos, respectivamente.