Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos probabilísticos de difusão com redução de ruído (DDPMs) têm demonstrado desempenho promissor para síntese de fala. No entanto, um grande número de passos iterativos é necessário para alcançar alta qualidade de amostra, o que restringe a velocidade de inferência. Manter a qualidade da amostra enquanto aumenta a velocidade de amostragem tornou-se uma tarefa desafiadora. Neste artigo, propomos um método de síntese de fala baseado em "Co"nsistência "Mo"del, denominado CoMoSpeech, que realiza a síntese de fala em um único passo de amostragem por difusão, ao mesmo tempo que alcança alta qualidade de áudio. A restrição de consistência é aplicada para destilar um modelo de consistência a partir de um modelo professor baseado em difusão bem projetado, o que, por fim, resulta em desempenhos superiores no CoMoSpeech destilado. Nossos experimentos mostram que, ao gerar gravações de áudio em um único passo de amostragem, o CoMoSpeech alcança uma velocidade de inferência mais de 150 vezes mais rápida que o tempo real em uma única GPU NVIDIA A100, o que é comparável ao FastSpeech2, tornando a síntese de fala baseada em amostragem por difusão verdadeiramente prática. Enquanto isso, avaliações objetivas e subjetivas em síntese de texto para fala e síntese de voz cantada mostram que os modelos professores propostos produzem a melhor qualidade de áudio, e o CoMoSpeech baseado em amostragem de um único passo alcança a melhor velocidade de inferência com qualidade de áudio melhor ou comparável a outras linhas de base convencionais de modelos de difusão com múltiplos passos. Amostras de áudio estão disponíveis em https://comospeech.github.io/.
Apresentamos os Transformers de Visão com Vocabulário Aberto e Consciência de Região (RO-ViT) – uma receita de pré-treinamento contrastivo de imagem-texto para reduzir a lacuna entre o pré-treinamento em nível de imagem e a detecção de objetos com vocabulário aberto. Na fase de pré-treinamento, propomos recortar e redimensionar aleatoriamente regiões de embeddings posicionais em vez de utilizar embeddings posicionais da imagem inteira. Isso se alinha melhor com o uso de embeddings posicionais em nível de região na fase de ajuste fino para detecção. Além disso, substituímos a função de perda de entropia cruzada softmax, comumente usada em aprendizado contrastivo, pela função de perda focal, para melhorar o aprendizado de exemplos informativos, porém difíceis. Por fim, aproveitamos avanços recentes em propostas de novos objetos para aprimorar o ajuste fino de detecção com vocabulário aberto. Avaliamos nosso modelo completo nos benchmarks de detecção com vocabulário aberto LVIS e COCO, bem como na transferência zero-shot. O RO-ViT alcança um estado da arte de 32,1 AP_r no LVIS, superando a melhor abordagem existente em +5,8 pontos, além de apresentar uma detecção competitiva em transferência zero-shot. Surpreendentemente, o RO-ViT também melhora a representação em nível de imagem, atingindo o estado da arte em 9 de 12 métricas nos benchmarks de recuperação de imagem-texto COCO e Flickr, superando abordagens competitivas com modelos maiores.
Modelos de linguagem de propósito geral capazes de resolver diversas tarefas no domínio da linguagem emergiram impulsionados pelo pipeline de pré-treinamento e ajuste por instrução. No entanto, a construção de modelos visão-linguagem de propósito geral é desafiadora devido à maior discrepância de tarefas introduzida pela entrada visual adicional. Embora o pré-treinamento visão-linguagem tenha sido amplamente estudado, o ajuste por instrução visão-linguagem permanece relativamente menos explorado. Neste artigo, realizamos um estudo sistemático e abrangente sobre o ajuste por instrução visão-linguagem com base nos modelos BLIP-2 pré-treinados. Reunimos uma ampla variedade de 26 conjuntos de dados publicamente disponíveis, transformamos-os no formato de ajuste por instrução e os categorizamos em dois grupos para ajuste por instrução com dados conhecidos e avaliação zero-shot com dados desconhecidos. Além disso, introduzimos a extração de características visuais consciente da instrução, um método crucial que permite ao modelo extrair características informativas adaptadas à instrução fornecida. Os modelos InstructBLIP resultantes alcançam desempenho zero-shot de ponta em todos os 13 conjuntos de dados desconhecidos, superando substancialmente o BLIP-2 e o maior Flamingo. Nossos modelos também levam ao desempenho de ponta quando ajustados em tarefas individuais de downstream (por exemplo, 90,7% de precisão no ScienceQA IMG). Além disso, demonstramos qualitativamente as vantagens do InstructBLIP sobre modelos multimodais concorrentes. Todos os modelos InstructBLIP foram disponibilizados como código aberto em https://github.com/salesforce/LAVIS/tree/main/projects/instructblip.
Apresentamos uma abordagem inovadora para aproveitar o conhecimento prévio encapsulado em modelos de difusão texto-imagem pré-treinados para super-resolução (SR) cega. Especificamente, ao empregar nosso codificador consciente do tempo, podemos alcançar resultados promissores de restauração sem alterar o modelo de síntese pré-treinado, preservando assim o prior gerativo e minimizando o custo de treinamento. Para remediar a perda de fidelidade causada pela estocasticidade inerente dos modelos de difusão, introduzimos um módulo de ajuste de características controlável que permite aos usuários equilibrar qualidade e fidelidade simplesmente ajustando um valor escalar durante o processo de inferência. Além disso, desenvolvemos uma estratégia de amostragem de agregação progressiva para superar as restrições de tamanho fixo dos modelos de difusão pré-treinados, permitindo a adaptação a resoluções de qualquer tamanho. Uma avaliação abrangente do nosso método utilizando benchmarks sintéticos e do mundo real demonstra sua superioridade em relação às abordagens state-of-the-art atuais.
Os transformadores de visão têm demonstrado grande sucesso devido às suas altas capacidades de modelagem. No entanto, seu desempenho notável é acompanhado por custos computacionais elevados, o que os torna inadequados para aplicações em tempo real. Neste artigo, propomos uma família de transformadores de visão de alta velocidade chamada EfficientViT. Descobrimos que a velocidade dos modelos de transformadores existentes é comumente limitada por operações ineficientes em termos de memória, especialmente o redimensionamento de tensores e as funções elementares no MHSA (Multi-Head Self-Attention). Portanto, projetamos um novo bloco de construção com um layout sanduíche, ou seja, usando um único MHSA limitado por memória entre camadas FFN (Feed-Forward Network) eficientes, o que melhora a eficiência da memória enquanto aprimora a comunicação entre canais. Além disso, descobrimos que os mapas de atenção compartilham alta similaridade entre as cabeças, levando a redundância computacional. Para resolver isso, apresentamos um módulo de atenção em grupo em cascata que alimenta as cabeças de atenção com diferentes divisões da característica completa, o que não apenas economiza custo computacional, mas também melhora a diversidade da atenção. Experimentos abrangentes demonstram que o EfficientViT supera os modelos eficientes existentes, alcançando um bom equilíbrio entre velocidade e precisão. Por exemplo, nosso EfficientViT-M5 supera o MobileNetV3-Large em 1,9% em precisão, enquanto obtém 40,4% e 45,2% maior taxa de transferência na GPU Nvidia V100 e na CPU Intel Xeon, respectivamente. Comparado ao recente modelo eficiente MobileViT-XXS, o EfficientViT-M2 alcança 1,8% de precisão superior, enquanto executa 5,8x/3,7x mais rápido na GPU/CPU, e 7,4x mais rápido quando convertido para o formato ONNX. O código e os modelos estão disponíveis em https://github.com/microsoft/Cream/tree/main/EfficientViT.
O CLIP, o primeiro modelo de base que conecta imagens e texto, tem possibilitado muitos avanços recentes na visão computacional. No entanto, o custo associado ao seu treinamento é proibitivamente alto, impondo uma barreira significativa à sua exploração generalizada. Neste artigo, apresentamos uma descoberta surpreendente de que existe uma lei de escala inversa para o treinamento do CLIP, em que quanto maiores os codificadores de imagem/texto utilizados, menor o comprimento da sequência de tokens de imagem/texto que pode ser aplicado no treinamento. Além disso, demonstramos que a estratégia para reduzir o comprimento dos tokens de imagem/texto desempenha um papel crucial na determinação da qualidade dessa lei de escala. Como resultado dessa descoberta, conseguimos treinar o CLIP com sucesso mesmo utilizando recursos acadêmicos. Por exemplo, em um servidor com oito GPUs A100, nossos modelos CLIP alcançam acurácias top-1 zero-shot no ImageNet de 63,2% em ~2 dias, 67,8% em ~3 dias e 69,3% em ~4 dias. Ao reduzir a barreira computacional associada ao CLIP, esperamos inspirar mais pesquisas nessa área, especialmente da comunidade acadêmica. Nosso código está disponível em https://github.com/UCSC-VLAA/CLIPA.
Modelos de linguagem de grande escala (LLMs) têm demonstrado desempenho surpreendentemente bom em tradução neural automática multilingue (MNMT), mesmo quando treinados sem dados paralelos. No entanto, apesar da quantidade gigantesca de dados de treinamento, eles ainda enfrentam dificuldades ao traduzir palavras raras, especialmente em idiomas de baixos recursos. Pior ainda, geralmente é irrealista recuperar demonstrações relevantes para aprendizado em contexto com idiomas de baixos recursos em LLMs, o que restringe o uso prático desses modelos para tradução — como podemos mitigar esse problema? Para isso, apresentamos um método novo, CoD, que aumenta os LLMs com conhecimento prévio por meio de cadeias de dicionários multilingues para um subconjunto de palavras de entrada, a fim de elicitar habilidades de tradução nos LLMs. Experimentos extensivos indicam que aumentar o ChatGPT com CoD resulta em ganhos significativos de até 13 pontos ChrF++ em MNMT (de 3,08 para 42,63 no caso de inglês para sérvio escrito em alfabeto cirílico) no conjunto completo de testes FLORES-200. Além disso, demonstramos a importância de encadear os dicionários multilingues, bem como a superioridade do CoD em relação a demonstrações few-shot para idiomas de baixos recursos.
A capacidade de avaliar se uma legenda descreve corretamente uma imagem é um aspecto crítico da compreensão visão-linguagem. No entanto, modelos de última geração frequentemente interpretam erroneamente a correção de detalhes refinados, levando a erros em saídas, como a alucinação de objetos em legendas geradas ou raciocínio composicional deficiente. Neste trabalho, exploramos a Confiança em Nível de Token, ou TLC, como um método simples, mas surpreendentemente eficaz, para avaliar a correção de legendas. Especificamente, ajustamos finamente um modelo visão-linguagem na tarefa de legendagem de imagens, inserimos uma imagem e uma legenda proposta no modelo, e agregamos confianças algébricas ou aprendidas em tokens sobre palavras ou sequências para estimar a consistência imagem-legenda. Em comparação com pontuações em nível de sequência de modelos pré-treinados, o TLC com medidas de confiança algébrica alcança uma melhoria relativa de 10% na precisão na compreensão de verbos no SVO-Probes e supera o estado da arte anterior em pontuações de imagem e grupo para raciocínio composicional no Winoground em 37% e 9%, respectivamente. Quando dados de treinamento estão disponíveis, um estimador de confiança aprendido oferece um desempenho ainda melhor, reduzindo as taxas de alucinação de objetos nas legendas do MS COCO em 30% em relação ao modelo original e estabelecendo um novo estado da arte.
Apresentamos um controlador humanóide baseado em física que alcança imitação de movimento de alta fidelidade e comportamento tolerante a falhas na presença de entradas ruidosas (por exemplo, estimativas de pose a partir de vídeo ou geradas a partir de linguagem) e quedas inesperadas. Nosso controlador escala para o aprendizado de dez mil clipes de movimento sem o uso de forças estabilizadoras externas e aprende a se recuperar naturalmente de estados de falha. Dado um movimento de referência, nosso controlador pode perpetuar o controle de avatares simulados sem a necessidade de reinicializações. Em sua essência, propomos a política de controle multiplicativo progressivo (PMCP), que aloca dinamicamente nova capacidade de rede para aprender sequências de movimento cada vez mais complexas. O PMCP permite uma escalabilidade eficiente para o aprendizado a partir de grandes bancos de dados de movimento e a adição de novas tarefas, como a recuperação de estados de falha, sem esquecimento catastrófico. Demonstramos a eficácia do nosso controlador ao utilizá-lo para imitar poses ruidosas provenientes de estimadores de pose baseados em vídeo e geradores de movimento baseados em linguagem em um caso de uso de avatar multipessoal em tempo real e ao vivo.
Modelos de linguagem de grande escala (LLMs) demonstram uma capacidade multilíngue impressionante, mas seu desempenho varia substancialmente entre diferentes idiomas. Neste trabalho, introduzimos um método simples, porém eficaz, chamado de prompting de pensamento cruzado entre línguas (XLT), para melhorar sistematicamente a capacidade multilíngue dos LLMs. Especificamente, o XLT é um prompt de modelo genérico que estimula habilidades de raciocínio cruzado entre línguas e lógico para aprimorar o desempenho em tarefas em diversos idiomas. Realizamos avaliações abrangentes em 7 benchmarks típicos relacionados a tarefas de raciocínio, compreensão e geração, cobrindo tanto idiomas de alta quanto de baixa disponibilidade de recursos. Os resultados experimentais mostram que o XLT não apenas melhora significativamente o desempenho em várias tarefas multilíngues, mas também reduz consideravelmente a lacuna entre o desempenho médio e o melhor desempenho de cada tarefa em diferentes idiomas. Notavelmente, o XLT traz uma melhoria média de mais de 10 pontos em tarefas de raciocínio aritmético e de resposta a perguntas de domínio aberto.
A aprendizagem contínua (LL, do inglês Lifelong Learning) é uma habilidade importante para modelos de PLN (Processamento de Linguagem Natural) aprenderem novas tarefas de forma contínua. Abordagens baseadas em arquitetura são relatadas como implementações eficazes para modelos de LL. No entanto, é desafiador estender abordagens anteriores para cenários de LL incremental de domínio, pois elas exigem acesso a identidades de tarefas na fase de teste ou não conseguem lidar com amostras de tarefas não vistas. Neste artigo, propomos Diana: um modelo de aprendizagem contínua baseado em arquitetura dinâmica que busca aprender uma sequência de tarefas com um modelo de linguagem aprimorado por prompts. Quatro tipos de prompts organizados hierarquicamente são usados em Diana para capturar conhecimento em diferentes granularidades. Especificamente, dedicamos prompts em nível de tarefa para capturar conhecimento específico da tarefa, a fim de manter alto desempenho em LL, e prompts em nível de instância para aprender conhecimento compartilhado entre amostras de entrada, melhorando a generalização do modelo. Além disso, dedicamos prompts separados para modelar explicitamente tarefas não vistas e introduzimos um conjunto de vetores-chave de prompt para facilitar o compartilhamento de conhecimento entre tarefas. Experimentos extensivos demonstram que Diana supera os modelos de LL mais avançados, especialmente no tratamento de tarefas não vistas. Disponibilizamos o código e os dados em https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/diana.
Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado capacidades excepcionais em generalizar para novas tarefas de maneira zero-shot ou few-shot. No entanto, até que ponto os LLMs podem compreender as preferências do usuário com base em seu comportamento anterior permanece uma questão de pesquisa emergente e ainda pouco clara. Tradicionalmente, a Filtragem Colaborativa (CF) tem sido o método mais eficaz para essas tarefas, dependendo predominantemente do extenso volume de dados de avaliação. Em contraste, os LLMs geralmente exigem consideravelmente menos dados, mantendo um conhecimento abrangente sobre cada item, como filmes ou produtos. Neste artigo, realizamos um exame minucioso tanto da CF quanto dos LLMs dentro da tarefa clássica de previsão de avaliação do usuário, que envolve prever a avaliação de um usuário para um item candidato com base em suas avaliações anteriores. Investigamos vários LLMs de diferentes tamanhos, variando de 250M a 540B parâmetros, e avaliamos seu desempenho em cenários zero-shot, few-shot e de fine-tuning. Realizamos uma análise abrangente para comparar os LLMs com métodos robustos de CF e descobrimos que os LLMs zero-shot ficam atrás dos modelos tradicionais de recomendação que têm acesso a dados de interação do usuário, indicando a importância dos dados de interação do usuário. No entanto, por meio do fine-tuning, os LLMs alcançam desempenho comparável ou até superior com apenas uma pequena fração dos dados de treinamento, demonstrando seu potencial por meio da eficiência de dados.
Os embeddings de texto são recursos úteis para diversas aplicações de PLN, como similaridade de frases, agrupamento de textos e busca semântica. Neste artigo, apresentamos uma Adaptação de Baixa Dimensão com um objetivo contrastivo sobre o Siamese-BLOOM de 8 bits, um modelo de linguagem grande multilingue otimizado para produzir embeddings de palavras semanticamente significativos. A inovação é tripla. Primeiro, convertemos os pesos do BLOOM para valores de 8 bits. Segundo, ajustamos o BLOOM com um adaptador escalável (LoRA) e o otimizador Adam de 8 bits para classificação de similaridade de frases. Terceiro, aplicamos uma arquitetura Siamese no modelo BLOOM com um objetivo contrastivo para mitigar a escassez de dados rotulados multilingues. Os resultados dos experimentos mostram que a qualidade dos embeddings aprendidos pelo LACoS-BLOOM é proporcional ao número de parâmetros do modelo e à quantidade de dados de treinamento não rotulados. Com o design de ajuste fino eficiente em parâmetros, conseguimos executar o BLOOM de 7,1 bilhões de parâmetros de ponta a ponta em uma única máquina com GPU e 32GB de memória. Comparado à solução anterior Sentence-BERT, alcançamos uma melhoria significativa tanto em tarefas STS em inglês quanto multilingues.
Grandes modelos de linguagem como o ChatGPT demonstraram recentemente capacidades impressionantes em compreensão e geração de linguagem natural, permitindo diversas aplicações, incluindo tradução, redação de ensaios e conversas casuais. No entanto, há uma preocupação de que eles possam ser mal utilizados para fins maliciosos, como fraudes ou ataques de negação de serviço. Portanto, é crucial desenvolver métodos para detectar se a parte envolvida em uma conversa é um bot ou um humano. Neste artigo, propomos uma estrutura chamada FLAIR, Finding Large language model Authenticity via a single Inquiry and Response (Encontrando Autenticidade de Grandes Modelos de Linguagem através de uma Única Pergunta e Resposta), para detectar bots conversacionais de maneira online. Especificamente, focamos em um cenário de pergunta única que pode diferenciar efetivamente usuários humanos de bots. As perguntas são divididas em duas categorias: aquelas que são fáceis para humanos, mas difíceis para bots (por exemplo, contagem, substituição, posicionamento, filtragem de ruído e arte ASCII), e aquelas que são fáceis para bots, mas difíceis para humanos (por exemplo, memorização e computação). Nossa abordagem mostra diferentes pontos fortes dessas perguntas em sua eficácia, fornecendo uma nova maneira para provedores de serviços online se protegerem contra atividades nefastas e garantirem que estão atendendo usuários reais. Disponibilizamos nosso conjunto de dados em https://github.com/hongwang600/FLAIR e damos as boas-vindas a contribuições da comunidade para enriquecer tais conjuntos de dados de detecção.
Gerar música de alta qualidade que complemente o conteúdo visual de um vídeo é uma tarefa desafiadora. A maioria dos sistemas existentes de geração de música condicionada visualmente produz dados musicais simbólicos, como arquivos MIDI, em vez de formas de onda de áudio bruto. Dada a disponibilidade limitada de dados musicais simbólicos, tais métodos só podem gerar música para poucos instrumentos ou para tipos específicos de entrada visual. Neste artigo, propomos uma nova abordagem chamada V2Meow, que pode gerar áudio musical de alta qualidade que se alinha bem com a semântica visual de uma ampla variedade de tipos de entrada de vídeo. Especificamente, o sistema de geração de música proposto é um modelo autoregressivo de múltiplos estágios, treinado com um número da ordem de O(100K) de clipes de áudio musical emparelhados com quadros de vídeo, extraídos de vídeos musicais capturados em ambiente real, sem envolver dados musicais simbólicos paralelos. O V2Meow é capaz de sintetizar formas de onda de áudio musical de alta fidelidade condicionadas exclusivamente a características visuais pré-treinadas extraídas de um clipe de vídeo silencioso arbitrário, e também permite um controle de alto nível sobre o estilo musical dos exemplos gerados, suportando prompts de texto além do condicionamento por quadros de vídeo. Por meio de avaliações qualitativas e quantitativas, demonstramos que nosso modelo supera vários sistemas existentes de geração de música em termos de correspondência visual-áudio e qualidade de áudio.