Artigos de pesquisa em IA selecionados diariamente com traduções
Embora os modelos recentes de texto-para-fala (TTS) em larga escala tenham alcançado progressos significativos, eles ainda apresentam deficiências em qualidade de fala, similaridade e prosódia. Considerando que a fala abrange intricadamente diversos atributos (por exemplo, conteúdo, prosódia, timbre e detalhes acústicos) que representam desafios significativos para a geração, uma ideia natural é fatorar a fala em subespaços individuais que representam diferentes atributos e gerá-los separadamente. Motivados por isso, propomos o NaturalSpeech 3, um sistema TTS com novos modelos de difusão fatorados para gerar fala natural de forma zero-shot. Especificamente, 1) projetamos um codec neural com quantização vetorial fatorada (FVQ) para desacoplar a forma de onda da fala em subespaços de conteúdo, prosódia, timbre e detalhes acústicos; 2) propomos um modelo de difusão fatorado para gerar atributos em cada subespaço seguindo seu prompt correspondente. Com esse design de fatoração, o NaturalSpeech 3 pode modelar de forma eficaz e eficiente a fala complexa com subespaços desacoplados, utilizando uma abordagem de dividir para conquistar. Experimentos mostram que o NaturalSpeech 3 supera os sistemas TTS state-of-the-art em qualidade, similaridade, prosódia e inteligibilidade. Além disso, alcançamos um desempenho ainda melhor ao escalar para 1 bilhão de parâmetros e 200 mil horas de dados de treinamento.
Propomos um novo framework para filtrar dados de imagem-texto utilizando Modelos de Linguagem Multimodais (MLMs) ajustados finamente. Nossa abordagem supera os métodos de filtragem predominantes (por exemplo, CLIPScore) ao integrar os avanços recentes em MLMs. Projetamos quatro métricas distintas, porém complementares, para medir holisticamente a qualidade dos dados de imagem-texto. Um novo pipeline é estabelecido para construir dados de instrução de alta qualidade para ajustar finamente MLMs como filtros de dados. Em comparação com o CLIPScore, nossos filtros MLM produzem pontuações mais precisas e abrangentes que melhoram diretamente a qualidade dos dados filtrados e impulsionam o desempenho de modelos pré-treinados. Alcançamos melhorias significativas em relação ao CLIPScore em modelos de base populares (ou seja, CLIP e BLIP2) e em várias tarefas downstream. Nosso filtro MLM pode generalizar para diferentes modelos e tarefas, e ser usado como uma substituição direta para o CLIPScore. Um estudo de ablação adicional é fornecido para verificar nossas escolhas de design para o filtro MLM.
As leis de escalonamento desempenham um papel fundamental na melhoria sustentável da qualidade dos modelos. Infelizmente, os modelos de recomendação até o momento não exibem tais leis, semelhantes às observadas no domínio dos grandes modelos de linguagem, devido às ineficiências de seus mecanismos de escalonamento. Essa limitação impõe desafios significativos na adaptação desses modelos a conjuntos de dados do mundo real cada vez mais complexos. Neste artigo, propomos uma arquitetura de rede eficaz baseada exclusivamente em máquinas de fatoração empilhadas e uma estratégia de escalonamento sinérgica, coletivamente denominada Wukong, para estabelecer uma lei de escalonamento no domínio da recomendação. O design único do Wukong torna possível capturar interações diversas e de qualquer ordem simplesmente por meio de camadas mais altas e mais amplas. Realizamos avaliações extensas em seis conjuntos de dados públicos, e nossos resultados demonstram que o Wukong supera consistentemente os modelos state-of-the-art em termos de qualidade. Além disso, avaliamos a escalabilidade do Wukong em um conjunto de dados interno em grande escala. Os resultados mostram que o Wukong mantém sua superioridade em qualidade sobre os modelos state-of-the-art, enquanto mantém a lei de escalonamento em duas ordens de magnitude na complexidade do modelo, estendendo-se além de 100 Gflop ou equivalentemente até a escala de computação total de treinamento do GPT-3/LLaMa-2, onde os trabalhos anteriores falham.
Modelos de linguagem de grande escala (LLMs) têm demonstrado capacidades notáveis na resolução de problemas. No entanto, sua proficiência em resolver problemas matemáticos permanece inadequada. Propomos o MathScale, um método simples e escalável para criar dados de raciocínio matemático de alta qualidade utilizando LLMs de ponta (por exemplo, {\tt GPT-3.5}). Inspirado pelo mecanismo cognitivo na aprendizagem matemática humana, ele primeiro extrai tópicos e pontos de conhecimento de questões matemáticas iniciais e, em seguida, constrói um grafo de conceitos, que é posteriormente usado para gerar novas questões matemáticas. O MathScale exibe escalabilidade eficaz ao longo do eixo de tamanho do conjunto de dados matemáticos que geramos. Como resultado, criamos um conjunto de dados de raciocínio matemático (MathScaleQA) contendo dois milhões de pares de perguntas e respostas matemáticas. Para avaliar de forma abrangente as habilidades de raciocínio matemático dos LLMs, construímos o {\sc MwpBench}, um benchmark de Problemas de Matemática em Linguagem Natural, que é uma coleção de dez conjuntos de dados (incluindo GSM8K e MATH) abrangendo problemas matemáticos de nível K-12, universitário e de competição. Aplicamos o MathScaleQA para ajustar LLMs de código aberto (por exemplo, LLaMA-2 e Mistral), resultando em capacidades significativamente aprimoradas de raciocínio matemático. Avaliado no {\sc MwpBench}, o MathScale-7B alcança desempenho de ponta em todos os conjuntos de dados, superando seus melhores pares de tamanho equivalente em 42,9\% na precisão média micro e 43,7\% na precisão média macro, respectivamente.
O desenvolvimento de sistemas interativos multimodais é dificultado pela falta de dados conversacionais ricos e multimodais (texto, imagens), que são necessários em grandes quantidades para LLMs (Modelos de Linguagem de Grande Escala). Abordagens anteriores aumentam diálogos textuais com imagens recuperadas, impondo restrições de privacidade, diversidade e qualidade. Neste trabalho, introduzimos o Multimodal Augmented Generative Images Dialogues (MAGID), um framework para aumentar diálogos exclusivamente textuais com imagens diversas e de alta qualidade. Posteriormente, um modelo de difusão é aplicado para criar imagens correspondentes, garantindo alinhamento com o texto identificado. Por fim, o MAGID incorpora um loop de feedback inovador entre um módulo de geração de descrição de imagens (LLM textual) e módulos de qualidade de imagem (abordando estética, correspondência imagem-texto e segurança), que trabalham em conjunto para gerar diálogos multimodais de alta qualidade. Comparamos o MAGID a outras baselines state-of-the-art (SOTA) em três conjuntos de dados de diálogo, utilizando avaliação automática e humana. Nossos resultados mostram que o MAGID é comparável ou superior às baselines, com melhorias significativas na avaliação humana, especialmente contra baselines de recuperação onde o banco de dados de imagens é pequeno.
Os grandes modelos de linguagem (LLMs, na sigla em inglês) demonstraram ser muito superiores aos métodos convencionais em diversas tarefas. No entanto, seus cálculos dispendiosos e altos requisitos de memória são proibitivos para implantação. A quantização de modelos é um método eficaz para reduzir essa sobrecarga. O problema é que, na maioria dos trabalhos anteriores, o modelo quantizado foi calibrado usando poucas amostras dos dados de treinamento, o que pode afetar a generalização dos LLMs quantizados para casos e tarefas desconhecidos. Portanto, neste trabalho, exploramos uma questão importante: Podemos projetar um método de quantização independente de dados para LLMs que garanta seu desempenho de generalização? Neste trabalho, propomos o EasyQuant, um algoritmo de quantização apenas de pesos, independente de dados e sem necessidade de treinamento, para LLMs. Nossa observação indica que dois fatores: outliers nos pesos e faixas de quantização, são essenciais para reduzir o erro de quantização. Assim, no EasyQuant, deixamos os outliers (menos de 1%) inalterados e otimizamos a faixa de quantização para reduzir o erro de reconstrução. Com esses métodos, surpreendentemente descobrimos que o EasyQuant alcança um desempenho comparável ao do modelo original. Como o EasyQuant não depende de nenhum dado de treinamento, o desempenho de generalização dos LLMs quantizados é garantido com segurança. Além disso, o EasyQuant pode ser implementado em paralelo, de modo que o modelo quantizado pode ser obtido em poucos minutos, mesmo para LLMs com mais de 100 bilhões de parâmetros. Até onde sabemos, somos o primeiro trabalho a alcançar um desempenho de quantização quase sem perdas para LLMs em um cenário independente de dados, e nosso algoritmo é mais de 10 vezes mais rápido do que os métodos dependentes de dados.
Apesar dos avanços notáveis, os modelos de linguagem multimodal de grande escala (MLLMs) existentes ainda são inferiores no reconhecimento visual granular. Contrariamente a trabalhos anteriores, estudamos esse problema sob a perspectiva da resolução de imagem e revelamos que uma combinação de características visuais de baixa e alta resolução pode efetivamente mitigar essa deficiência. Com base nessa observação, propomos um método novo e eficiente para MLLMs, denominado Adaptação de Mistura de Resoluções (MRA). Especificamente, o MRA adota dois caminhos visuais para imagens com diferentes resoluções, onde informações visuais de alta resolução são incorporadas ao caminho de baixa resolução por meio dos novos adaptadores de mistura de resoluções (MR-Adapters). Esse design também reduz significativamente o comprimento da sequência de entrada dos MLLMs. Para validar o MRA, aplicamos-no a um MLLM recente chamado LLaVA, denominando o novo modelo LLaVA-HR. Realizamos extensos experimentos em 11 tarefas de visão e linguagem (VL), que mostram que o LLaVA-HR supera os MLLMs existentes em 8 tarefas VL, por exemplo, +9,4% no TextVQA. Mais importante, tanto o treinamento quanto a inferência do LLaVA-HR permanecem eficientes com o MRA, por exemplo, 20 horas de treinamento e velocidade de inferência 3 vezes maior que o LLaVA-1.5. Os códigos-fonte estão disponíveis em: https://github.com/luogen1996/LLaVA-HR.
Da moderação de conteúdo à conservação da vida selvagem, o número de aplicações que exigem que os modelos reconheçam conceitos visuais sutis ou subjetivos está crescendo. Tradicionalmente, o desenvolvimento de classificadores para tais conceitos requer um esforço manual substancial, medido em horas, dias ou até meses, para identificar e anotar os dados necessários para o treinamento. Mesmo com as técnicas recentemente propostas de Modelagem Ágil, que permitem a inicialização rápida de classificadores de imagens, os usuários ainda precisam gastar 30 minutos ou mais em rotinas monótonas e repetitivas de rotulagem de dados apenas para treinar um único classificador. Baseando-se na teoria do Misericórdia Cognitiva de Fiske, propomos um novo framework que reduz o esforço manual ao substituir a rotulagem humana por interações em linguagem natural, diminuindo o esforço total necessário para definir um conceito em uma ordem de grandeza: de rotular 2.000 imagens para apenas 100, além de algumas interações em linguagem natural. Nosso framework aproveita os avanços recentes em modelos de base, tanto grandes modelos de linguagem quanto modelos de visão e linguagem, para delimitar o espaço conceitual por meio de conversas e rotulagem automática dos pontos de dados de treinamento. Mais importante, nosso framework elimina a necessidade de anotações crowdsourced. Além disso, nosso framework produz, em última análise, modelos de classificação leves que podem ser implantados em cenários sensíveis a custos. Em 15 conceitos subjetivos e em dois conjuntos de dados públicos de classificação de imagens, nossos modelos treinados superam a Modelagem Ágil tradicional, bem como modelos de classificação zero-shot de última geração, como ALIGN, CLIP, CuPL, e grandes modelos de resposta a perguntas visuais, como PaLI-X.
A linguagem natural e as imagens são comumente utilizadas como representações de objetivos no aprendizado por imitação condicionado a objetivos (IL). No entanto, a linguagem natural pode ser ambígua e as imagens podem ser superespecificadas. Neste trabalho, propomos esboços desenhados à mão como uma modalidade para especificação de objetivos no aprendizado por imitação visual. Esboços são fáceis para os usuários fornecerem rapidamente, assim como a linguagem, mas, semelhantes às imagens, também podem ajudar uma política subsequente a ser espacialmente consciente e até ir além das imagens para desambiguar objetos relevantes da tarefa daqueles irrelevantes. Apresentamos o RT-Sketch, uma política condicionada a objetivos para manipulação que recebe como entrada um esboço desenhado à mão da cena desejada e gera ações como saída. Treinamos o RT-Sketch em um conjunto de dados de trajetórias pareadas e esboços de objetivos gerados sinteticamente correspondentes. Avaliamos essa abordagem em seis habilidades de manipulação envolvendo rearranjos de objetos em uma bancada articulada. Experimentalmente, descobrimos que o RT-Sketch é capaz de desempenhar em um nível semelhante aos agentes condicionados por imagem ou linguagem em cenários diretos, enquanto alcança maior robustez quando os objetivos de linguagem são ambíguos ou há distratores visuais presentes. Além disso, mostramos que o RT-Sketch tem a capacidade de interpretar e agir com base em esboços com diferentes níveis de especificidade, variando de desenhos mínimos com linhas a desenhos detalhados e coloridos. Para material suplementar e vídeos, consulte nosso site: http://rt-sketch.github.io.
Os recentes avanços em campos neurais trouxeram capacidades fenomenais para o campo de geração de formas, mas eles carecem de propriedades cruciais, como controle incremental - um requisito fundamental para trabalhos artísticos. Malhas triangulares, por outro lado, são a representação preferida para a maioria das tarefas relacionadas à geometria, oferecendo eficiência e controle intuitivo, mas não se prestam bem à otimização neural. Para apoiar tarefas subsequentes, a arte anterior geralmente propõe uma abordagem em duas etapas, onde primeiro uma forma é gerada usando campos neurais, e então uma malha é extraída para processamento adicional. Em vez disso, neste artigo, introduzimos uma abordagem híbrida que mantém consistentemente tanto uma malha quanto uma representação de Campo de Distância Assinada (SDF). Usando essa representação, apresentamos o MagicClay - uma ferramenta amigável para artistas que permite esculpir regiões de uma malha de acordo com prompts textuais, mantendo outras regiões intocadas. Nosso framework equilibra cuidadosamente e de forma eficiente a consistência entre as representações e regularizações em cada etapa da otimização da forma; Com base na representação da malha, mostramos como renderizar o SDF em resoluções mais altas e de forma mais rápida. Além disso, empregamos trabalhos recentes em reconstrução de malhas diferenciáveis para alocar triângulos na malha de forma adaptativa onde necessário, conforme indicado pelo SDF. Usando um protótipo implementado, demonstramos geometria gerada superior em comparação com o estado da arte, e um controle consistente inédito, permitindo edições sequenciais baseadas em prompts na mesma malha pela primeira vez.