Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos de geração de música a partir de texto são agora capazes de produzir áudio musical de alta qualidade em uma ampla variedade de estilos. No entanto, o controle por texto é principalmente adequado para a manipulação de atributos musicais globais, como gênero, clima e andamento, sendo menos apropriado para o controle preciso de atributos variáveis no tempo, como a posição das batidas ou a dinâmica da música ao longo do tempo. Propomos o Music ControlNet, um modelo de geração de música baseado em difusão que oferece múltiplos controles precisos e variáveis no tempo sobre o áudio gerado. Para dotar modelos de geração de música a partir de texto com controle variável no tempo, propomos uma abordagem análoga ao controle pixel a pixel do método ControlNet no domínio de imagens. Especificamente, extraímos controles de áudios de treinamento, gerando dados pareados, e ajustamos finamente um modelo generativo condicional baseado em difusão sobre espectrogramas de áudio, considerando controles de melodia, dinâmica e ritmo. Embora o método Uni-ControlNet no domínio de imagens já permita a geração com qualquer subconjunto de controles, desenvolvemos uma nova estratégia para permitir que criadores insiram controles que são apenas parcialmente especificados no tempo. Avaliamos tanto em controles extraídos de áudio quanto em controles que esperamos que criadores forneçam, demonstrando que podemos gerar música realista que corresponde às entradas de controle em ambos os cenários. Embora existam poucos modelos comparáveis de geração de música, comparamos nosso modelo com o MusicGen, um modelo recente que aceita entradas de texto e melodia, e mostramos que nosso modelo gera música que é 49% mais fiel às melodias de entrada, apesar de ter 35 vezes menos parâmetros, treinar com 11 vezes menos dados e habilitar duas formas adicionais de controle variável no tempo. Exemplos de áudio podem ser encontrados em https://MusicControlNet.github.io/web/.
Neste relatório técnico, nosso objetivo é gerar personas antropomorfizadas para personagens baseados em LLM de maneira online, incluindo aparência visual, personalidade e tons, utilizando apenas descrições textuais. Para alcançar isso, primeiro aproveitamos a capacidade de aprendizado em contexto dos LLMs para a geração de personalidade, projetando cuidadosamente um conjunto de prompts de sistema. Em seguida, propomos dois novos conceitos: a mistura de vozes (MoV) e a mistura de difusores (MoD) para a geração diversificada de vozes e aparências. Para o MoV, utilizamos algoritmos de texto para fala (TTS) com uma variedade de tons pré-definidos e selecionamos automaticamente o mais adequado com base na descrição textual fornecida pelo usuário. Para o MoD, combinamos as recentes e populares técnicas de geração de imagens a partir de texto e algoritmos de cabeça falante para agilizar o processo de geração de objetos falantes. Denominamos todo o framework como ChatAnything. Com ele, os usuários poderão animar qualquer coisa com qualquer persona antropomórfica utilizando apenas algumas entradas textuais. No entanto, observamos que os objetos antropomórficos produzidos pelos modelos generativos atuais muitas vezes não são detectáveis por detectores de marcos faciais pré-treinados, resultando em falhas na geração de movimentos faciais, mesmo que esses rostos tenham aparências humanoides, pois essas imagens são raramente vistas durante o treinamento (por exemplo, amostras fora da distribuição - OOD). Para resolver esse problema, incorporamos orientação em nível de pixel para infundir marcos faciais humanos durante a fase de geração de imagens. Para avaliar essas métricas, construímos um conjunto de dados de avaliação. Com base nele, verificamos que a taxa de detecção dos marcos faciais aumentou significativamente de 57,0% para 92,5%, permitindo assim a animação facial automática com base no conteúdo de fala gerado. O código e mais resultados podem ser encontrados em https://chatanything.github.io/.
Gerar movimentos humanos naturais a partir de uma história tem o potencial de transformar o cenário das indústrias de animação, jogos e cinema. Uma nova e desafiadora tarefa, Story-to-Motion, surge quando os personagens precisam se mover para vários locais e realizar movimentos específicos com base em uma longa descrição textual. Essa tarefa exige uma fusão de controle de baixo nível (trajetórias) e controle de alto nível (semântica do movimento). Trabalhos anteriores em controle de personagens e texto-para-movimento abordaram aspectos relacionados, mas uma solução abrangente ainda é evasiva: métodos de controle de personagens não lidam com descrições textuais, enquanto métodos de texto-para-movimento carecem de restrições de posição e frequentemente produzem movimentos instáveis. Diante dessas limitações, propomos um novo sistema que gera movimentos e trajetórias controláveis, infinitamente longos e alinhados com o texto de entrada. (1) Utilizamos modelos de linguagem de grande escala contemporâneos para atuar como um agendador de movimentos orientado por texto, extraindo uma série de pares (texto, posição, duração) de textos longos. (2) Desenvolvemos um esquema de recuperação de movimentos orientado por texto que incorpora correspondência de movimentos com restrições semânticas e de trajetória. (3) Projetamos um transformador progressivo com máscara que aborda artefatos comuns no movimento de transição, como posturas não naturais e deslizamento dos pés. Além de seu papel pioneiro como a primeira solução abrangente para Story-to-Motion, nosso sistema é avaliado em três sub-tarefas distintas: seguimento de trajetória, composição temporal de ações e mistura de movimentos, onde supera os métodos anteriores de síntese de movimento em todos os aspectos. Página inicial: https://story2motion.github.io/.
Modelos de fundação multimodais, representados pelo GPT-4V, trouxeram um novo paradigma para tarefas de percepção e compreensão visual de baixo nível, capazes de responder a uma ampla gama de instruções humanas naturais em um modelo. Embora os modelos de fundação existentes tenham demonstrado potenciais promissores em tarefas visuais de baixo nível, suas habilidades relacionadas ainda são preliminares e precisam ser aprimoradas. Para melhorar esses modelos, realizamos um experimento subjetivo em larga escala, coletando um vasto número de feedbacks humanos reais sobre visão de baixo nível. Cada feedback segue um caminho que começa com uma descrição detalhada da aparência visual de baixo nível (*por exemplo, clareza, cor, brilho* de uma imagem) e termina com uma conclusão geral, com uma média de 45 palavras. O conjunto de dados **Q-Pathway** construído inclui 58K feedbacks humanos detalhados sobre 18.973 imagens com diversas aparências de baixo nível. Além disso, para permitir que os modelos de fundação respondam de forma robusta a diversos tipos de perguntas, projetamos uma conversão com participação do GPT para processar esses feedbacks em 200K pares de instrução-resposta em formatos diversos. Os resultados experimentais indicam que o **Q-Instruct** eleva consistentemente as habilidades de percepção e compreensão de baixo nível em vários modelos de fundação. Antecipamos que nossos conjuntos de dados podem abrir caminho para um futuro em que a inteligência geral possa perceber, compreender a aparência visual de baixo nível e avaliar a qualidade visual como um humano. Nosso conjunto de dados, modelo zoo e demo estão publicados em: https://q-future.github.io/Q-Instruct.
Em cenários de implantação como residências e armazéns, espera-se que robôs móveis naveguem de forma autônoma por períodos prolongados, executando tarefas de maneira contínua que são articuladas em termos intuitivamente compreensíveis para operadores humanos. Apresentamos o GO To Any Thing (GOAT), um sistema de navegação universal capaz de atender a esses requisitos com três características principais: a) Multimodal: pode lidar com objetivos especificados por meio de rótulos de categoria, imagens de destino e descrições em linguagem natural, b) Contínuo: beneficia-se de sua experiência passada no mesmo ambiente, e c) Independente de Plataforma: pode ser rapidamente implantado em robôs com diferentes configurações físicas. O GOAT é viabilizado por meio de um design de sistema modular e uma memória semântica consciente de instâncias que é continuamente ampliada, mantendo o controle da aparência de objetos de diferentes pontos de vista, além de semântica em nível de categoria. Isso permite que o GOAT distinga entre diferentes instâncias da mesma categoria para possibilitar a navegação até alvos especificados por imagens e descrições em linguagem natural. Em comparações experimentais abrangendo mais de 90 horas em 9 residências diferentes, consistindo de 675 objetivos selecionados entre mais de 200 instâncias de objetos, constatamos que o GOAT alcança uma taxa de sucesso geral de 83%, superando métodos anteriores e variações em 32% (melhoria absoluta). O GOAT melhora com a experiência no ambiente, passando de uma taxa de sucesso de 60% no primeiro objetivo para 90% após a exploração. Além disso, demonstramos que o GOAT pode ser prontamente aplicado a tarefas subsequentes, como pegar e colocar e navegação social.
Os métodos existentes de ajuste fino de instruções visuais normalmente solicitam grandes modelos de linguagem com descrições textuais para gerar dados que seguem instruções. Apesar do desempenho promissor alcançado, essas descrições são derivadas de anotações de imagens, que muitas vezes são de granularidade grossa. Além disso, as instruções podem até mesmo contradizer o conteúdo visual sem observar o contexto visual completo. Para enfrentar esse desafio, introduzimos um conjunto de dados de instruções visuais de granularidade fina, o LVIS-Instruct4V, que contém 220 mil instruções alinhadas visualmente e conscientes do contexto, produzidas ao solicitar o poderoso GPT-4V com imagens do LVIS. Por meio de validação experimental e estudos de caso, demonstramos que dados de instrução visual de alta qualidade podem melhorar o desempenho do LLaVA-1.5, um modelo multimodal de última geração, em uma ampla gama de benchmarks por margens claras. Notavelmente, ao simplesmente substituir o LLaVA-Instruct pelo nosso LVIS-Instruct4V, alcançamos melhores resultados do que o LLaVA na maioria dos benchmarks desafiadores de LMM, por exemplo, LLaVA^w (76,7 vs. 70,7) e MM-Vet (40,2 vs. 35,4). Disponibilizamos nossos dados e modelo em https://github.com/X2FD/LVIS-INSTRUCT4V.
Apresentamos o MM-Navigator, um agente baseado no GPT-4V para a tarefa de navegação em interfaces gráficas de usuário (GUI) de smartphones. O MM-Navigator pode interagir com a tela de um smartphone como usuários humanos e determinar ações subsequentes para cumprir instruções dadas. Nossos resultados demonstram que modelos multimodais de grande escala (LMMs), especificamente o GPT-4V, se destacam na navegação zero-shot em GUI por meio de suas capacidades avançadas de interpretação de tela, raciocínio de ações e localização precisa de ações. Primeiro, avaliamos o MM-Navigator em nosso conjunto de dados de telas iOS coletado. De acordo com avaliações humanas, o sistema exibiu uma taxa de precisão de 91% na geração de descrições de ações razoáveis e uma taxa de precisão de 75% na execução das ações corretas para instruções de etapa única no iOS. Além disso, avaliamos o modelo em um subconjunto de um conjunto de dados de navegação em telas Android, onde o modelo supera navegadores de GUI anteriores de forma zero-shot. Nossa avaliação e análises detalhadas visam estabelecer uma base sólida para pesquisas futuras na tarefa de navegação em GUI. A página do projeto está disponível em https://github.com/zzxslp/MM-Navigator.
Apresentamos o SPHINX, um modelo de linguagem multimodal de grande escala (MLLM) versátil com uma combinação conjunta de pesos do modelo, tarefas de ajuste e embeddings visuais. Primeiro, para um alinhamento mais forte entre visão e linguagem, descongelamos o modelo de linguagem de grande escala (LLM) durante o pré-treinamento e introduzimos uma estratégia de mistura de pesos entre LLMs treinados com dados do mundo real e sintéticos. Ao integrar diretamente os pesos dos dois domínios, o LLM misturado pode incorporar eficientemente semânticas diversas com robustez favorável. Em seguida, para habilitar capacidades multipropósito, misturamos uma variedade de tarefas para ajuste conjunto de instruções visuais e projetamos instruções específicas para cada tarefa, evitando conflitos entre elas. Além da resposta básica a perguntas visuais, incluímos tarefas mais desafiadoras, como compreensão em nível de região, ancoragem de legendas, detecção de layout de documentos e estimativa de pose humana, contribuindo para o aprimoramento mútuo em diferentes cenários. Adicionalmente, propomos extrair embeddings visuais abrangentes de várias arquiteturas de rede, paradigmas de pré-treinamento e granularidades de informação, fornecendo aos modelos de linguagem representações de imagem mais robustas. Com base na nossa proposta de mistura conjunta, o SPHINX exibe capacidades superiores de compreensão multimodal em uma ampla gama de aplicações. Além disso, propomos uma estratégia eficiente visando capturar melhor as aparências detalhadas de imagens de alta resolução. Com uma mistura de diferentes escalas e subimagens de alta resolução, o SPHINX alcança desempenho excepcional em análise visual e raciocínio nos benchmarks de avaliação existentes. Esperamos que nosso trabalho possa lançar luz sobre a exploração da mistura conjunta em futuras pesquisas de MLLM. O código está disponível em https://github.com/Alpha-VLLM/LLaMA2-Accessory.
Recentemente, houve um avanço rápido nas pesquisas sobre Modelos de Linguagem de Grande Escala (LLMs), resultando em progresso significativo em várias tarefas de Processamento de Linguagem Natural (NLP). Consequentemente, houve um aumento nas pesquisas de avaliação de LLMs para compreender as capacidades e limitações desses modelos. No entanto, grande parte dessa pesquisa tem sido limitada ao idioma inglês, deixando a construção e avaliação de LLMs para idiomas não ingleses relativamente inexploradas. Houve a introdução de vários novos LLMs, tornando necessária sua avaliação em idiomas não ingleses. Este estudo visa expandir nosso conjunto de benchmarks MEGA, incluindo seis novos conjuntos de dados para formar o benchmark MEGAVERSE. O benchmark compreende 22 conjuntos de dados que abrangem 81 idiomas, incluindo línguas africanas de baixo recurso. Avaliamos vários LLMs de última geração, como GPT-3.5-Turbo, GPT4, PaLM2 e Llama2, nos conjuntos de dados do MEGAVERSE. Além disso, incluímos dois conjuntos de dados multimodais no benchmark e avaliamos o desempenho do modelo LLaVa-v1.5. Nossos experimentos sugerem que GPT4 e PaLM2 superam os modelos Llama em várias tarefas, especialmente em línguas de baixo recurso, com GPT4 superando PaLM2 em mais conjuntos de dados do que o contrário. No entanto, questões como a contaminação de dados devem ser abordadas para obter uma avaliação precisa do desempenho dos LLMs em idiomas não ingleses.
Nos últimos anos, avanços revolucionários no processamento de linguagem natural culminaram no surgimento de poderosos modelos de linguagem de grande escala (LLMs), que demonstraram capacidades notáveis em uma vasta gama de domínios, incluindo a compreensão, geração e tradução de linguagem natural, e até mesmo tarefas que vão além do processamento de linguagem. Neste relatório, exploramos o desempenho dos LLMs no contexto da descoberta científica, com foco no GPT-4, o modelo de linguagem mais avançado atualmente. Nossa investigação abrange uma diversidade de áreas científicas, incluindo descoberta de fármacos, biologia, química computacional (teoria do funcional da densidade (DFT) e dinâmica molecular (MD)), design de materiais e equações diferenciais parciais (PDE). Avaliar o GPT-4 em tarefas científicas é crucial para revelar seu potencial em diversos domínios de pesquisa, validar sua expertise específica em áreas científicas, acelerar o progresso científico, otimizar a alocação de recursos, orientar o desenvolvimento futuro de modelos e promover pesquisas interdisciplinares. Nossa metodologia de exploração consiste principalmente em avaliações de casos conduzidas por especialistas, que oferecem insights qualitativos sobre a compreensão do modelo de conceitos e relações científicas complexas, e ocasionalmente em testes de benchmark, que avaliam quantitativamente a capacidade do modelo de resolver problemas bem definidos em domínios específicos. Nossa exploração preliminar indica que o GPT-4 exibe um potencial promissor para uma variedade de aplicações científicas, demonstrando sua aptidão para lidar com tarefas complexas de resolução de problemas e integração de conhecimento. De modo geral, avaliamos a base de conhecimento do GPT-4, sua compreensão científica, habilidades de cálculo numérico científico e diversas capacidades de previsão científica.
Modelos de linguagem de grande escala (LLMs) são treinados em corpora de escala web que inevitavelmente incluem informações factuais contraditórias provenientes de fontes com diferentes níveis de confiabilidade. Neste artigo, propomos medir uma propriedade dos LLMs chamada alinhamento com fontes confiáveis (TSA, na sigla em inglês): a propensão do modelo em se alinhar com conteúdo produzido por publicações confiáveis diante de incerteza ou controvérsia. Apresentamos o FactCheckQA, um conjunto de dados de avaliação de TSA baseado em um corpus de artigos de verificação de fatos. Descrevemos um protocolo simples para avaliar o TSA e oferecemos uma análise detalhada de considerações de design, incluindo extração de respostas, contextualização de afirmações e viés na formulação de prompts. Aplicando o protocolo ao PaLM-2, descobrimos que, à medida que aumentamos o tamanho do modelo, o desempenho no FactCheckQA melhora de uma precisão balanceada próxima ao acaso para até 80% no alinhamento com fontes confiáveis.
A geração condicional de layouts gráficos, que mapeia automaticamente as restrições do usuário para layouts de alta qualidade, tem atraído ampla atenção atualmente. Embora trabalhos recentes tenham alcançado desempenhos promissores, a falta de versatilidade e eficiência de dados dificulta suas aplicações práticas. Neste trabalho, propomos o LayoutPrompter, que aproveita modelos de linguagem de grande escala (LLMs) para abordar os problemas acima por meio de aprendizado em contexto. O LayoutPrompter é composto por três componentes principais: serialização de entrada-saída, seleção dinâmica de exemplos e classificação de layouts. Especificamente, o componente de serialização de entrada-saída projeta meticulosamente os formatos de entrada e saída para cada tarefa de geração de layout. A seleção dinâmica de exemplos é responsável por escolher os exemplos de prompt mais úteis para uma determinada entrada. E um classificador de layouts é usado para selecionar o layout de mais alta qualidade entre múltiplas saídas dos LLMs. Realizamos experimentos em todas as tarefas existentes de geração de layout usando quatro conjuntos de dados públicos. Apesar da simplicidade de nossa abordagem, os resultados experimentais mostram que o LayoutPrompter pode competir ou até superar as abordagens state-of-the-art nessas tarefas sem qualquer treinamento ou ajuste de modelo. Isso demonstra a eficácia dessa abordagem versátil e livre de treinamento. Além disso, os estudos de ablação mostram que o LayoutPrompter é significativamente superior à linha de base baseada em treinamento em um regime de baixo volume de dados, indicando ainda mais a eficiência de dados do LayoutPrompter. Nosso projeto está disponível em https://github.com/microsoft/LayoutGeneration/tree/main/LayoutPrompter.
Modelos de linguagem de grande escala (LLMs), como T0, FLAN e OPT-IML, destacam-se na execução de múltiplas tarefas sob um paradigma unificado de seguimento de instruções, onde também exibem habilidades notáveis de generalização para tarefas não vistas. Apesar de seu desempenho impressionante, esses LLMs, com tamanhos que variam de vários bilhões a centenas de bilhões de parâmetros, demandam recursos computacionais substanciais, tornando seu treinamento e inferência caros e ineficientes. Além disso, adaptar esses modelos para aplicações downstream, particularmente tarefas complexas, muitas vezes é inviável devido aos extensos requisitos de hardware para ajuste fino, mesmo ao utilizar abordagens eficientes em parâmetros, como o ajuste de prompts. Adicionalmente, os LLMs multitarefa mais poderosos, como OPT-IML-175B e FLAN-PaLM-540B, não são publicamente acessíveis, limitando severamente seu potencial de personalização. Para enfrentar esses desafios, introduzimos um pequeno avaliador pré-treinado, Cappy, projetado para melhorar o desempenho e a eficiência de LLMs multitarefa. Com apenas 360 milhões de parâmetros, Cappy funciona de forma independente em tarefas de classificação ou serve como um componente auxiliar para LLMs, impulsionando seu desempenho. Além disso, Cappy permite integrar eficientemente supervisão downstream sem a necessidade de ajuste fino do LLM nem acesso aos seus parâmetros. Nossos experimentos demonstram que, ao trabalhar de forma independente em 11 tarefas de compreensão de linguagem do PromptSource, Cappy supera LLMs que são várias ordens de magnitude maiores. Além disso, em 45 tarefas complexas do BIG-Bench, Cappy aumenta significativamente o desempenho do avançado LLM multitarefa, FLAN-T5. Adicionalmente, Cappy é flexível para cooperar com outras adaptações de LLM, incluindo ajuste fino e aprendizado em contexto, oferecendo um aprimoramento adicional de desempenho.
Neste trabalho, estendemos o modelo Llama-2 ajustado por instruções com capacidades de processamento e raciocínio de fala de propósito geral de ponta a ponta, mantendo a ampla gama de capacidades dos LLMs, sem o uso de dados pareados cuidadosamente curados. O modelo proposto pode utilizar prompts de áudio como substitutos para texto e sustentar uma conversa. Tal modelo também possui capacidades multimodais estendidas, como a capacidade de realizar respostas a perguntas de fala, tradução de fala e resumo de áudio, entre muitas outras tarefas de domínio fechado e aberto. Isso difere de abordagens anteriores em fala, nas quais LLMs são estendidos para lidar com áudio em um número limitado de tarefas pré-designadas. Experimentos mostram que nossa abordagem de ponta a ponta é comparável ou supera um sistema em cascata (reconhecedor de fala + LLM) em termos de modelagem da resposta a um prompt. Além disso, diferentemente de uma cascata, nossa abordagem demonstra a capacidade de intercambiar modalidades de texto e áudio e utilizar o contexto anterior em uma conversa para fornecer resultados melhores.
Apresentamos e estudamos o problema da aritmética adversária, que oferece um ambiente simples, porém desafiador, para o alinhamento de modelos de linguagem. Esse problema consiste em questões aritméticas formuladas em linguagem natural, com uma string adversária arbitrária inserida antes que a questão seja concluída. Mesmo no cenário simples de problemas de adição com 1 dígito, é fácil encontrar prompts adversários que fazem com que todos os modelos testados (incluindo PaLM2, GPT4 e Claude2) se comportem de forma inadequada, e até mesmo direcionar os modelos para uma resposta errada específica. Além disso, fornecemos um algoritmo simples para encontrar ataques bem-sucedidos consultando esses mesmos modelos, que denominamos "amostragem por rejeição de inversão de prompt" (PIRS, na sigla em inglês). Por fim, demonstramos que os modelos podem ser parcialmente fortalecidos contra esses ataques por meio de aprendizado por reforço e de loops constitucionais agentivos. No entanto, não conseguimos tornar um modelo de linguagem completamente robusto contra ataques de aritmética adversária.