Artigos de pesquisa em IA selecionados diariamente com traduções
Nos últimos anos, testemunhamos o forte poder dos grandes modelos de difusão de texto para imagem devido à impressionante capacidade generativa de criar imagens de alta fidelidade. No entanto, é bastante desafiador gerar imagens desejadas usando apenas prompts de texto, pois frequentemente envolve uma engenharia de prompts complexa. Uma alternativa ao prompt de texto é o prompt de imagem, como diz o ditado: "uma imagem vale mais que mil palavras". Embora os métodos existentes de ajuste fino direto a partir de modelos pré-treinados sejam eficazes, eles exigem grandes recursos computacionais e não são compatíveis com outros modelos base, prompts de texto e controles estruturais. Neste artigo, apresentamos o IP-Adapter, um adaptador eficiente e leve para capacitar modelos de difusão de texto para imagem pré-treinados com a funcionalidade de prompt de imagem. O design principal do nosso IP-Adapter é um mecanismo de atenção cruzada desacoplado que separa camadas de atenção cruzada para características de texto e de imagem. Apesar da simplicidade do nosso método, um IP-Adapter com apenas 22M de parâmetros pode alcançar desempenho comparável ou até superior ao de um modelo de prompt de imagem totalmente ajustado. Como congelamos o modelo de difusão pré-treinado, o IP-Adapter proposto pode ser generalizado não apenas para outros modelos personalizados ajustados a partir do mesmo modelo base, mas também para geração controlada usando ferramentas controláveis existentes. Com o benefício da estratégia de atenção cruzada desacoplada, o prompt de imagem também pode funcionar bem com o prompt de texto para alcançar geração de imagem multimodal. A página do projeto está disponível em https://ip-adapter.github.io.
O ajuste fino de grandes modelos de linguagem (LLMs) em instruções resulta em melhorias significativas de desempenho em tarefas de linguagem natural. Aplicamos o ajuste por instrução utilizando código, aproveitando a estrutura natural dos commits do Git, que associam alterações de código a instruções humanas. Compilamos o CommitPack: 4 terabytes de commits do Git em 350 linguagens de programação. Avaliamos o CommitPack em comparação com outras instruções de código naturais e sintéticas (xP3x, Self-Instruct, OASST) no modelo StarCoder de 16 bilhões de parâmetros, e alcançamos desempenho de ponta entre modelos não treinados em saídas da OpenAI, no benchmark HumanEval para Python (46,2% pass@1). Além disso, introduzimos o HumanEvalPack, expandindo o benchmark HumanEval para um total de 3 tarefas de codificação (Reparo de Código, Explicação de Código, Síntese de Código) em 6 linguagens (Python, JavaScript, Java, Go, C++, Rust). Nossos modelos, OctoCoder e OctoGeeX, alcançam o melhor desempenho em todo o HumanEvalPack entre todos os modelos permissivos, demonstrando os benefícios do CommitPack na generalização para um conjunto mais amplo de linguagens e tarefas de codificação natural. Código, modelos e dados estão disponíveis gratuitamente em https://github.com/bigcode-project/octopack.
Os recentes avanços em modelos generativos de fala baseados em prompts de áudio-texto têm possibilitado inovações notáveis, como a síntese de fala de alta qualidade em zero-shot. No entanto, os modelos existentes ainda enfrentam limitações ao lidar com diversas tarefas de geração de fala a partir de áudio-texto, envolvendo a transformação de fala de entrada e o processamento de áudio capturado em condições acústicas adversas. Este artigo apresenta o SpeechX, um modelo versátil de geração de fala capaz de realizar TTS em zero-shot e diversas tarefas de transformação de fala, lidando tanto com sinais limpos quanto com ruidosos. O SpeechX combina modelagem de linguagem de codec neural com aprendizado multitarefa usando prompts dependentes da tarefa, permitindo uma modelagem unificada e extensível e fornecendo uma maneira consistente de aproveitar a entrada textual em tarefas de aprimoramento e transformação de fala. Os resultados experimentais mostram a eficácia do SpeechX em várias tarefas, incluindo TTS em zero-shot, supressão de ruído, extração de falante alvo, remoção de fala e edição de fala com ou sem ruído de fundo, alcançando desempenho comparável ou superior a modelos especializados em todas as tarefas. Veja https://aka.ms/speechx para amostras de demonstração.
Apresentamos o Platypus, uma família de modelos de linguagem de grande escala (LLMs) ajustados e combinados que alcança o melhor desempenho e atualmente ocupa o primeiro lugar no Open LLM Leaderboard da HuggingFace na data de lançamento deste trabalho. Neste trabalho, descrevemos (1) nosso conjunto de dados curado Open-Platypus, que é um subconjunto de outros conjuntos de dados abertos e que disponibilizamos publicamente, (2) nosso processo de ajuste fino e combinação de módulos LoRA para preservar o forte conhecimento prévio dos LLMs pré-treinados, ao mesmo tempo em que trazemos conhecimentos específicos de domínio à tona, e (3) nossos esforços em verificar vazamentos de dados de teste e contaminação nos dados de treinamento, o que pode informar pesquisas futuras. Especificamente, a família Platypus alcança um desempenho robusto em métricas quantitativas de LLMs em diferentes tamanhos de modelos, liderando o Open LLM Leaderboard global enquanto utiliza apenas uma fração dos dados de ajuste fino e do poder computacional necessários para outros LLMs ajustados de ponta. Em particular, um modelo Platypus de 13B pode ser treinado em uma única GPU A100 usando 25 mil perguntas em 5 horas. Isso é um testemunho da qualidade do nosso conjunto de dados Open-Platypus e abre oportunidades para mais melhorias no campo. Página do projeto: https://platypus-llm.github.io
Evidências empíricas recentes indicam que o aprendizado em contexto baseado em transformers apresenta melhor desempenho ao utilizar um modelo de linguagem com prefixo (prefixLM), no qual as amostras em contexto podem atender umas às outras, em comparação com modelos de linguagem causais (causalLM), que utilizam atenção autorregressiva que impede as amostras em contexto de atenderem a amostras futuras. Embora esse resultado seja intuitivo, ele não é compreendido de uma perspectiva teórica. Neste artigo, adotamos uma abordagem teórica e analisamos o comportamento de convergência do prefixLM e do causalLM sob uma determinada construção de parâmetros. Nossa análise mostra que ambos os tipos de LM convergem para seus pontos estacionários a uma taxa linear, mas, enquanto o prefixLM converge para a solução ótima da regressão linear, a dinâmica de convergência do causalLM segue a de um algoritmo de descida de gradiente online, que não é garantido ser ótimo, mesmo com o número de amostras crescendo infinitamente. Complementamos nossas afirmações teóricas com experimentos empíricos em tarefas sintéticas e reais, utilizando diversos tipos de transformers. Nossos experimentos verificam que o causalLM consistentemente tem desempenho inferior ao prefixLM em todos os cenários.
A restauração cega de faces visa recuperar imagens faciais de alta qualidade a partir daquelas com degradações desconhecidas. Os algoritmos atuais introduzem principalmente prioridades para complementar detalhes de alta qualidade e alcançam progressos impressionantes. No entanto, a maioria desses algoritmos ignora informações contextuais abundantes na face e sua interação com as prioridades, resultando em desempenho subótimo. Além disso, eles dão menos atenção à lacuna entre os cenários sintéticos e os do mundo real, limitando a robustez e a generalização para aplicações do mundo real. Neste trabalho, propomos o RestoreFormer++, que, por um lado, introduz mecanismos de atenção totalmente espacial para modelar as informações contextuais e a interação com as prioridades, e, por outro lado, explora um modelo de degradação estendido para ajudar a gerar imagens faciais degradadas mais realistas, a fim de aliviar a lacuna entre o sintético e o mundo real. Em comparação com os algoritmos atuais, o RestoreFormer++ apresenta vários benefícios cruciais. Primeiro, em vez de usar um mecanismo de autoatenção multi-cabeça como o transformador visual tradicional, introduzimos a atenção cruzada multi-cabeça sobre características multi-escala para explorar completamente as interações espaciais entre informações corrompidas e prioridades de alta qualidade. Dessa forma, ele pode facilitar o RestoreFormer++ a restaurar imagens faciais com maior realismo e fidelidade. Segundo, em contraste com o dicionário orientado para reconhecimento, aprendemos um dicionário orientado para reconstrução como prioridades, que contém detalhes faciais de alta qualidade mais diversos e está mais alinhado com o objetivo de restauração. Terceiro, introduzimos um modelo de degradação estendido que contém cenários degradados mais realistas para a síntese de dados de treinamento, ajudando assim a melhorar a robustez e a generalização do nosso modelo RestoreFormer++. Experimentos extensivos mostram que o RestoreFormer++ supera os algoritmos state-of-the-art tanto em conjuntos de dados sintéticos quanto do mundo real.
Com um profundo entendimento do domínio alvo a partir da linguagem natural, produzimos resultados promissores na tradução através de grandes lacunas de domínio e na reconstrução de esqueletos. Neste trabalho, utilizamos modelos de difusão latente guiados por texto para tradução zero-shot de imagem para imagem (I2I) através de grandes lacunas de domínio (longI2I), onde grandes quantidades de novas características visuais e nova geometria precisam ser geradas para entrar no domínio alvo. A capacidade de realizar traduções através de grandes lacunas de domínio tem uma ampla variedade de aplicações no mundo real em criminologia, astrologia, conservação ambiental e paleontologia. Neste trabalho, introduzimos uma nova tarefa, Skull2Animal, para tradução entre crânios e animais vivos. Nesta tarefa, descobrimos que Redes Generativas Adversariais (GANs) não guiadas não são capazes de traduzir através de grandes lacunas de domínio. Em vez desses métodos tradicionais de I2I, exploramos o uso de modelos de difusão guiada e edição de imagens e fornecemos um novo modelo de referência, Revive-2I, capaz de realizar I2I zero-shot por meio de modelos de difusão latente com prompts de texto. Descobrimos que a orientação é necessária para longI2I porque, para superar a grande lacuna de domínio, é necessário conhecimento prévio sobre o domínio alvo. Além disso, descobrimos que o uso de prompts fornece a melhor e mais escalável informação sobre o domínio alvo, já que modelos de difusão guiados por classificador exigem retreinamento para casos de uso específicos e carecem de restrições mais fortes sobre o domínio alvo devido à grande variedade de imagens em que são treinados.
Apresentamos o VisIT-Bench (Visual InsTruction Benchmark), um benchmark para avaliação de modelos de linguagem-visual ajustados por instruções, destinados a uso no mundo real. Nosso ponto de partida é a curadoria de 70 'famílias de instruções' que imaginamos que modelos de linguagem-visual ajustados por instruções deveriam ser capazes de abordar. Indo além de avaliações como VQAv2 e COCO, as tarefas variam desde reconhecimento básico até jogos e geração criativa. Após a curadoria, nosso conjunto de dados compreende 592 consultas de teste, cada uma com uma legenda condicionada por instrução, escrita por humanos. Essas descrições destacam fatores específicos da instrução; por exemplo, para uma instrução que pergunta sobre a acessibilidade de uma loja para usuários de cadeiras de rodas, a legenda condicionada por instrução descreve rampas/possíveis obstáculos. Essas descrições permitem 1) coletar saídas de referência verificadas por humanos para cada instância; e 2) avaliação automática de gerações multimodais candidatas usando um LLM apenas de texto, alinhado com o julgamento humano. Quantificamos as lacunas de qualidade entre modelos e referências usando avaliações humanas e automáticas; por exemplo, o modelo de melhor desempenho em seguir instruções vence a referência GPT-4 em apenas 27% das comparações. O VisIT-Bench é dinâmico para participação, os profissionais simplesmente enviam a resposta de seu modelo no site do projeto; Dados, código e a tabela de classificação estão disponíveis em visit-bench.github.io.
A avaliação automática de tradução automática (TA) é uma ferramenta crucial que impulsiona o desenvolvimento iterativo rápido de sistemas de TA. Embora tenham sido feitos progressos consideráveis na estimativa de uma única pontuação escalar de qualidade, as métricas atuais carecem da informatividade de esquemas mais detalhados que anotam erros individuais, como as Métricas de Qualidade Multidimensional (MQM, na sigla em inglês). Neste artigo, ajudamos a preencher essa lacuna propondo o AutoMQM, uma técnica de *prompting* que aproveita as capacidades de raciocínio e aprendizado em contexto de modelos de linguagem de grande escala (LLMs, na sigla em inglês) e os solicita a identificar e categorizar erros em traduções. Começamos avaliando LLMs recentes, como PaLM e PaLM-2, por meio de *prompts* simples para previsão de pontuação, e estudamos o impacto de dados rotulados por meio de aprendizado em contexto e ajuste fino (*finetuning*). Em seguida, avaliamos o AutoMQM com modelos PaLM-2 e descobrimos que ele melhora o desempenho em comparação com a simples solicitação de pontuações (com ganhos particularmente grandes para modelos maiores), ao mesmo tempo que fornece interpretabilidade por meio de *spans* de erros que se alinham com anotações humanas.