HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

9 papers found

IP-Adapter: Adaptador de Prompt de Imagem Compatível com Texto para Modelos de Difusão Texto-para-Imagem
IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models

Aug 13

ByHu Ye, Jun Zhang, Sibo Liu, Xiao Han, Wei Yang

Nos últimos anos, testemunhamos o forte poder dos grandes modelos de difusão de texto para imagem devido à impressionante capacidade generativa de criar imagens de alta fidelidade. No entanto, é bastante desafiador gerar imagens desejadas usando apenas prompts de texto, pois frequentemente envolve uma engenharia de prompts complexa. Uma alternativa ao prompt de texto é o prompt de imagem, como diz o ditado: "uma imagem vale mais que mil palavras". Embora os métodos existentes de ajuste fino direto a partir de modelos pré-treinados sejam eficazes, eles exigem grandes recursos computacionais e não são compatíveis com outros modelos base, prompts de texto e controles estruturais. Neste artigo, apresentamos o IP-Adapter, um adaptador eficiente e leve para capacitar modelos de difusão de texto para imagem pré-treinados com a funcionalidade de prompt de imagem. O design principal do nosso IP-Adapter é um mecanismo de atenção cruzada desacoplado que separa camadas de atenção cruzada para características de texto e de imagem. Apesar da simplicidade do nosso método, um IP-Adapter com apenas 22M de parâmetros pode alcançar desempenho comparável ou até superior ao de um modelo de prompt de imagem totalmente ajustado. Como congelamos o modelo de difusão pré-treinado, o IP-Adapter proposto pode ser generalizado não apenas para outros modelos personalizados ajustados a partir do mesmo modelo base, mas também para geração controlada usando ferramentas controláveis existentes. Com o benefício da estratégia de atenção cruzada desacoplada, o prompt de imagem também pode funcionar bem com o prompt de texto para alcançar geração de imagem multimodal. A página do projeto está disponível em https://ip-adapter.github.io.

OctoPack: Ajuste de Instruções para Modelos de Linguagem de Grande Escala em Código
OctoPack: Instruction Tuning Code Large Language Models

Aug 14

ByNiklas Muennighoff, Qian Liu, Armel Zebaze, Qinkai Zheng, Binyuan Hui, Terry Yue Zhuo, Swayam Singh, Xiangru Tang, Leandro von Werra, Shayne Longpre

O ajuste fino de grandes modelos de linguagem (LLMs) em instruções resulta em melhorias significativas de desempenho em tarefas de linguagem natural. Aplicamos o ajuste por instrução utilizando código, aproveitando a estrutura natural dos commits do Git, que associam alterações de código a instruções humanas. Compilamos o CommitPack: 4 terabytes de commits do Git em 350 linguagens de programação. Avaliamos o CommitPack em comparação com outras instruções de código naturais e sintéticas (xP3x, Self-Instruct, OASST) no modelo StarCoder de 16 bilhões de parâmetros, e alcançamos desempenho de ponta entre modelos não treinados em saídas da OpenAI, no benchmark HumanEval para Python (46,2% pass@1). Além disso, introduzimos o HumanEvalPack, expandindo o benchmark HumanEval para um total de 3 tarefas de codificação (Reparo de Código, Explicação de Código, Síntese de Código) em 6 linguagens (Python, JavaScript, Java, Go, C++, Rust). Nossos modelos, OctoCoder e OctoGeeX, alcançam o melhor desempenho em todo o HumanEvalPack entre todos os modelos permissivos, demonstrando os benefícios do CommitPack na generalização para um conjunto mais amplo de linguagens e tarefas de codificação natural. Código, modelos e dados estão disponíveis gratuitamente em https://github.com/bigcode-project/octopack.

SpeechX: Modelo de Linguagem Neural Codec como um Transformador de Fala Versátil
SpeechX: Neural Codec Language Model as a Versatile Speech Transformer

Aug 14

ByXiaofei Wang, Manthan Thakker, Zhuo Chen, Naoyuki Kanda, Sefik Emre Eskimez, Sanyuan Chen, Min Tang, Shujie Liu, Jinyu Li, Takuya Yoshioka

Os recentes avanços em modelos generativos de fala baseados em prompts de áudio-texto têm possibilitado inovações notáveis, como a síntese de fala de alta qualidade em zero-shot. No entanto, os modelos existentes ainda enfrentam limitações ao lidar com diversas tarefas de geração de fala a partir de áudio-texto, envolvendo a transformação de fala de entrada e o processamento de áudio capturado em condições acústicas adversas. Este artigo apresenta o SpeechX, um modelo versátil de geração de fala capaz de realizar TTS em zero-shot e diversas tarefas de transformação de fala, lidando tanto com sinais limpos quanto com ruidosos. O SpeechX combina modelagem de linguagem de codec neural com aprendizado multitarefa usando prompts dependentes da tarefa, permitindo uma modelagem unificada e extensível e fornecendo uma maneira consistente de aproveitar a entrada textual em tarefas de aprimoramento e transformação de fala. Os resultados experimentais mostram a eficácia do SpeechX em várias tarefas, incluindo TTS em zero-shot, supressão de ruído, extração de falante alvo, remoção de fala e edição de fala com ou sem ruído de fundo, alcançando desempenho comparável ou superior a modelos especializados em todas as tarefas. Veja https://aka.ms/speechx para amostras de demonstração.

Platypus: Refinamento Rápido, Econômico e Poderoso de LLMs
Platypus: Quick, Cheap, and Powerful Refinement of LLMs

Aug 14

ByAriel N. Lee, Cole J. Hunter, Nataniel Ruiz

Apresentamos o Platypus, uma família de modelos de linguagem de grande escala (LLMs) ajustados e combinados que alcança o melhor desempenho e atualmente ocupa o primeiro lugar no Open LLM Leaderboard da HuggingFace na data de lançamento deste trabalho. Neste trabalho, descrevemos (1) nosso conjunto de dados curado Open-Platypus, que é um subconjunto de outros conjuntos de dados abertos e que disponibilizamos publicamente, (2) nosso processo de ajuste fino e combinação de módulos LoRA para preservar o forte conhecimento prévio dos LLMs pré-treinados, ao mesmo tempo em que trazemos conhecimentos específicos de domínio à tona, e (3) nossos esforços em verificar vazamentos de dados de teste e contaminação nos dados de treinamento, o que pode informar pesquisas futuras. Especificamente, a família Platypus alcança um desempenho robusto em métricas quantitativas de LLMs em diferentes tamanhos de modelos, liderando o Open LLM Leaderboard global enquanto utiliza apenas uma fração dos dados de ajuste fino e do poder computacional necessários para outros LLMs ajustados de ponta. Em particular, um modelo Platypus de 13B pode ser treinado em uma única GPU A100 usando 25 mil perguntas em 5 horas. Isso é um testemunho da qualidade do nosso conjunto de dados Open-Platypus e abre oportunidades para mais melhorias no campo. Página do projeto: https://platypus-llm.github.io

O CausalLM não é ideal para aprendizado em contexto.
CausalLM is not optimal for in-context learning

Aug 14

ByNan Ding, Tomer Levinboim, Jialin Wu, Sebastian Goodman, Radu Soricut

Evidências empíricas recentes indicam que o aprendizado em contexto baseado em transformers apresenta melhor desempenho ao utilizar um modelo de linguagem com prefixo (prefixLM), no qual as amostras em contexto podem atender umas às outras, em comparação com modelos de linguagem causais (causalLM), que utilizam atenção autorregressiva que impede as amostras em contexto de atenderem a amostras futuras. Embora esse resultado seja intuitivo, ele não é compreendido de uma perspectiva teórica. Neste artigo, adotamos uma abordagem teórica e analisamos o comportamento de convergência do prefixLM e do causalLM sob uma determinada construção de parâmetros. Nossa análise mostra que ambos os tipos de LM convergem para seus pontos estacionários a uma taxa linear, mas, enquanto o prefixLM converge para a solução ótima da regressão linear, a dinâmica de convergência do causalLM segue a de um algoritmo de descida de gradiente online, que não é garantido ser ótimo, mesmo com o número de amostras crescendo infinitamente. Complementamos nossas afirmações teóricas com experimentos empíricos em tarefas sintéticas e reais, utilizando diversos tipos de transformers. Nossos experimentos verificam que o causalLM consistentemente tem desempenho inferior ao prefixLM em todos os cenários.

RestoreFormer++: Rumando à Restauração de Faces Cegas no Mundo Real a partir de Pares Chave-Valor Não Degradados
RestoreFormer++: Towards Real-World Blind Face Restoration from Undegraded Key-Value Pairs

Aug 14

ByZhouxia Wang, Jiawei Zhang, Tianshui Chen, Wenping Wang, Ping Luo

A restauração cega de faces visa recuperar imagens faciais de alta qualidade a partir daquelas com degradações desconhecidas. Os algoritmos atuais introduzem principalmente prioridades para complementar detalhes de alta qualidade e alcançam progressos impressionantes. No entanto, a maioria desses algoritmos ignora informações contextuais abundantes na face e sua interação com as prioridades, resultando em desempenho subótimo. Além disso, eles dão menos atenção à lacuna entre os cenários sintéticos e os do mundo real, limitando a robustez e a generalização para aplicações do mundo real. Neste trabalho, propomos o RestoreFormer++, que, por um lado, introduz mecanismos de atenção totalmente espacial para modelar as informações contextuais e a interação com as prioridades, e, por outro lado, explora um modelo de degradação estendido para ajudar a gerar imagens faciais degradadas mais realistas, a fim de aliviar a lacuna entre o sintético e o mundo real. Em comparação com os algoritmos atuais, o RestoreFormer++ apresenta vários benefícios cruciais. Primeiro, em vez de usar um mecanismo de autoatenção multi-cabeça como o transformador visual tradicional, introduzimos a atenção cruzada multi-cabeça sobre características multi-escala para explorar completamente as interações espaciais entre informações corrompidas e prioridades de alta qualidade. Dessa forma, ele pode facilitar o RestoreFormer++ a restaurar imagens faciais com maior realismo e fidelidade. Segundo, em contraste com o dicionário orientado para reconhecimento, aprendemos um dicionário orientado para reconstrução como prioridades, que contém detalhes faciais de alta qualidade mais diversos e está mais alinhado com o objetivo de restauração. Terceiro, introduzimos um modelo de degradação estendido que contém cenários degradados mais realistas para a síntese de dados de treinamento, ajudando assim a melhorar a robustez e a generalização do nosso modelo RestoreFormer++. Experimentos extensivos mostram que o RestoreFormer++ supera os algoritmos state-of-the-art tanto em conjuntos de dados sintéticos quanto do mundo real.

Jurassic World Remake: Revivendo Fósseis Antigos através da Tradução de Imagem para Imagem de Longo Alcance com Zero-Shot
Jurassic World Remake: Bringing Ancient Fossils Back to Life via Zero-Shot Long Image-to-Image Translation

Aug 14

ByAlexander Martin, Haitian Zheng, Jie An, Jiebo Luo

Com um profundo entendimento do domínio alvo a partir da linguagem natural, produzimos resultados promissores na tradução através de grandes lacunas de domínio e na reconstrução de esqueletos. Neste trabalho, utilizamos modelos de difusão latente guiados por texto para tradução zero-shot de imagem para imagem (I2I) através de grandes lacunas de domínio (longI2I), onde grandes quantidades de novas características visuais e nova geometria precisam ser geradas para entrar no domínio alvo. A capacidade de realizar traduções através de grandes lacunas de domínio tem uma ampla variedade de aplicações no mundo real em criminologia, astrologia, conservação ambiental e paleontologia. Neste trabalho, introduzimos uma nova tarefa, Skull2Animal, para tradução entre crânios e animais vivos. Nesta tarefa, descobrimos que Redes Generativas Adversariais (GANs) não guiadas não são capazes de traduzir através de grandes lacunas de domínio. Em vez desses métodos tradicionais de I2I, exploramos o uso de modelos de difusão guiada e edição de imagens e fornecemos um novo modelo de referência, Revive-2I, capaz de realizar I2I zero-shot por meio de modelos de difusão latente com prompts de texto. Descobrimos que a orientação é necessária para longI2I porque, para superar a grande lacuna de domínio, é necessário conhecimento prévio sobre o domínio alvo. Além disso, descobrimos que o uso de prompts fornece a melhor e mais escalável informação sobre o domínio alvo, já que modelos de difusão guiados por classificador exigem retreinamento para casos de uso específicos e carecem de restrições mais fortes sobre o domínio alvo devido à grande variedade de imagens em que são treinados.

VisIT-Bench: Um Benchmark para Seguimento de Instruções Visuais e Linguísticas Inspirado em Usos do Mundo Real
VisIT-Bench: A Benchmark for Vision-Language Instruction Following Inspired by Real-World Use

Aug 12

ByYonatan Bitton, Hritik Bansal, Jack Hessel, Rulin Shao, Wanrong Zhu, Anas Awadalla, Josh Gardner, Rohan Taori, Ludwig Schimdt

Apresentamos o VisIT-Bench (Visual InsTruction Benchmark), um benchmark para avaliação de modelos de linguagem-visual ajustados por instruções, destinados a uso no mundo real. Nosso ponto de partida é a curadoria de 70 'famílias de instruções' que imaginamos que modelos de linguagem-visual ajustados por instruções deveriam ser capazes de abordar. Indo além de avaliações como VQAv2 e COCO, as tarefas variam desde reconhecimento básico até jogos e geração criativa. Após a curadoria, nosso conjunto de dados compreende 592 consultas de teste, cada uma com uma legenda condicionada por instrução, escrita por humanos. Essas descrições destacam fatores específicos da instrução; por exemplo, para uma instrução que pergunta sobre a acessibilidade de uma loja para usuários de cadeiras de rodas, a legenda condicionada por instrução descreve rampas/possíveis obstáculos. Essas descrições permitem 1) coletar saídas de referência verificadas por humanos para cada instância; e 2) avaliação automática de gerações multimodais candidatas usando um LLM apenas de texto, alinhado com o julgamento humano. Quantificamos as lacunas de qualidade entre modelos e referências usando avaliações humanas e automáticas; por exemplo, o modelo de melhor desempenho em seguir instruções vence a referência GPT-4 em apenas 27% das comparações. O VisIT-Bench é dinâmico para participação, os profissionais simplesmente enviam a resposta de seu modelo no site do projeto; Dados, código e a tabela de classificação estão disponíveis em visit-bench.github.io.

O Diabo Está nos Erros: Aproveitando Modelos de Linguagem de Grande Escala para Avaliação Fina de Tradução Automática
The Devil is in the Errors: Leveraging Large Language Models for Fine-grained Machine Translation Evaluation

Aug 14

ByPatrick Fernandes, Daniel Deutsch, Mara Finkelstein, Parker Riley, André F. T. Martins, Graham Neubig, Ankush Garg, Jonathan H. Clark, Markus Freitag, Orhan Firat

A avaliação automática de tradução automática (TA) é uma ferramenta crucial que impulsiona o desenvolvimento iterativo rápido de sistemas de TA. Embora tenham sido feitos progressos consideráveis na estimativa de uma única pontuação escalar de qualidade, as métricas atuais carecem da informatividade de esquemas mais detalhados que anotam erros individuais, como as Métricas de Qualidade Multidimensional (MQM, na sigla em inglês). Neste artigo, ajudamos a preencher essa lacuna propondo o AutoMQM, uma técnica de *prompting* que aproveita as capacidades de raciocínio e aprendizado em contexto de modelos de linguagem de grande escala (LLMs, na sigla em inglês) e os solicita a identificar e categorizar erros em traduções. Começamos avaliando LLMs recentes, como PaLM e PaLM-2, por meio de *prompts* simples para previsão de pontuação, e estudamos o impacto de dados rotulados por meio de aprendizado em contexto e ajuste fino (*finetuning*). Em seguida, avaliamos o AutoMQM com modelos PaLM-2 e descobrimos que ele melhora o desempenho em comparação com a simples solicitação de pontuações (com ganhos particularmente grandes para modelos maiores), ao mesmo tempo que fornece interpretabilidade por meio de *spans* de erros que se alinham com anotações humanas.

RestoreFormer++: Rumando à Restauração de Faces Cegas no Mundo Real a partir de Pares Chave-Valor Não Degradados
RestoreFormer++: Towards Real-World Blind Face Restoration from Undegraded Key-Value Pairs

Aug 14

ByZhouxia Wang, Jiawei Zhang, Tianshui Chen, Wenping Wang, Ping Luo