HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

8 papers found

O Escolhido: Personagens Consistentes em Modelos de Difusão de Texto para Imagem
The Chosen One: Consistent Characters in Text-to-Image Diffusion Models

Nov 16

ByOmri Avrahami, Amir Hertz, Yael Vinker, Moab Arar, Shlomi Fruchter, Ohad Fried, Daniel Cohen-Or, Dani Lischinski

Os recentes avanços nos modelos de geração de texto para imagem desbloquearam um vasto potencial para a criatividade visual. No entanto, esses modelos enfrentam dificuldades na geração de personagens consistentes, um aspecto crucial para diversas aplicações do mundo real, como visualização de histórias, design de assets para desenvolvimento de jogos, publicidade e mais. Os métodos atuais geralmente dependem de múltiplas imagens pré-existentes do personagem alvo ou envolvem processos manuais intensivos. Neste trabalho, propomos uma solução totalmente automatizada para a geração de personagens consistentes, com o único input sendo um prompt de texto. Introduzimos um procedimento iterativo que, em cada etapa, identifica um conjunto coerente de imagens que compartilham uma identidade semelhante e extrai uma identidade mais consistente desse conjunto. Nossa análise quantitativa demonstra que nosso método alcança um equilíbrio melhor entre o alinhamento ao prompt e a consistência da identidade em comparação com os métodos de base, e esses achados são reforçados por um estudo com usuários. Para concluir, apresentamos várias aplicações práticas da nossa abordagem. A página do projeto está disponível em https://omriavrahami.com/the-chosen-one.

UFOGen: Geração de Imagens em Grande Escala a partir de Texto com Propagação Única via Diffusion GANs
UFOGen: You Forward Once Large Scale Text-to-Image Generation via Diffusion GANs

Nov 14

ByYanwu Xu, Yang Zhao, Zhisheng Xiao, Tingbo Hou

Modelos de difusão texto-imagem demonstraram capacidades notáveis na transformação de prompts textuais em imagens coerentes, porém o custo computacional de sua inferência permanece um desafio persistente. Para abordar essa questão, apresentamos o UFOGen, um novo modelo generativo projetado para síntese texto-imagem ultrarrápida em uma única etapa. Em contraste com abordagens convencionais que se concentram em melhorar amostradores ou empregar técnicas de destilação para modelos de difusão, o UFOGen adota uma metodologia híbrida, integrando modelos de difusão com um objetivo GAN. Aproveitando um objetivo difusão-GAN recém-introduzido e inicialização com modelos de difusão pré-treinados, o UFOGen se destaca na geração eficiente de imagens de alta qualidade condicionadas a descrições textuais em uma única etapa. Além da geração tradicional texto-imagem, o UFOGen demonstra versatilidade em aplicações. Notavelmente, o UFOGen está entre os modelos pioneiros que permitem a geração texto-imagem em uma única etapa e diversas tarefas subsequentes, representando um avanço significativo no cenário de modelos generativos eficientes. \blfootnote{*Trabalho realizado como pesquisador estudantil da Google, o símbolo de adaga indica contribuição igual.}

Prompting Contrastivo de Cadeia de Pensamento
Contrastive Chain-of-Thought Prompting

Nov 15

ByYew Ken Chia, Guizhen Chen, Luu Anh Tuan, Soujanya Poria, Lidong Bing

Apesar do sucesso da cadeia de pensamento em aprimorar o raciocínio dos modelos de linguagem, o processo subjacente ainda é pouco compreendido. Embora o raciocínio logicamente sólido pareça intrinsecamente crucial para a cadeia de pensamento, estudos anteriores revelam, surpreendentemente, um impacto mínimo ao usar demonstrações inválidas. Além disso, a cadeia de pensamento convencional não informa os modelos de linguagem sobre quais erros evitar, o que potencialmente leva a mais erros. Portanto, inspirados pela forma como os humanos podem aprender com exemplos positivos e negativos, propomos a cadeia de pensamento contrastante para aprimorar o raciocínio dos modelos de linguagem. Em comparação com a cadeia de pensamento convencional, nossa abordagem fornece demonstrações de raciocínio válidas e inválidas, para orientar o modelo a raciocinar passo a passo, reduzindo erros de raciocínio. Para melhorar a generalização, introduzimos um método automático para construir demonstrações contrastantes. Nossos experimentos em benchmarks de raciocínio demonstram que a cadeia de pensamento contrastante pode servir como um aprimoramento geral da técnica de prompting de cadeia de pensamento.

Cascas Adaptativas para Renderização Eficiente de Campos de Radiação Neural
Adaptive Shells for Efficient Neural Radiance Field Rendering

Nov 16

ByZian Wang, Tianchang Shen, Merlin Nimier-David, Nicholas Sharp, Jun Gao, Alexander Keller, Sanja Fidler, Thomas Müller, Zan Gojcic

Campos de radiação neural alcançam qualidade sem precedentes para síntese de novas visões, mas sua formulação volumétrica permanece custosa, exigindo um grande número de amostras para renderizar imagens de alta resolução. Codificações volumétricas são essenciais para representar geometrias difusas, como folhagens e cabelos, e são bem adequadas para otimização estocástica. No entanto, muitas cenas consistem principalmente em superfícies sólidas que podem ser renderizadas com precisão por uma única amostra por pixel. Com base nessa percepção, propomos uma formulação de radiação neural que transita suavemente entre renderização volumétrica e baseada em superfície, acelerando significativamente a velocidade de renderização e até melhorando a fidelidade visual. Nosso método constrói um envelope de malha explícito que delimita espacialmente uma representação volumétrica neural. Em regiões sólidas, o envelope quase converge para uma superfície e pode frequentemente ser renderizado com uma única amostra. Para isso, generalizamos a formulação NeuS com um tamanho de kernel variável espacialmente aprendido, que codifica a dispersão da densidade, ajustando um kernel amplo para regiões semelhantes a volume e um kernel estreito para regiões semelhantes a superfície. Em seguida, extraímos uma malha explícita de uma faixa estreita ao redor da superfície, com largura determinada pelo tamanho do kernel, e ajustamos finamente o campo de radiação dentro dessa faixa. No momento da inferência, lançamos raios contra a malha e avaliamos o campo de radiação apenas dentro da região delimitada, reduzindo drasticamente o número de amostras necessárias. Experimentos mostram que nossa abordagem permite renderização eficiente com fidelidade muito alta. Também demonstramos que o envelope extraído possibilita aplicações subsequentes, como animação e simulação.

Tied-LoRA: Aprimorando a eficiência de parâmetros do LoRA com vinculação de pesos
Tied-Lora: Enhacing parameter efficiency of LoRA with weight tying

Nov 16

ByAdithya Renduchintala, Tugrul Konuk, Oleksii Kuchaiev

Propomos o Tied-LoRA, um paradigma simples que utiliza a vinculação de pesos e o treinamento seletivo para aumentar ainda mais a eficiência de parâmetros do método de adaptação de baixo posto (LoRA). Nossas investigações incluem todas as combinações viáveis de treinamento/congelamento de parâmetros em conjunto com a vinculação de pesos para identificar o equilíbrio ideal entre desempenho e o número de parâmetros treináveis. Por meio de experimentos que abrangem uma variedade de tarefas e dois modelos de linguagem base, fornecemos uma análise que revela as compensações entre eficiência e desempenho. Nossos experimentos revelaram uma configuração específica do Tied-LoRA que se destaca ao demonstrar desempenho comparável em várias tarefas, empregando apenas 13\% dos parâmetros utilizados pelo método LoRA padrão.

ML-Bench: Modelos de Linguagem de Grande Escala Utilizam Bibliotecas de Código Aberto para Tarefas de Aprendizado de Máquina
ML-Bench: Large Language Models Leverage Open-source Libraries for Machine Learning Tasks

Nov 16

ByYuliang Liu, Xiangru Tang, Zefan Cai, Junjie Lu, Yichi Zhang, Yanjun Shao, Zexuan Deng, Helan Hu, Zengxian Yang, Kaikai An, Ruijun Huang, Shuzheng Si, Sheng Chen, Haozhe Zhao, Zhengliang Li, Liang Chen, Yiming Zong, Yan Wang, Tianyu Liu, Zhiwei Jiang, Baobao Chang, Yujia Qin, Wangchunshu Zhou, Yilun Zhao, Arman Cohan, Mark Gerstein

Modelos de linguagem de grande escala têm demonstrado desempenho promissor em benchmarks de geração de código. No entanto, existe uma considerável lacuna entre esses resultados em benchmarks e sua aplicabilidade prática, atribuída principalmente à dependência da programação do mundo real em bibliotecas pré-existentes. Em vez de avaliar modelos de linguagem de grande escala (LLMs) para codificar do zero, este trabalho visa propor uma nova configuração de avaliação em que os LLMs utilizam bibliotecas de código aberto para concluir tarefas de aprendizado de máquina. Portanto, propomos o ML-Bench, um benchmark abrangente desenvolvido para avaliar a eficácia dos LLMs em aproveitar funções existentes em bibliotecas de código aberto. Composto por 10044 amostras abrangendo 130 tarefas em 14 repositórios notáveis de aprendizado de máquina no GitHub. Nesse cenário, dada uma instrução específica de tarefa de aprendizado de máquina e o arquivo README correspondente em uma base de código, um LLM é encarregado de gerar código para realizar a tarefa. Isso exige a compreensão de documentos longos e intercalados com linguagem e código, bem como o entendimento de estruturas de código complexas entre arquivos, introduzindo novos desafios. Notavelmente, embora o GPT-4 exiba uma melhoria notável em relação a outros LLMs, ele consegue concluir apenas 39,73% das tarefas, deixando um grande espaço para melhorias. Abordamos esses desafios propondo o ML-Agent, projetado para navegar eficientemente na base de código, localizar documentação, recuperar código e gerar código executável. Resultados empíricos demonstram que o ML-Agent, construído sobre o GPT-4, resulta em melhorias adicionais. Código, dados e modelos estão disponíveis em https://ml-bench.github.io/.

JaxMARL: Ambientes de Aprendizado por Reforço Multiagente em JAX
JaxMARL: Multi-Agent RL Environments in JAX

Nov 16

ByAlexander Rutherford, Benjamin Ellis, Matteo Gallici, Jonathan Cook, Andrei Lupu, Gardar Ingvarsson, Timon Willi, Akbir Khan, Christian Schroeder de Witt, Alexandra Souly, Saptarashmi Bandyopadhyay, Mikayel Samvelyan, Minqi Jiang, Robert Tjarko Lange, Shimon Whiteson, Bruno Lacerda, Nick Hawes, Tim Rocktaschel, Chris Lu, Jakob Nicolaus Foerster

Os benchmarks desempenham um papel importante no desenvolvimento de algoritmos de aprendizado de máquina. Por exemplo, a pesquisa em aprendizado por reforço (RL, do inglês Reinforcement Learning) tem sido fortemente influenciada pelos ambientes e benchmarks disponíveis. No entanto, os ambientes de RL tradicionalmente são executados na CPU, limitando sua escalabilidade com os recursos computacionais típicos da academia. Avanços recentes no JAX permitiram o uso mais amplo de aceleração de hardware para superar esses obstáculos computacionais, possibilitando pipelines de treinamento e ambientes de RL massivamente paralelos. Isso é particularmente útil para pesquisas em aprendizado por reforço multiagente (MARL, do inglês Multi-Agent Reinforcement Learning). Primeiramente, múltiplos agentes devem ser considerados a cada passo do ambiente, aumentando a carga computacional, e, em segundo lugar, a complexidade de amostragem é maior devido à não estacionariedade, observabilidade parcial descentralizada ou outros desafios do MARL. Neste artigo, apresentamos o JaxMARL, a primeira base de código de código aberto que combina facilidade de uso com eficiência habilitada por GPU, e suporta um grande número de ambientes de MARL comumente utilizados, bem como algoritmos de referência populares. Ao considerar o tempo de execução, nossos experimentos mostram que, por execução, nosso pipeline de treinamento baseado em JAX é até 12500 vezes mais rápido que as abordagens existentes. Isso permite avaliações eficientes e abrangentes, com o potencial de aliviar a crise de avaliação do campo. Também introduzimos e avaliamos o SMAX, uma versão vetorizada e simplificada do popular StarCraft Multi-Agent Challenge, que elimina a necessidade de executar o motor do jogo StarCraft II. Isso não apenas permite a aceleração por GPU, mas também fornece um ambiente de MARL mais flexível, desbloqueando o potencial para auto-jogo, meta-aprendizado e outras aplicações futuras no MARL. Disponibilizamos o código em https://github.com/flairox/jaxmarl.

Disponibilização de Modelos Fundamentais Altamente Capazes: Uma avaliação dos riscos, benefícios e métodos alternativos para alcançar objetivos de código aberto
Open-Sourcing Highly Capable Foundation Models: An evaluation of risks, benefits, and alternative methods for pursuing open-source objectives

Sep 29

ByElizabeth Seger, Noemi Dreksler, Richard Moulange, Emily Dardaman, Jonas Schuett, K. Wei, Christoph Winter, Mackenzie Arnold, Seán Ó hÉigeartaigh, Anton Korinek, Markus Anderljung, Ben Bucknall, Alan Chan, Eoghan Stafford, Leonie Koessler, Aviv Ovadya, Ben Garfinkel, Emma Bluemke, Michael Aird, Patrick Levermore, Julian Hazell, Abhishek Gupta

Decisões recentes de laboratórios líderes em IA de abrir o código de seus modelos ou restringir o acesso a eles têm gerado debates sobre se, e como, modelos de IA cada vez mais capazes devem ser compartilhados. O código aberto em IA geralmente se refere à disponibilização pública e gratuita da arquitetura e dos pesos dos modelos, permitindo que qualquer pessoa os modifique, estude, desenvolva e utilize. Isso oferece vantagens, como possibilitar supervisão externa, acelerar o progresso e descentralizar o controle sobre o desenvolvimento e o uso da IA. No entanto, também apresenta um potencial crescente de uso indevido e consequências não intencionais. Este artigo examina os riscos e benefícios de abrir o código de modelos de base altamente capazes. Embora o código aberto historicamente tenha proporcionado benefícios líquidos substanciais para a maioria dos processos de desenvolvimento de software e IA, argumentamos que, para alguns modelos de base altamente capazes que provavelmente serão desenvolvidos em um futuro próximo, abrir o código pode representar riscos suficientemente extremos para superar os benefícios. Nesses casos, modelos de base altamente capazes não devem ter seu código aberto, pelo menos não inicialmente. Estratégias alternativas, incluindo opções de compartilhamento de modelos que não sejam de código aberto, são exploradas. O artigo conclui com recomendações para desenvolvedores, órgãos de padronização e governos para estabelecer práticas seguras e responsáveis de compartilhamento de modelos e preservar os benefícios do código aberto onde for seguro.

JaxMARL: Ambientes de Aprendizado por Reforço Multiagente em JAX
JaxMARL: Multi-Agent RL Environments in JAX

Nov 16