Artigos de pesquisa em IA selecionados diariamente com traduções
Os recentes avanços nos modelos de geração de texto para imagem desbloquearam um vasto potencial para a criatividade visual. No entanto, esses modelos enfrentam dificuldades na geração de personagens consistentes, um aspecto crucial para diversas aplicações do mundo real, como visualização de histórias, design de assets para desenvolvimento de jogos, publicidade e mais. Os métodos atuais geralmente dependem de múltiplas imagens pré-existentes do personagem alvo ou envolvem processos manuais intensivos. Neste trabalho, propomos uma solução totalmente automatizada para a geração de personagens consistentes, com o único input sendo um prompt de texto. Introduzimos um procedimento iterativo que, em cada etapa, identifica um conjunto coerente de imagens que compartilham uma identidade semelhante e extrai uma identidade mais consistente desse conjunto. Nossa análise quantitativa demonstra que nosso método alcança um equilíbrio melhor entre o alinhamento ao prompt e a consistência da identidade em comparação com os métodos de base, e esses achados são reforçados por um estudo com usuários. Para concluir, apresentamos várias aplicações práticas da nossa abordagem. A página do projeto está disponível em https://omriavrahami.com/the-chosen-one.
Modelos de difusão texto-imagem demonstraram capacidades notáveis na transformação de prompts textuais em imagens coerentes, porém o custo computacional de sua inferência permanece um desafio persistente. Para abordar essa questão, apresentamos o UFOGen, um novo modelo generativo projetado para síntese texto-imagem ultrarrápida em uma única etapa. Em contraste com abordagens convencionais que se concentram em melhorar amostradores ou empregar técnicas de destilação para modelos de difusão, o UFOGen adota uma metodologia híbrida, integrando modelos de difusão com um objetivo GAN. Aproveitando um objetivo difusão-GAN recém-introduzido e inicialização com modelos de difusão pré-treinados, o UFOGen se destaca na geração eficiente de imagens de alta qualidade condicionadas a descrições textuais em uma única etapa. Além da geração tradicional texto-imagem, o UFOGen demonstra versatilidade em aplicações. Notavelmente, o UFOGen está entre os modelos pioneiros que permitem a geração texto-imagem em uma única etapa e diversas tarefas subsequentes, representando um avanço significativo no cenário de modelos generativos eficientes. \blfootnote{*Trabalho realizado como pesquisador estudantil da Google, o símbolo de adaga indica contribuição igual.}
Apesar do sucesso da cadeia de pensamento em aprimorar o raciocínio dos modelos de linguagem, o processo subjacente ainda é pouco compreendido. Embora o raciocínio logicamente sólido pareça intrinsecamente crucial para a cadeia de pensamento, estudos anteriores revelam, surpreendentemente, um impacto mínimo ao usar demonstrações inválidas. Além disso, a cadeia de pensamento convencional não informa os modelos de linguagem sobre quais erros evitar, o que potencialmente leva a mais erros. Portanto, inspirados pela forma como os humanos podem aprender com exemplos positivos e negativos, propomos a cadeia de pensamento contrastante para aprimorar o raciocínio dos modelos de linguagem. Em comparação com a cadeia de pensamento convencional, nossa abordagem fornece demonstrações de raciocínio válidas e inválidas, para orientar o modelo a raciocinar passo a passo, reduzindo erros de raciocínio. Para melhorar a generalização, introduzimos um método automático para construir demonstrações contrastantes. Nossos experimentos em benchmarks de raciocínio demonstram que a cadeia de pensamento contrastante pode servir como um aprimoramento geral da técnica de prompting de cadeia de pensamento.
Campos de radiação neural alcançam qualidade sem precedentes para síntese de novas visões, mas sua formulação volumétrica permanece custosa, exigindo um grande número de amostras para renderizar imagens de alta resolução. Codificações volumétricas são essenciais para representar geometrias difusas, como folhagens e cabelos, e são bem adequadas para otimização estocástica. No entanto, muitas cenas consistem principalmente em superfícies sólidas que podem ser renderizadas com precisão por uma única amostra por pixel. Com base nessa percepção, propomos uma formulação de radiação neural que transita suavemente entre renderização volumétrica e baseada em superfície, acelerando significativamente a velocidade de renderização e até melhorando a fidelidade visual. Nosso método constrói um envelope de malha explícito que delimita espacialmente uma representação volumétrica neural. Em regiões sólidas, o envelope quase converge para uma superfície e pode frequentemente ser renderizado com uma única amostra. Para isso, generalizamos a formulação NeuS com um tamanho de kernel variável espacialmente aprendido, que codifica a dispersão da densidade, ajustando um kernel amplo para regiões semelhantes a volume e um kernel estreito para regiões semelhantes a superfície. Em seguida, extraímos uma malha explícita de uma faixa estreita ao redor da superfície, com largura determinada pelo tamanho do kernel, e ajustamos finamente o campo de radiação dentro dessa faixa. No momento da inferência, lançamos raios contra a malha e avaliamos o campo de radiação apenas dentro da região delimitada, reduzindo drasticamente o número de amostras necessárias. Experimentos mostram que nossa abordagem permite renderização eficiente com fidelidade muito alta. Também demonstramos que o envelope extraído possibilita aplicações subsequentes, como animação e simulação.
Propomos o Tied-LoRA, um paradigma simples que utiliza a vinculação de pesos e o treinamento seletivo para aumentar ainda mais a eficiência de parâmetros do método de adaptação de baixo posto (LoRA). Nossas investigações incluem todas as combinações viáveis de treinamento/congelamento de parâmetros em conjunto com a vinculação de pesos para identificar o equilíbrio ideal entre desempenho e o número de parâmetros treináveis. Por meio de experimentos que abrangem uma variedade de tarefas e dois modelos de linguagem base, fornecemos uma análise que revela as compensações entre eficiência e desempenho. Nossos experimentos revelaram uma configuração específica do Tied-LoRA que se destaca ao demonstrar desempenho comparável em várias tarefas, empregando apenas 13\% dos parâmetros utilizados pelo método LoRA padrão.
Modelos de linguagem de grande escala têm demonstrado desempenho promissor em benchmarks de geração de código. No entanto, existe uma considerável lacuna entre esses resultados em benchmarks e sua aplicabilidade prática, atribuída principalmente à dependência da programação do mundo real em bibliotecas pré-existentes. Em vez de avaliar modelos de linguagem de grande escala (LLMs) para codificar do zero, este trabalho visa propor uma nova configuração de avaliação em que os LLMs utilizam bibliotecas de código aberto para concluir tarefas de aprendizado de máquina. Portanto, propomos o ML-Bench, um benchmark abrangente desenvolvido para avaliar a eficácia dos LLMs em aproveitar funções existentes em bibliotecas de código aberto. Composto por 10044 amostras abrangendo 130 tarefas em 14 repositórios notáveis de aprendizado de máquina no GitHub. Nesse cenário, dada uma instrução específica de tarefa de aprendizado de máquina e o arquivo README correspondente em uma base de código, um LLM é encarregado de gerar código para realizar a tarefa. Isso exige a compreensão de documentos longos e intercalados com linguagem e código, bem como o entendimento de estruturas de código complexas entre arquivos, introduzindo novos desafios. Notavelmente, embora o GPT-4 exiba uma melhoria notável em relação a outros LLMs, ele consegue concluir apenas 39,73% das tarefas, deixando um grande espaço para melhorias. Abordamos esses desafios propondo o ML-Agent, projetado para navegar eficientemente na base de código, localizar documentação, recuperar código e gerar código executável. Resultados empíricos demonstram que o ML-Agent, construído sobre o GPT-4, resulta em melhorias adicionais. Código, dados e modelos estão disponíveis em https://ml-bench.github.io/.
Os benchmarks desempenham um papel importante no desenvolvimento de algoritmos de aprendizado de máquina. Por exemplo, a pesquisa em aprendizado por reforço (RL, do inglês Reinforcement Learning) tem sido fortemente influenciada pelos ambientes e benchmarks disponíveis. No entanto, os ambientes de RL tradicionalmente são executados na CPU, limitando sua escalabilidade com os recursos computacionais típicos da academia. Avanços recentes no JAX permitiram o uso mais amplo de aceleração de hardware para superar esses obstáculos computacionais, possibilitando pipelines de treinamento e ambientes de RL massivamente paralelos. Isso é particularmente útil para pesquisas em aprendizado por reforço multiagente (MARL, do inglês Multi-Agent Reinforcement Learning). Primeiramente, múltiplos agentes devem ser considerados a cada passo do ambiente, aumentando a carga computacional, e, em segundo lugar, a complexidade de amostragem é maior devido à não estacionariedade, observabilidade parcial descentralizada ou outros desafios do MARL. Neste artigo, apresentamos o JaxMARL, a primeira base de código de código aberto que combina facilidade de uso com eficiência habilitada por GPU, e suporta um grande número de ambientes de MARL comumente utilizados, bem como algoritmos de referência populares. Ao considerar o tempo de execução, nossos experimentos mostram que, por execução, nosso pipeline de treinamento baseado em JAX é até 12500 vezes mais rápido que as abordagens existentes. Isso permite avaliações eficientes e abrangentes, com o potencial de aliviar a crise de avaliação do campo. Também introduzimos e avaliamos o SMAX, uma versão vetorizada e simplificada do popular StarCraft Multi-Agent Challenge, que elimina a necessidade de executar o motor do jogo StarCraft II. Isso não apenas permite a aceleração por GPU, mas também fornece um ambiente de MARL mais flexível, desbloqueando o potencial para auto-jogo, meta-aprendizado e outras aplicações futuras no MARL. Disponibilizamos o código em https://github.com/flairox/jaxmarl.
Decisões recentes de laboratórios líderes em IA de abrir o código de seus modelos ou restringir o acesso a eles têm gerado debates sobre se, e como, modelos de IA cada vez mais capazes devem ser compartilhados. O código aberto em IA geralmente se refere à disponibilização pública e gratuita da arquitetura e dos pesos dos modelos, permitindo que qualquer pessoa os modifique, estude, desenvolva e utilize. Isso oferece vantagens, como possibilitar supervisão externa, acelerar o progresso e descentralizar o controle sobre o desenvolvimento e o uso da IA. No entanto, também apresenta um potencial crescente de uso indevido e consequências não intencionais. Este artigo examina os riscos e benefícios de abrir o código de modelos de base altamente capazes. Embora o código aberto historicamente tenha proporcionado benefícios líquidos substanciais para a maioria dos processos de desenvolvimento de software e IA, argumentamos que, para alguns modelos de base altamente capazes que provavelmente serão desenvolvidos em um futuro próximo, abrir o código pode representar riscos suficientemente extremos para superar os benefícios. Nesses casos, modelos de base altamente capazes não devem ter seu código aberto, pelo menos não inicialmente. Estratégias alternativas, incluindo opções de compartilhamento de modelos que não sejam de código aberto, são exploradas. O artigo conclui com recomendações para desenvolvedores, órgãos de padronização e governos para estabelecer práticas seguras e responsáveis de compartilhamento de modelos e preservar os benefícios do código aberto onde for seguro.