Artigos de pesquisa em IA selecionados diariamente com traduções
A marcação d'água nas saídas de modelos generativos é uma técnica crucial para rastrear direitos autorais e prevenir possíveis danos causados por conteúdo gerado por IA. Neste artigo, apresentamos uma nova técnica chamada Marcação d'Água em Anel de Árvore (Tree-Ring Watermarking), que robustamente identifica as saídas de modelos de difusão. Diferente dos métodos existentes que realizam modificações pós-processamento em imagens após a amostragem, a Marcação d'Água em Anel de Árvore influencia sutilmente todo o processo de amostragem, resultando em uma impressão digital do modelo que é invisível aos humanos. A marca d'água incorpora um padrão no vetor de ruído inicial usado para a amostragem. Esses padrões são estruturados no espaço de Fourier para que sejam invariantes a convoluções, cortes, dilatações, inversões e rotações. Após a geração da imagem, o sinal da marca d'água é detectado invertendo o processo de difusão para recuperar o vetor de ruído, que é então verificado quanto ao sinal incorporado. Demonstramos que essa técnica pode ser facilmente aplicada a modelos de difusão arbitrários, incluindo o Stable Diffusion condicionado por texto, como um plug-in com perda insignificante no FID. Nossa marca d'água está semanticamente oculta no espaço da imagem e é muito mais robusta do que as alternativas de marcação d'água atualmente implantadas. O código está disponível em github.com/YuxinWenRick/tree-ring-watermark.
Modelos de linguagem de grande escala (LLMs) baseados em Transformers têm despertado admiração por seu desempenho excepcional em tarefas que exigem raciocínio complexo e multi-etapas. No entanto, esses modelos simultaneamente apresentam falhas em problemas surpreendentemente triviais. Isso levanta a questão: Esses erros são incidentais ou sinalizam limitações mais substanciais? Na tentativa de desmistificar os Transformers, investigamos os limites desses modelos em três tarefas composicionais representativas — multiplicação de múltiplos dígitos, quebra-cabeças de grade lógica e um problema clássico de programação dinâmica. Essas tarefas exigem a decomposição de problemas em subetapas e a síntese dessas etapas em uma resposta precisa. Formulamos tarefas composicionais como grafos de computação para quantificar sistematicamente o nível de complexidade e decompomos etapas de raciocínio em subprocedimentos intermediários. Nossas descobertas empíricas sugerem que os Transformers resolvem tarefas composicionais reduzindo o raciocínio composicional multi-etapas em correspondência linearizada de subgrafos, sem necessariamente desenvolver habilidades sistemáticas de resolução de problemas. Para concluir nosso estudo empírico, apresentamos argumentos teóricos sobre problemas abstratos de raciocínio multi-etapas que destacam como o desempenho dos Transformers decairá rapidamente com o aumento da complexidade da tarefa.
A síntese automática de texto para 3D alcançou avanços notáveis por meio da otimização de modelos 3D. Os métodos existentes geralmente dependem de modelos generativos de texto para imagem pré-treinados, como modelos de difusão, que fornecem pontuações para renderizações 2D de Campos de Radiação Neural (NeRFs) e são utilizados para otimizar NeRFs. No entanto, esses métodos frequentemente encontram artefatos e inconsistências em múltiplas visões devido à sua compreensão limitada da geometria 3D. Para abordar essas limitações, propomos uma reformulação da função de perda de otimização utilizando o prior de difusão. Além disso, introduzimos uma nova abordagem de treinamento que desbloqueia o potencial do prior de difusão. Para melhorar a representação da geometria 3D, aplicamos supervisão auxiliar de profundidade para imagens renderizadas por NeRF e regularizamos o campo de densidade dos NeRFs. Experimentos extensivos demonstram a superioridade do nosso método em relação a trabalhos anteriores, resultando em um foto-realismo avançado e uma consistência multi-visão aprimorada.
Avanços recentes nos modelos de difusão permitiram a geração de imagens de alta fidelidade usando prompts de texto. No entanto, existe uma lacuna de domínio entre as imagens geradas e as imagens do mundo real, o que representa um desafio na geração de variações de alta qualidade de imagens do mundo real. Nossa investigação revela que essa lacuna de domínio origina-se de uma diferença na distribuição de latentes em diferentes processos de difusão. Para resolver esse problema, propomos um novo pipeline de inferência chamado Real-world Image Variation by ALignment (RIVAL), que utiliza modelos de difusão para gerar variações de imagens a partir de um único exemplar de imagem. Nosso pipeline melhora a qualidade da geração de variações de imagens alinhando o processo de geração de imagens à cadeia de inversão da imagem de origem. Especificamente, demonstramos que o alinhamento passo a passo da distribuição latente é essencial para gerar variações de alta qualidade. Para alcançar isso, projetamos uma injeção de auto-atenção entre imagens para interação de características e uma normalização de distribuição passo a passo para alinhar as características latentes. A incorporação desses processos de alinhamento em um modelo de difusão permite que o RIVAL gere variações de imagens de alta qualidade sem a necessidade de otimização adicional de parâmetros. Nossos resultados experimentais demonstram que a abordagem proposta supera os métodos existentes em termos de similaridade de condição semântica e qualidade perceptual. Além disso, esse pipeline de inferência generalizado pode ser facilmente aplicado a outras tarefas de geração baseadas em difusão, como geração de texto para imagem condicionada por imagem e preenchimento de imagens baseado em exemplos.
Os recentes avanços em modelos de difusão de imagem-texto têm estimulado o interesse de pesquisa em modelos generativos 3D em grande escala. No entanto, a disponibilidade limitada de recursos 3D diversos apresenta desafios significativos para o aprendizado. Neste artigo, apresentamos um método inovador para gerar avatares 3D estilizados de alta qualidade, que utiliza modelos de difusão de imagem-texto pré-treinados para geração de dados e uma rede de geração 3D baseada em Generative Adversarial Network (GAN) para treinamento. Nosso método aproveita os priors abrangentes de aparência e geometria oferecidos pelos modelos de difusão de imagem-texto para gerar imagens multi-visão de avatares em vários estilos. Durante a geração de dados, empregamos poses extraídas de modelos 3D existentes para orientar a geração de imagens multi-visão. Para abordar o desalinhamento entre poses e imagens nos dados, investigamos prompts específicos de visão e desenvolvemos um discriminador de granularidade grossa para fina para o treinamento da GAN. Também exploramos prompts relacionados a atributos para aumentar a diversidade dos avatares gerados. Além disso, desenvolvemos um modelo de difusão latente dentro do espaço de estilo do StyleGAN para permitir a geração de avatares com base em entradas de imagem. Nossa abordagem demonstra desempenho superior em relação aos métodos atuais de última geração em termos de qualidade visual e diversidade dos avatares produzidos.
Este artigo apresenta um novo conjunto de dados de fala chamado ``LibriTTS-R'', projetado para uso em síntese de fala (TTS). Ele foi criado aplicando técnicas de restauração de fala ao corpus LibriTTS, que consiste em 585 horas de dados de fala com taxa de amostragem de 24 kHz, provenientes de 2.456 falantes, juntamente com os textos correspondentes. As amostras constituintes do LibriTTS-R são idênticas às do LibriTTS, com apenas a qualidade do som aprimorada. Resultados experimentais mostram que as amostras de referência do LibriTTS-R apresentaram uma qualidade de som significativamente melhorada em comparação com as do LibriTTS. Além disso, sistemas de TTS neural de ponta a ponta treinados com o LibriTTS-R alcançaram uma naturalidade da fala equivalente à das amostras de referência. O corpus está disponível para download gratuito em http://www.openslr.org/141/.
Apresentamos a metodologia de treinamento e os resultados da ampliação do PaLI-X, um modelo multimodal de visão e linguagem, tanto em termos do tamanho dos componentes quanto da abrangência da mistura de tarefas de treinamento. Nosso modelo alcança novos patamares de desempenho em uma ampla gama de tarefas variadas e complexas, incluindo múltiplas tarefas de geração de legendas e questionamento baseadas em imagens, compreensão de documentos baseados em imagens e aprendizado few-shot (em contexto), além de detecção de objetos, questionamento sobre vídeos e geração de legendas para vídeos. O PaLI-X avança o estado da arte na maioria dos benchmarks de visão e linguagem considerados (mais de 25). Por fim, observamos capacidades emergentes, como contagem complexa e detecção de objetos multilingue, tarefas que não estão explicitamente na mistura de treinamento.
Modelos de linguagem de grande escala (LLMs) podem aprender a realizar uma ampla gama de tarefas de linguagem natural a partir de apenas alguns exemplos em contexto. No entanto, para gerar strings de linguagens altamente estruturadas (por exemplo, análise semântica para linguagens específicas de domínio complexas), é desafiador para o LLM generalizar a partir de apenas alguns exemplos. Exploramos o prompting gramatical como uma abordagem simples para permitir que LLMs utilizem conhecimento externo e restrições específicas de domínio, expressas por meio de uma gramática na Forma de Backus-Naur (BNF), durante o aprendizado em contexto. O prompting gramatical aumenta cada exemplo de demonstração com uma gramática especializada que é minimamente suficiente para gerar o exemplo de saída específico, onde a gramática especializada é um subconjunto da gramática completa da DSL. Para inferência, o LLM primeiro prevê uma gramática BNF dado um input de teste e, em seguida, gera a saída de acordo com as regras da gramática. Experimentos demonstram que o prompting gramatical pode permitir que LLMs desempenhem de forma competitiva em um conjunto diversificado de tarefas de geração de DSL, incluindo análise semântica (SMCalFlow, Overnight, GeoQuery), planejamento PDDL e até mesmo geração de moléculas (SMILES).
Modelos de difusão em grande escala têm obtido sucesso em tarefas de síntese de texto para áudio (T2A), mas frequentemente enfrentam problemas comuns, como desalinhamento semântico e consistência temporal inadequada, devido à compreensão limitada da linguagem natural e à escassez de dados. Além disso, estruturas espaciais 2D amplamente utilizadas em trabalhos de T2A resultam em qualidade de áudio insatisfatória ao gerar amostras de áudio de comprimento variável, pois não priorizam adequadamente as informações temporais. Para abordar esses desafios, propomos o Make-an-Audio 2, um método T2A baseado em difusão latente que se baseia no sucesso do Make-an-Audio. Nossa abordagem inclui várias técnicas para melhorar o alinhamento semântico e a consistência temporal: Primeiramente, utilizamos modelos de linguagem de grande escala (LLMs) pré-treinados para analisar o texto em pares estruturados <evento & ordem>, a fim de capturar melhor as informações temporais. Também introduzimos outro codificador de texto estruturado para auxiliar no aprendizado do alinhamento semântico durante o processo de difusão de remoção de ruído. Para melhorar o desempenho na geração de comprimento variável e aprimorar a extração de informações temporais, projetamos um difusor de remoção de ruído baseado em Transformer de avanço direto. Por fim, utilizamos LLMs para aumentar e transformar uma grande quantidade de dados de áudio-rotulado em conjuntos de dados áudio-texto, a fim de aliviar o problema de escassez de dados temporais. Experimentos extensivos mostram que nosso método supera os modelos de referência em métricas objetivas e subjetivas, alcançando ganhos significativos na compreensão de informações temporais, consistência semântica e qualidade sonora.
Propomos um algoritmo automatizado para testar a robustez de um modelo visual treinado por meio da geração de imagens contrafactuais guiadas por linguagem (LANCE). Nosso método aproveita os avanços recentes em modelagem de linguagem em grande escala e edição de imagens baseada em texto para ampliar um conjunto de testes IID com uma variedade de imagens de teste diversificadas, realistas e desafiadoras, sem alterar os pesos do modelo. Avaliamos o desempenho de um conjunto diversificado de modelos pré-treinados em nossos dados gerados e observamos quedas significativas e consistentes no desempenho. Além disso, analisamos a sensibilidade do modelo em diferentes tipos de edições e demonstramos sua aplicabilidade na identificação de vieses de nível de classe previamente desconhecidos no ImageNet.
Problemas envolvendo dados geométricos surgem em uma variedade de áreas, incluindo visão computacional, robótica, química e física. Esses dados podem assumir diversas formas, como pontos, vetores de direção, planos ou transformações, mas até o momento não existe uma única arquitetura que possa ser aplicada a uma ampla variedade de tipos geométricos enquanto respeita suas simetrias. Neste artigo, apresentamos o Geometric Algebra Transformer (GATr), uma arquitetura de propósito geral para dados geométricos. O GATr representa entradas, saídas e estados ocultos na álgebra geométrica projetiva, que oferece uma representação eficiente em um espaço vetorial de 16 dimensões para objetos geométricos comuns, bem como para operadores que atuam sobre eles. O GATr é equivariante em relação a E(3), o grupo de simetria do espaço euclidiano tridimensional. Como um transformer, o GATr é escalável, expressivo e versátil. Em experimentos com modelagem de n-corpos e planejamento robótico, o GATr demonstra melhorias significativas em relação a baselines não geométricos.
Este artigo apresenta um método que pode adaptar rapidamente avatares 3D dinâmicos a descrições textuais arbitrárias de novos estilos. Entre as abordagens existentes para estilização de avatares, métodos de otimização direta podem produzir resultados excelentes para estilos arbitrários, mas são desagradavelmente lentos. Além disso, eles exigem refazer o processo de otimização do zero para cada nova entrada. Métodos de aproximação rápida que utilizam redes feed-forward treinadas em um grande conjunto de dados de imagens de estilo podem gerar resultados para novas entradas rapidamente, mas tendem a não generalizar bem para estilos novos e ficam aquém em qualidade. Portanto, investigamos uma nova abordagem, AlteredAvatar, que combina essas duas abordagens utilizando o framework de meta-aprendizado. No loop interno, o modelo aprende a otimizar para corresponder bem a um único estilo alvo; enquanto no loop externo, o modelo aprende a estilizar de forma eficiente em muitos estilos. Após o treinamento, o AlteredAvatar aprende uma inicialização que pode se adaptar rapidamente, com um pequeno número de passos de atualização, a um novo estilo, que pode ser fornecido por meio de textos, uma imagem de referência ou uma combinação de ambos. Mostramos que o AlteredAvatar pode alcançar um bom equilíbrio entre velocidade, flexibilidade e qualidade, mantendo a consistência em uma ampla gama de novas visualizações e expressões faciais.
Modelos de difusão representam o estado da arte atual em geração de imagens, sintetizando imagens de alta qualidade ao decompor o processo de geração em muitas etapas refinadas de remoção de ruído. Apesar de seu bom desempenho, modelos de difusão são computacionalmente caros, exigindo muitas avaliações de funções neurais (NFEs). Neste trabalho, propomos um método baseado em difusão que pode gerar imagens viáveis quando interrompido em tempos arbitrários antes da conclusão. Utilizando modelos de difusão pré-treinados existentes, mostramos que o esquema de geração pode ser recomposto como dois processos de difusão aninhados, permitindo um refinamento iterativo rápido de uma imagem gerada. Usamos essa abordagem de Difusão Aninhada para observar o processo de geração e permitir um agendamento flexível com base na preferência instantânea do usuário. Em experimentos com ImageNet e geração de texto para imagem baseada em Stable Diffusion, mostramos, tanto qualitativa quanto quantitativamente, que a qualidade intermediária de geração do nosso método supera amplamente a do modelo de difusão original, enquanto o resultado final de geração lenta permanece comparável.
A compreensão de anúncios de imagem é uma tarefa crucial com amplas aplicações no mundo real. Embora altamente desafiadora devido à presença de cenas atípicas diversas, entidades do mundo real e raciocínio sobre textos de cena, a interpretação de anúncios de imagem é relativamente pouco explorada, especialmente na era dos modelos de visão e linguagem (VLMs) fundamentais, que apresentam generalização e adaptabilidade impressionantes. Neste artigo, realizamos o primeiro estudo empírico sobre a compreensão de anúncios de imagem através da lente de VLMs pré-treinados. Avaliamos e revelamos desafios práticos na adaptação desses VLMs para a compreensão de anúncios de imagem. Propomos uma estratégia simples de adaptação de características para fundir efetivamente informações multimodais para anúncios de imagem e aprimorá-la ainda mais com conhecimento de entidades do mundo real. Esperamos que nosso estudo atraia mais atenção para a compreensão de anúncios de imagem, que é amplamente relevante para a indústria publicitária.