Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos de difusão são a abordagem de fato para gerar imagens e vídeos de alta qualidade, mas aprender modelos de alta dimensão continua sendo uma tarefa formidável devido a desafios computacionais e de otimização. Métodos existentes frequentemente recorrem ao treinamento de modelos em cascata no espaço de pixels ou ao uso de um espaço latente reduzido de um autoencoder treinado separadamente. Neste artigo, introduzimos os Modelos de Difusão Matryoshka (MDM), uma estrutura de ponta a ponta para síntese de imagens e vídeos de alta resolução. Propomos um processo de difusão que remove ruídos de entradas em múltiplas resoluções de forma conjunta e utiliza uma arquitetura NestedUNet, onde características e parâmetros para entradas em pequena escala estão aninhados dentro daqueles de escalas maiores. Além disso, o MDM permite um cronograma de treinamento progressivo de resoluções mais baixas para mais altas, o que leva a melhorias significativas na otimização para geração de alta resolução. Demonstramos a eficácia de nossa abordagem em vários benchmarks, incluindo geração de imagens condicionadas por classe, geração de imagens de alta resolução a partir de texto e aplicações de texto para vídeo. Notavelmente, conseguimos treinar um único modelo no espaço de pixels em resoluções de até 1024x1024 pixels, demonstrando uma forte generalização zero-shot usando o conjunto de dados CC12M, que contém apenas 12 milhões de imagens.
Grandes modelos de linguagem (LLMs), após serem alinhados com modelos de visão e integrados em modelos visão-linguagem (VLMs), podem trazer melhorias impressionantes em tarefas de raciocínio sobre imagens. Isso foi demonstrado pelo recentemente lançado GPT-4V(ison), LLaVA-1.5, entre outros. No entanto, o forte viés linguístico presente nesses VLMs de última geração pode ser uma faca de dois gumes: eles podem ignorar o contexto da imagem e depender exclusivamente do viés linguístico (mesmo que contraditório) para o raciocínio. Em contraste, os módulos de visão nos VLMs são mais fracos que os LLMs e podem resultar em representações visuais enganosas, que são então traduzidas em erros confiantes pelos LLMs. Para estudar esses dois tipos de erros dos VLMs, ou seja, alucinação linguística e ilusão visual, criamos o HallusionBench, um benchmark de raciocínio contextualizado em imagens que ainda é desafiador até mesmo para GPT-4V e LLaVA-1.5. Fornecemos uma análise detalhada de exemplos no HallusionBench, que traz novos insights sobre a ilusão ou alucinação dos VLMs e como melhorá-los no futuro. O benchmark e o código serão disponibilizados em https://github.com/tianyi-lab/HallusionBench.
Apresentamos o DEsignBench, um benchmark de geração de texto para imagem (T2I) projetado especificamente para cenários de design visual. Modelos recentes de T2I, como o DALL-E 3 e outros, demonstraram capacidades impressionantes na geração de imagens foto realistas que se alinham estreitamente com entradas textuais. Embora o fascínio de criar imagens visualmente cativantes seja inegável, nossa ênfase vai além do mero prazer estético. Nosso objetivo é investigar o potencial de usar esses modelos poderosos em contextos de design autênticos. Para alcançar esse objetivo, desenvolvemos o DEsignBench, que incorpora amostras de teste projetadas para avaliar modelos T2I tanto na "capacidade técnica de design" quanto no "cenário de aplicação de design". Cada uma dessas duas dimensões é apoiada por um conjunto diversificado de categorias de design específicas. Exploramos o DALL-E 3 juntamente com outros modelos líderes de T2I no DEsignBench, resultando em uma galeria visual abrangente para comparações lado a lado. Para a avaliação do DEsignBench, realizamos avaliações humanas nas imagens geradas na galeria do DEsignBench, com base nos critérios de alinhamento texto-imagem, estética visual e criatividade de design. Nossa avaliação também considera outras capacidades de design especializadas, incluindo renderização de texto, composição de layout, harmonia de cores, design 3D e estilo de mídia. Além das avaliações humanas, introduzimos o primeiro avaliador automático de geração de imagens alimentado por GPT-4V. Esse avaliador fornece classificações que se alinham bem com os julgamentos humanos, ao mesmo tempo que é facilmente replicável e econômico. Uma versão de alta resolução está disponível em https://github.com/design-bench/design-bench.github.io/raw/main/designbench.pdf?download=
Com a disponibilidade de grandes conjuntos de dados de vídeo e os avanços dos modelos de difusão, a geração de vídeos orientada por texto alcançou progressos significativos. No entanto, os modelos existentes de geração de vídeo são tipicamente treinados com um número limitado de quadros, resultando na incapacidade de gerar vídeos longos de alta fidelidade durante a inferência. Além disso, esses modelos suportam apenas condições de texto único, enquanto cenários da vida real frequentemente exigem múltiplas condições de texto, já que o conteúdo do vídeo muda ao longo do tempo. Para enfrentar esses desafios, este estudo explora o potencial de estender a capacidade orientada por texto para gerar vídeos mais longos condicionados a múltiplos textos. 1) Primeiramente, analisamos o impacto do ruído inicial em modelos de difusão de vídeo. Em seguida, com base na observação do ruído, propomos o FreeNoise, um paradigma sem ajuste e eficiente em termos de tempo para aprimorar as capacidades gerativas de modelos de difusão de vídeo pré-treinados, mantendo a consistência do conteúdo. Especificamente, em vez de inicializar ruídos para todos os quadros, reagendamos uma sequência de ruídos para correlação de longo alcance e realizamos atenção temporal sobre eles por meio de uma função baseada em janelas. 2) Adicionalmente, projetamos um novo método de injeção de movimento para suportar a geração de vídeos condicionados a múltiplos prompts de texto. Experimentos extensivos validam a superioridade do nosso paradigma em estender as capacidades gerativas de modelos de difusão de vídeo. É importante destacar que, em comparação com o método de melhor desempenho anterior, que acarretava um custo de tempo adicional de 255%, nosso método incorre em um custo de tempo insignificante de aproximadamente 17%. Amostras de vídeos gerados estão disponíveis em nosso site: http://haonanqiu.com/projects/FreeNoise.html.
O recente sucesso dos modelos de linguagem de grande escala (LLMs) de domínio geral mudou significativamente o paradigma do processamento de linguagem natural em direção a um modelo de base unificado entre domínios e aplicações. Neste artigo, focamos em avaliar o desempenho do GPT-4, o LLM mais capaz até o momento, em aplicações baseadas em texto para relatórios de radiologia, comparando-o com modelos específicos para radiologia de última geração (SOTA). Explorando várias estratégias de prompt, avaliamos o GPT-4 em uma ampla gama de tarefas comuns de radiologia e descobrimos que o GPT-4 supera ou está em pé de igualdade com os modelos SOTA atuais de radiologia. Com prompts zero-shot, o GPT-4 já obtém ganhos substanciais (aproximadamente 10% de melhoria absoluta) sobre os modelos de radiologia em classificação de similaridade de sentenças temporais (acurácia) e inferência em linguagem natural (F_1). Para tarefas que exigem o aprendizado de estilo ou esquema específico do conjunto de dados (por exemplo, resumo de achados), o GPT-4 melhora com prompts baseados em exemplos e se iguala ao SOTA supervisionado. Nossa extensa análise de erros com um radiologista certificado mostra que o GPT-4 possui um nível suficiente de conhecimento em radiologia, com apenas erros ocasionais em contextos complexos que exigem conhecimento de domínio mais refinado. Para o resumo de achados, as saídas do GPT-4 são consideradas, em geral, comparáveis às impressões escritas manualmente existentes.
Apresentamos o Habitat 3.0: uma plataforma de simulação para o estudo de tarefas colaborativas entre humanos e robôs em ambientes domésticos. O Habitat 3.0 oferece contribuições em três dimensões: (1) Simulação precisa de humanoides: abordando desafios na modelagem de corpos deformáveis complexos e na diversidade de aparência e movimento, tudo isso mantendo uma alta velocidade de simulação. (2) Infraestrutura de humano no loop: permitindo a interação de humanos reais com robôs simulados por meio de mouse/teclado ou uma interface de realidade virtual, facilitando a avaliação de políticas robóticas com entrada humana. (3) Tarefas colaborativas: estudo de duas tarefas colaborativas, Navegação Social e Rearranjo Social. A Navegação Social investiga a capacidade de um robô de localizar e seguir avatares humanoides em ambientes desconhecidos, enquanto o Rearranjo Social aborda a colaboração entre um humanoide e um robô durante o rearranjo de uma cena. Essas contribuições nos permitem estudar em profundidade baselines aprendidos de ponta a ponta e heurísticos para colaboração humano-robô, bem como avaliá-los com humanos no loop. Nossos experimentos demonstram que políticas robóticas aprendidas levam à conclusão eficiente de tarefas ao colaborar com agentes humanoides desconhecidos e parceiros humanos que podem exibir comportamentos que o robô nunca viu antes. Além disso, observamos comportamentos emergentes durante a execução de tarefas colaborativas, como o robô cedendo espaço ao obstruir um agente humanoide, permitindo assim a conclusão eficaz da tarefa pelo agente humanoide. Adicionalmente, nossos experimentos utilizando a ferramenta de humano no loop demonstram que nossa avaliação automatizada com humanoides pode fornecer uma indicação da ordem relativa de diferentes políticas quando avaliadas com colaboradores humanos reais. O Habitat 3.0 desbloqueia novos recursos interessantes em simuladores para IA Embarcada, e esperamos que ele abra caminho para uma nova fronteira de capacidades de interação humano-IA embarcada.
Modelos de Linguagem de Grande Escala (LLMs) são frequentemente utilizados para tarefas multifacetadas de geração e avaliação de linguagem que envolvem a satisfação de restrições complexas do usuário ou a consideração de múltiplos aspectos e critérios. No entanto, seu desempenho pode ficar aquém do esperado devido à falta de coerência do modelo e à incapacidade de planejar e decompor o problema. Propomos o método Branch-Solve-Merge (BSM), um programa de Modelo de Linguagem de Grande Escala (Schlag et al., 2023) para enfrentar tarefas desafiadoras de linguagem natural. Ele consiste em módulos de ramificação, resolução e fusão que são parametrizados com prompts específicos para o LLM base. Esses três módulos planejam a decomposição da tarefa em múltiplas sub-tarefas paralelas, resolvem-nas de forma independente e fundem as soluções das sub-tarefas. Aplicamos nosso método às tarefas de avaliação de respostas de LLMs e geração de texto com restrições, avaliando sua eficácia com múltiplos LLMs, incluindo Vicuna, LLaMA-2-chat e GPT-4. O BSM melhora a correção e consistência da avaliação para cada LLM, aumentando a concordância humano-LLM em até 26%, reduzindo vieses de comprimento e posição pareada em até 50%, e permitindo que o LLaMA-2-chat iguale ou supere o GPT-4 na maioria dos domínios. Na tarefa de geração de histórias com restrições, o BSM melhora a coerência das histórias enquanto também aumenta a satisfação das restrições em 12%.
Modelos de Difusão Texto-para-Imagem, como Stable-Diffusion e Imagen, alcançaram uma qualidade de fotorealismo sem precedentes com pontuações FID de última geração no MS-COCO e outros benchmarks de geração. Dada uma legenda, a geração de imagens requer conhecimento detalhado sobre atributos como estrutura de objetos, estilo e ponto de vista, entre outros. Onde essa informação reside nos modelos generativos texto-para-imagem? Em nosso artigo, abordamos essa questão e entendemos como o conhecimento correspondente a atributos visuais distintos é armazenado em modelos de difusão texto-para-imagem em larga escala. Adaptamos a Análise de Mediação Causal para modelos texto-para-imagem e rastreamos o conhecimento sobre atributos visuais distintos para vários componentes (causais) no (i) UNet e (ii) codificador de texto do modelo de difusão. Em particular, mostramos que, ao contrário dos modelos generativos de linguagem de grande escala, o conhecimento sobre diferentes atributos não está localizado em componentes isolados, mas sim distribuído entre um conjunto de componentes no UNet condicional. Esses conjuntos de componentes são frequentemente distintos para diferentes atributos visuais. Notavelmente, descobrimos que o codificador de texto CLIP em modelos texto-para-imagem públicos, como o Stable-Diffusion, contém apenas um estado causal entre diferentes atributos visuais, e este é o primeiro layer de auto-atenção correspondente ao último token do sujeito do atributo na legenda. Isso contrasta fortemente com os estados causais em outros modelos de linguagem, que frequentemente são as camadas MLP intermediárias. Com base nessa observação de apenas um estado causal no codificador de texto, introduzimos um método rápido e sem dados de edição de modelo, o Diff-QuickFix, que pode editar efetivamente conceitos em modelos texto-para-imagem. O DiffQuickFix pode editar (ablar) conceitos em menos de um segundo com uma atualização de forma fechada, proporcionando um ganho de velocidade significativo de 1000x e desempenho de edição comparável aos métodos de edição baseados em ajuste fino existentes.
Apresentamos o TexFusion (Texture Diffusion), um novo método para sintetizar texturas para geometrias 3D dadas, utilizando modelos de difusão de imagens em grande escala guiados por texto. Em contraste com trabalhos recentes que aproveitam modelos de difusão de texto para imagem em 2D para destilar objetos 3D usando um processo de otimização lento e frágil, o TexFusion introduz uma nova técnica de geração consistente em 3D especificamente projetada para síntese de texturas que emprega amostragem regular de modelos de difusão em diferentes vistas renderizadas em 2D. Especificamente, aproveitamos modelos de difusão latente, aplicamos o desnificador do modelo de difusão em um conjunto de renderizações 2D do objeto 3D e agregamos as diferentes previsões de desnificação em um mapa de textura latente compartilhado. As texturas RGB finais são produzidas otimizando um campo de cor neural intermediário nas decodificações das renderizações 2D da textura latente. Validamos minuciosamente o TexFusion e mostramos que podemos gerar de forma eficiente texturas diversas, de alta qualidade e globalmente coerentes. Alcançamos desempenho de síntese de texturas guiada por texto de última geração utilizando apenas modelos de difusão de imagens, evitando as armadilhas dos métodos anteriores baseados em destilação. O condicionamento por texto oferece controle detalhado e também não dependemos de nenhuma textura 3D de referência para treinamento. Isso torna nosso método versátil e aplicável a uma ampla gama de geometrias e tipos de textura. Esperamos que o TexFusion avance a texturização de ativos 3D baseada em IA para aplicações em realidade virtual, design de jogos, simulação e muito mais.
Utilizando o aprendizado em contexto (ICL) para geração de dados, técnicas como Self-Instruct (Wang et al., 2023) ou sua continuação Alpaca (Taori et al., 2023) podem treinar agentes conversacionais robustos com apenas uma pequena quantidade de supervisão humana. Uma limitação dessas abordagens é que elas recorrem a modelos de linguagem muito grandes (em torno de 175 bilhões de parâmetros) que também são proprietários e não públicos. Aqui, exploramos a aplicação de tais técnicas a modelos de linguagem muito menores (em torno de 10 a 40 bilhões de parâmetros) e que possuem licenças permissivas. Descobrimos que a abordagem Self-Instruct é menos eficaz nesses tamanhos e propomos novos métodos de ICL que se baseiam em duas ideias principais: (a) Categorização e simplificação dos templates de ICL para facilitar o aprendizado de prompts pelo modelo de linguagem (LM), e (b) Ensembling sobre múltiplas saídas do LM para ajudar a selecionar exemplos sintéticos de alta qualidade. Nosso algoritmo aproveita as 175 tarefas iniciais do Self-Instruct e emprega pipelines separados para instruções que exigem uma entrada e instruções que não exigem. Investigações empíricas com diferentes LMs mostram que: (1) Nosso método proposto produz dados de ajuste de instrução de qualidade superior ao Self-Instruct, (2) Ele melhora o desempenho tanto de LMs básicos quanto de LMs ajustados por instrução de forma significativa, e (3) LMs menores ajustados por instrução geram saídas mais úteis do que suas contrapartes maiores não ajustadas. Nossa base de código está disponível em https://github.com/IBM/ensemble-instruct.
O feedback humano pode prevenir declarações abertamente prejudiciais em modelos conversacionais, mas pode não mitigar automaticamente comportamentos problemáticos sutis, como um desejo declarado de autopreservação ou poder. A IA Constitucional oferece uma alternativa, substituindo o feedback humano por feedback de modelos de IA condicionados apenas a uma lista de princípios escritos. Descobrimos que essa abordagem previne efetivamente a expressão de tais comportamentos. O sucesso de princípios simples nos motiva a perguntar: os modelos podem aprender comportamentos éticos gerais a partir de apenas um único princípio escrito? Para testar isso, realizamos experimentos usando um princípio aproximadamente declarado como "faça o que é melhor para a humanidade". Descobrimos que os maiores modelos de diálogo podem generalizar a partir dessa constituição curta, resultando em assistentes inofensivos sem interesse declarado em motivações específicas, como poder. Um princípio geral pode, assim, evitar parcialmente a necessidade de uma longa lista de constituições direcionadas a comportamentos potencialmente prejudiciais. No entanto, constituições mais detalhadas ainda melhoram o controle refinado sobre tipos específicos de danos. Isso sugere que tanto princípios gerais quanto específicos têm valor para direcionar a IA de forma segura.
Com a evolução dos Modelos de Linguagem de Grande Escala (LLMs), podemos resolver tarefas de NLP cada vez mais complexas em diversos domínios, incluindo planilhas. Este trabalho investiga se os LLMs podem gerar código (Excel OfficeScripts, uma API TypeScript para executar diversas tarefas no Excel) que resolve tarefas específicas do Excel fornecidas por meio de instruções em linguagem natural do usuário. Para isso, introduzimos um novo benchmark em larga escala, o InstructExcel, criado ao aproveitar o recurso 'Automatizar' do Excel para gerar automaticamente OfficeScripts a partir das ações dos usuários. Nosso benchmark inclui mais de 10 mil amostras, abrangendo mais de 170 operações do Excel em 2.000 planilhas do Excel disponíveis publicamente. Experimentos em diversos cenários de zero-shot e few-shot mostram que o InstructExcel é um benchmark desafiador para modelos de última geração, como o GPT-4. Observamos que (1) usar o GPT-4 em vez do GPT-3.5, (2) fornecer mais exemplos em contexto e (3) o uso de prompts dinâmicos podem ajudar a melhorar o desempenho neste benchmark.