Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o GAIA, um benchmark para Assistentes de IA Geral que, se resolvido, representaria um marco na pesquisa em IA. O GAIA propõe perguntas do mundo real que exigem um conjunto de habilidades fundamentais, como raciocínio, manipulação de multimodalidade, navegação na web e, de modo geral, proficiência no uso de ferramentas. As perguntas do GAIA são conceitualmente simples para humanos, mas desafiadoras para a maioria das IAs avançadas: mostramos que os respondentes humanos obtêm 92\% em comparação com 15\% para o GPT-4 equipado com plugins. Essa notável disparidade de desempenho contrasta com a tendência recente de LLMs superarem humanos em tarefas que exigem habilidades profissionais, como direito ou química. A filosofia do GAIA se afasta da tendência atual em benchmarks de IA, que sugerem direcionar tarefas cada vez mais difíceis para humanos. Postulamos que o advento da Inteligência Geral Artificial (AGI) depende da capacidade de um sistema exibir uma robustez semelhante à do ser humano médio em tais perguntas. Utilizando a metodologia do GAIA, elaboramos 466 perguntas e suas respostas. Liberamos nossas perguntas, mas retemos as respostas de 300 delas para alimentar um quadro de líderes disponível em https://huggingface.co/gaia-benchmark.
As abordagens de geração multimídia ocupam um lugar de destaque na pesquisa em inteligência artificial. Modelos de texto para imagem alcançaram resultados de alta qualidade nos últimos anos. No entanto, métodos de síntese de vídeo começaram a se desenvolver recentemente. Este artigo apresenta uma nova arquitetura de geração de vídeo a partir de texto baseada em difusão latente em dois estágios, derivada do modelo de difusão de texto para imagem. O primeiro estágio diz respeito à síntese de quadros-chave para definir a narrativa de um vídeo, enquanto o segundo é dedicado à geração de quadros de interpolação para suavizar os movimentos da cena e dos objetos. Comparamos várias abordagens de condicionamento temporal para a geração de quadros-chave. Os resultados mostram a vantagem de usar blocos temporais separados em vez de camadas temporais em termos de métricas que refletem aspectos da qualidade da geração de vídeo e da preferência humana. O design do nosso modelo de interpolação reduz significativamente os custos computacionais em comparação com outras abordagens de interpolação de quadros mascarados. Além disso, avaliamos diferentes configurações do esquema de decodificação de vídeo baseado em MoVQ para melhorar a consistência e alcançar pontuações mais altas em PSNR, SSIM, MSE e LPIPS. Por fim, comparamos nosso pipeline com soluções existentes e alcançamos as duas melhores pontuações gerais e a melhor entre as soluções de código aberto: CLIPSIM = 0,2976 e FVD = 433,054. Página do projeto: https://ai-forever.github.io/kandinsky-video/
Com o uso generalizado de dispositivos e conteúdos de realidade virtual, as demandas por técnicas de geração de cenas 3D tornaram-se mais populares. No entanto, os modelos existentes de geração de cenas 3D limitam a cena alvo a domínios específicos, principalmente devido às suas estratégias de treinamento que utilizam conjuntos de dados de varredura 3D distantes do mundo real. Para abordar essa limitação, propomos o LucidDreamer, um pipeline de geração de cenas sem restrição de domínio, aproveitando ao máximo o poder de modelos generativos baseados em difusão em larga escala existentes. Nosso LucidDreamer possui dois passos alternados: Sonho e Alinhamento. Primeiro, para gerar imagens consistentes de múltiplas perspectivas a partir de entradas, definimos a nuvem de pontos como uma diretriz geométrica para cada geração de imagem. Especificamente, projetamos uma porção da nuvem de pontos para a perspectiva desejada e fornecemos a projeção como uma orientação para a reconstrução de imagens usando o modelo generativo. As imagens reconstruídas são elevadas ao espaço 3D com mapas de profundidade estimados, compondo novos pontos. Segundo, para agregar os novos pontos à cena 3D, propomos um algoritmo de alinhamento que integra harmoniosamente as porções das cenas 3D recém-geradas. A cena 3D finalmente obtida serve como pontos iniciais para a otimização de splats gaussianos. O LucidDreamer produz splats gaussianos altamente detalhados em comparação com os métodos anteriores de geração de cenas 3D, sem restrição de domínio da cena alvo.
Modelos de linguagem de grande escala (LLMs) são ajustados utilizando dados de comparação humana com métodos de Aprendizado por Reforço com Feedback Humano (RLHF) para torná-los mais alinhados com as preferências dos usuários. Em contraste com os LLMs, o aprendizado de preferências humanas não foi amplamente explorado em modelos de difusão texto-para-imagem; a melhor abordagem existente é ajustar um modelo pré-treinado utilizando imagens e legendas de alta qualidade cuidadosamente curadas para melhorar o apelo visual e o alinhamento textual. Propomos o Diffusion-DPO, um método para alinhar modelos de difusão às preferências humanas otimizando diretamente os dados de comparação humana. O Diffusion-DPO é adaptado do recentemente desenvolvido Otimização Direta de Preferências (DPO), uma alternativa mais simples ao RLHF que otimiza diretamente uma política que melhor satisfaz as preferências humanas sob um objetivo de classificação. Reformatamos o DPO para considerar uma noção de verossimilhança em modelos de difusão, utilizando o limite inferior da evidência para derivar um objetivo diferenciável. Utilizando o conjunto de dados Pick-a-Pic de 851 mil preferências pareadas coletadas por crowdsourcing, ajustamos o modelo base do estado da arte Stable Diffusion XL (SDXL)-1.0 com o Diffusion-DPO. Nosso modelo base ajustado supera significativamente tanto o SDXL-1.0 base quanto o modelo maior SDXL-1.0 que consiste em um modelo de refinamento adicional em avaliações humanas, melhorando o apelo visual e o alinhamento com o prompt. Também desenvolvemos uma variante que utiliza feedback de IA e tem desempenho comparável ao treinamento com preferências humanas, abrindo caminho para a escalabilidade dos métodos de alinhamento de modelos de difusão.
Métodos para ajuste fino de modelos generativos para personalização orientada por conceitos geralmente alcançam resultados robustos para geração orientada por assunto ou estilo. Recentemente, adaptações de baixo posto (LoRA) foram propostas como uma forma eficiente em termos de parâmetros de alcançar personalização orientada por conceitos. Embora trabalhos recentes explorem a combinação de LoRAs separadas para alcançar a geração conjunta de estilos e assuntos aprendidos, as técnicas existentes não abordam o problema de forma confiável; elas frequentemente comprometem a fidelidade ao assunto ou a fidelidade ao estilo. Propomos o ZipLoRA, um método para mesclar de forma barata e eficaz LoRAs de estilo e assunto treinadas independentemente, a fim de alcançar a geração de qualquer assunto fornecido pelo usuário em qualquer estilo fornecido pelo usuário. Experimentos em uma ampla gama de combinações de assunto e estilo mostram que o ZipLoRA pode gerar resultados convincentes com melhorias significativas em relação às baselines em fidelidade ao assunto e ao estilo, preservando a capacidade de recontextualização. Página do projeto: https://ziplora.github.io
O uso de aprendizado por reforço com feedback humano (RLHF) tem mostrado um potencial significativo no ajuste fino de modelos de difusão. Métodos anteriores começam treinando um modelo de recompensa que se alinha com as preferências humanas, para então utilizar técnicas de RL para ajustar os modelos subjacentes. No entanto, a criação de um modelo de recompensa eficiente exige conjuntos de dados extensos, arquitetura ideal e ajuste manual de hiperparâmetros, tornando o processo demorado e custoso. O método de otimização direta de preferências (DPO), eficaz no ajuste fino de grandes modelos de linguagem, elimina a necessidade de um modelo de recompensa. Contudo, o alto requisito de memória GPU do processo de remoção de ruído dos modelos de difusão impede a aplicação direta do método DPO. Para resolver esse problema, introduzimos o método de Otimização Direta de Política de Difusão de Remoção de Ruído (D3PO) para ajustar diretamente os modelos de difusão. A análise teórica demonstra que, embora o D3PO omita o treinamento de um modelo de recompensa, ele funciona efetivamente como o modelo de recompensa ideal treinado com dados de feedback humano para guiar o processo de aprendizado. Essa abordagem não requer o treinamento de um modelo de recompensa, sendo mais direta, econômica e minimizando a sobrecarga computacional. Nos experimentos, nosso método utiliza a escala relativa dos objetivos como um proxy para as preferências humanas, entregando resultados comparáveis aos métodos que usam recompensas verdadeiras. Além disso, o D3PO demonstra a capacidade de reduzir taxas de distorção de imagens e gerar imagens mais seguras, superando desafios que carecem de modelos de recompensa robustos.
A extensão de modelos multimodais grandes (LMM) baseados em imagens para vídeos é desafiadora devido à complexidade inerente dos dados de vídeo. As abordagens recentes que estendem LMMs baseados em imagens para vídeos ou carecem de capacidades de ancoragem (por exemplo, VideoChat, Video-ChatGPT, Video-LLaMA) ou não utilizam sinais de áudio para uma melhor compreensão do vídeo (por exemplo, Video-ChatGPT). Para abordar essas lacunas, propomos o Video-LLaVA, o primeiro LMM com capacidade de ancoragem em nível de pixel, integrando pistas de áudio ao transcrevê-las em texto para enriquecer a compreensão do contexto do vídeo. Nosso framework utiliza um rastreador pronto para uso e um novo módulo de ancoragem, permitindo localizar objetos espacial e temporalmente em vídeos seguindo instruções do usuário. Avaliamos o Video-LLaVA usando benchmarks de geração e questionamento baseados em vídeo e introduzimos novos benchmarks especificamente projetados para medir o desempenho de ancoragem de objetos em vídeos com base em prompts. Além disso, propomos o uso do Vicuna em vez do GPT-3.5, como utilizado no Video-ChatGPT, para benchmarking de conversas baseadas em vídeo, garantindo a reprodutibilidade dos resultados, o que é uma preocupação devido à natureza proprietária do GPT-3.5. Nosso framework se baseia no modelo LLaVA baseado em imagens SoTA e estende suas vantagens para o domínio de vídeo, oferecendo ganhos promissores em tarefas de conversação e ancoragem baseadas em vídeo. Página do Projeto: https://github.com/mbzuai-oryx/Video-LLaVA
O prompting contextual em grandes modelos de linguagem (LLMs) tornou-se uma abordagem prevalente para melhorar as capacidades zero-shot, mas essa ideia é menos explorada no domínio visual. Os métodos existentes de prompting visual focam na segmentação referencial para segmentar o objeto mais relevante, deixando de abordar muitas tarefas visuais genéricas, como segmentação e detecção em conjuntos abertos. Neste artigo, introduzimos um framework universal de prompting visual contextual para ambas as tarefas. Em particular, construímos sobre uma arquitetura de codificador-decodificador e desenvolvemos um codificador de prompts versátil para suportar uma variedade de prompts, como traços, caixas e pontos. Além disso, aprimoramos o sistema para aceitar um número arbitrário de segmentos de imagem de referência como contexto. Nossas extensas explorações mostram que o prompting visual contextual proposto elicita capacidades extraordinárias de segmentação referencial e genérica para referenciar e detectar, alcançando desempenho competitivo em conjuntos de dados de domínio fechado e mostrando resultados promissores em muitos conjuntos de dados de segmentação em conjuntos abertos. Com o treinamento conjunto em COCO e SA-1B, nosso modelo alcança 57,7 PQ no COCO e 23,2 PQ no ADE20K. O código estará disponível em https://github.com/UX-Decoder/DINOv.
Este é um relatório técnico sobre a tarefa de geração de imagens panorâmicas de 360 graus baseada em modelos de difusão. Diferente das imagens 2D comuns, as imagens panorâmicas de 360 graus capturam todo o campo de visão de 360^circ vezes 180^circ. Portanto, os lados mais à direita e mais à esquerda da imagem panorâmica de 360 graus devem ser contínuos, o que é o principal desafio nessa área. No entanto, o pipeline de difusão atual não é adequado para gerar uma imagem panorâmica de 360 graus sem costuras. Para isso, propomos uma estratégia de mesclagem circular tanto nas etapas de remoção de ruído quanto na decodificação do VAE para manter a continuidade geométrica. Com base nisso, apresentamos dois modelos para as tarefas de Texto-para-Panorâmicas-360 e Imagem-Única-para-Panorâmicas-360. O código foi liberado como um projeto de código aberto em https://github.com/ArcherFMY/SD-T2I-360PanoImage{https://github.com/ArcherFMY/SD-T2I-360PanoImage} e https://www.modelscope.cn/models/damo/cv_diffusion_text-to-360panorama-image_generation/summary{ModelScope}.