Artigos de pesquisa em IA selecionados diariamente com traduções
Os modelos de difusão são os principais impulsionadores do progresso na síntese de imagens e vídeos, mas sofrem com a lentidão na inferência. Métodos de destilação, como a recentemente introduzida destilação de difusão adversarial (ADD), visam transformar o modelo de uma inferência de múltiplos passos para um único passo, embora ao custo de uma otimização cara e difícil devido à sua dependência de um discriminador DINOv2 pré-treinado e fixo. Apresentamos a Destilação de Difusão Adversarial Latente (LADD), uma nova abordagem de destilação que supera as limitações da ADD. Em contraste com a ADD baseada em pixels, a LADD utiliza características gerativas de modelos de difusão latente pré-treinados. Essa abordagem simplifica o treinamento e melhora o desempenho, permitindo a síntese de imagens de alta resolução com múltiplas proporções de aspecto. Aplicamos a LADD ao Stable Diffusion 3 (8B) para obter o SD3-Turbo, um modelo rápido que iguala o desempenho dos melhores geradores de texto para imagem usando apenas quatro passos de amostragem não guiada. Além disso, investigamos sistematicamente seu comportamento de escalonamento e demonstramos a eficácia da LADD em várias aplicações, como edição de imagens e preenchimento de lacunas.
O Aprendizado por Reforço com Feedback Humano (RLHF) tem se mostrado um método eficaz para alinhar Modelos de Linguagem Pré-treinados de Grande Escala (LLMs) com as preferências humanas. No entanto, treinar modelos com RLHF é computacionalmente caro e um processo complexo. Neste trabalho, estudamos o RLHF onde os modelos subjacentes são treinados usando o método eficiente em parâmetros de Adaptação de Baixa Classificação (LoRA), introduzido por Hu et al. [2021]. Investigamos a configuração de "Aprendizado por Reforço Eficiente em Parâmetros" (PERL), na qual realizamos o treinamento do modelo de recompensa e o aprendizado por reforço usando LoRA. Comparamos o PERL ao ajuste fino convencional (ajuste completo) em várias configurações para 7 benchmarks, incluindo 2 novos conjuntos de dados, de modelagem de recompensa e aprendizado por reforço. Descobrimos que o PERL tem um desempenho equivalente ao cenário convencional de RLHF, enquanto treina mais rápido e com menos memória. Isso permite o alto desempenho do RLHF, ao mesmo tempo em que reduz o custo computacional que limita sua adoção como uma técnica de alinhamento para Modelos de Linguagem de Grande Escala. Também lançamos 2 novos conjuntos de dados de preferência thumbs up/down: "Taskmaster Coffee" e "Taskmaster Ticketing" para promover pesquisas em torno do RLHF.
A atualização eficiente e precisa do conhecimento armazenado em Modelos de Linguagem de Grande Escala (LLMs) é um dos desafios de pesquisa mais urgentes atualmente. Este artigo apresenta o Larimar - uma arquitetura inovadora, inspirada no cérebro, para aprimorar LLMs com uma memória episódica distribuída. A memória do Larimar permite atualizações dinâmicas e de única etapa do conhecimento sem a necessidade de retreinamento ou ajuste fino computacionalmente caros. Resultados experimentais em múltiplos benchmarks de edição de fatos demonstram que o Larimar atinge uma precisão comparável às linhas de base mais competitivas, mesmo na configuração desafiadora de edição sequencial, mas também se destaca em velocidade - proporcionando acelerações de 4 a 10 vezes, dependendo do LLM base - bem como em flexibilidade, devido à arquitetura proposta ser simples, independente de LLM e, portanto, geral. Além disso, fornecemos mecanismos para esquecimento seletivo de fatos e generalização do comprimento do contexto de entrada com o Larimar e mostramos sua eficácia.
Apresentamos o Stable Video 3D (SV3D) — um modelo de difusão de vídeo latente para geração de alta resolução de imagens para múltiplas vistas de vídeos orbitais em torno de um objeto 3D. Trabalhos recentes sobre geração 3D propõem técnicas para adaptar modelos generativos 2D para síntese de novas vistas (NVS) e otimização 3D. No entanto, esses métodos apresentam várias desvantagens devido a vistas limitadas ou NVS inconsistentes, afetando assim o desempenho da geração de objetos 3D. Neste trabalho, propomos o SV3D, que adapta um modelo de difusão de imagem para vídeo para síntese de múltiplas vistas e geração 3D, aproveitando a generalização e a consistência de múltiplas vistas dos modelos de vídeo, além de adicionar controle explícito de câmera para NVS. Também propomos técnicas aprimoradas de otimização 3D para utilizar o SV3D e suas saídas de NVS na geração de imagens para 3D. Resultados experimentais extensivos em múltiplos conjuntos de dados, com métricas 2D e 3D, bem como estudos com usuários, demonstram o desempenho de ponta do SV3D em NVS e reconstrução 3D em comparação com trabalhos anteriores.
Com base nos recentes avanços em modelos de difusão para geração de imagens a partir de texto, a personalização com preservação de identidade tem feito progressos significativos na captura precisa de identidades específicas com apenas uma única imagem de referência. No entanto, os métodos existentes integram principalmente as imagens de referência no espaço de incorporação de texto, resultando em um emaranhado complexo de informações de imagem e texto, o que apresenta desafios para preservar tanto a fidelidade da identidade quanto a consistência semântica. Para enfrentar esse desafio, propomos o Infinite-ID, um paradigma de desacoplamento ID-semântica para personalização com preservação de identidade. Especificamente, introduzimos um treinamento aprimorado de identidade, incorporando um módulo adicional de atenção cruzada de imagem para capturar informações suficientes de ID, enquanto desativamos o módulo original de atenção cruzada de texto do modelo de difusão. Isso garante que o fluxo de imagem represente fielmente a identidade fornecida pela imagem de referência, ao mesmo tempo em que mitiga a interferência da entrada textual. Além disso, introduzimos um mecanismo de interação de características que combina um módulo de atenção mista com uma operação AdaIN-média para fundir de forma contínua os dois fluxos. Esse mecanismo não apenas melhora a fidelidade da identidade e a consistência semântica, mas também permite um controle conveniente sobre os estilos das imagens geradas. Resultados experimentais extensivos tanto na geração de fotos brutas quanto na geração de imagens estilizadas demonstram o desempenho superior do nosso método proposto.
Apresentamos o LightIt, um método para controle explícito de iluminação na geração de imagens. Métodos generativos recentes carecem de controle de iluminação, que é crucial para diversos aspectos artísticos da geração de imagens, como definir o clima geral ou a aparência cinematográfica. Para superar essas limitações, propomos condicionar a geração em mapas de sombreamento e normais. Modelamos a iluminação com sombreamento de reflexão única, que inclui sombras projetadas. Primeiro, treinamos um módulo de estimativa de sombreamento para gerar um conjunto de dados de pares de imagens do mundo real e seus sombreamentos correspondentes. Em seguida, treinamos uma rede de controle utilizando o sombreamento e as normais estimadas como entrada. Nosso método demonstra geração de imagens de alta qualidade e controle de iluminação em diversas cenas. Além disso, utilizamos nosso conjunto de dados gerado para treinar um modelo de reiluminação que preserva a identidade, condicionado em uma imagem e um sombreamento alvo. Nosso método é o primeiro que permite a geração de imagens com iluminação controlável e consistente, com desempenho comparável aos métodos state-of-the-art especializados em reiluminação.
A codificação visual constitui a base dos modelos multimodais de grande escala (LMMs) para a compreensão do mundo visual. Os LMMs convencionais processam imagens em tamanhos fixos e resoluções limitadas, enquanto as explorações recentes nessa direção são limitadas em adaptabilidade, eficiência e até mesmo em precisão. Neste trabalho, primeiro tomamos o GPT-4V e o LLaVA-1.5 como exemplos representativos e expomos falhas sistemáticas enraizadas em sua estratégia de codificação visual. Para enfrentar esses desafios, apresentamos o LLaVA-UHD, um modelo multimodal de grande escala que pode perceber imagens de forma eficiente em qualquer proporção e alta resolução. O LLaVA-UHD inclui três componentes principais: (1) Uma estratégia de modularização de imagens que divide imagens em resolução nativa em fatias menores de tamanho variável para uma codificação eficiente e extensível, (2) um módulo de compressão que condensa ainda mais os tokens de imagem dos codificadores visuais, e (3) um esquema espacial para organizar os tokens das fatias para LLMs. Experimentos abrangentes mostram que o LLaVA-UHD supera LMMs estabelecidos treinados com 2-3 ordens de magnitude a mais de dados em 9 benchmarks. Notavelmente, nosso modelo baseado no LLaVA-1.5 336x336 suporta imagens com resolução 6 vezes maior (ou seja, 672x1088) usando apenas 94% da computação de inferência, e alcança uma melhoria de 6,4 pontos de precisão no TextVQA. Além disso, o modelo pode ser treinado de forma eficiente em ambientes acadêmicos, em 23 horas em 8 GPUs A100 (vs. 26 horas do LLaVA-1.5). Disponibilizamos os dados e o código publicamente em https://github.com/thunlp/LLaVA-UHD.
A síntese de objetos 3D em domínio aberto tem ficado atrás da síntese de imagens devido à limitação de dados e à maior complexidade computacional. Para preencher essa lacuna, trabalhos recentes investigaram a difusão multi-visão, mas muitas vezes falham em consistência 3D, qualidade visual ou eficiência. Este artigo propõe o MVEdit, que funciona como uma contraparte 3D do SDEdit, empregando amostragem ancestral para desruir conjuntamente imagens multi-visão e gerar malhas texturizadas de alta qualidade. Baseado em modelos de difusão 2D prontos para uso, o MVEdit alcança consistência 3D por meio de um Adaptador 3D sem necessidade de treinamento, que eleva as visões 2D do último passo de tempo em uma representação 3D coerente, e então condiciona as visões 2D do próximo passo de tempo usando visões renderizadas, sem comprometer a qualidade visual. Com um tempo de inferência de apenas 2-5 minutos, este framework alcança um melhor equilíbrio entre qualidade e velocidade do que a destilação de pontuação. O MVEdit é altamente versátil e extensível, com uma ampla gama de aplicações, incluindo geração de texto/imagem-para-3D, edição 3D-para-3D e síntese de texturas de alta qualidade. Em particular, as avaliações demonstram desempenho de ponta tanto em tarefas de imagem-para-3D quanto em geração de texturas guiada por texto. Além disso, introduzimos um método para ajuste fino de modelos de difusão latente 2D em pequenos conjuntos de dados 3D com recursos limitados, permitindo uma inicialização rápida de texto-para-3D em baixa resolução.
As reconstruções da percepção visual a partir da atividade cerebral melhoraram significativamente, mas a utilidade prática desses métodos tem sido limitada. Isso ocorre porque tais modelos são treinados de forma independente por sujeito, onde cada sujeito requer dezenas de horas de dados de treinamento caros de fMRI para alcançar resultados de alta qualidade. O presente trabalho demonstra reconstruções de alta qualidade utilizando apenas 1 hora de dados de treinamento de fMRI. Pré-treinamos nosso modelo em 7 sujeitos e, em seguida, ajustamos finamente com dados mínimos de um novo sujeito. Nosso novo procedimento de alinhamento funcional mapeia linearmente todos os dados cerebrais para um espaço latente compartilhado entre sujeitos, seguido por um mapeamento não linear compartilhado para o espaço de imagens CLIP. Em seguida, mapeamos do espaço CLIP para o espaço de pixels ajustando finamente o Stable Diffusion XL para aceitar latentes CLIP como entradas em vez de texto. Essa abordagem melhora a generalização fora do sujeito com dados de treinamento limitados e também alcança métricas de recuperação e reconstrução de imagens de última geração em comparação com abordagens de sujeito único. O MindEye2 demonstra como reconstruções precisas da percepção são possíveis a partir de uma única visita à instalação de ressonância magnética. Todo o código está disponível no GitHub.
O progresso no aprendizado de máquina (ML) tem sido impulsionado pela escalabilidade de modelos de redes neurais. Essa escalabilidade foi possibilitada por feitos de engenharia cada vez mais impressionantes, necessários para acomodar abordagens de ML que exigem comunicação de alta largura de banda entre dispositivos trabalhando em paralelo. Neste trabalho, propomos uma arquitetura modular e uma abordagem de treinamento co-desenhadas para modelos de ML, denominada DIstributed PAth COmposition (DiPaCo). Durante o treinamento, o DiPaCo distribui a computação por caminhos através de um conjunto de módulos compartilhados. Juntamente com uma otimização inspirada no Local-SGD (DiLoCo) que mantém os módulos sincronizados com comunicação drasticamente reduzida, nossa abordagem facilita o treinamento em trabalhadores mal conectados e heterogêneos, com um design que garante robustez a falhas e preempções de trabalhadores. No momento da inferência, apenas um único caminho precisa ser executado para cada entrada, sem a necessidade de qualquer compressão do modelo. Consideramos essa abordagem como um primeiro protótipo em direção a um novo paradigma de aprendizado em larga escala, menos síncrono e mais modular. Nossos experimentos no amplamente utilizado benchmark C4 mostram que, para a mesma quantidade de passos de treinamento, mas em menos tempo de relógio, o DiPaCo supera o desempenho de um modelo de linguagem transformer denso com 1 bilhão de parâmetros ao escolher um dos 256 caminhos possíveis, cada um com um tamanho de 150 milhões de parâmetros.
Exploramos como a reconciliação de vários modelos fundamentais (grandes modelos de linguagem e modelos visão-linguagem) com um novo mecanismo de memória unificada pode abordar o desafiador problema de compreensão de vídeos, especialmente capturando as relações temporais de longo prazo em vídeos extensos. Em particular, o agente multimodal proposto, VideoAgent: 1) constrói uma memória estruturada para armazenar tanto as descrições genéricas de eventos temporais quanto os estados de rastreamento centrados em objetos do vídeo; 2) dada uma consulta de tarefa de entrada, ele emprega ferramentas, incluindo localização de segmentos de vídeo e consulta de memória de objetos, juntamente com outros modelos fundamentais visuais, para resolver a tarefa de forma interativa, utilizando a capacidade de uso de ferramentas zero-shot dos LLMs. O VideoAgent demonstra desempenhos impressionantes em vários benchmarks de compreensão de vídeos de longo horizonte, com um aumento médio de 6,6% no NExT-QA e 26,0% no EgoSchema em relação às linhas de base, reduzindo a lacuna entre modelos de código aberto e contrapartes privadas, incluindo o Gemini 1.5 Pro.
O campo de renderização neural tem testemunhado progressos significativos com avanços em modelos generativos e técnicas de renderização diferenciável. Embora a difusão 2D tenha alcançado sucesso, um pipeline unificado de difusão 3D ainda não foi estabelecido. Este artigo introduz uma nova estrutura chamada LN3Diff para abordar essa lacuna e permitir a geração condicional 3D rápida, de alta qualidade e genérica. Nossa abordagem utiliza uma arquitetura 3D-aware e um autoencoder variacional (VAE) para codificar a imagem de entrada em um espaço latente estruturado, compacto e 3D. O latente é decodificado por um decodificador baseado em transformador em um campo neural 3D de alta capacidade. Ao treinar um modelo de difusão nesse espaço latente 3D-aware, nosso método alcança desempenho de ponta no ShapeNet para geração 3D e demonstra desempenho superior em reconstrução 3D monocular e geração condicional 3D em vários conjuntos de dados. Além disso, ele supera os métodos existentes de difusão 3D em termos de velocidade de inferência, não exigindo otimização por instância. Nosso LN3Diff proposto representa um avanço significativo na modelagem generativa 3D e promete diversas aplicações em tarefas de visão e gráficos 3D.
Este artigo apresenta um novo paradigma para a construção de modelos generativos 3D escaláveis, utilizando modelos de difusão de vídeo pré-treinados. O principal obstáculo no desenvolvimento de modelos generativos 3D de base é a disponibilidade limitada de dados 3D. Diferentemente de imagens, textos ou vídeos, os dados 3D não são facilmente acessíveis e são difíceis de adquirir. Isso resulta em uma disparidade significativa de escala em comparação com as vastas quantidades de outros tipos de dados. Para resolver esse problema, propomos o uso de um modelo de difusão de vídeo, treinado com grandes volumes de texto, imagens e vídeos, como uma fonte de conhecimento para dados 3D. Ao desbloquear suas capacidades generativas de múltiplas visões por meio de ajuste fino, geramos um conjunto de dados sintético de múltiplas visões em grande escala para treinar um modelo generativo 3D de avanço direto. O modelo proposto, VFusion3D, treinado em quase 3 milhões de dados sintéticos de múltiplas visões, pode gerar um ativo 3D a partir de uma única imagem em segundos e alcança desempenho superior quando comparado aos modelos generativos 3D de avanço direto atuais, com os usuários preferindo nossos resultados mais de 70% das vezes.