Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o "ImageDream", um modelo inovador de difusão multi-visão com prompt de imagem para geração de objetos 3D. O ImageDream se destaca por sua capacidade de produzir modelos 3D de qualidade superior em comparação com os métodos mais avançados existentes condicionados por imagem. Nossa abordagem utiliza uma coordenação canônica de câmera para os objetos nas imagens, melhorando a precisão da geometria visual. O modelo foi projetado com vários níveis de controle em cada bloco dentro do modelo de difusão com base na imagem de entrada, onde o controle global molda o layout geral do objeto e o controle local ajusta os detalhes da imagem. A eficácia do ImageDream é demonstrada por meio de avaliações extensivas utilizando uma lista de prompts padrão. Para mais informações, visite nossa página do projeto em https://Image-Dream.github.io.
Os modelos de difusão atualmente dominam o campo de síntese de imagens baseada em dados, com sua capacidade incomparável de escalonamento para grandes conjuntos de dados. Neste artigo, identificamos e corrigimos várias causas para treinamento irregular e ineficaz na arquitetura popular do modelo de difusão ADM, sem alterar sua estrutura de alto nível. Observando mudanças descontroladas de magnitude e desequilíbrios tanto nas ativações quanto nos pesos da rede ao longo do treinamento, redesenhamos as camadas da rede para preservar as magnitudes de ativação, peso e atualização em expectativa. Descobrimos que a aplicação sistemática dessa filosofia elimina os desvios e desequilíbrios observados, resultando em redes consideravelmente melhores com igual complexidade computacional. Nossas modificações melhoram o recorde anterior de FID de 2,41 na síntese de ImageNet-512 para 1,81, alcançado usando amostragem determinística rápida. Como uma contribuição independente, apresentamos um método para configurar os parâmetros da média móvel exponencial (EMA) post-hoc, ou seja, após a conclusão da execução do treinamento. Isso permite o ajuste preciso do comprimento da EMA sem o custo de realizar várias execuções de treinamento, e revela suas interações surpreendentes com a arquitetura da rede, tempo de treinamento e orientação.
A fidelidade da reiluminação é limitada tanto pelas representações de geometria quanto de aparência. Para a geometria, tanto abordagens baseadas em malha quanto volumétricas têm dificuldade em modelar estruturas intrincadas, como a geometria 3D de cabelos. Para a aparência, os modelos de reiluminação existentes são limitados em fidelidade e frequentemente muito lentos para renderização em tempo real com ambientes contínuos de alta resolução. Neste trabalho, apresentamos os Relightable Gaussian Codec Avatars, um método para construir avatares de cabeça reilumináveis de alta fidelidade que podem ser animados para gerar novas expressões. Nosso modelo de geometria baseado em Gaussianas 3D é capaz de capturar detalhes consistentes em 3D em escala sub-milimétrica, como fios de cabelo e poros em sequências dinâmicas de faces. Para suportar diversos materiais da cabeça humana, como olhos, pele e cabelos, de maneira unificada, apresentamos um novo modelo de aparência reiluminável baseado em transferência de radiância aprendível. Juntamente com harmônicos esféricos conscientes de iluminação global para os componentes difusos, alcançamos reiluminação em tempo real com reflexões espacialmente de todas as frequências usando Gaussianas esféricas. Este modelo de aparência pode ser eficientemente reiluminado tanto sob iluminação pontual quanto contínua. Melhoramos ainda mais a fidelidade das reflexões oculares e habilitamos o controle explícito do olhar ao introduzir modelos oculares explícitos reilumináveis. Nosso método supera as abordagens existentes sem comprometer o desempenho em tempo real. Também demonstramos a reiluminação em tempo real de avatares em um headset de VR consumer com fio, mostrando a eficiência e fidelidade de nossos avatares.
Apresentamos o X-Adapter, um atualizador universal que permite que os módulos pré-treinados plug-and-play (por exemplo, ControlNet, LoRA) funcionem diretamente com o modelo de difusão texto-para-imagem atualizado (por exemplo, SDXL) sem a necessidade de retreinamento adicional. Alcançamos esse objetivo treinando uma rede adicional para controlar o modelo atualizado congelado com novos pares de dados texto-imagem. Em detalhes, o X-Adapter mantém uma cópia congelada do modelo antigo para preservar os conectores de diferentes plugins. Além disso, o X-Adapter adiciona camadas de mapeamento treináveis que conectam os decodificadores de modelos de diferentes versões para o remapeamento de características. As características remapeadas serão usadas como orientação para o modelo atualizado. Para aprimorar a capacidade de orientação do X-Adapter, empregamos uma estratégia de treinamento com texto nulo para o modelo atualizado. Após o treinamento, também introduzimos uma estratégia de eliminação de ruído em duas etapas para alinhar os latentes iniciais do X-Adapter e do modelo atualizado. Graças às nossas estratégias, o X-Adapter demonstra compatibilidade universal com vários plugins e também permite que plugins de diferentes versões trabalhem juntos, expandindo assim as funcionalidades da comunidade de difusão. Para verificar a eficácia do método proposto, realizamos extensos experimentos, e os resultados mostram que o X-Adapter pode facilitar uma aplicação mais ampla no modelo de difusão fundamental atualizado.
Modelos de linguagem multimodal de grande escala (MLLMs) têm ganhado atenção significativa devido à sua forte capacidade de compreensão multimodal. No entanto, os trabalhos existentes dependem fortemente de codificadores específicos para cada modalidade, que geralmente diferem em arquitetura e são limitados a modalidades comuns. Neste artigo, apresentamos o OneLLM, um MLLM que alinha oito modalidades à linguagem usando uma estrutura unificada. Isso é alcançado por meio de um codificador multimodal unificado e um pipeline progressivo de alinhamento multimodal. Em detalhes, primeiro treinamos um módulo de projeção de imagem para conectar um codificador de visão a um modelo de linguagem de grande escala (LLM). Em seguida, construímos um módulo de projeção universal (UPM) misturando múltiplos módulos de projeção de imagem e roteamento dinâmico. Por fim, alinhamos progressivamente mais modalidades ao LLM usando o UPM. Para aproveitar plenamente o potencial do OneLLM na execução de instruções, também criamos um conjunto abrangente de dados de instruções multimodais, incluindo 2 milhões de itens de imagem, áudio, vídeo, nuvem de pontos, mapa de profundidade/normal, IMU e atividade cerebral por fMRI. O OneLLM é avaliado em 25 benchmarks diversos, abrangendo tarefas como legendagem multimodal, questionamento e raciocínio, onde apresenta um desempenho excelente. Código, dados, modelo e demonstração online estão disponíveis em https://github.com/csuhan/OneLLM.
Os modelos de difusão revolucionaram recentemente o campo de síntese de imagens devido à sua capacidade de gerar imagens foto-realistas. No entanto, um dos principais inconvenientes dos modelos de difusão é que o processo de geração de imagens é custoso. Uma grande rede de imagem para imagem precisa ser aplicada várias vezes para refinar iterativamente uma imagem a partir de ruído aleatório. Embora muitos trabalhos recentes proponham técnicas para reduzir o número de etapas necessárias, eles geralmente tratam a rede de remoção de ruído subjacente como uma caixa preta. Neste trabalho, investigamos o comportamento das camadas dentro da rede e descobrimos que 1) a saída das camadas muda suavemente ao longo do tempo, 2) as camadas exibem padrões distintos de mudança e 3) a mudança de uma etapa para outra é frequentemente muito pequena. Nossa hipótese é que muitos cálculos das camadas na rede de remoção de ruído são redundantes. Aproveitando isso, introduzimos o cache de blocos, no qual reutilizamos as saídas de blocos de camadas de etapas anteriores para acelerar a inferência. Além disso, propomos uma técnica para determinar automaticamente os cronogramas de cache com base nas mudanças de cada bloco ao longo das etapas de tempo. Em nossos experimentos, mostramos por meio de FID, avaliação humana e análise qualitativa que o Cache de Blocos permite gerar imagens com maior qualidade visual ao mesmo custo computacional. Demonstramos isso para diferentes modelos de última geração (LDM e EMU) e solucionadores (DDIM e DPM).
Apresentamos o LooseControl para permitir o condicionamento generalizado de profundidade na geração de imagens baseada em difusão. O ControlNet, o estado da arte para geração de imagens condicionadas por profundidade, produz resultados notáveis, mas depende do acesso a mapas de profundidade detalhados para orientação. Criar tais mapas de profundidade exatos, em muitos cenários, é desafiador. Este artigo introduz uma versão generalizada de condicionamento de profundidade que possibilita muitos novos fluxos de trabalho de criação de conteúdo. Especificamente, permitimos (C1) controle de limites de cena para especificar vagamente cenas com apenas condições de limite, e (C2) controle de caixa 3D para especificar locais de layout dos objetos alvo, em vez da forma e aparência exatas dos objetos. Usando o LooseControl, juntamente com orientação textual, os usuários podem criar ambientes complexos (por exemplo, salas, vistas de rua, etc.) especificando apenas os limites da cena e os locais dos objetos principais. Além disso, fornecemos dois mecanismos de edição para refinar os resultados: (E1) a edição de caixa 3D permite que o usuário refine as imagens alterando, adicionando ou removendo caixas enquanto congela o estilo da imagem. Isso resulta em mudanças mínimas, além das mudanças induzidas pelas caixas editadas. (E2) A edição de atributos propõe possíveis direções de edição para alterar um aspecto particular da cena, como a densidade geral de objetos ou um objeto específico. Testes extensivos e comparações com linhas de base demonstram a generalidade do nosso método. Acreditamos que o LooseControl pode se tornar uma importante ferramenta de design para criar facilmente ambientes complexos e ser estendido a outras formas de canais de orientação. Código e mais informações estão disponíveis em https://shariqfarooq123.github.io/loose-control/.
Técnicas de personalização para modelos de texto-para-imagem abriram caminho para uma ampla gama de aplicações anteriormente inatingíveis, permitindo a geração de conceitos específicos em diversos contextos e estilos. Embora os métodos existentes facilitem a personalização de alta fidelidade para conceitos individuais ou um conjunto limitado e pré-definido deles, eles não conseguem alcançar escalabilidade, onde um único modelo pode renderizar perfeitamente inúmeros conceitos. Neste artigo, abordamos um novo problema chamado Personalização Modular, com o objetivo de fundir de forma eficiente modelos personalizados que foram ajustados independentemente para conceitos individuais. Isso permite que o modelo fundido sintetize conjuntamente conceitos em uma única imagem sem comprometer a fidelidade ou incorrer em custos computacionais adicionais. Para resolver esse problema, introduzimos a Adaptação Ortogonal, um método projetado para incentivar que os modelos personalizados, que não têm acesso uns aos outros durante o ajuste fino, tenham pesos residuais ortogonais. Isso garante que, durante o tempo de inferência, os modelos personalizados possam ser somados com interferência mínima. Nosso método proposto é simples e versátil, aplicável a quase todos os pesos otimizáveis na arquitetura do modelo. Por meio de um extenso conjunto de avaliações quantitativas e qualitativas, nosso método supera consistentemente as linhas de base relevantes em termos de eficiência e preservação de identidade, demonstrando um salto significativo em direção à personalização escalável de modelos de difusão.
A edição de conteúdo visual em vídeos continua sendo um desafio formidável, com dois problemas principais: 1) controle direto e fácil por parte do usuário para produzir 2) resultados de edição naturais, sem distorções e artefatos visíveis após alterações de forma, expressão e layout. Inspirados pelo DragGAN, uma técnica recente de edição estilo "arrastar" baseada em imagens, abordamos os problemas acima propondo o DragVideo, onde uma interação de usuário semelhante ao estilo "arrastar" é adotada para editar conteúdo de vídeo enquanto mantém a consistência temporal. Potencializado por modelos de difusão recentes, como no DragDiffusion, o DragVideo contém o novo método de edição Drag-on-Video U-Net (DoVe), que otimiza os latentes de vídeo difundidos gerados pelo U-Net de vídeo para alcançar o controle desejado. Especificamente, utilizamos o ajuste fino Sample-specific LoRA e o controle Mutual Self-Attention para garantir uma reconstrução fiel do vídeo a partir do método DoVe. Também apresentamos uma série de exemplos de teste para edição de vídeo estilo "arrastar" e conduzimos extensos experimentos em uma ampla gama de tarefas de edição desafiadoras, como edição de movimento, edição de esqueleto, etc., destacando a versatilidade e generalidade do DragVideo. Nossos códigos, incluindo a interface de usuário web do DragVideo, serão liberados.
Nesta era, o sucesso dos grandes modelos de linguagem e dos modelos de texto para imagem pode ser atribuído à força motriz dos conjuntos de dados em larga escala. No entanto, no campo da visão 3D, embora progressos notáveis tenham sido alcançados com modelos treinados em grandes volumes de dados sintéticos e capturados em objetos reais, como Objaverse e MVImgNet, um nível semelhante de avanço não foi observado no domínio de tarefas centradas no ser humano, em parte devido à falta de um conjunto de dados humano em larga escala. Os conjuntos de dados existentes de captura 3D de alta fidelidade de humanos continuam a ser de tamanho médio, devido aos desafios significativos na aquisição de dados humanos 3D de alta qualidade em grande escala. Para preencher essa lacuna, apresentamos o MVHumanNet, um conjunto de dados que compreende sequências de ações humanas capturadas em múltiplas perspectivas de 4.500 identidades humanas. O foco principal do nosso trabalho é na coleta de dados humanos que apresentam um grande número de identidades diversas e roupas do cotidiano, utilizando um sistema de captura humana multi-visão, o que facilita a coleta de dados escalável. Nosso conjunto de dados contém 9.000 trajes diários, 60.000 sequências de movimento e 645 milhões de quadros com anotações extensas, incluindo máscaras humanas, parâmetros de câmera, pontos-chave 2D e 3D, parâmetros SMPL/SMPLX e descrições textuais correspondentes. Para explorar o potencial do MVHumanNet em várias tarefas visuais 2D e 3D, realizamos estudos piloto em reconhecimento de ação consistente em diferentes perspectivas, reconstrução de NeRF humano, geração de imagens humanas não restritas a uma perspectiva baseada em texto, bem como geração de imagens humanas 2D não restritas a uma perspectiva e geração de avatares 3D. Experimentos extensivos demonstram as melhorias de desempenho e as aplicações eficazes possibilitadas pela escala proporcionada pelo MVHumanNet. Como o maior conjunto de dados humanos 3D atualmente disponível, esperamos que a liberação dos dados do MVHumanNet com anotações promova inovações adicionais no domínio de tarefas centradas no ser humano em 3D em larga escala.
Métodos de reconstrução 3D, como os Campos de Radiação Neural (NeRFs), destacam-se na renderização de novas visões fotorrealistas de cenas complexas. No entanto, a recuperação de um NeRF de alta qualidade geralmente requer dezenas a centenas de imagens de entrada, resultando em um processo de captura demorado. Apresentamos o ReconFusion para reconstruir cenas do mundo real utilizando apenas algumas fotos. Nossa abordagem aproveita um prior de difusão para síntese de novas visões, treinado em conjuntos de dados sintéticos e multiview, que regulariza um pipeline de reconstrução 3D baseado em NeRF em poses de câmera além daquelas capturadas pelo conjunto de imagens de entrada. Nosso método sintetiza geometria e textura realistas em regiões sub-restritas, preservando a aparência das regiões observadas. Realizamos uma avaliação extensa em diversos conjuntos de dados do mundo real, incluindo cenas frontais e de 360 graus, demonstrando melhorias significativas de desempenho em relação às abordagens anteriores de reconstrução NeRF com poucas visões.
A modelagem baseada em agentes existe há décadas e tem sido amplamente aplicada nas ciências sociais e naturais. O escopo desse método de pesquisa está agora prestes a crescer dramaticamente à medida que incorpora as novas possibilidades oferecidas pelos Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês). Os Modelos Baseados em Agentes Generativos (GABMs, na sigla em inglês) não são apenas Modelos Baseados em Agentes (ABMs, na sigla em inglês) clássicos onde os agentes conversam entre si. Em vez disso, os GABMs são construídos usando um LLM para aplicar o senso comum a situações, agir de forma "razoável", recuperar conhecimento semântico comum, produzir chamadas de API para controlar tecnologias digitais como aplicativos e se comunicar tanto dentro da simulação quanto com pesquisadores que a observam de fora. Aqui apresentamos Concordia, uma biblioteca para facilitar a construção e o trabalho com GABMs. O Concordia torna fácil criar simulações mediadas por linguagem de ambientes físicos ou digitais. Os agentes do Concordia produzem seu comportamento usando um sistema de componentes flexível que media entre duas operações fundamentais: chamadas de LLM e recuperação de memória associativa. Um agente especial chamado Mestre do Jogo (GM, na sigla em inglês), inspirado em jogos de RPG de mesa, é responsável por simular o ambiente onde os agentes interagem. Os agentes tomam ações descrevendo o que desejam fazer em linguagem natural. O GM então traduz suas ações em implementações apropriadas. Em um mundo físico simulado, o GM verifica a plausibilidade física das ações dos agentes e descreve seus efeitos. Em ambientes digitais que simulam tecnologias como aplicativos e serviços, o GM pode lidar com chamadas de API para integrar ferramentas externas, como assistentes de IA gerais (por exemplo, Bard, ChatGPT) e aplicativos digitais (por exemplo, Calendário, E-mail, Busca, etc.). O Concordia foi projetado para suportar uma ampla gama de aplicações, tanto em pesquisa científica quanto para avaliar o desempenho de serviços digitais reais, simulando usuários e/ou gerando dados sintéticos.
Propomos um método para controlar atributos materiais de objetos, como rugosidade, metálico, albedo e transparência, em imagens reais. Nosso método aproveita o conhecimento prévio gerativo de modelos de texto para imagem, conhecidos por seu fotorrealismo, empregando um valor escalar e instruções para alterar propriedades materiais de baixo nível. Para lidar com a falta de conjuntos de dados com atributos materiais controlados, geramos um conjunto de dados sintético centrado em objetos com materiais baseados em física. O ajuste fino de um modelo pré-treinado de texto para imagem, modificado com base nesse conjunto de dados sintético, nos permite editar propriedades materiais em imagens do mundo real, preservando todos os outros atributos. Demonstramos a aplicação potencial do nosso modelo em NeRFs com materiais editados.
Recentemente, foram feitos progressos significativos na geração de movimentos humanos baseada em texto, permitindo a criação de movimentos diversos e de alta qualidade que se alinham com descrições textuais. No entanto, ainda é desafiador gerar movimentos refinados ou estilizados devido à falta de conjuntos de dados anotados com descrições textuais detalhadas. Ao adotar uma estratégia de dividir para conquistar, propomos um novo framework chamado Fine-Grained Human Motion Diffusion Model (FG-MDM) para a geração de movimentos humanos. Especificamente, primeiro analisamos anotações textuais vagas anteriores em descrições refinadas de diferentes partes do corpo, utilizando um modelo de linguagem de grande escala (GPT-3.5). Em seguida, usamos essas descrições refinadas para orientar um modelo de difusão baseado em transformers. O FG-MDM é capaz de gerar movimentos refinados e estilizados, mesmo fora da distribuição dos dados de treinamento. Nossos resultados experimentais demonstram a superioridade do FG-MDM em relação a métodos anteriores, destacando especialmente sua forte capacidade de generalização. Disponibilizaremos nossas anotações textuais refinadas para os conjuntos de dados HumanML3D e KIT.
Nossa compreensão do mundo visual é centrada em torno de vários eixos conceituais, que caracterizam diferentes aspectos das entidades visuais. Embora diferentes eixos conceituais possam ser facilmente especificados pela linguagem, por exemplo, cor, as nuances visuais exatas ao longo de cada eixo frequentemente ultrapassam as limitações das articulações linguísticas, como um estilo particular de pintura. Neste trabalho, nosso objetivo é aprender uma representação visual de conceitos informada pela linguagem, simplesmente destilando modelos pré-treinados de visão e linguagem. Especificamente, treinamos um conjunto de codificadores de conceitos para codificar as informações pertinentes a um conjunto de eixos conceituais informados pela linguagem, com o objetivo de reproduzir a imagem de entrada por meio de um modelo pré-treinado de Texto para Imagem (T2I). Para incentivar uma melhor separação dos diferentes codificadores de conceitos, ancoramos os embeddings de conceitos a um conjunto de embeddings de texto obtidos de um modelo pré-treinado de Resposta a Perguntas Visuais (VQA). No momento da inferência, o modelo extrai embeddings de conceitos ao longo de vários eixos de novas imagens de teste, que podem ser recombinados para gerar imagens com composições novas de conceitos visuais. Com um procedimento leve de ajuste fino em tempo de teste, o modelo também pode generalizar para novos conceitos não vistos durante o treinamento.
As interações com assistentes virtuais geralmente começam com uma frase de ativação seguida por um comando. Neste trabalho, exploramos a possibilidade de tornar essas interações mais naturais ao eliminar a necessidade de uma frase de ativação. Nosso objetivo é determinar se um usuário se dirigiu ao assistente virtual com base em sinais obtidos do áudio em streaming gravado pelo microfone do dispositivo. Abordamos essa tarefa combinando hipóteses 1-best e sinais do decodificador de um sistema de reconhecimento automático de fala com representações acústicas de um codificador de áudio como características de entrada para um modelo de linguagem de grande escala (LLM). Em particular, estamos interessados em sistemas eficientes em termos de dados e recursos que exigem apenas uma pequena quantidade de dados de treinamento e podem operar em cenários com apenas um único LLM congelado disponível no dispositivo. Por esse motivo, nosso modelo é treinado em 80 mil ou menos exemplos de dados multimodais usando uma combinação de adaptação de baixo posto e ajuste de prefixo. Comparamos o sistema proposto com baselines unimodais e mostramos que a abordagem multimodal alcança taxas de erro iguais (EERs) mais baixas, enquanto utiliza apenas uma fração dos dados de treinamento. Também mostramos que representações de áudio especializadas de baixa dimensionalidade levam a EERs mais baixas do que representações de áudio gerais de alta dimensionalidade.