Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos generativos de linguagem de grande escala (LLMs) abriram inúmeras possibilidades inovadoras, mas, devido às suas significativas demandas computacionais, seu uso ubíquo ainda é desafiador. Algumas das aplicações mais úteis exigem o processamento de um grande número de amostras de uma só vez e o uso de contextos longos, ambos aumentando consideravelmente a carga de comunicação de memória dos modelos. Apresentamos o SparQ Attention, uma técnica para aumentar a taxa de transferência de inferência de LLMs, reduzindo os requisitos de largura de banda de memória dentro dos blocos de atenção por meio da busca seletiva do histórico armazenado em cache. Nossa técnica proposta pode ser aplicada diretamente a LLMs prontos para uso durante a inferência, sem a necessidade de qualquer modificação na configuração de pré-treinamento ou ajuste adicional. Demonstramos como o SparQ Attention pode diminuir os requisitos de largura de banda de memória de atenção em até oito vezes sem perda de precisão, avaliando modelos Llama 2 e Pythia em uma ampla gama de tarefas subsequentes.
Neste artigo, apresentamos o DreaMoving, um framework de geração de vídeo controlável baseado em difusão para produzir vídeos de dança humana personalizados de alta qualidade. Especificamente, dadas sequências de identidade e postura alvo, o DreaMoving pode gerar um vídeo da identidade alvo dançando em qualquer lugar, guiado pelas sequências de postura. Para isso, propomos um Video ControlNet para controle de movimento e um Content Guider para preservação de identidade. O modelo proposto é fácil de usar e pode ser adaptado à maioria dos modelos de difusão estilizados para gerar resultados diversos. A página do projeto está disponível em https://dreamoving.github.io/dreamoving.
A maior parte da pesquisa em geração 3D concentra-se em projetar modelos fundamentais 2D no espaço 3D, seja minimizando a perda de Amostragem de Distilação de Pontuação 2D (SDS) ou ajustando finamente em conjuntos de dados multivista. Sem priors 3D explícitos, esses métodos frequentemente resultam em anomalias geométricas e inconsistências multivista. Recentemente, pesquisadores tentaram melhorar a autenticidade de objetos 3D treinando diretamente em conjuntos de dados 3D, embora ao custo de geração de texturas de baixa qualidade devido à diversidade limitada de texturas nesses conjuntos. Para aproveitar as vantagens de ambas as abordagens, propomos o Bidirectional Diffusion (BiDiff), um framework unificado que incorpora tanto um processo de difusão 3D quanto 2D, preservando, respectivamente, a fidelidade 3D e a riqueza de texturas 2D. Além disso, como uma combinação simples pode gerar resultados inconsistentes, nós os conectamos com uma nova orientação bidirecional. Adicionalmente, nosso método pode ser usado como uma inicialização para modelos baseados em otimização, melhorando ainda mais a qualidade do modelo 3D e a eficiência da otimização, reduzindo o processo de geração de 3,4 horas para 20 minutos. Resultados experimentais mostraram que nosso modelo alcança geração 3D de alta qualidade, diversa e escalável. Site do projeto: https://bidiff.github.io/.
Apresentamos uma abordagem para aprimorar modelos de geração de texto-para-vídeo com movimentos personalizados, ampliando suas capacidades além dos movimentos representados nos dados de treinamento originais. Ao utilizar alguns exemplos de vídeo que demonstram movimentos específicos como entrada, nosso método aprende e generaliza os padrões de movimento da entrada para diversos cenários especificados por texto. Nossas contribuições são triplas. Primeiro, para alcançar nossos resultados, ajustamos um modelo existente de texto-para-vídeo para aprender um novo mapeamento entre o movimento representado nos exemplos de entrada e um novo token único. Para evitar o sobreajuste ao novo movimento personalizado, introduzimos uma abordagem de regularização sobre os vídeos. Segundo, ao aproveitar os pré-conhecimentos de movimento em um modelo pré-treinado, nosso método pode produzir vídeos inéditos com várias pessoas realizando o movimento personalizado, e pode invocar o movimento em combinação com outros movimentos. Além disso, nossa abordagem se estende à personalização multimodal do movimento e da aparência de sujeitos individualizados, permitindo a geração de vídeos com personagens únicos e movimentos distintos. Terceiro, para validar nosso método, introduzimos uma abordagem para avaliar quantitativamente o movimento personalizado aprendido e realizamos um estudo de ablação sistemático. Demonstramos que nosso método supera significativamente as abordagens anteriores de personalização baseada em aparência quando estendidas à tarefa de personalização de movimento.
Com os recentes avanços em modelos de linguagem de grande escala, métodos como o prompting de cadeia de pensamento para eliciar cadeias de raciocínio têm demonstrado melhorar os resultados em tarefas de raciocínio. No entanto, tarefas que exigem múltiplos passos de raciocínio ainda representam desafios significativos para os modelos state-of-the-art. Inspirados pelo algoritmo de busca em feixe, propomos o PathFinder, uma abordagem de geração de caminhos de raciocínio baseada em busca em árvore. Ele aprimora a ramificação diversificada e o raciocínio multi-hop por meio da integração de decodificação dinâmica, possibilitada por métodos e parâmetros de amostragem variados. Utilizando raciocínio restrito, o PathFinder integra novas restrições de qualidade, poda e métodos de exploração para melhorar a eficiência e a qualidade da geração. Além disso, inclui funcionalidades de pontuação e classificação para aprimorar a seleção de candidatos. Nossa abordagem supera as linhas de base competitivas em três tarefas complexas de raciocínio aritmético e de senso comum em média 6%. Nosso modelo generaliza bem para cadeias de raciocínio mais longas e não vistas, refletindo complexidades semelhantes à busca em feixe com grandes fatores de ramificação.
Modelos de difusão para remoção de ruído têm demonstrado resultados excepcionais na geração de imagens 2D, mas ainda é um desafio replicar esse sucesso na geração de formas 3D. Neste artigo, propomos aproveitar a profundidade multivista, que representa formas 3D complexas em um formato de dados 2D que é fácil de remover ruído. Emparelhamos essa representação com um modelo de difusão, o MVDD, capaz de gerar nuvens de pontos densas e de alta qualidade com mais de 20 mil pontos e detalhes refinados. Para garantir a consistência 3D na profundidade multivista, introduzimos uma atenção a segmentos de linha epipolar que condiciona a etapa de remoção de ruído de uma vista com base em suas vistas vizinhas. Além disso, um módulo de fusão de profundidade é incorporado às etapas de difusão para garantir ainda mais o alinhamento dos mapas de profundidade. Quando aumentado com reconstrução de superfície, o MVDD também pode produzir malhas 3D de alta qualidade. Adicionalmente, o MVDD se destaca em outras tarefas, como completamento de profundidade, e pode servir como um prior 3D, impulsionando significativamente muitas tarefas subsequentes, como inversão de GAN. Resultados de ponta provenientes de extensos experimentos demonstram a excelente capacidade do MVDD na geração de formas 3D, completamento de profundidade e seu potencial como um prior 3D para tarefas subsequentes.
Apresentamos o EE-LLM, um framework para treinamento e inferência em larga escala de modelos de linguagem grandes (LLMs) com saída antecipada. Embora trabalhos recentes tenham mostrado evidências preliminares da eficácia da saída antecipada na aceleração da inferência de LLMs, o EE-LLM dá um passo fundamental para escalar LLMs com saída antecipada, suportando seu treinamento e inferência com paralelismo 3D massivo. Construído sobre o Megatron-LM, o EE-LLM implementa uma variedade de inovações algorítmicas e otimizações de desempenho específicas para a saída antecipada, incluindo um método leve que facilita a retropropagação para o objetivo de treinamento de saída antecipada com paralelismo de pipeline, técnicas que aproveitam recursos ociosos no cronograma original de pipeline para computação relacionada às camadas de saída antecipada, e duas abordagens de inferência de saída antecipada que são compatíveis com o armazenamento em cache de KV para geração autoregressiva. Nosso estudo analítico e empírico mostra que o EE-LLM alcança grande eficiência de treinamento com sobrecarga computacional insignificante em comparação com o treinamento padrão de LLMs, além de um excelente aumento de velocidade na inferência sem comprometer a qualidade da saída. Para facilitar pesquisas e adoção futuras, disponibilizamos o EE-LLM em https://github.com/pan-x-c/EE-LLM.
Modelos de linguagem visual (VL) que seguem instruções oferecem uma interface flexível que suporta uma ampla gama de tarefas multimodais de forma zero-shot. No entanto, interfaces que operam em imagens completas não permitem diretamente que o usuário "aponte" e acesse regiões específicas dentro das imagens. Essa capacidade é importante não apenas para suportar benchmarks de VL baseados em referência, mas também para aplicações práticas que exigem raciocínio preciso dentro da imagem. Construímos modelos de Senso Comum Visual Localizado, que permitem aos usuários especificar (múltiplas) regiões como entrada. Treinamos nosso modelo amostrando conhecimento de senso comum localizado de um grande modelo de linguagem (LLM): especificamente, solicitamos que um LLM colete conhecimento de senso comum com base em uma descrição literal global da imagem e em uma descrição literal local da região, gerada automaticamente por um conjunto de modelos VL. Com um modelo crítico treinado separadamente que seleciona exemplos de alta qualidade, descobrimos que o treinamento no corpus de senso comum localizado pode destilar com sucesso modelos VL existentes para suportar uma interface de referência como entrada. Resultados empíricos e avaliações humanas em uma configuração zero-shot demonstram que nosso método de destilação resulta em modelos VL de raciocínio mais precisos em comparação com uma linha de base que passa uma expressão de referência gerada para um LLM.