Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o Lumiere -- um modelo de difusão texto-para-vídeo projetado para sintetizar vídeos que retratam movimentos realistas, diversos e coerentes -- um desafio fundamental na síntese de vídeos. Para isso, introduzimos uma arquitetura Space-Time U-Net que gera toda a duração temporal do vídeo de uma só vez, em um único passo no modelo. Isso contrasta com os modelos de vídeo existentes, que sintetizam quadros-chave distantes seguidos de super-resolução temporal -- uma abordagem que, por natureza, dificulta a consistência temporal global. Ao empregar tanto o down-sampling quanto o up-sampling espacial e (crucialmente) temporal, e aproveitando um modelo de difusão texto-para-imagem pré-treinado, nosso modelo aprende a gerar diretamente um vídeo de baixa resolução com taxa de quadros completa, processando-o em múltiplas escalas espaço-temporais. Demonstramos resultados de última geração na geração de vídeos a partir de texto e mostramos que nosso design facilita uma ampla gama de tarefas de criação de conteúdo e aplicações de edição de vídeo, incluindo imagem-para-vídeo, preenchimento de vídeo e geração estilizada.
Jogar com Grandes Modelos de Linguagem Visual (LVLMs) em 2023 está na moda na comunidade de IA. No entanto, o número relativamente grande de parâmetros (mais de 7B) dos LVLMs populares torna difícil o treinamento e a implantação em GPUs de consumo, desencorajando muitos pesquisadores com recursos limitados. Imagine como seria legal experimentar todos os recursos dos LVLMs atuais em uma antiga GTX1080ti (nossa única placa de vídeo). Assim, apresentamos o Vary-toy neste relatório, uma versão compacta do Vary junto com o Qwen-1.8B como o modelo de linguagem "grande" base. No Vary-toy, introduzimos um vocabulário visual aprimorado, permitindo que o modelo não apenas possua todos os recursos do Vary, mas também adquira mais generalidade. Especificamente, substituímos amostras negativas de imagens naturais por dados de amostras positivas impulsionados por detecção de objetos no procedimento de geração do vocabulário visual, utilizando mais suficientemente a capacidade da rede de vocabulário e permitindo que ela codifique eficientemente informações visuais correspondentes a objetos naturais. Nos experimentos, o Vary-toy pode alcançar 65,6% ANLS no DocVQA, 59,1% de precisão no ChartQA, 88,1% de precisão no RefCOCO e 29% no MMVet. O código estará publicamente disponível na página inicial.
Modelos de base que incorporam linguagem, visão e, mais recentemente, ações revolucionaram a capacidade de aproveitar dados em escala da internet para raciocinar sobre tarefas úteis. No entanto, um dos principais desafios do treinamento de modelos de base corporificados é a falta de dados fundamentados no mundo físico. Neste artigo, propomos o AutoRT, um sistema que aproveita os modelos de base existentes para ampliar a implantação de robôs operacionais em cenários completamente desconhecidos com supervisão humana mínima. O AutoRT utiliza modelos de visão e linguagem (VLMs) para compreensão e contextualização de cenas, e ainda emprega grandes modelos de linguagem (LLMs) para propor instruções diversas e inovadoras a serem executadas por uma frota de robôs. Orientar a coleta de dados ao aproveitar o conhecimento dos modelos de base permite que o AutoRT raciocine efetivamente sobre compensações de autonomia e segurança, enquanto amplia significativamente a coleta de dados para o aprendizado de robôs. Demonstramos o AutoRT propondo instruções para mais de 20 robôs em vários edifícios e coletando 77 mil episódios reais de robôs por meio de teleoperação e políticas autônomas de robôs. Experimentalmente, mostramos que esses dados "em campo" coletados pelo AutoRT são significativamente mais diversos, e que o uso de LLMs pelo AutoRT permite a coleta de dados de robôs que seguem instruções e podem se alinhar às preferências humanas.
Modelos de linguagem de grande escala (LLMs) comumente empregam geração autoregressiva durante a inferência, resultando em alta demanda de largura de banda de memória e, consequentemente, em latência prolongada. Para mitigar essa ineficiência, apresentamos o Bi-directional Tuning for Lossless Acceleration (BiTA), um método inovador que acelera LLMs por meio de geração semi-autoregressiva otimizada e verificação de rascunhos. Inspirados pelo conceito de ajuste de prompt, aprimoramos LLMs com um design eficiente em parâmetros chamado ajuste bidirecional para capacitar a geração semi-autoregressiva. Utilizando decodificação baseada em árvore eficiente, os modelos realizam a geração de candidatos a rascunho e a verificação em paralelo, garantindo saídas idênticas às suas contrapartes autoregressivas sob amostragem gananciosa. O BiTA serve como um módulo plug-in leve, aumentando de forma contínua a eficiência de inferência de LLMs existentes sem a necessidade de modelos de assistência adicionais ou custos significativos de memória extra. Aplicando o BiTA proposto, o LLaMA-2-70B-Chat alcança um aumento de velocidade de 2,7 vezes no benchmark MT-Bench. Experimentos extensivos confirmam que nosso método supera as técnicas de aceleração mais avançadas.
Na era dos modelos de grande escala, a natureza autorregressiva da decodificação frequentemente resulta em latência, que se torna um gargalo significativo. Propomos um sistema de reconhecimento automático de fala (ASR) não autorregressivo com fusão de modelo de linguagem (LM) que aproveita efetivamente as capacidades de paralelização do hardware acelerador. Nossa abordagem combina o Universal Speech Model (USM) e o modelo de linguagem PaLM 2 no modo de pontuação por segmento, alcançando uma melhoria relativa média na taxa de erro de palavras (WER) de 10,8% no FLEURS e 3,6% na legendagem do YouTube em todos os idiomas. Além disso, nosso estudo abrangente de ablação analisa parâmetros-chave, como tamanho do LLM, comprimento do contexto, tamanho do vocabulário e metodologia de fusão. Por exemplo, exploramos o impacto do tamanho do LLM, variando de 128M a 340B parâmetros, no desempenho do ASR. Este estudo fornece insights valiosos sobre os fatores que influenciam a eficácia de sistemas práticos de reconhecimento de fala em grande escala com fusão de LM.
Apresentamos o GALA, um framework que recebe como entrada uma malha 3D de um humano vestido em camada única e a decompõe em ativos 3D multicamadas completos. As saídas podem então ser combinadas com outros ativos para criar novos avatares humanos vestidos com qualquer pose. As abordagens de reconstrução existentes frequentemente tratam humanos vestidos como uma única camada de geometria e ignoram a composicionalidade inerente de humanos com penteados, roupas e acessórios, limitando assim a utilidade das malhas para aplicações subsequentes. Decompor uma malha de camada única em camadas separadas é uma tarefa desafiadora, pois requer a síntese de geometria e textura plausíveis para regiões severamente ocluídas. Além disso, mesmo com uma decomposição bem-sucedida, as malhas não são normalizadas em termos de poses e formas corporais, falhando em uma composição coerente com novas identidades e poses. Para enfrentar esses desafios, propomos aproveitar o conhecimento geral de um modelo de difusão 2D pré-treinado como prior de geometria e aparência para humanos e outros ativos. Primeiro, separamos a malha de entrada usando a segmentação de superfície 3D extraída de segmentações 2D multivista. Em seguida, sintetizamos a geometria ausente de diferentes camadas tanto no espaço posado quanto no canônico, utilizando uma nova função de perda de Amostragem de Distilação de Pontuação (SDS) guiada por pose. Após completar o preenchimento de alta fidelidade da geometria 3D, também aplicamos a mesma função de perda SDS à sua textura para obter a aparência completa, incluindo as regiões inicialmente ocluídas. Por meio de uma série de etapas de decomposição, obtemos múltiplas camadas de ativos 3D em um espaço canônico compartilhado, normalizado em termos de poses e formas humanas, suportando assim uma composição sem esforço com novas identidades e reanimação com novas poses. Nossos experimentos demonstram a eficácia de nossa abordagem para tarefas de decomposição, canonização e composição em comparação com soluções existentes.