Artigos de pesquisa em IA selecionados diariamente com traduções
Propomos uma nova técnica de inferência baseada em um modelo de difusão pré-treinado para geração de vídeos condicionados por texto. Nossa abordagem, denominada FIFO-Diffusion, é conceitualmente capaz de gerar vídeos infinitamente longos sem necessidade de treinamento. Isso é alcançado através da realização iterativa de desnaturação diagonal, que processa simultaneamente uma série de quadros consecutivos com níveis crescentes de ruído em uma fila; nosso método remove um quadro completamente desnaturado na cabeça da fila enquanto adiciona um novo quadro de ruído aleatório na cauda. No entanto, a desnaturação diagonal é uma faca de dois gumes, pois os quadros próximos à cauda podem se beneficiar de quadros mais limpos por meio de referência futura, mas essa estratégia induz uma discrepância entre o treinamento e a inferência. Portanto, introduzimos a partição latente para reduzir a lacuna entre treinamento e inferência e a desnaturação antecipada para aproveitar o benefício da referência futura. Demonstramos resultados promissores e a eficácia dos métodos propostos em baselines existentes de geração de vídeo a partir de texto.
A adaptação de baixo posto é um método popular de ajuste fino eficiente em parâmetros para modelos de linguagem de grande escala. Neste artigo, analisamos o impacto da atualização de baixo posto, conforme implementada no LoRA. Nossas descobertas sugerem que o mecanismo de atualização de baixo posto pode limitar a capacidade dos LLMs de aprender e memorizar efetivamente novos conhecimentos. Inspirados por essa observação, propomos um novo método chamado MoRA, que emprega uma matriz quadrada para alcançar atualização de alto posto mantendo o mesmo número de parâmetros treináveis. Para isso, introduzimos os operadores não paramétricos correspondentes para reduzir a dimensão de entrada e aumentar a dimensão de saída para a matriz quadrada. Além disso, esses operadores garantem que o peso possa ser reintegrado aos LLMs, o que permite que nosso método seja implantado como o LoRA. Realizamos uma avaliação abrangente do nosso método em cinco tarefas: ajuste de instrução, raciocínio matemático, pré-treinamento contínuo, memória e pré-treinamento. Nosso método supera o LoRA em tarefas intensivas em memória e alcança desempenho comparável em outras tarefas.
À medida que os grandes modelos de linguagem (LLMs) continuam a crescer seguindo as leis de escala, o aprendizado por reforço com feedback humano (RLHF) tem ganhado atenção significativa devido ao seu desempenho excepcional. No entanto, ao contrário do pré-treinamento ou ajuste fino de um único modelo, escalar o aprendizado por reforço com feedback humano (RLHF) para treinar grandes modelos de linguagem apresenta desafios de coordenação entre quatro modelos. Apresentamos o OpenRLHF, um framework de código aberto que permite a escalabilidade eficiente do RLHF. Diferente dos frameworks de RLHF existentes que colocam os quatro modelos nas mesmas GPUs, o OpenRLHF redesenha o agendamento para modelos com mais de 70 bilhões de parâmetros utilizando Ray, vLLM e DeepSpeed, aproveitando a melhoria na utilização de recursos e abordagens de treinamento diversificadas. Integrando-se perfeitamente com o Hugging Face, o OpenRLHF oferece uma solução pronta para uso com algoritmos otimizados e scripts de inicialização, garantindo facilidade de uso. O OpenRLHF implementa RLHF, DPO, amostragem de rejeição e outras técnicas de alinhamento. Capacitando o desenvolvimento de LLMs de última geração, o código do OpenRLHF está disponível em https://github.com/OpenLLMAI/OpenRLHF.
O crescente número de adaptações eficientes em parâmetros de um modelo de linguagem grande (LLM) base demanda o estudo sobre se podemos reutilizar tais adaptadores treinados para melhorar o desempenho em novas tarefas. Investigamos como melhor construir uma biblioteca de adaptadores considerando dados multitarefa e desenvolvemos técnicas para generalização tanto em cenários zero-shot quanto supervisionados por meio de roteamento nessa biblioteca. Avaliamos abordagens existentes para construir essa biblioteca e introduzimos o agrupamento baseado em modelo, MBC, um método que agrupa tarefas com base na similaridade de seus parâmetros de adaptação, otimizando indiretamente a transferência entre o conjunto de dados multitarefa. Para reutilizar a biblioteca, apresentamos um novo mecanismo de roteamento zero-shot, Arrow, que permite a seleção dinâmica dos adaptadores mais relevantes para novas entradas sem a necessidade de retreinamento. Realizamos experimentos com vários LLMs, como Phi-2 e Mistral, em uma ampla gama de tarefas retidas, verificando que adaptadores baseados em MBC e o roteamento Arrow levam a uma generalização superior para novas tarefas. Damos passos em direção à criação de LLMs modulares e adaptáveis que podem igualar ou superar o treinamento conjunto tradicional.
Políticas de grande escala pré-treinadas em conjuntos de dados diversos de robótica têm o potencial de transformar o aprendizado robótico: em vez de treinar novas políticas do zero, tais políticas generalistas de robótica podem ser ajustadas com apenas um pouco de dados específicos do domínio, ainda assim generalizando amplamente. No entanto, para serem amplamente aplicáveis em uma variedade de cenários, ambientes e tarefas de aprendizado robótico, essas políticas precisam lidar com sensores e espaços de ação diversos, acomodar uma variedade de plataformas robóticas comumente utilizadas e ajustar-se de forma rápida e eficiente a novos domínios. Neste trabalho, nosso objetivo é estabelecer as bases para o desenvolvimento de políticas generalistas de código aberto e amplamente aplicáveis para manipulação robótica. Como primeiro passo, apresentamos o Octo, uma política baseada em transformadores de grande escala, treinada em 800 mil trajetórias do conjunto de dados Open X-Embodiment, o maior conjunto de dados de manipulação robótica até o momento. Ele pode ser instruído por comandos de linguagem ou imagens de objetivo e pode ser efetivamente ajustado a configurações robóticas com novas entradas sensoriais e espaços de ação em poucas horas em GPUs de consumo padrão. Em experimentos realizados em 9 plataformas robóticas, demonstramos que o Octo serve como uma inicialização de política versátil que pode ser efetivamente ajustada a novos espaços de observação e ação. Também realizamos análises detalhadas das decisões de projeto para o modelo Octo, desde a arquitetura até os dados de treinamento, para orientar pesquisas futuras na construção de modelos robóticos generalistas.
Ao aproveitar as capacidades dos grandes modelos de linguagem (LLMs), os recentes modelos multimodais de grande escala (LMMs) demonstraram uma versatilidade notável na compreensão multimodal de mundo aberto. No entanto, eles geralmente possuem muitos parâmetros e são intensivos em computação, o que dificulta sua aplicabilidade em cenários com recursos limitados. Para isso, vários LMMs leves foram propostos sucessivamente para maximizar as capacidades sob uma escala restrita (por exemplo, 3B). Apesar dos resultados encorajadores alcançados por esses métodos, a maioria deles se concentra em apenas um ou dois aspectos do espaço de design, e as principais escolhas de design que influenciam a capacidade do modelo ainda não foram investigadas de forma abrangente. Neste artigo, realizamos um estudo sistemático para LMMs leves, considerando os aspectos de arquitetura do modelo, estratégia de treinamento e dados de treinamento. Com base em nossas descobertas, obtemos o Imp — uma família de LMMs altamente capazes nas escalas de 2B-4B. Notavelmente, nosso modelo Imp-3B supera consistentemente todos os LMMs leves existentes de tamanho similar e até ultrapassa os LMMs state-of-the-art na escala de 13B. Com técnicas de quantização de baixo bit e redução de resolução, nosso modelo Imp pode ser implantado em um chip móvel Qualcomm Snapdragon 8Gen3 com uma alta velocidade de inferência de cerca de 13 tokens/s.
Os Transformers tornaram-se arquiteturas fundamentais tanto para tarefas de processamento de linguagem natural quanto para visão computacional. No entanto, o alto custo computacional torna bastante desafiador sua implantação em dispositivos com recursos limitados. Este artigo investiga os módulos que representam gargalos computacionais em transformers eficientes, ou seja, camadas de normalização e módulos de atenção. O LayerNorm é comumente usado em arquiteturas de transformers, mas não é computacionalmente amigável devido ao cálculo de estatísticas durante a inferência. No entanto, substituir o LayerNorm pelo BatchNorm mais eficiente em transformers frequentemente resulta em desempenho inferior e colapso durante o treinamento. Para resolver esse problema, propomos um método inovador chamado PRepBN para substituir progressivamente o LayerNorm pelo BatchNorm reparametrizado durante o treinamento. Além disso, propomos um módulo de atenção linear simplificado (SLA) que é simples, mas eficaz para alcançar um forte desempenho. Experimentos extensivos em classificação de imagens e detecção de objetos demonstram a eficácia do nosso método proposto. Por exemplo, nosso SLAB-Swin obtém 83,6% de precisão top-1 no ImageNet-1K com uma latência de 16,2ms, que é 2,4ms menor que a do Flatten-Swin com 0,1% a mais de precisão. Também avaliamos nosso método para a tarefa de modelagem de linguagem e obtivemos desempenho comparável e menor latência. Os códigos estão publicamente disponíveis em https://github.com/xinghaochen/SLAB e https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SLAB.
Neste trabalho, propomos um novo método chamado Trajectory Score Matching (TSM), que visa resolver o problema de inconsistência do pseudo ground truth causado pelo erro acumulado no Interval Score Matching (ISM) ao utilizar o processo de inversão dos Denoising Diffusion Implicit Models (DDIM). Diferente do ISM, que adota o processo de inversão do DDIM para calcular em um único caminho, nosso método TSM aproveita o processo de inversão do DDIM para gerar dois caminhos a partir do mesmo ponto inicial para o cálculo. Como ambos os caminhos começam do mesmo ponto, o TSM pode reduzir o erro acumulado em comparação com o ISM, aliviando assim o problema de inconsistência do pseudo ground truth. O TSM melhora a estabilidade e a consistência dos caminhos gerados pelo modelo durante o processo de destilação. Demonstramos isso experimentalmente e ainda mostramos que o ISM é um caso especial do TSM. Além disso, para otimizar o atual processo de otimização em múltiplos estágios, desde a geração de texto de alta resolução até a geração 3D, adotamos o Stable Diffusion XL como guia. Em resposta aos problemas de replicação anormal e divisão causados por gradientes instáveis durante o processo de 3D Gaussian splatting ao usar o Stable Diffusion XL, propomos um método de corte de gradiente pixel a pixel. Experimentos extensivos mostram que nosso modelo supera significativamente os modelos state-of-the-art em termos de qualidade visual e desempenho. Código: https://github.com/xingy038/Dreamer-XL.