Artigos de pesquisa em IA selecionados diariamente com traduções
O crescente tamanho dos grandes modelos de linguagem tem apresentado desafios para implantação e levantado preocupações sobre o impacto ambiental devido ao alto consumo de energia. Neste trabalho, apresentamos o BitNet, uma arquitetura Transformer escalável e estável de 1 bit projetada para grandes modelos de linguagem. Especificamente, introduzimos o BitLinear como uma substituição direta da camada nn.Linear para treinar pesos de 1 bit a partir do zero. Resultados experimentais em modelagem de linguagem mostram que o BitNet alcança desempenho competitivo enquanto reduz substancialmente a pegada de memória e o consumo de energia, em comparação com métodos de quantização de 8 bits de última geração e baselines Transformer FP16. Além disso, o BitNet exibe uma lei de escalonamento semelhante aos Transformers de precisão total, sugerindo seu potencial para escalonamento eficaz para modelos de linguagem ainda maiores, mantendo os benefícios de eficiência e desempenho.
Este artigo tem como objetivo a síntese de visão em tempo real e de alta fidelidade de cenas 3D dinâmicas em resolução 4K. Recentemente, alguns métodos de síntese de visão dinâmica demonstraram qualidade de renderização impressionante. No entanto, sua velocidade ainda é limitada ao renderizar imagens de alta resolução. Para superar esse problema, propomos o 4K4D, uma representação de nuvem de pontos 4D que suporta rasterização em hardware e permite uma velocidade de renderização sem precedentes. Nossa representação é construída sobre uma grade de características 4D, de modo que os pontos são naturalmente regularizados e podem ser otimizados de forma robusta. Além disso, projetamos um novo modelo de aparência híbrido que aumenta significativamente a qualidade de renderização enquanto mantém a eficiência. Adicionalmente, desenvolvemos um algoritmo diferenciável de peeling de profundidade para aprender efetivamente o modelo proposto a partir de vídeos RGB. Experimentos mostram que nossa representação pode ser renderizada a mais de 400 FPS no conjunto de dados DNA-Rendering em resolução 1080p e a 80 FPS no conjunto de dados ENeRF-Outdoor em resolução 4K usando uma GPU RTX 4090, o que é 30 vezes mais rápido que os métodos anteriores e alcança a qualidade de renderização de última geração. Disponibilizaremos o código para garantir a reprodutibilidade.
A adaptação de baixo posto (LoRA) é um método popular que reduz o número de parâmetros treináveis ao ajustar modelos de linguagem grandes, mas ainda enfrenta desafios significativos de armazenamento ao escalar para modelos ainda maiores ou ao implantar diversos modelos adaptados por usuário ou por tarefa. Neste trabalho, apresentamos a Adaptação de Matriz Aleatória Baseada em Vetores (VeRA), que reduz o número de parâmetros treináveis em 10x em comparação com o LoRA, mantendo o mesmo desempenho. Isso é alcançado utilizando um único par de matrizes de baixo posto compartilhadas em todas as camadas e aprendendo pequenos vetores de escala em seu lugar. Demonstramos sua eficácia nos benchmarks GLUE e E2E, e mostramos sua aplicação no seguimento de instruções com apenas 1,4M de parâmetros usando o modelo Llama2 7B.
Apresentamos o Set-of-Mark (SoM), um novo método de prompt visual, para liberar as habilidades de ancoragem visual de modelos multimodais de grande escala (LMMs), como o GPT-4V. Como ilustrado na Fig. 1 (direita), empregamos modelos de segmentação interativa prontos para uso, como o SAM, para dividir uma imagem em regiões em diferentes níveis de granularidade e sobrepor essas regiões com um conjunto de marcas, por exemplo, alfanuméricos, máscaras, caixas. Utilizando a imagem marcada como entrada, o GPT-4V pode responder a perguntas que exigem ancoragem visual. Realizamos um estudo empírico abrangente para validar a eficácia do SoM em uma ampla gama de tarefas visuais e multimodais de granularidade fina. Por exemplo, nossos experimentos mostram que o GPT-4V com SoM supera o modelo de segmentação referencial totalmente ajustado de última geração no RefCOCOg em um cenário zero-shot.
Os modelos generativos de visão e linguagem têm crescido significativamente nos últimos anos. Para a geração de vídeos, diversos modelos de código aberto e serviços disponíveis publicamente foram lançados para produzir vídeos de alta qualidade visual. No entanto, esses métodos frequentemente utilizam algumas métricas acadêmicas, como FVD ou IS, para avaliar o desempenho. Argumentamos que é difícil julgar modelos generativos condicionais de grande escala com base em métricas simples, uma vez que esses modelos são frequentemente treinados em conjuntos de dados muito grandes com habilidades multifacetadas. Assim, propomos um novo framework e pipeline para avaliar exaustivamente o desempenho dos vídeos gerados. Para isso, primeiro elaboramos uma nova lista de prompts para geração de texto-para-vídeo, analisando listas de prompts do mundo real com o auxílio de um modelo de linguagem de grande escala. Em seguida, avaliamos os modelos generativos de vídeo state-of-the-art em nossos benchmarks cuidadosamente projetados, considerando qualidade visual, qualidade de conteúdo, qualidade de movimento e alinhamento texto-legenda, com cerca de 18 métricas objetivas. Para obter a classificação final dos modelos, também ajustamos uma série de coeficientes para alinhar as métricas objetivas às opiniões dos usuários. Com base no método proposto de alinhamento de opiniões, nossa pontuação final mostra uma correlação maior do que a simples média das métricas, demonstrando a eficácia do método de avaliação proposto.
Modelos de Linguagem de Grande Escala, como o ChatGPT, demonstram uma capacidade notável de aprender novos conceitos durante a inferência sem qualquer ajuste fino. No entanto, modelos visuais treinados para detectar novos objetos durante a inferência não conseguiram replicar essa habilidade, e em vez disso, ou têm um desempenho ruim ou exigem meta-treinamento e/ou ajuste fino em objetos semelhantes. Neste trabalho, propomos um algoritmo de meta-aprendizado que emula Modelos de Linguagem de Grande Escala ao aprender novos conceitos visuais durante a inferência sem ajuste fino. Nossa abordagem utiliza um extrator de características pré-treinado e congelado e, de forma análoga ao aprendizado em contexto, reformula o meta-aprendizado como modelagem de sequência sobre pontos de dados com rótulos conhecidos e um ponto de teste com um rótulo desconhecido. Em 8 de 11 benchmarks de meta-aprendizado, nossa abordagem -- sem meta-treinamento ou ajuste fino -- supera ou iguala o algoritmo estado da arte, P>M>F, que é meta-treinado nesses benchmarks.
Como reduzir os requisitos de computação e memória das redes neurais (NNs) sem sacrificar o desempenho? Muitos trabalhos recentes utilizam Misturas de Especialistas (MoEs) esparsas para construir modelos de linguagem (LMs) grandes e eficientes em termos de recursos. Aqui, introduzimos várias perspectivas novas sobre MoEs, apresentando um framework geral que unifica diversos métodos para aproximar NNs de duas camadas (por exemplo, blocos feedforward de Transformers), incluindo memórias de chave-produto (PKMs). Aproveitando insights desse framework, propomos métodos para melhorar tanto MoEs quanto PKMs. Diferente de trabalhos anteriores que comparam MoEs com baselines densas sob a condição de computação igual, nossa condição de avaliação é de parâmetros iguais, o que é crucial para avaliar corretamente LMs. Mostramos que nossas MoEs são competitivas com o Transformer-XL denso tanto no conjunto de dados WikiText-103 quanto no enwiki8 em duas escalas diferentes, sendo muito mais eficientes em termos de recursos. Isso demonstra que MoEs são relevantes não apenas para LMs extremamente grandes, mas também para LMs eficientes em recursos em qualquer escala. Nosso código é público.
À medida que os modelos de linguagem de grande escala (LLMs) se tornam mais prevalentes, há uma crescente necessidade de novos e aprimorados métodos de quantização que possam atender às demandas computacionais dessas arquiteturas modernas, mantendo a precisão. Neste artigo, apresentamos o TEQ, uma transformação equivalente treinável que preserva a precisão FP32 da saída do modelo enquanto aproveita a quantização de baixa precisão, especialmente a quantização de pesos de 3 e 4 bits. O processo de treinamento é leve, exigindo apenas 1.000 passos e menos de 0,1% dos parâmetros treináveis do modelo original. Além disso, a transformação não adiciona nenhuma sobrecarga computacional durante a inferência. Nossos resultados estão em pé de igualdade com os métodos state-of-the-art (SOTA) em LLMs típicos. Nossa abordagem pode ser combinada com outros métodos para alcançar um desempenho ainda melhor. O código está disponível em https://github.com/intel/neural-compressor.
Com os impressionantes avanços na geração de imagens baseada em difusão a partir de texto, estender essa poderosa capacidade generativa para a geração de vídeos a partir de texto tem atraído enorme atenção. Os métodos existentes exigem grandes conjuntos de pares texto-vídeo e uma quantidade significativa de recursos de treinamento ou aprendem movimentos que estão precisamente alinhados com vídeos de template. É um desafio equilibrar a relação entre o grau de liberdade de geração e os custos de recursos para a geração de vídeos. Em nosso estudo, apresentamos um framework de ajuste baseado em poucos exemplos, chamado LAMP, que permite que um modelo de difusão de texto para imagem aprenda um padrão de movimento específico com 8 a 16 vídeos em uma única GPU. Especificamente, projetamos um pipeline condicionado ao primeiro quadro, que utiliza um modelo de texto para imagem já disponível para a geração de conteúdo, de modo que nosso modelo de difusão de vídeo ajustado se concentre principalmente no aprendizado de movimento. As técnicas bem desenvolvidas de texto para imagem podem fornecer conteúdo visualmente agradável e diversificado como condições de geração, o que melhora significativamente a qualidade do vídeo e a liberdade de geração. Para capturar as características da dimensão temporal, expandimos as camadas de convolução 2D pré-treinadas do modelo T2I para nossas novas camadas de aprendizado de movimento espaço-temporal e modificamos os blocos de atenção para o nível temporal. Além disso, desenvolvemos um truque de inferência eficaz, chamado amostragem de ruído compartilhado, que pode melhorar a estabilidade dos vídeos com custos computacionais. Nosso método também pode ser aplicado de forma flexível a outras tarefas, como animação de imagens do mundo real e edição de vídeos. Experimentos extensivos demonstram que o LAMP pode aprender efetivamente o padrão de movimento com dados limitados e gerar vídeos de alta qualidade. O código e os modelos estão disponíveis em https://rq-wu.github.io/projects/LAMP.
Modelos de completação de código têm feito progressos significativos nos últimos anos, porém os conjuntos de dados de avaliação populares atuais, como HumanEval e MBPP, focam predominantemente em tarefas de completação de código dentro de um único arquivo. Essa configuração excessivamente simplificada não representa adequadamente o cenário real de desenvolvimento de software, onde repositórios abrangem múltiplos arquivos com inúmeras dependências entre arquivos, e o acesso e compreensão do contexto entre arquivos são frequentemente necessários para completar o código corretamente. Para preencher essa lacuna, propomos o CrossCodeEval, um benchmark diversificado e multilíngue para completação de código que exige um entendimento profundo do contexto entre arquivos para completar o código com precisão. O CrossCodeEval é construído com base em um conjunto diversificado de repositórios reais, de código aberto e com licenças permissivas, em quatro linguagens de programação populares: Python, Java, TypeScript e C#. Para criar exemplos que exigem estritamente o contexto entre arquivos para uma completação precisa, propomos uma abordagem simples, porém eficiente, baseada em análise estática para identificar o uso do contexto entre arquivos dentro do arquivo atual. Experimentos extensivos com modelos de linguagem de código state-of-the-art, como CodeGen e StarCoder, demonstram que o CrossCodeEval é extremamente desafiador quando o contexto relevante entre arquivos está ausente, e observamos melhorias claras ao adicionar esse contexto ao prompt. No entanto, apesar dessas melhorias, o ápice do desempenho permanece notavelmente inatingido mesmo com o modelo de maior desempenho, indicando que o CrossCodeEval também é capaz de avaliar a capacidade do modelo de aproveitar contextos extensos para fazer uma melhor completação de código. Por fim, avaliamos diversos métodos de recuperação de contexto entre arquivos e mostramos que o CrossCodeEval também pode ser usado para medir a capacidade de recuperadores de código.