Artigos de pesquisa em IA selecionados diariamente com traduções
Embora os Transformers tenham sido a principal arquitetura por trás do sucesso do aprendizado profundo na modelagem de linguagem, modelos de espaço de estados (SSMs, na sigla em inglês), como o Mamba, recentemente demonstraram desempenho equivalente ou superior aos Transformers em escalas pequenas a médias. Mostramos que essas famílias de modelos estão, na verdade, intimamente relacionadas e desenvolvemos um rico framework de conexões teóricas entre SSMs e variantes de atenção, conectadas por meio de várias decomposições de uma classe bem estudada de matrizes semisseparáveis estruturadas. Nosso framework de dualidade de espaço de estados (SSD, na sigla em inglês) nos permite projetar uma nova arquitetura (Mamba-2) cuja camada central é um refinamento do SSM seletivo do Mamba, sendo 2 a 8 vezes mais rápida, enquanto continua competitiva com os Transformers na modelagem de linguagem.
Na busca pela inteligência artificial geral, os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) emergiram como um ponto focal nos avanços recentes. No entanto, o foco predominante permanece no desenvolvimento de suas capacidades para a compreensão de imagens estáticas. O potencial dos MLLMs no processamento de dados visuais sequenciais ainda é insuficientemente explorado, destacando a ausência de uma avaliação abrangente e de alta qualidade de seu desempenho. Neste artigo, apresentamos o Video-MME, o primeiro benchmark de avaliação multimodal de espectro completo para MLLMs na análise de vídeos. Nosso trabalho se distingue dos benchmarks existentes por quatro características principais: 1) Diversidade nos tipos de vídeo, abrangendo 6 domínios visuais primários com 30 subáreas para garantir generalização em cenários amplos; 2) Duração na dimensão temporal, incluindo vídeos de curta, média e longa duração, variando de 11 segundos a 1 hora, para dinâmicas contextuais robustas; 3) Amplitude nas modalidades de dados, integrando entradas multimodais além dos frames de vídeo, incluindo legendas e áudios, para revelar as capacidades completas dos MLLMs; 4) Qualidade nas anotações, utilizando rotulagem manual rigorosa por anotadores especializados para facilitar uma avaliação precisa e confiável dos modelos. 900 vídeos com um total de 256 horas foram selecionados e anotados manualmente após a visualização repetida de todo o conteúdo, resultando em 2.700 pares de perguntas e respostas. Com o Video-MME, avaliamos extensivamente vários MLLMs state-of-the-art, incluindo a série GPT-4 e o Gemini 1.5 Pro, bem como modelos de imagem de código aberto como o InternVL-Chat-V1.5 e modelos de vídeo como o LLaVA-NeXT-Video. Nossos experimentos revelam que o Gemini 1.5 Pro é o modelo comercial com melhor desempenho, superando significativamente os modelos de código aberto. Nosso conjunto de dados, juntamente com essas descobertas, ressalta a necessidade de melhorias adicionais no tratamento de sequências mais longas e dados multimodais. Página do Projeto: https://video-mme.github.io
Neste trabalho, investigamos se modelos de linguagem menores podem determinar subconjuntos de alta qualidade em grandes conjuntos de dados textuais que melhoram o desempenho de modelos de linguagem maiores. Embora trabalhos existentes tenham demonstrado que a poda baseada na perplexidade de um modelo maior pode resultar em dados de alta qualidade, investigamos se modelos menores podem ser usados para a poda baseada em perplexidade e como a poda é afetada pela composição de domínio dos dados que estão sendo podados. Demonstramos que, para múltiplas composições de conjuntos de dados, a poda de dados de pré-treinamento baseada em perplexidade pode melhorar significativamente o desempenho em tarefas subsequentes: a poda baseada em perplexidades calculadas com um modelo de 125 milhões de parâmetros melhora o desempenho médio em tarefas subsequentes de um modelo de 3 bilhões de parâmetros em até 2,04 e alcança uma redução de até 1,45 vezes no número de etapas de pré-treinamento necessárias para atingir um desempenho de linha de base equivalente. Além disso, demonstramos que essa poda de dados baseada em perplexidade também resulta em ganhos de desempenho subsequente em regimes de supertreinamento e com restrição de dados.
Os modelos de difusão emergiram como uma ferramenta poderosa para gerar imagens de alta qualidade a partir de descrições textuais. Apesar de seus sucessos, esses modelos frequentemente exibem diversidade limitada nas imagens amostradas, especialmente quando a amostragem é realizada com um peso elevado de orientação livre de classificador. Para abordar essa questão, apresentamos o Kaleido, uma abordagem inovadora que aumenta a diversidade das amostras ao incorporar priores latentes autoregressivos. O Kaleido integra um modelo de linguagem autoregressivo que codifica a descrição original e gera variáveis latentes, servindo como representações abstratas e intermediárias para orientar e facilitar o processo de geração de imagens. Neste artigo, exploramos uma variedade de representações latentes discretas, incluindo descrições textuais, caixas delimitadoras de detecção, blobs de objetos e tokens visuais. Essas representações diversificam e enriquecem as condições de entrada para os modelos de difusão, permitindo saídas mais diversas. Nossos resultados experimentais demonstram que o Kaleido amplia efetivamente a diversidade das amostras de imagens geradas a partir de uma descrição textual, mantendo a alta qualidade das imagens. Além disso, mostramos que o Kaleido adere de perto à orientação fornecida pelas variáveis latentes geradas, demonstrando sua capacidade de controlar e direcionar efetivamente o processo de geração de imagens.
Os métodos atuais de geração 4D alcançaram eficácia notável com o auxílio de modelos generativos avançados baseados em difusão. No entanto, esses métodos carecem de modelagem espaço-temporal multivista e enfrentam desafios na integração de diversos conhecimentos prévios de múltiplos modelos de difusão, resultando em aparência temporal inconsistente e cintilações. Neste artigo, propomos um novo pipeline de geração 4D, denominado 4Diffusion, voltado para a geração de conteúdo 4D espaço-temporalmente consistente a partir de um vídeo monocular. Primeiro, projetamos um modelo de difusão unificado adaptado para a geração de vídeo multivista, incorporando um módulo de movimento aprendível em um modelo de difusão 3D congelado para capturar correlações espaço-temporais multivista. Após o treinamento em um conjunto de dados curado, nosso modelo de difusão adquire consistência temporal razoável e preserva inerentemente a generalizabilidade e a consistência espacial do modelo de difusão 3D. Posteriormente, propomos uma função de perda de Amostragem de Destilação de Pontuação 4D, baseada em nosso modelo de difusão de vídeo multivista, para otimizar a representação 4D parametrizada por NeRF dinâmico. Isso visa eliminar discrepâncias decorrentes de múltiplos modelos de difusão, permitindo a geração de conteúdo 4D espaço-temporalmente consistente. Além disso, elaboramos uma função de perda de âncora para aprimorar os detalhes de aparência e facilitar o aprendizado do NeRF dinâmico. Experimentos qualitativos e quantitativos extensivos demonstram que nosso método alcança desempenho superior em comparação com métodos anteriores.
Os otimizadores de segunda ordem, que mantêm uma matriz denominada pré-condicionador, são superiores aos otimizadores de primeira ordem tanto na teoria quanto na prática. Os estados que formam o pré-condicionador e sua raiz inversa limitam o tamanho máximo dos modelos treinados por otimizadores de segunda ordem. Para resolver isso, a compressão dos estados do otimizador de 32 bits para larguras de bits menores tem mostrado potencial na redução do uso de memória. No entanto, as abordagens atuais se aplicam apenas a otimizadores de primeira ordem. Neste artigo, propomos os primeiros otimizadores de segunda ordem de 4 bits, exemplificados pelo Shampoo de 4 bits, mantendo um desempenho semelhante ao das versões de 32 bits. Mostramos que a quantização da matriz de autovetores do pré-condicionador no Shampoo de 4 bits é notavelmente melhor do que a quantização do próprio pré-condicionador, tanto teoricamente quanto experimentalmente. Ao corrigir a ortogonalidade da matriz de autovetores quantizada, aprimoramos a aproximação da matriz de autovetores do pré-condicionador, o que também beneficia o cálculo de sua raiz inversa de 4ª ordem. Além disso, descobrimos que a quantização linear quadrada supera ligeiramente a quantização dinâmica em árvore ao quantizar os estados dos otimizadores de segunda ordem. A avaliação em várias redes para classificação de imagens demonstra que nosso Shampoo de 4 bits alcança uma precisão de teste comparável à sua contraparte de 32 bits, sendo mais eficiente em termos de memória. O código-fonte será disponibilizado.