Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o Jamba, um novo modelo de linguagem de grande escala baseado em uma arquitetura híbrida inovadora que combina Transformer e Mamba com uma abordagem de mistura de especialistas (MoE). Especificamente, o Jamba intercala blocos de camadas Transformer e Mamba, aproveitando os benefícios de ambas as famílias de modelos. O MoE é adicionado em algumas dessas camadas para aumentar a capacidade do modelo, mantendo o uso de parâmetros ativos em um nível gerenciável. Essa arquitetura flexível permite configurações específicas para diferentes recursos e objetivos. Na configuração particular que implementamos, obtemos um modelo poderoso que cabe em uma única GPU de 80GB. Construído em grande escala, o Jamba oferece alta taxa de transferência e uma pequena pegada de memória em comparação com Transformers convencionais, ao mesmo tempo em que alcança desempenho de ponta em benchmarks padrão de modelos de linguagem e avaliações de contexto longo. Notavelmente, o modelo apresenta resultados robustos para comprimentos de contexto de até 256 mil tokens. Estudamos várias decisões arquiteturais, como combinar camadas Transformer e Mamba, e como misturar especialistas, e mostramos que algumas delas são cruciais na modelagem em grande escala. Também descrevemos várias propriedades interessantes dessas arquiteturas que o treinamento e a avaliação do Jamba revelaram, e planejamos liberar checkpoints de várias execuções de ablação, para incentivar uma exploração mais aprofundada dessa nova arquitetura. Disponibilizamos publicamente os pesos de nossa implementação do Jamba sob uma licença permissiva.
Apresentamos o Gecko, um modelo compacto e versátil de incorporação de texto. O Gecko alcança um forte desempenho em recuperação de informações ao aproveitar uma ideia-chave: destilar conhecimento de modelos de linguagem de grande escala (LLMs) em um recuperador. Nosso processo de destilação em duas etapas começa com a geração de dados sintéticos e diversos, emparelhados, usando um LLM. Em seguida, refinamos ainda mais a qualidade dos dados ao recuperar um conjunto de passagens candidatas para cada consulta e reclassificar as passagens positivas e negativas difíceis usando o mesmo LLM. A eficácia da nossa abordagem é demonstrada pela compactação do Gecko. No Massive Text Embedding Benchmark (MTEB), o Gecko com 256 dimensões de incorporação supera todas as entradas existentes com tamanho de incorporação de 768. O Gecko com 768 dimensões de incorporação alcança uma pontuação média de 66,31, competindo com modelos 7x maiores e incorporações 5x mais dimensionais.
O Modelo de Linguagem de Grande Escala (LLM) é amplamente utilizado para tarefas como assistentes inteligentes, sumarização de texto, tradução e multimodalidade em dispositivos móveis. No entanto, os métodos atuais para implantação de LLM em dispositivos mantêm uma velocidade de inferência lenta, o que resulta em uma experiência do usuário ruim. Para facilitar a implantação de LLM de alta eficiência em GPUs de dispositivos, propomos quatro técnicas de otimização: (a) uma abordagem baseada em expressão simbólica para suportar inferência de modelos com formas dinâmicas; (b) otimizações de operadores e definição de prioridade de execução para aumentar a velocidade de inferência e reduzir a lentidão do telefone; (c) um método de quantização FP4 denominado M0E4 para reduzir a sobrecarga de desquantização; (d) uma técnica baseada em sub-tensores para eliminar a necessidade de cópia do cache KV após a inferência do LLM. Além disso, implementamos esses métodos em nosso mecanismo de inferência móvel, Transformer-Lite, que é compatível com processadores Qualcomm e MTK. Avaliamos o desempenho do Transformer-Lite usando LLMs com arquiteturas e parâmetros variados, variando de 2B a 14B. Especificamente, alcançamos velocidades de preenchimento e decodificação de 121 tokens/s e 14 tokens/s para o ChatGLM2 6B, e 330 tokens/s e 30 tokens/s para o menor Gemma 2B, respectivamente. Comparado com o FastLLM baseado em CPU e o MLC-LLM baseado em GPU, nosso mecanismo atém um aumento de velocidade de mais de 10x para a velocidade de preenchimento e de 2~3x para a velocidade de decodificação.
A resolução de referências é um problema importante, essencial para compreender e lidar com sucesso com contextos de diferentes tipos. Esse contexto inclui tanto turnos anteriores quanto contextos relacionados a entidades não conversacionais, como entidades na tela do usuário ou aquelas em execução em segundo plano. Embora os LLMs tenham se mostrado extremamente poderosos para uma variedade de tarefas, seu uso na resolução de referências, particularmente para entidades não conversacionais, permanece subutilizado. Este artigo demonstra como os LLMs podem ser usados para criar um sistema extremamente eficaz para resolver referências de vários tipos, mostrando como a resolução de referências pode ser convertida em um problema de modelagem de linguagem, apesar de envolver formas de entidades, como as na tela, que tradicionalmente não são propícias a serem reduzidas a uma modalidade apenas de texto. Demonstramos grandes melhorias em relação a um sistema existente com funcionalidade semelhante em diferentes tipos de referências, com nosso menor modelo obtendo ganhos absolutos de mais de 5% para referências na tela. Também comparamos com GPT-3.5 e GPT-4, com nosso menor modelo alcançando desempenho comparável ao do GPT-4, e nossos modelos maiores superando-o substancialmente.
Embora a síntese de novas visões (NVS) tenha feito progressos significativos na visão computacional 3D, ela geralmente requer uma estimativa inicial das intrínsecas e extrínsecas da câmera a partir de pontos de vista densos. Esse pré-processamento é normalmente realizado por meio de um pipeline de Estrutura a partir do Movimento (SfM), um procedimento que pode ser lento e pouco confiável, especialmente em cenários de visão esparsa com características correspondentes insuficientes para uma reconstrução precisa. Neste trabalho, integramos os pontos fortes das representações baseadas em pontos (por exemplo, 3D Gaussian Splatting, 3D-GS) com modelos de estéreo denso de ponta a ponta (DUSt3R) para abordar os problemas complexos e ainda não resolvidos na NVS em configurações não restritas, que abrangem desafios de poses livres e visão esparsa. Nosso framework, InstantSplat, unifica prioridades de estéreo denso com 3D-GS para construir Gaussianas 3D de cenas em grande escala a partir de imagens de visão esparsa e sem poses em menos de 1 minuto. Especificamente, o InstantSplat compreende um módulo de Inicialização Geométrica Grosseira (CGI) que estabelece rapidamente uma estrutura de cena preliminar e parâmetros da câmera em todas as visões de treinamento, utilizando mapas de pontos 3D globalmente alinhados derivados de um pipeline de estéreo denso pré-treinado. Isso é seguido pelo módulo de Otimização Rápida de Gaussianas 3D (F-3DGO), que otimiza conjuntamente os atributos das Gaussianas 3D e as poses inicializadas com regularização de pose. Experimentos realizados nos conjuntos de dados de grande escala ao ar livre Tanks & Temples demonstram que o InstantSplat melhora significativamente o SSIM (em 32%) enquanto reduz o Erro Absoluto de Trajetória (ATE) em 80%. Isso estabelece o InstantSplat como uma solução viável para cenários envolvendo condições de poses livres e visão esparsa. Página do projeto: instantsplat.github.io.
Este artigo introduz um desafio novo e significativo para Modelos de Linguagem Visual (VLMs), denominado Detecção de Problemas Insolúveis (UPD). O UPD examina a capacidade do VLM de se abster de fornecer respostas quando confrontado com problemas insolúveis no contexto de tarefas de Resposta Visual a Perguntas (VQA). O UPD abrange três cenários distintos: Detecção de Resposta Ausente (AAD), Detecção de Conjunto de Respostas Incompatíveis (IASD) e Detecção de Pergunta Visual Incompatível (IVQD). Para investigar profundamente o problema do UPD, extensos experimentos indicam que a maioria dos VLMs, incluindo GPT-4V e LLaVA-Next-34B, enfrentam dificuldades em nossos benchmarks em diferentes graus, destacando uma margem significativa para melhorias. Para abordar o UPD, exploramos soluções tanto sem treinamento quanto baseadas em treinamento, oferecendo novos insights sobre sua eficácia e limitações. Esperamos que nossos insights, juntamente com esforços futuros dentro dos cenários propostos de UPD, aprimorem a compreensão mais ampla e o desenvolvimento de VLMs mais práticos e confiáveis.
Podemos localizar os pesos e mecanismos usados por um modelo de linguagem para memorizar e recitar parágrafos inteiros de seus dados de treinamento? Neste artigo, mostramos que, embora a memorização esteja distribuída por várias camadas e componentes do modelo, os gradientes de parágrafos memorizados apresentam um padrão espacial distinguível, sendo maiores nas camadas inferiores do modelo em comparação com os gradientes de exemplos não memorizados. Além disso, os exemplos memorizados podem ser "desaprendidos" ao ajustar finamente apenas os pesos com gradientes elevados. Localizamos um cabeçalho de atenção em uma camada inferior que parece estar especialmente envolvido na memorização de parágrafos. Esse cabeçalho concentra predominantemente sua atenção em tokens distintos e raros, que são menos frequentes em uma distribuição unigramática ao nível do corpus. Em seguida, estudamos quão localizada é a memorização entre os tokens no prefixo, perturbando os tokens e medindo a mudança resultante na decodificação. Alguns tokens distintos no início de um prefixo podem frequentemente corromper toda a continuação. No geral, continuações memorizadas não são apenas mais difíceis de "desaprender", mas também de corromper do que as não memorizadas.
Os avanços recentes em aprendizado profundo têm se baseado principalmente em Transformers devido à sua dependência de dados e capacidade de aprender em escala. O módulo de atenção nessas arquiteturas, no entanto, exibe complexidade quadrática em tempo e espaço em relação ao tamanho da entrada, limitando sua escalabilidade para modelagem de sequências longas. Apesar de tentativas recentes de projetar arquiteturas eficientes e eficazes para dados multidimensionais, como imagens e séries temporais multivariadas, os modelos existentes são independentes de dados ou falham em permitir comunicação inter e intra-dimensões. Recentemente, Modelos de Espaço de Estados (SSMs), e mais especificamente Modelos de Espaço de Estados Seletivos, com implementação eficiente voltada para hardware, têm mostrado potencial promissor para modelagem de sequências longas. Motivados pelo sucesso dos SSMs, apresentamos o MambaMixer, uma nova arquitetura com pesos dependentes de dados que utiliza um mecanismo de seleção dupla entre tokens e canais, chamado de Selective Token and Channel Mixer. O MambaMixer conecta misturadores seletivos usando um mecanismo de média ponderada, permitindo que as camadas tenham acesso direto a características iniciais. Como prova de conceito, projetamos as arquiteturas Vision MambaMixer (ViM2) e Time Series MambaMixer (TSM2) com base no bloco MambaMixer e exploramos seu desempenho em várias tarefas de visão e previsão de séries temporais. Nossos resultados destacam a importância da mistura seletiva tanto entre tokens quanto entre canais. Em tarefas de classificação no ImageNet, detecção de objetos e segmentação semântica, o ViM2 alcança desempenho competitivo com modelos de visão bem estabelecidos e supera modelos de visão baseados em SSMs. Em previsão de séries temporais, o TSM2 alcança desempenho excepcional em comparação com métodos state-of-the-art, demonstrando um custo computacional significativamente melhorado. Esses resultados mostram que, embora Transformers, atenção entre canais e MLPs sejam suficientes para um bom desempenho em previsão de séries temporais, nenhum deles é necessário.
Em um esforço para reduzir a carga computacional dos Transformers, a pesquisa sobre atenção linear ganhou um impulso significativo. No entanto, as estratégias de melhoria para mecanismos de atenção geralmente exigem um extenso retreinamento, o que é impraticável para modelos de linguagem grandes com uma vasta quantidade de parâmetros. Neste artigo, apresentamos o DiJiang, uma nova abordagem de Kernelização no Domínio da Frequência que permite a transformação de um Transformer pré-treinado em um modelo de complexidade linear com custos mínimos de treinamento. Ao empregar um método de amostragem Quasi-Monte Carlo ponderado, a abordagem proposta oferece, teoricamente, uma eficiência de aproximação superior. Para reduzir ainda mais a complexidade computacional do treinamento, nossa kernelização é baseada em operações de Transformada Discreta de Cosseno (DCT). Experimentos extensivos demonstram que o método proposto alcança um desempenho comparável ao Transformer original, mas com custos de treinamento significativamente reduzidos e velocidades de inferência muito mais rápidas. Nosso DiJiang-7B alcança um desempenho comparável ao LLaMA2-7B em vários benchmarks, enquanto requer apenas cerca de 1/50 do custo de treinamento. O código está disponível em https://github.com/YuchuanTian/DiJiang.
O tato e a visão caminham lado a lado, aprimorando mutuamente nossa capacidade de compreender o mundo. Do ponto de vista da pesquisa, o problema de combinar tato e visão é pouco explorado e apresenta desafios interessantes. Para isso, propomos o Tactile-Informed 3DGS, uma abordagem inovadora que incorpora dados táteis (mapas de profundidade locais) com dados de visão multivista para alcançar reconstrução de superfície e síntese de novas vistas. Nosso método otimiza primitivas 3D Gaussianas para modelar com precisão a geometria do objeto nos pontos de contato. Ao criar um framework que reduz a transmitância nas localizações de toque, alcançamos uma reconstrução de superfície refinada, garantindo um mapa de profundidade uniformemente suave. O tato é particularmente útil ao considerar objetos não lambertianos (por exemplo, superfícies brilhantes ou reflexivas), uma vez que os métodos contemporâneos tendem a falhar na reconstrução fiel de realces especulares. Ao combinar visão e sensoriamento tátil, alcançamos reconstruções geométricas mais precisas com menos imagens do que os métodos anteriores. Realizamos avaliações em objetos com superfícies brilhantes e reflexivas e demonstramos a eficácia de nossa abordagem, oferecendo melhorias significativas na qualidade da reconstrução.