Artigos de pesquisa em IA selecionados diariamente com traduções
Este trabalho apresenta um método eficiente para escalar Modelos de Linguagem de Grande Escala (LLMs) baseados em Transformers para entradas infinitamente longas com memória e computação limitadas. Um componente-chave em nossa abordagem proposta é uma nova técnica de atenção denominada Infini-attention. A Infini-attention incorpora uma memória compressiva ao mecanismo de atenção tradicional e integra tanto a atenção local mascarada quanto mecanismos de atenção linear de longo prazo em um único bloco Transformer. Demonstramos a eficácia de nossa abordagem em benchmarks de modelagem de linguagem de contexto longo, recuperação de bloco de contexto de passkey com sequência de 1M e tarefas de sumarização de livros com comprimento de 500K usando LLMs de 1B e 8B. Nossa abordagem introduz parâmetros de memória limitada mínimos e permite inferência rápida em streaming para LLMs.
O teste de agulha no palheiro (NIAH), que examina a capacidade de recuperar uma informação específica (a "agulha") em meio a textos distratores longos (o "palheiro"), tem sido amplamente adotado para avaliar modelos de linguagem de contexto longo (LMs). No entanto, esse teste simples baseado em recuperação indica apenas uma forma superficial de compreensão de contexto longo. Para fornecer uma avaliação mais abrangente dos LMs de contexto longo, criamos um novo benchmark sintético chamado RULER, com configurações flexíveis para comprimento de sequência e complexidade de tarefas personalizados. O RULER expande o teste NIAH básico para incluir variações com diferentes tipos e quantidades de agulhas. Além disso, o RULER introduz novas categorias de tarefas, como rastreamento multi-hop e agregação, para testar comportamentos que vão além da busca no contexto. Avaliamos dez LMs de contexto longo com 13 tarefas representativas no RULER. Apesar de alcançarem precisão quase perfeita no teste NIAH básico, todos os modelos apresentam quedas significativas de desempenho à medida que o comprimento do contexto aumenta. Embora esses modelos afirmem suportar contextos de 32 mil tokens ou mais, apenas quatro modelos (GPT-4, Command-R, Yi-34B e Mixtral) conseguem manter um desempenho satisfatório no comprimento de 32 mil tokens. Nossa análise do Yi-34B, que suporta comprimento de contexto de 200 mil tokens, revela um grande espaço para melhoria à medida que aumentamos o comprimento da entrada e a complexidade das tarefas. Disponibilizamos o RULER como código aberto para estimular a avaliação abrangente de LMs de contexto longo.
Os Modelos de Linguagem de Grande Escala (LLMs) têm alcançado resultados notáveis, mas sua crescente demanda por recursos tornou-se um grande obstáculo para o desenvolvimento de uma inteligência super-humana poderosa e acessível. Este relatório apresenta o JetMoE-8B, um novo LLM treinado com menos de US$ 100 mil, utilizando 1,25 trilhão de tokens de corpora de código aberto cuidadosamente misturados e 30.000 horas de GPU H100. Apesar do baixo custo, o JetMoE-8B demonstra um desempenho impressionante, com o JetMoE-8B superando o modelo Llama2-7B e o JetMoE-8B-Chat ultrapassando o modelo Llama2-13B-Chat. Esses resultados sugerem que o treinamento de LLMs pode ser muito mais econômico do que geralmente se pensa. O JetMoE-8B é baseado em uma arquitetura eficiente de Mistura de Especialistas com Ativação Esparsa (SMoE), composta por especialistas de atenção e feedforward. Ambas as camadas são esparsamente ativadas, permitindo que o JetMoE-8B tenha 8 bilhões de parâmetros, mas ative apenas 2 bilhões para cada token de entrada, reduzindo a computação de inferência em cerca de 70% em comparação com o Llama2-7B. Além disso, o JetMoE-8B é altamente aberto e amigável para a academia, utilizando apenas conjuntos de dados públicos e código de treinamento. Todos os parâmetros de treinamento e misturas de dados foram detalhados neste relatório para facilitar futuros esforços no desenvolvimento de modelos de base abertos. Essa transparência visa incentivar a colaboração e avanços adicionais no campo de LLMs acessíveis e eficientes. Os pesos do modelo estão publicamente disponíveis em https://github.com/myshell-ai/JetMoE.
Apresentamos o RealmDreamer, uma técnica para geração de cenas 3D frontais gerais a partir de descrições textuais. Nossa técnica otimiza uma representação de Splatting Gaussiano 3D para corresponder a prompts textuais complexos. Inicializamos esses splats utilizando geradores de texto para imagem de última geração, elevando suas amostras para 3D e calculando o volume de oclusão. Em seguida, otimizamos essa representação em múltiplas visões como uma tarefa de inpainting 3D com modelos de difusão condicionados por imagem. Para aprender a estrutura geométrica correta, incorporamos um modelo de difusão de profundidade, condicionando-o às amostras do modelo de inpainting, proporcionando uma rica estrutura geométrica. Por fim, ajustamos o modelo utilizando amostras nítidas de geradores de imagem. Notavelmente, nossa técnica não requer dados de vídeo ou múltiplas visões e pode sintetizar uma variedade de cenas 3D de alta qualidade em diferentes estilos, compostas por múltiplos objetos. Sua generalidade adicionalmente permite a síntese 3D a partir de uma única imagem.
Analisamos o quão bem modelos de linguagem grandes pré-treinados (por exemplo, Llama2, GPT-4, Claude 3, etc.) conseguem realizar regressões lineares e não lineares quando recebem exemplos em contexto, sem qualquer treinamento adicional ou atualizações de gradiente. Nossos resultados revelam que vários modelos de linguagem grandes (por exemplo, GPT-4, Claude 3) são capazes de executar tarefas de regressão com um desempenho que rivaliza (ou até supera) o de métodos supervisionados tradicionais, como Random Forest, Bagging ou Gradient Boosting. Por exemplo, no desafiador conjunto de dados de regressão Friedman #2, o Claude 3 supera muitos métodos supervisionados, como AdaBoost, SVM, Random Forest, KNN ou Gradient Boosting. Em seguida, investigamos o quão bem o desempenho dos modelos de linguagem grandes escala com o número de exemplares em contexto. Aproveitamos a noção de arrependimento (regret) da aprendizagem online e mostramos empiricamente que os LLMs são capazes de obter um arrependimento sublinear.
A crescente demanda por aplicações de realidade virtual destacou a importância da criação de ativos 3D imersivos. Apresentamos um pipeline de geração de cenas 360° a partir de texto que facilita a criação de cenas 360° abrangentes para ambientes externos em questão de minutos. Nossa abordagem utiliza o poder generativo de um modelo de difusão 2D e o refinamento automático de prompts para criar uma imagem panorâmica de alta qualidade e coerência global. Essa imagem atua como uma representação preliminar "plana" (2D) da cena. Posteriormente, ela é elevada para Gaussianas 3D, empregando técnicas de splatting para permitir exploração em tempo real. Para produzir geometria 3D consistente, nosso pipeline constrói uma estrutura espacialmente coerente alinhando a profundidade monocromática 2D em uma nuvem de pontos globalmente otimizada. Essa nuvem de pontos serve como estado inicial para os centróides das Gaussianas 3D. Para abordar problemas de invisibilidade inerentes a entradas de visão única, impomos restrições semânticas e geométricas tanto nas visualizações sintetizadas quanto nas entradas da câmera como regularizações. Essas restrições guiam a otimização das Gaussianas, auxiliando na reconstrução de regiões não vistas. Em resumo, nosso método oferece uma cena 3D globalmente consistente dentro de uma perspectiva 360°, proporcionando uma experiência imersiva aprimorada em relação às técnicas existentes. Site do projeto: http://dreamscene360.github.io/
Modelos visão-linguagem (VLMs) são tipicamente compostos por um codificador visual, por exemplo, CLIP, e um modelo de linguagem (LM) que interpreta as características codificadas para resolver tarefas subsequentes. Apesar de progressos notáveis, os VLMs estão sujeitos a várias limitações devido às capacidades restritas dos codificadores visuais, como "cegueira" a certas características de imagem, alucinação visual, etc. Para abordar esses problemas, estudamos a ampliação das capacidades de codificação visual dos VLMs. Primeiro, avaliamos de forma abrangente vários codificadores visuais com diferentes vieses indutivos para resolver tarefas de VLM. Observamos que não há uma única configuração de codificação que consistentemente atinge o melhor desempenho em diferentes tarefas, e codificadores com diferentes vieses podem ter desempenhos surpreendentemente semelhantes. Motivados por isso, introduzimos um método, denominado BRAVE, que consolida características de múltiplos codificadores congelados em uma representação mais versátil que pode ser diretamente alimentada como entrada para um LM congelado. O BRAVE alcança desempenho de ponta em uma ampla gama de benchmarks de legendagem e VQA e reduz significativamente os problemas mencionados dos VLMs, enquanto requer um número menor de parâmetros treináveis em comparação com métodos existentes e possui uma representação mais compacta. Nossos resultados destacam o potencial de incorporar diferentes vieses visuais para uma compreensão visual mais ampla e contextualizada dos VLMs.
Este trabalho investiga se Transformers apenas de decodificação, como o LLaMA, originalmente projetados para grandes modelos de linguagem (LLMs), podem ser adaptados ao campo da visão computacional. Primeiro, "LLaMAficamos" um ViT padrão passo a passo para alinhá-lo à arquitetura do LLaMA, e descobrimos que a aplicação direta de uma máscara causal à auto-atenção causa um problema de colapso da atenção, resultando na falha do treinamento da rede. Sugerimos reposicionar o token de classe após os tokens da imagem com uma técnica de token de classe pós-sequência para superar esse desafio, permitindo que a auto-atenção causal capture eficientemente toda a informação da imagem. Além disso, desenvolvemos uma estratégia de máscara suave que introduz gradualmente uma máscara causal à auto-atenção no início do treinamento para facilitar o comportamento de otimização. O modelo personalizado, denominado image LLaMA (iLLaMA), é semelhante ao LLaMA em arquitetura e permite aprendizado supervisionado direto. Sua auto-atenção causal aumenta a eficiência computacional e aprende representações complexas ao elevar os ranks dos mapas de atenção. O iLLaMA rivaliza com o desempenho de seus equivalentes apenas de codificação, alcançando 75,1% de precisão top-1 no ImageNet com apenas 5,7M de parâmetros. Escalar o modelo para ~310M e pré-treiná-lo no ImageNet-21K aumenta ainda mais a precisão para 86,0%. Experimentos extensivos demonstram as propriedades confiáveis do iLLaMA: calibração, viés de forma-textura, compatibilidade com quantização, segmentação ADE20K e transferência de aprendizado CIFAR. Esperamos que nosso estudo possa inspirar novas perspectivas no design de modelos visuais na onda dos LLMs. Modelos pré-treinados e códigos estão disponíveis aqui.
Os conjuntos de dados existentes para compreensão de áudio concentram-se principalmente em interações de turno único (ou seja, legendagem de áudio, resposta a perguntas sobre áudio) para descrever áudio em linguagem natural, limitando assim a compreensão do áudio por meio de diálogos interativos. Para abordar essa lacuna, apresentamos o Audio Dialogues: um conjunto de dados de diálogo multi-turno contendo 163,8 mil amostras para sons gerais e música. Além dos diálogos, o Audio Dialogues também possui pares de perguntas e respostas para compreender e comparar múltiplos áudios de entrada juntos. O Audio Dialogues utiliza uma abordagem baseada em prompts e anotações de legendas de conjuntos de dados existentes para gerar diálogos multi-turno usando um Modelo de Linguagem de Grande Escala (LLM). Avaliamos modelos de linguagem de grande escala aumentados com áudio existentes em nosso conjunto de dados proposto para demonstrar a complexidade e aplicabilidade do Audio Dialogues. Nosso código para gerar o conjunto de dados será disponibilizado publicamente. Prompts detalhados e diálogos gerados podem ser encontrados no site de demonstração https://audiodialogues.github.io/.
O recente sucesso dos modelos de base pré-treinados de visão e linguagem tornou possível a Segmentação de Vocabulário Aberto (Open-Vocabulary Segmentation, OVS). Apesar do desempenho promissor, essa abordagem introduz uma sobrecarga computacional significativa devido a dois desafios: 1) o grande tamanho dos modelos da arquitetura principal; 2) os custos elevados durante o ajuste fino. Esses desafios impedem que essa estratégia de OVS seja amplamente aplicável e acessível em cenários do mundo real. Embora métodos tradicionais, como compressão de modelos e ajuste fino eficiente, possam abordar esses desafios, eles frequentemente dependem de heurísticas. Isso significa que suas soluções não podem ser facilmente transferidas e exigem retreinamento em diferentes modelos, o que acarreta custos adicionais. No contexto de uma OVS eficiente, nosso objetivo é alcançar um desempenho comparável ou até superior aos trabalhos anteriores de OVS baseados em grandes modelos de base de visão e linguagem, utilizando modelos menores que incorrem em custos de treinamento mais baixos. A estratégia central é tornar nossa eficiência fundamentada e, portanto, perfeitamente transferível de um framework de OVS para outros sem a necessidade de personalização adicional. Experimentos abrangentes em diversos benchmarks de OVS demonstram nossa superior relação entre precisão de segmentação e custos computacionais em comparação com trabalhos anteriores. Nosso código está disponível em https://github.com/Xujxyang/OpenTrans.