Artigos de pesquisa em IA selecionados diariamente com traduções
Os Modelos de Linguagem de Grande Escala (LLMs) se destacam por seus enormes números de parâmetros, que geralmente resultam em uma redundância significativa. Este trabalho apresenta o MaskLLM, um método de poda aprendível que estabelece a Esparsidade Semi-estruturada (ou "N:M") em LLMs, com o objetivo de reduzir a sobrecarga computacional durante a inferência. Em vez de desenvolver um novo critério de importância, o MaskLLM modela explicitamente padrões N:M como uma distribuição aprendível por meio de amostragem Gumbel Softmax. Essa abordagem facilita o treinamento de ponta a ponta em conjuntos de dados em grande escala e oferece duas vantagens notáveis: 1) Máscaras de alta qualidade - nosso método escala efetivamente para grandes conjuntos de dados e aprende máscaras precisas; 2) Transferibilidade - a modelagem probabilística da distribuição de máscaras permite a aprendizagem de transferência de esparsidade entre domínios ou tarefas. Avaliamos o MaskLLM usando uma esparsidade de 2:4 em vários LLMs, incluindo LLaMA-2, Nemotron-4 e GPT-3, com tamanhos variando de 843M a 15B parâmetros, e nossos resultados empíricos mostram melhorias substanciais em relação aos métodos de ponta. Por exemplo, abordagens líderes alcançam uma perplexidade (PPL) de 10 ou mais no Wikitext em comparação com os 5,12 PPL do modelo denso, mas o MaskLLM alcança um PPL significativamente menor de 6,72 apenas aprendendo as máscaras com pesos congelados. Além disso, a natureza aprendível do MaskLLM permite máscaras personalizadas para a aplicação sem perdas de uma esparsidade de 2:4 em tarefas ou domínios subsequentes. O código está disponível em https://github.com/NVlabs/MaskLLM.
O GPT-4o, um modelo omni-modal que permite conversas vocais com diversas emoções e tons, marca um marco para modelos de fundação omni-modais. No entanto, capacitar Modelos de Linguagem Grandes para perceber e gerar imagens, textos e discursos de ponta a ponta com dados publicamente disponíveis continua sendo um desafio na comunidade de código aberto. Modelos existentes de visão-linguagem dependem de ferramentas externas para o processamento de fala, enquanto modelos de fala-linguagem ainda sofrem com habilidades limitadas ou até mesmo sem capacidade de compreensão de visão. Para abordar essa lacuna, propomos o EMOVA (Assistente de Voz Emocionalmente Onipresente), para capacitar Modelos de Linguagem Grandes com capacidades de fala de ponta a ponta, mantendo o desempenho líder em visão-linguagem. Com um tokenizador de fala desembaraçado semântico-acústico, notamos surpreendentemente que o alinhamento omni-modal pode aprimorar ainda mais as habilidades de visão-linguagem e fala em comparação com os respectivos contrapartes alinhados bimodais. Além disso, um módulo de estilo leve é proposto para controles flexíveis de estilo de fala (por exemplo, emoções e tons). Pela primeira vez, o EMOVA alcança desempenho de ponta tanto nos benchmarks de visão-linguagem quanto de fala, e ao mesmo tempo, suporta diálogos falados omni-modais com emoções vívidas.
Os avanços recentes em Modelos Multimodais Grandes (LMMs) aprimoraram significativamente sua proficiência em tarefas de compreensão visual 2D, permitindo que processem e compreendam efetivamente imagens e vídeos. No entanto, o desenvolvimento de LMMs com consciência 3D para compreensão de cenas 3D tem sido dificultado pela falta de conjuntos de dados de visão-linguagem em grande escala e codificadores 3D potentes. Neste artigo, apresentamos uma estrutura simples, porém eficaz, chamada LLaVA-3D. Aproveitando os fortes conhecimentos prévios de compreensão 2D do LLaVA, nosso LLaVA-3D adapta eficientemente o LLaVA para compreensão de cenas 3D sem comprometer as capacidades de compreensão 2D. Para alcançar isso, empregamos uma representação simples, porém eficaz, o Patch 3D, que conecta as características de patches CLIP 2D com suas posições correspondentes no espaço 3D. Ao integrar os Patches 3D nos LMMs 2D e empregar ajuste conjunto de instruções de visão-linguagem 2D e 3D, estabelecemos uma arquitetura unificada para compreensão de imagens 2D e compreensão de cenas 3D. Resultados experimentais mostram que o LLaVA-3D converge 3,5 vezes mais rápido do que os LMMs 3D existentes quando treinados em conjuntos de dados de visão-linguagem 3D. Além disso, o LLaVA-3D não apenas alcança desempenho de ponta em várias tarefas 3D, mas também mantém capacidades comparáveis de compreensão de imagens 2D e conversação de visão-linguagem com o LLaVA.
Aproveitar os precursores visuais de modelos de difusão pré-treinados de texto para imagem oferece uma solução promissora para aprimorar a generalização de zero-shot em tarefas de predição densa. No entanto, os métodos existentes frequentemente utilizam a formulação original de difusão de forma acrítica, o que pode não ser ótimo devido às diferenças fundamentais entre predição densa e geração de imagem. Neste artigo, fornecemos uma análise sistemática da formulação de difusão para predição densa, focando tanto na qualidade quanto na eficiência. Descobrimos que o tipo original de parametrização para geração de imagem, que aprende a prever ruído, é prejudicial para a predição densa; o processo de difusão de múltiplas etapas de adição/remoção de ruído também é desnecessário e desafiador de otimizar. Com base nessas percepções, apresentamos o Lotus, um modelo de base visual baseado em difusão com um protocolo de adaptação simples, porém eficaz, para predição densa. Especificamente, o Lotus é treinado para prever diretamente anotações em vez de ruído, evitando assim a variância prejudicial. Também reformulamos o processo de difusão em um procedimento de uma única etapa, simplificando a otimização e aumentando significativamente a velocidade de inferência. Além disso, introduzimos uma nova estratégia de ajuste chamada preservador de detalhes, que alcança previsões mais precisas e refinadas. Sem aumentar os dados de treinamento ou a capacidade do modelo, o Lotus alcança desempenho de estado da arte na estimativa de profundidade e normais de zero-shot em vários conjuntos de dados. Ele também aprimora significativamente a eficiência, sendo centenas de vezes mais rápido do que a maioria dos métodos baseados em difusão existentes.
A afinação de instruções comumente significa ajustar um modelo de linguagem em pares de instrução-resposta. Descobrimos duas formas de adaptação (afinação) que são deficientes em comparação com a afinação de instruções, mas ainda resultam em seguir instruções; chamamos isso de afinação de instruções implícita. Primeiramente, constatamos que pares de instrução-resposta não são necessários: treinar apenas com respostas, sem quaisquer instruções correspondentes, resulta em seguir instruções. Isso sugere que modelos pré-treinados possuem um mapeamento de instrução-resposta que é revelado ao ensinar ao modelo a distribuição desejada de respostas. No entanto, então descobrimos que não é necessário ensinar a distribuição desejada de respostas: o treinamento de instrução-resposta em dados de domínio estreito, como poesia, ainda leva a comportamentos amplos de seguir instruções, como a geração de receitas. Em particular, quando as instruções são muito diferentes daquelas no domínio estreito de afinação, as respostas dos modelos não seguem o estilo do domínio de afinação. Para começar a explicar a afinação de instruções implícita, formulamos a hipótese de que mudanças muito simples na distribuição de um modelo de linguagem resultam em seguir instruções. Apoiamos isso escrevendo manualmente um modelo de linguagem baseado em regras que resulta em seguir instruções em um produto de especialistas com um modelo pré-treinado. As regras são aumentar lentamente a probabilidade de encerrar a sequência, penalizar repetições e uniformemente alterar as probabilidades de 15 palavras. Em resumo, adaptações feitas sem serem projetadas para resultar em seguir instruções podem fazê-lo implicitamente.
Os Modelos de Linguagem de Grande Escala (LLMs) demonstraram capacidades notáveis no tratamento de entradas de contexto longo, mas isso vem com o custo de recursos computacionais e latência aumentados. Nossa pesquisa introduz uma abordagem inovadora para o gargalo do contexto longo, a fim de acelerar a inferência de LLM e reduzir o consumo de memória da GPU. Nossa pesquisa demonstra que os LLMs podem identificar tokens relevantes nas camadas iniciais antes de gerar respostas a uma consulta. Aproveitando essa percepção, propomos um algoritmo que utiliza as camadas iniciais de um LLM como filtros para selecionar e comprimir tokens de entrada, reduzindo significativamente o comprimento do contexto para processamento subsequente. Nosso método, GemFilter, demonstra melhorias substanciais tanto em velocidade quanto em eficiência de memória em comparação com técnicas existentes, como atenção padrão e SnapKV/H2O. Notavelmente, ele alcança um aumento de velocidade de 2,4 vezes e uma redução de 30% no uso de memória da GPU em comparação com métodos de referência. A avaliação na tarefa Needle in a Haystack mostra que o GemFilter supera significativamente a atenção padrão, SnapKV, e demonstra desempenho comparável no desafio LongBench. O GemFilter é simples, não requer treinamento e é amplamente aplicável em diferentes LLMs. Crucialmente, ele fornece interpretabilidade ao permitir que os humanos inspecionem a sequência de entrada selecionada. Essas descobertas não apenas oferecem benefícios práticos para a implementação de LLMs, mas também aprimoram nossa compreensão dos mecanismos internos dos LLMs, abrindo caminho para mais otimizações no design e inferência de LLMs. Nosso código está disponível em https://github.com/SalesforceAIResearch/GemFilter.
Os modelos de difusão latente (LDMs) têm avançado significativamente no campo da geração de imagens nos últimos anos. Uma grande vantagem dos LDMs é a capacidade de operar em um espaço latente comprimido, permitindo um treinamento e implantação mais eficientes. No entanto, apesar dessas vantagens, desafios com os LDMs ainda persistem. Por exemplo, tem sido observado que os LDMs frequentemente geram detalhes de alta frequência e composições complexas de forma imperfeita. Nossa hipótese é que uma razão para essas falhas é devido ao fato de que todo o pré e pós-treinamento dos LDMs são feitos no espaço latente, que é tipicamente 8 vezes 8 de menor resolução espacial do que as imagens de saída. Para abordar esse problema, propomos adicionar supervisão no espaço de pixels no processo de pós-treinamento para preservar melhor os detalhes de alta frequência. Experimentalmente, mostramos que adicionar um objetivo no espaço de pixels melhora significativamente tanto a qualidade de ajuste fino supervisionado quanto o pós-treinamento baseado em preferência em uma grande margem em modelos de difusão DiT transformer e U-Net de última geração, tanto em qualidade visual quanto em métricas de falhas visuais, mantendo a mesma qualidade de alinhamento de texto.
Na era dos grandes modelos de linguagem (LLMs), uma vasta quantidade de registros de conversas será acumulada graças à rápida tendência de desenvolvimento de interfaces de linguagem. A Análise de Conversação (CA) se esforça para descobrir e analisar informações críticas a partir de dados de conversas, agilizando processos manuais e apoiando insights e tomadas de decisão empresariais. A necessidade da CA em extrair insights acionáveis e impulsionar o empoderamento está se tornando cada vez mais proeminente e atraindo atenção generalizada. No entanto, a falta de um escopo claro para a CA leva à dispersão de várias técnicas, tornando difícil formar uma sinergia técnica sistemática para potencializar aplicações empresariais. Neste artigo, realizamos uma revisão detalhada e sistematizamos a tarefa de CA para resumir os trabalhos relacionados existentes. Especificamente, definimos formalmente a tarefa de CA para enfrentar o cenário fragmentado e caótico neste campo, e derivamos quatro etapas-chave da CA, desde a reconstrução da cena da conversa, até a análise de atribuição em profundidade, e então realizando treinamento direcionado, finalmente gerando conversas com base no treinamento direcionado para alcançar objetivos específicos. Além disso, apresentamos os benchmarks relevantes, discutimos desafios potenciais e apontamos direções futuras tanto na indústria quanto na academia. À luz dos avanços atuais, é evidente que a maioria dos esforços ainda está concentrada na análise de elementos superficiais de conversação, o que apresenta uma lacuna considerável entre a pesquisa e os negócios, e com a ajuda dos LLMs, trabalhos recentes têm mostrado uma tendência para a pesquisa em causalidade e tarefas estratégicas que são sofisticadas e de alto nível. As experiências e insights analisados inevitavelmente terão um valor de aplicação mais amplo nas operações empresariais que visam registros de conversas.
Nos últimos anos, os métodos de recuperação multivetorial, liderados pelo ColBERT, tornaram-se uma abordagem cada vez mais popular para Recuperação de Informação Neural. Armazenando representações no nível do token em vez do nível do documento, esses métodos demonstraram um desempenho de recuperação muito forte, especialmente em configurações fora do domínio. No entanto, os requisitos de armazenamento e memória necessários para armazenar o grande número de vetores associados continuam sendo uma importante desvantagem, dificultando a adoção prática. Neste artigo, introduzimos uma abordagem simples de agrupamento de tokens para reduzir agressivamente o número de vetores que precisam ser armazenados. Este método pode reduzir a pegada de espaço e memória dos índices do ColBERT em 50% sem praticamente nenhuma degradação no desempenho de recuperação. Este método também permite reduções adicionais, diminuindo a contagem de vetores em 66% a 75%, com a degradação permanecendo abaixo de 5% na grande maioria dos conjuntos de dados. Importante ressaltar que esta abordagem não requer nenhuma mudança arquitetural nem processamento durante a consulta, podendo ser facilmente incorporada durante a indexação com qualquer modelo semelhante ao ColBERT.
Apresentamos o Disco4D, um novo framework de Splatting Gaussiano para geração e animação humanas em 4D a partir de uma única imagem. Diferente dos métodos existentes, o Disco4D desvencilha de forma distinta as roupas (com modelos Gaussianos) do corpo humano (com o modelo SMPL-X), melhorando significativamente os detalhes e a flexibilidade na geração. Ele apresenta as seguintes inovações técnicas. 1) O Disco4D aprende a ajustar de forma eficiente os Gaussianos de roupas sobre os Gaussianos do SMPL-X. 2) Adota modelos de difusão para aprimorar o processo de geração 3D, por exemplo, modelando partes ocultas não visíveis na imagem de entrada. 3) Aprende uma codificação de identidade para cada Gaussiano de roupa para facilitar a separação e extração dos elementos de vestuário. Além disso, o Disco4D suporta naturalmente a animação humana em 4D com dinâmicas vívidas. Experimentos extensivos demonstram a superioridade do Disco4D em tarefas de geração e animação humanas em 4D. Nossas visualizações podem ser encontradas em https://disco-4d.github.io/.
Os humanos podem aprender a manipular novos objetos simplesmente observando outros; fornecer aos robôs a capacidade de aprender com tais demonstrações permitiria uma interface natural para especificar novos comportamentos. Este trabalho desenvolve o Robot See Robot Do (RSRD), um método para imitar a manipulação articulada de objetos a partir de uma única demonstração humana RGB monocromática, dada uma única varredura estática de objetos multi-visão. Primeiramente, propomos os Modelos de Partes Diferenciáveis 4D (4D-DPM), um método para recuperar o movimento de partes 3D de um vídeo monocromático com renderização diferenciável. Esta abordagem de análise por síntese utiliza campos de características centradas em partes em uma otimização iterativa que permite o uso de regularizadores geométricos para recuperar movimentos 3D a partir de apenas um vídeo. Com base nessa reconstrução 4D, o robô replica trajetórias de objetos planejando movimentos de braços bimanuais que induzem o movimento da parte do objeto demonstrado. Ao representar as demonstrações como trajetórias centradas em partes, o RSRD foca em replicar o comportamento pretendido na demonstração, considerando os limites morfológicos do robô, em vez de tentar reproduzir o movimento da mão. Avaliamos a precisão de rastreamento 3D do 4D-DPM em trajetórias de partes 3D anotadas com a verdade de solo e o desempenho de execução física do RSRD em 9 objetos em 10 tentativas cada em um robô bimanual YuMi. Cada fase do RSRD alcança uma taxa média de sucesso de 87%, resultando em uma taxa total de sucesso de ponta a ponta de 60% em 90 tentativas. Notavelmente, isso é alcançado apenas com campos de características destilados de grandes modelos de visão pré-treinados - sem treinamento específico da tarefa, ajuste fino, coleta de dados ou anotação. Página do projeto: https://robot-see-robot-do.github.io
Extrair insights significativos de conjuntos de dados grandes e complexos apresenta desafios significativos, especialmente na garantia da precisão e relevância das informações recuperadas. Métodos tradicionais de recuperação de dados, como busca sequencial e recuperação baseada em índice, frequentemente falham ao lidar com estruturas de dados intricadas e interconectadas, resultando em saídas incompletas ou enganosas. Para superar essas limitações, apresentamos o Structured-GraphRAG, um framework versátil projetado para aprimorar a recuperação de informações em conjuntos de dados estruturados em consultas de linguagem natural. O Structured-GraphRAG utiliza múltiplos grafos de conhecimento, que representam dados em um formato estruturado e capturam relacionamentos complexos entre entidades, possibilitando uma recuperação mais refinada e abrangente de informações. Essa abordagem baseada em grafos reduz o risco de erros nas saídas do modelo de linguagem ao fundamentar as respostas em um formato estruturado, aumentando assim a confiabilidade dos resultados. Demonstramos a eficácia do Structured-GraphRAG ao comparar seu desempenho com o de um método recentemente publicado que utiliza geração de recuperação tradicional. Nossas descobertas mostram que o Structured-GraphRAG melhora significativamente a eficiência no processamento de consultas e reduz os tempos de resposta. Embora nosso estudo de caso se concentre em dados de futebol, o design do framework é amplamente aplicável, oferecendo uma ferramenta poderosa para análise de dados e aprimoramento de aplicações de modelos de linguagem em diversos domínios estruturados.