Artigos de pesquisa em IA selecionados diariamente com traduções
Este artigo apresenta a arquitetura Block Transformer, que adota modelagem hierárquica global-para-local em transformadores autoregressivos para mitigar os gargalos de inferência da auto-atenção. Para aplicar a auto-atenção, o cache de chave-valor (KV) de todas as sequências anteriores deve ser recuperado da memória a cada etapa de decodificação. Assim, esse IO do cache KV se torna um gargalo significativo na inferência em lote. Observamos que esses custos decorrem da aplicação da auto-atenção no contexto global, portanto, isolamos os gargalos caros da modelagem global em camadas inferiores e aplicamos a modelagem local rápida em camadas superiores. Para mitigar os custos remanescentes nas camadas inferiores, agregamos tokens de entrada em blocos de tamanho fixo e, em seguida, aplicamos a auto-atenção nesse nível mais grosseiro. As informações de contexto são agregadas em um único embedding para permitir que as camadas superiores decodifiquem o próximo bloco de tokens, sem atenção global. Livres dos gargalos da atenção global, as camadas superiores podem utilizar totalmente o hardware de computação para maximizar a taxa de inferência. Ao aproveitar módulos globais e locais, a arquitetura Block Transformer demonstra ganhos de 10 a 20 vezes na taxa de inferência em comparação com transformadores convencionais com perplexidade equivalente. Nosso trabalho introduz uma nova abordagem para otimizar a inferência de modelos de linguagem por meio da aplicação inovadora da modelagem global-para-local. O código está disponível em https://github.com/itsnamgyu/block-transformer.
O rápido desenvolvimento de Modelos de Linguagem Multimodais de Grande Escala (MLLMs), como o GPT-4V, representa um passo significativo em direção à inteligência artificial geral. Os métodos existentes concentram-se principalmente no alinhamento de codificadores visuais com LLMs por meio de ajuste fino supervisionado (SFT) para dotar os LLMs de habilidades multimodais, fazendo com que a capacidade inerente dos MLLMs de reagir a múltiplos idiomas se deteriore progressivamente à medida que o processo de treinamento evolui. Empiricamente, observamos que os conjuntos de dados SFT desequilibrados, compostos principalmente por pares de imagem-texto centrados no inglês, levam a uma redução significativa no desempenho em idiomas não ingleses. Isso ocorre devido à falha no alinhamento do codificador visual e do LLM com tokens multilingues durante o processo de SFT. Neste artigo, apresentamos o Parrot, um método inovador que utiliza orientação textual para direcionar o alinhamento de tokens visuais no nível da linguagem. O Parrot faz com que os tokens visuais sejam condicionados a diversas entradas de idiomas e usa uma Mistura de Especialistas (MoE) para promover o alinhamento de tokens multilingues. Especificamente, para melhorar o alinhamento de tokens visuais não ingleses, calculamos a atenção cruzada usando as características visuais iniciais e os embeddings textuais, cujo resultado é então alimentado no roteador MoE para selecionar os especialistas mais relevantes. Os especialistas selecionados subsequentemente convertem os tokens visuais iniciais em tokens visuais específicos do idioma. Além disso, considerando a atual falta de benchmarks para avaliar capacidades multilingues no campo, coletamos e disponibilizamos um Benchmark Multimodal Multilingue Massivo, que inclui 6 idiomas, 15 categorias e 12.000 perguntas, denominado MMMB. Nosso método não apenas demonstra desempenho de ponta no MMBench e MMMB multilingues, mas também se destaca em uma ampla gama de tarefas multimodais. Tanto o código-fonte quanto o conjunto de dados de treinamento do Parrot serão disponibilizados publicamente.
As tarefas de operação em dispositivos móveis estão se tornando cada vez mais um cenário popular para aplicações de IA multimodal. Os atuais Modelos de Linguagem de Grande Escala Multimodal (MLLMs), limitados por seus dados de treinamento, não possuem a capacidade de funcionar efetivamente como assistentes de operação. Em vez disso, agentes baseados em MLLMs, que aprimoram suas capacidades por meio da invocação de ferramentas, estão sendo gradualmente aplicados a esse cenário. No entanto, os dois principais desafios de navegação em tarefas de operação de dispositivos móveis, a navegação do progresso da tarefa e a navegação do conteúdo focado, são significativamente complicados sob a arquitetura de agente único dos trabalhos existentes. Isso se deve às sequências de tokens excessivamente longas e ao formato de dados intercalados de texto e imagem, que limitam o desempenho. Para abordar esses desafios de navegação de forma eficaz, propomos o Mobile-Agent-v2, uma arquitetura multiagente para assistência em operações de dispositivos móveis. A arquitetura compreende três agentes: agente de planejamento, agente de decisão e agente de reflexão. O agente de planejamento gera o progresso da tarefa, tornando a navegação das operações históricas mais eficiente. Para reter o conteúdo focado, projetamos uma unidade de memória que é atualizada com o progresso da tarefa. Além disso, para corrigir operações errôneas, o agente de reflexão observa os resultados de cada operação e trata quaisquer erros de acordo. Os resultados experimentais indicam que o Mobile-Agent-v2 alcança uma melhoria de mais de 30% na conclusão de tarefas em comparação com a arquitetura de agente único do Mobile-Agent. O código está disponível em código aberto em https://github.com/X-PLUG/MobileAgent.
Os métodos existentes de criação de 3D a partir de uma única imagem geralmente envolvem um processo em duas etapas: primeiro, geram imagens de múltiplas vistas e, em seguida, usam essas imagens para a reconstrução 3D. No entanto, o treinamento separado dessas duas etapas leva a um viés significativo de dados na fase de inferência, afetando assim a qualidade dos resultados reconstruídos. Introduzimos um framework unificado de geração 3D, denominado Ouroboros3D, que integra a geração de imagens de múltiplas vistas baseada em difusão e a reconstrução 3D em um processo recursivo de difusão. Em nosso framework, esses dois módulos são treinados conjuntamente por meio de um mecanismo de autocondicionamento, permitindo que se adaptem às características um do outro para uma inferência robusta. Durante o processo de remoção de ruído de múltiplas vistas, o modelo de difusão de múltiplas vistas utiliza mapas 3D-aware renderizados pelo módulo de reconstrução no passo de tempo anterior como condições adicionais. O framework de difusão recursiva com feedback 3D-aware unifica todo o processo e melhora a consistência geométrica. Experimentos mostram que nosso framework supera a separação dessas duas etapas e os métodos existentes que as combinam na fase de inferência. Página do projeto: https://costwen.github.io/Ouroboros3D/
Os Transformers rapidamente se tornaram a escolha preferida para classificação de áudio, superando métodos baseados em CNNs. No entanto, os Audio Spectrogram Transformers (ASTs) apresentam escalonamento quadrático devido ao mecanismo de self-attention. A eliminação desse custo quadrático associado à self-attention representa uma direção promissora. Recentemente, modelos de espaço de estados (SSMs), como o Mamba, demonstraram potencial em tarefas de linguagem e visão nesse aspecto. Neste estudo, investigamos se a dependência da self-attention é necessária para tarefas de classificação de áudio. Ao introduzir o Audio Mamba (AuM), o primeiro modelo para classificação de áudio baseado exclusivamente em SSMs e livre de self-attention, buscamos responder a essa questão. Avaliamos o AuM em diversos conjuntos de dados de áudio - compreendendo seis benchmarks diferentes - onde ele alcança desempenho comparável ou superior ao bem estabelecido modelo AST.
A geração de layout é a pedra angular para alcançar o design gráfico automatizado, exigindo o arranjo da posição e do tamanho de diversos elementos de design multimodais de forma visualmente agradável e em conformidade com restrições. Abordagens anteriores são ou ineficientes para aplicações em larga escala ou carecem de flexibilidade para atender a requisitos de design variados. Nossa pesquisa introduz uma estrutura unificada para a geração automatizada de layouts gráficos, aproveitando o modelo de linguagem multimodal de grande escala (MLLM) para acomodar diversas tarefas de design. Em contraste, nosso método baseado em dados emprega texto estruturado (formato JSON) e ajuste de instruções visuais para gerar layouts sob restrições visuais e textuais específicas, incluindo especificações em linguagem natural definidas pelo usuário. Realizamos extensos experimentos e alcançamos desempenho de ponta (SOTA) em benchmarks públicos de geração de layouts multimodais, demonstrando a eficácia do nosso método. Além disso, reconhecendo as limitações dos conjuntos de dados existentes em capturar a complexidade dos designs gráficos do mundo real, propomos dois novos conjuntos de dados para tarefas muito mais desafiadoras (geração com restrições do usuário e pôsteres complexos), validando ainda mais a utilidade do nosso modelo em cenários reais. Marcado por sua superior acessibilidade e adaptabilidade, essa abordagem automatiza ainda mais tarefas de design gráfico em larga escala. O código e os conjuntos de dados estarão publicamente disponíveis em https://github.com/posterllava/PosterLLaVA.
Trabalhos anteriores demonstraram a síntese de texto para fala zero-shot utilizando um modelo de linguagem generativa em tokens de áudio obtidos por meio de um codec neural de áudio. No entanto, ainda é desafiador adaptar esses métodos a cenários de baixa latência. Neste artigo, apresentamos o LiveSpeech - uma abordagem totalmente autoregressiva baseada em modelo de linguagem para síntese de texto para fala zero-shot, permitindo o streaming de áudio de saída com baixa latência. Para permitir a previsão de múltiplos tokens em uma única etapa de decodificação, propomos (1) o uso de pesos de perda adaptativos do codebook que consideram a contribuição de cada codebook em cada quadro e focam em instâncias difíceis, e (2) o agrupamento de codebooks e o processamento paralelo desses grupos. Experimentos mostram que nossos modelos propostos alcançam resultados competitivos em relação às abordagens state-of-the-art em termos de precisão de conteúdo, similaridade de voz, qualidade de áudio e velocidade de inferência, sendo adequados para aplicações de streaming com baixa latência.
Avanços significativos em modelos de difusão de vídeo trouxeram progresso substancial ao campo de síntese de texto para vídeo (T2V). No entanto, os modelos existentes de síntese T2V lutam para gerar com precisão dinâmicas de movimento complexas, levando a uma redução no realismo dos vídeos. Uma solução possível seria coletar dados massivos e treinar o modelo com eles, mas isso seria extremamente caro. Para aliviar esse problema, neste artigo, reformulamos o processo típico de geração T2V como um pipeline de geração baseado em busca. Em vez de escalar o treinamento do modelo, empregamos vídeos existentes como banco de dados de prioridades de movimento. Especificamente, dividimos o processo de geração T2V em duas etapas: (i) Para uma entrada de prompt dada, buscamos em conjuntos de dados texto-vídeo existentes para encontrar vídeos com rótulos de texto que correspondam de perto aos movimentos do prompt. Propomos um algoritmo de busca personalizado que enfatiza características de movimento de objetos. (ii) Os vídeos recuperados são processados e destilados em prioridades de movimento para ajustar finamente um modelo T2V base pré-treinado, seguido pela geração dos vídeos desejados usando o prompt de entrada. Ao utilizar as prioridades obtidas dos vídeos buscados, aprimoramos o realismo do movimento dos vídeos gerados. Todas as operações podem ser concluídas em uma única GPU NVIDIA RTX 4090. Validamos nosso método contra modelos T2V state-of-the-art em diversas entradas de prompt. O código será público.
O Aprendizado por Reforço com Feedback Humano (RLHF) tem sido crucial para o sucesso recente dos Modelos de Linguagem de Grande Escala (LLMs), no entanto, é frequentemente um processo complexo e frágil. No framework clássico de RLHF, um modelo de recompensa é primeiro treinado para representar as preferências humanas, que por sua vez é utilizado por um algoritmo de aprendizado por reforço (RL) online para otimizar o LLM. Um problema proeminente com tais métodos é a superotimização ou manipulação da recompensa, onde o desempenho medido pelo modelo de recompensa aprendido aumenta, mas a qualidade verdadeira estagna ou até mesmo se deteriora. Algoritmos de Alinhamento Direto (DAAs), como a Otimização Direta de Preferências, surgiram como alternativas ao pipeline clássico de RLHF, contornando a fase de modelagem de recompensa. No entanto, embora os DAAs não utilizem um modelo de recompensa proxy separado, eles ainda comumente se deterioram devido à superotimização. Embora o fenômeno chamado de manipulação da recompensa não seja bem definido para DAAs, ainda descobrimos tendências semelhantes: em orçamentos de KL mais altos, os algoritmos DAA exibem padrões de degradação semelhantes aos seus equivalentes clássicos de RLHF. Em particular, descobrimos que os métodos DAA se deterioram não apenas em uma ampla gama de orçamentos de KL, mas também frequentemente antes mesmo que uma única época do conjunto de dados seja concluída. Através de extensa experimentação empírica, este trabalho formula e formaliza o problema de superotimização ou manipulação da recompensa para DAAs e explora suas consequências em diferentes objetivos, regimes de treinamento e escalas de modelos.
Os Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês) têm obtido grande sucesso em tarefas como compreensão de diálogos complexos, raciocínio e codificação devido às suas habilidades emergentes. Essas habilidades emergentes foram estendidas com multimodalidade para incluir capacidades de processamento de imagens, áudio e vídeo. Por outro lado, os sistemas de recomendação têm sido essenciais para atender às necessidades de busca de informações e descoberta de itens. Recentemente, houve tentativas de aplicar LLMs para recomendações. Uma dificuldade dessas tentativas é que o LLM subjacente geralmente não é treinado com dados de sistemas de recomendação, que contêm principalmente sinais de interação do usuário e muitas vezes não estão disponíveis publicamente. Outra dificuldade é que os sinais de interação do usuário frequentemente apresentam padrões diferentes dos textos em linguagem natural, e atualmente não está claro se o treinamento de LLMs pode aprender conhecimentos mais complexos a partir desses sinais em comparação com métodos tradicionais de sistemas de recomendação. Por fim, é difícil treinar múltiplos LLMs para diferentes casos de uso e manter as habilidades originais de linguagem e raciocínio ao aprender com dados de sistemas de recomendação. Para abordar essas três limitações, propomos um Modelo de Linguagem de Itens (ILM, na sigla em inglês), que é composto por um codificador de itens para produzir representações de itens alinhadas com texto que codificam sinais de interação do usuário, e um LLM congelado que pode compreender essas representações de itens com o conhecimento pré-treinado preservado. Realizamos experimentos extensivos que demonstram tanto a importância do alinhamento com a linguagem quanto do conhecimento de interação do usuário no codificador de itens.
Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado capacidades impressionantes em diversas tarefas, mas seus vastos tamanhos de parâmetros limitam sua aplicabilidade em ambientes com recursos restritos. A destilação de conhecimento (KD) oferece uma solução viável ao transferir expertise de modelos professores grandes para modelos estudantes compactos. No entanto, técnicas tradicionais de KD enfrentam desafios específicos quando aplicadas a LLMs, incluindo acesso restrito às saídas dos LLMs, grandes lacunas de capacidade entre professor e estudante, e o problema herdado de má-calibração. Neste trabalho, apresentamos o PLaD, uma nova estrutura de destilação de LLMs baseada em preferências. O PLaD explora a discrepância de capacidade entre professor e estudante para gerar pares de pseudo-preferências, onde as saídas do professor são preferidas em relação às saídas do estudante. Em seguida, o PLaD utiliza uma função de perda de classificação para recalibrar a estimativa de probabilidade de sequência do estudante, direcionando o foco do estudante para compreender a qualidade relativa das saídas, em vez de simplesmente imitar o professor. O PLaD dispensa a necessidade de acesso aos estados internos do LLM professor, aborda as limitações de expressividade do estudante e mitiga o problema de má-calibração do estudante. Por meio de extensos experimentos em duas tarefas de geração de sequência e com vários LLMs, demonstramos a eficácia da nossa estrutura PLaD proposta.
Apresentamos o Xmodel-LM, um modelo de linguagem compacto e eficiente com 1,1 bilhão de parâmetros, pré-treinado em mais de 2 trilhões de tokens. Treinado em nosso conjunto de dados autoconstruído (Xdata), que equilibra corpora em chinês e inglês com base na otimização de tarefas subsequentes, o Xmodel-LM exibe um desempenho notável apesar de seu tamanho reduzido. Ele supera significativamente os modelos de linguagem de código aberto existentes de escala similar. Nossos checkpoints do modelo e o código estão publicamente acessíveis no GitHub em https://github.com/XiaoduoAILab/XmodelLM.