Artigos de pesquisa em IA selecionados diariamente com traduções
Os modelos de linguagem grandes (LLMs) são esperados para responder com precisão, mas frequentemente apresentam raciocínio deficiente ou geram conteúdo alucinatório. Para lidar com isso, estudos prefixados com "Self-" como Auto-Consistência, Auto-Melhoria e Auto-Aprimoramento foram iniciados. Eles compartilham uma característica comum: envolver LLMs avaliando e atualizando a si mesmos para mitigar os problemas. No entanto, esses esforços carecem de uma perspectiva unificada sobre sumarização, já que as pesquisas existentes predominantemente se concentram na categorização sem examinar as motivações por trás desses trabalhos. Neste artigo, resumimos um arcabouço teórico, denominado Consistência Interna, que oferece explicações unificadas para fenômenos como a falta de raciocínio e a presença de alucinações. A Consistência Interna avalia a coerência entre as camadas latentes, de decodificação e de resposta dos LLMs com base em metodologias de amostragem. Expandindo o arcabouço de Consistência Interna, introduzimos um arcabouço teórico simplificado, porém eficaz, capaz de explorar a Consistência Interna, chamado Auto-Retroalimentação. O arcabouço de Auto-Retroalimentação consiste em dois módulos: Autoavaliação e Autopdate. Este arcabouço tem sido empregado em inúmeros estudos. Classificamos sistematicamente esses estudos por tarefas e linhas de trabalho; resumimos métodos de avaliação relevantes e benchmarks; e aprofundamos na preocupação, "Será que a Auto-Retroalimentação Realmente Funciona?" Propomos várias perspectivas críticas, incluindo a hipótese "Evolução em Ampulheta da Consistência Interna", a hipótese "Consistência é (Quase) Correção" e "O Paradoxo do Raciocínio Latente e Explícito". Além disso, delineamos direções promissoras para pesquisas futuras. Disponibilizamos o código experimental, lista de referências e dados estatísticos em código aberto, disponíveis em https://github.com/IAAR-Shanghai/ICSFSurvey.
A inferência de modelos de linguagem grandes baseados em transformadores consiste em duas etapas sequenciais: 1) uma etapa de pré-preenchimento para calcular o cache KV de prompts e gerar o primeiro token, e 2) uma etapa de decodificação para gerar tokens subsequentes. Para prompts longos, o cache KV deve ser calculado para todos os tokens durante a etapa de pré-preenchimento, o que pode aumentar significativamente o tempo necessário para gerar o primeiro token. Consequentemente, a etapa de pré-preenchimento pode se tornar um gargalo no processo de geração. Uma questão em aberto permanece se todos os tokens do prompt são essenciais para gerar o primeiro token. Para responder a isso, introduzimos um método inovador, LazyLLM, que calcula seletivamente o KV para tokens importantes para a previsão do próximo token em ambas as etapas de pré-preenchimento e decodificação. Ao contrário das abordagens de poda estática que podam o prompt de uma vez, o LazyLLM permite que os modelos de linguagem selecionem dinamicamente diferentes subconjuntos de tokens do contexto em diferentes etapas de geração, mesmo que tenham sido podados em etapas anteriores. Experimentos extensivos em conjuntos de dados padrão em várias tarefas demonstram que o LazyLLM é um método genérico que pode ser integrado perfeitamente aos modelos de linguagem existentes para acelerar significativamente a geração sem ajuste fino. Por exemplo, na tarefa de questionamento e resposta multi-documentos, o LazyLLM acelera a etapa de pré-preenchimento do modelo LLama 2 7B em 2,34 vezes mantendo a precisão.
No campo dos modelos de linguagem multimodais, a maioria dos métodos é construída com uma arquitetura semelhante à LLaVA. Esses modelos utilizam um recurso ViT de camada única como um estímulo visual, alimentando-o diretamente nos modelos de linguagem juntamente com tokens textuais. No entanto, ao lidar com sequências longas de sinais visuais ou entradas como vídeos, o mecanismo de autoatenção dos modelos de linguagem pode resultar em sobrecarga computacional significativa. Além disso, o uso de recursos ViT de camada única torna desafiador para grandes modelos de linguagem perceberem completamente os sinais visuais. Este artigo propõe um modelo de linguagem multimodal eficiente para minimizar os custos computacionais, permitindo que o modelo perceba os sinais visuais da forma mais abrangente possível. Nosso método inclui principalmente: (1) a utilização de atenção cruzada para interação imagem-texto semelhante ao Flamingo. (2) utilizar recursos ViT hierárquicos. (3) introduzir o mecanismo de Mistura de Especialistas (MoE) para aprimorar a eficácia do modelo. Nosso modelo alcança pontuações competitivas em benchmarks públicos multimodais e tem bom desempenho em tarefas como descrição de imagens e descrição de vídeos.
Neste trabalho, apresentamos o ChatQA 2, um modelo baseado em Llama3 projetado para preencher a lacuna entre LLMs de acesso aberto e os principais modelos proprietários (por exemplo, GPT-4-Turbo) em capacidades de compreensão de contexto longo e geração aumentada por recuperação (RAG). Essas duas capacidades são essenciais para LLMs processarem grandes volumes de informações que não podem ser inseridas em uma única solicitação e são complementares entre si, dependendo das tarefas subsequentes e dos recursos computacionais. Apresentamos uma receita detalhada de treinamento contínuo para ampliar a janela de contexto do Llama3-70B-base de 8K para 128K tokens, juntamente com um processo de ajuste de instruções em três estágios para aprimorar o seguimento de instruções do modelo, o desempenho RAG e as capacidades de compreensão de contexto longo. Nossos resultados demonstram que o modelo Llama3-ChatQA-2-70B alcança uma precisão comparável ao GPT-4-Turbo-2024-0409 em muitas tarefas de compreensão de contexto longo e o supera no benchmark RAG. Curiosamente, descobrimos que o recuperador de contexto longo de última geração pode aliviar o problema de fragmentação de contexto superior-k em RAG, melhorando ainda mais os resultados baseados em RAG para tarefas de compreensão de contexto longo. Também fornecemos extensas comparações entre soluções RAG e de contexto longo usando LLMs de contexto longo de última geração.
Os modelos generativos abertos são de vital importância para a comunidade, permitindo ajustes finos e servindo como referências ao apresentar novos modelos. No entanto, a maioria dos modelos atuais de texto para áudio são privados e não acessíveis para artistas e pesquisadores construírem sobre eles. Aqui descrevemos a arquitetura e o processo de treinamento de um novo modelo de texto para áudio de pesos abertos treinado com dados da Creative Commons. Nossa avaliação mostra que o desempenho do modelo é competitivo com o estado-da-arte em várias métricas. Notavelmente, os resultados FDopenl3 relatados (medindo o realismo das gerações) destacam seu potencial para síntese de som estéreo de alta qualidade a 44,1kHz.
Nos últimos anos, foram feitos avanços notáveis no domínio da compreensão de documentos visuais, com a arquitetura predominante compreendendo uma cascata de modelos de visão e linguagem. O componente de texto pode ser extraído explicitamente com o uso de modelos OCR externos em abordagens baseadas em OCR, ou, alternativamente, o modelo de visão pode ser dotado de capacidades de leitura em abordagens livres de OCR. Tipicamente, as consultas ao modelo são inseridas exclusivamente no componente de linguagem, exigindo que as características visuais englobem todo o documento. Neste artigo, apresentamos o VisFocus, um método livre de OCR projetado para explorar melhor a capacidade do codificador de visão ao acoplá-lo diretamente com o comando de linguagem. Para isso, substituímos as camadas de redução de amostragem por camadas que recebem o comando de entrada e permitem destacar partes relevantes do documento, enquanto ignoram outras. Combinamos os aprimoramentos da arquitetura com uma nova tarefa de pré-treinamento, usando mascaramento de linguagem em um trecho do texto do documento alimentado ao codificador visual no lugar do comando, para capacitar o modelo com habilidades de foco. Consequentemente, o VisFocus aprende a alocar sua atenção para trechos de texto pertinentes ao comando fornecido. Nossos experimentos demonstram que esta abordagem de codificação visual guiada por comando melhora significativamente o desempenho, alcançando resultados de ponta em vários benchmarks.
O Reconhecimento Óptico de Caracteres Árabes (OCR) e o Reconhecimento de Escrita à Mão (HWR) apresentam desafios únicos devido à natureza cursiva e sensível ao contexto do script árabe. Este estudo apresenta o Qalam, um modelo de base inovador projetado para OCR e HWR em árabe, construído com um codificador SwinV2 e uma arquitetura decodificadora RoBERTa. Nosso modelo supera significativamente os métodos existentes, alcançando uma Taxa de Erro de Palavras (WER) de apenas 0,80% em tarefas de HWR e 1,18% em tarefas de OCR. Treinamos o Qalam em um conjunto de dados diversificado, incluindo mais de 4,5 milhões de imagens de manuscritos árabes e um conjunto de dados sintético composto por 60 mil pares de imagem-texto. Notavelmente, o Qalam demonstra um manuseio excepcional de diacríticos árabes, uma característica crítica nos scripts árabes. Além disso, ele mostra uma notável capacidade de processar entradas de alta resolução, abordando uma limitação comum nos sistemas OCR atuais. Esses avanços destacam o potencial do Qalam como uma solução líder para o reconhecimento de scripts árabes, oferecendo um salto significativo em precisão e eficiência.
A Visão da Computação Autonômica (ACV), proposta há mais de duas décadas, idealiza sistemas computacionais que se auto-gerenciam de forma semelhante a organismos biológicos, adaptando-se de forma contínua a ambientes em mudança. Apesar de décadas de pesquisa, alcançar a ACV continua sendo um desafio devido à natureza dinâmica e complexa dos sistemas computacionais modernos. Avanços recentes em Modelos de Linguagem de Grande Escala (LLMs) oferecem soluções promissoras para esses desafios, aproveitando seu amplo conhecimento, compreensão de linguagem e capacidades de automação de tarefas. Este artigo explora a viabilidade de realizar a ACV por meio de um framework multiagente baseado em LLM para gerenciamento de microsserviços. Introduzimos uma taxonomia de cinco níveis para manutenção de serviços autônomos e apresentamos um benchmark de avaliação online com base no projeto de demonstração de microsserviço Sock Shop para avaliar o desempenho de nosso framework. Nossas descobertas demonstram um progresso significativo em direção à conquista do Nível 3 de autonomia, destacando a eficácia dos LLMs na detecção e resolução de problemas dentro de arquiteturas de microsserviços. Este estudo contribui para o avanço da computação autonômica ao pioneirizar a integração de LLMs em frameworks de gerenciamento de microsserviços, abrindo caminho para sistemas computacionais mais adaptativos e auto-gerenciáveis. O código estará disponível em https://aka.ms/ACV-LLM.
Uma vez que os modelos de linguagem (LMs) agora superam humanos médios em muitas tarefas desafiadoras, tem se tornado cada vez mais difícil desenvolver avaliações desafiadoras, de alta qualidade e realistas. Abordamos essa questão examinando as capacidades dos LMs em gerar código para resolver problemas reais de pesquisa científica. Incorporando contribuições de cientistas e pesquisadores de IA em 16 diversos subcampos das ciências naturais, incluindo matemática, física, química, biologia e ciência dos materiais, criamos um benchmark de codificação curado por cientistas, o SciCode. Os problemas no SciCode naturalmente se dividem em múltiplos subproblemas, cada um envolvendo recordação de conhecimento, raciocínio e síntese de código. No total, o SciCode contém 338 subproblemas decompostos de 80 problemas principais desafiadores. Ele oferece descrições opcionais especificando informações úteis de contexto científico e soluções padrão-ouro anotadas por cientistas e casos de teste para avaliação. O modelo Claude3.5-Sonnet, o melhor desempenho entre os testados, consegue resolver apenas 4,6% dos problemas no cenário mais realista. Acreditamos que o SciCode demonstra tanto o progresso dos LMs contemporâneos em se tornarem assistentes científicos úteis quanto lança luz sobre o desenvolvimento e avaliação da IA científica no futuro.
A implantação de grandes modelos de linguagem (LLMs) muitas vezes é limitada pela largura de banda de memória, onde o principal gargalo é o custo de transferir os parâmetros do modelo da memória global da GPU para seus registradores. Quando combinada com kernels personalizados que fundem as operações de desquantização e multiplicação de matriz, a quantização apenas de peso pode possibilitar inferências mais rápidas ao reduzir a quantidade de movimentação de memória. No entanto, desenvolver kernels de alto desempenho para LLMs quantizados por peso apresenta desafios substanciais, especialmente quando os pesos são comprimidos em larguras de bits não uniformemente divisíveis (por exemplo, 3 bits) com quantização de tabela de pesquisa não uniforme. Este artigo descreve o FLUTE, um mecanismo flexível de tabela de pesquisa para LLMs quantizados por LUT, que utiliza reestruturação offline da matriz de peso quantizada para minimizar manipulações de bits associadas à descompactação, e vetorização e duplicação da tabela de pesquisa para mitigar as restrições de largura de banda de memória compartilhada. Com tamanhos de lote < 32 e tamanho de grupo de quantização de 128 (típico na inferência de LLM), o kernel FLUTE pode ser de 2 a 4 vezes mais rápido do que os kernels GEMM existentes. Como aplicação do FLUTE, exploramos uma extensão simples à quantização NormalFloat baseada em tabela de pesquisa e a aplicamos para quantizar o LLaMA3 em várias configurações, obtendo desempenho de quantização competitivo em relação a bases sólidas, enquanto alcançamos um aumento de throughput de ponta a ponta de 1,5 a 2 vezes.
Inovações recentes no treinamento de modelos de linguagem têm demonstrado que é possível criar modelos altamente eficientes que são pequenos o suficiente para serem executados em um smartphone. À medida que esses modelos são implementados em um número crescente de domínios, é crucial garantir que estejam alinhados com as preferências humanas e considerações de segurança. Neste relatório, apresentamos nossa metodologia para alinhar com segurança a série de modelos de linguagem Phi-3. Utilizamos um ciclo de "identificar e corrigir", realizando múltiplas rodadas de curadoria de conjuntos de dados, segurança pós-treinamento, benchmarking, equipe de segurança e identificação de vulnerabilidades para abranger uma variedade de áreas prejudiciais em cenários de interação única e múltipla. Nossos resultados indicam que essa abordagem melhorou iterativamente o desempenho dos modelos Phi-3 em uma ampla gama de benchmarks de IA responsável.
Recentemente, com os avanços rápidos dos modelos generativos, o campo da geração de texto visual testemunhou progressos significativos. No entanto, ainda é desafiador renderizar imagens de texto de alta qualidade em cenários do mundo real, uma vez que três critérios críticos devem ser atendidos: (1) Fidelidade: as imagens de texto geradas devem ser fotorrealistas e espera-se que os conteúdos sejam os mesmos especificados nas condições fornecidas; (2) Racionalidade: as regiões e conteúdos do texto gerado devem estar em conformidade com a cena; (3) Utilidade: as imagens de texto geradas podem facilitar tarefas relacionadas (por exemplo, detecção e reconhecimento de texto). Após investigação, descobrimos que os métodos existentes, sejam baseados em renderização ou difusão, dificilmente conseguem atender a todos esses aspectos simultaneamente, limitando sua faixa de aplicação. Portanto, propomos neste artigo um gerador de texto visual (denominado SceneVTG), que pode produzir imagens de texto de alta qualidade em ambientes naturais. Seguindo um paradigma de duas etapas, o SceneVTG aproveita um Modelo de Linguagem Multimodal Grande para recomendar regiões e conteúdos de texto razoáveis em várias escalas e níveis, que são usados por um modelo de difusão condicional como condições para gerar imagens de texto. Experimentos extensivos demonstram que o SceneVTG proposto supera significativamente os métodos tradicionais baseados em renderização e os métodos recentes baseados em difusão em termos de fidelidade e racionalidade. Além disso, as imagens geradas fornecem utilidade superior para tarefas envolvendo detecção e reconhecimento de texto. Código e conjuntos de dados estão disponíveis em AdvancedLiterateMachinery.
Os autoencoders esparsos (SAEs) são uma abordagem não supervisionada promissora para identificar características lineares causalmente relevantes e interpretáveis em ativações de um modelo de linguagem (LM). Para serem úteis para tarefas subsequentes, os SAEs precisam decompor as ativações do LM de forma fiel; no entanto, para serem interpretáveis, a decomposição deve ser esparsa - dois objetivos que estão em tensão. Neste artigo, apresentamos os SAEs JumpReLU, que alcançam fidelidade de reconstrução de última geração em um nível de esparsidade dado nas ativações do Gemma 2 9B, em comparação com outros avanços recentes, como os SAEs Gated e TopK. Também demonstramos que essa melhoria não compromete a interpretabilidade por meio de estudos de interpretabilidade manuais e automatizados. Os SAEs JumpReLU são uma modificação simples dos SAEs convencionais (ReLU) - onde substituímos o ReLU por uma função de ativação JumpReLU descontínua - e são igualmente eficientes para treinar e executar. Ao utilizar estimadores de passagem direta (STEs) de maneira fundamentada, mostramos como é possível treinar os SAEs JumpReLU de forma eficaz, apesar da função JumpReLU descontínua introduzida na passagem direta do SAE. Da mesma forma, usamos STEs para treinar diretamente L0 de forma esparsa, em vez de treinar em proxies como L1, evitando problemas como encolhimento.
Significativas melhorias foram alcançadas na legenda automática de áudio (AAC) com modelos recentes. No entanto, esses modelos têm se tornado cada vez maiores à medida que seu desempenho é aprimorado. Neste trabalho, propomos um framework de destilação de conhecimento (KD) para AAC. Nossa análise mostra que nos modelos AAC baseados em codificador-decodificador, é mais eficaz destilar conhecimento no codificador em comparação com o decodificador. Para isso, incorporamos a perda de KD ao nível do codificador no treinamento, além da perda supervisionada padrão e da perda de KD ao nível de sequência. Investigamos dois métodos de KD ao nível do codificador, baseados na perda de erro quadrático médio (MSE) e na perda contrastiva, respectivamente. Os resultados experimentais demonstram que o KD contrastivo é mais robusto do que o KD MSE, exibindo desempenho superior em situações de escassez de dados. Ao aproveitar dados apenas de áudio no treinamento no framework de KD, nosso modelo aluno alcança desempenho competitivo, com uma velocidade de inferência 19 vezes mais rápida. Uma demonstração online está disponível em \url{https://huggingface.co/spaces/wsntxxn/efficient_audio_captioning}.
Apresentamos uma abordagem inovadora para recuperar a forma 3D e a aparência dependente da vista a partir de algumas imagens coloridas, possibilitando uma reconstrução 3D eficiente e síntese de novas vistas. Nosso método aprende uma representação neural implícita na forma de uma Função de Distância Assinada (SDF) e um campo de radiância. O modelo é treinado progressivamente por meio de renderização volumétrica habilitada para marcha de raios, e regularizado com pistas de estéreo multi-vista (MVS) livres de aprendizado. A chave de nossa contribuição é uma estratégia inovadora de aprendizado de função de forma neural implícita que incentiva nosso campo SDF a ser o mais linear possível próximo ao conjunto de níveis, robustecendo assim o treinamento contra ruídos provenientes dos sinais de supervisão e regularização. Sem utilizar quaisquer precursores pré-treinados, nosso método, chamado SparseCraft, alcança desempenhos de ponta tanto na síntese de novas vistas quanto na reconstrução a partir de vistas esparsas em benchmarks padrão, exigindo menos de 10 minutos para treinamento.
Recentemente, a geração de texto para 3D tem atraído significativa atenção, resultando em melhorias de desempenho notáveis. Métodos anteriores utilizam modelos de geração 3D de ponta a ponta para inicializar Gaussianas 3D, modelos de difusão multi-visão para impor consistência multi-visão, e modelos de difusão de texto para imagem para refinar detalhes com algoritmos de destilação de pontuação. No entanto, esses métodos apresentam duas limitações. Em primeiro lugar, eles encontram conflitos nas direções de geração, uma vez que diferentes modelos têm como objetivo produzir ativos 3D diversos. Em segundo lugar, a questão da super-saturação na destilação de pontuação não foi completamente investigada e resolvida. Para lidar com essas limitações, propomos o PlacidDreamer, um framework de texto para 3D que harmoniza inicialização, geração multi-visão e geração condicionada por texto com um único modelo de difusão multi-visão, ao mesmo tempo que emprega um novo algoritmo de destilação de pontuação para alcançar uma saturação equilibrada. Para unificar a direção de geração, introduzimos o módulo Plano Latente, uma extensão plug-in amigável ao treinamento que permite que os modelos de difusão multi-visão forneçam uma rápida reconstrução de geometria para inicialização e imagens multi-visão aprimoradas para personalizar o modelo de difusão de texto para imagem. Para abordar o problema de super-saturação, propomos visualizar a destilação de pontuação como um problema de otimização multiobjetivo e introduzir o algoritmo de Destilação de Pontuação Equilibrada, que oferece uma solução Ótima de Pareto que alcança tanto detalhes ricos quanto saturação equilibrada. Experimentos extensivos validam as capacidades excepcionais do nosso PlacidDreamer. O código está disponível em https://github.com/HansenHuang0823/PlacidDreamer.