Artigos de pesquisa em IA selecionados diariamente com traduções
Os Modelos de Linguagem de Grande Escala (LLMs) revolucionaram o Processamento de Linguagem Natural (PLN), melhorando o estado da arte em muitas tarefas existentes e exibindo capacidades emergentes. No entanto, os LLMs ainda não foram aplicados com sucesso na extração de informações de documentos semi-estruturados, que está no cerne de muitos fluxos de trabalho de processamento de documentos e consiste em extrair entidades-chave de um documento visualmente rico (VRD) com base em um esquema de destino predefinido. Os principais obstáculos à adoção de LLMs nessa tarefa têm sido a ausência de codificação de layout dentro dos LLMs, crucial para uma extração de alta qualidade, e a falta de um mecanismo de fundamentação que garanta que a resposta não seja alucinada. Neste artigo, introduzimos a Extração e Localização de Informações em Documentos Baseada em Modelos de Linguagem (LMDX), uma metodologia para adaptar LLMs arbitrários para a extração de informações de documentos. O LMDX pode realizar a extração de entidades únicas, repetidas e hierárquicas, tanto com quanto sem dados de treinamento, ao mesmo tempo que fornece garantias de fundamentação e localiza as entidades dentro do documento. Em particular, aplicamos o LMDX ao LLM PaLM 2-S e o avaliamos nos benchmarks VRDU e CORD, estabelecendo um novo estado da arte e mostrando como o LMDX possibilita a criação de parsers de alta qualidade e eficientes em termos de dados.
Neste artigo, revelamos o potencial inexplorado da U-Net de difusão, que funciona como um "almoço grátis" que melhora substancialmente a qualidade da geração em tempo real. Inicialmente, investigamos as principais contribuições da arquitetura U-Net para o processo de remoção de ruído e identificamos que sua estrutura principal contribui principalmente para a remoção de ruído, enquanto suas conexões skip introduzem principalmente características de alta frequência no módulo decodificador, fazendo com que a rede negligencie a semântica da estrutura principal. Aproveitando essa descoberta, propomos um método simples, porém eficaz, denominado "FreeU", que melhora a qualidade da geração sem a necessidade de treinamento adicional ou ajuste fino. Nossa principal ideia é re-ponderar estrategicamente as contribuições provenientes das conexões skip e dos mapas de características da estrutura principal da U-Net, para aproveitar os pontos fortes de ambos os componentes da arquitetura U-Net. Resultados promissores em tarefas de geração de imagens e vídeos demonstram que nosso FreeU pode ser facilmente integrado a modelos de difusão existentes, como Stable Diffusion, DreamBooth, ModelScope, Rerender e ReVersion, para melhorar a qualidade da geração com apenas algumas linhas de código. Tudo o que você precisa fazer é ajustar dois fatores de escala durante a inferência. Página do projeto: https://chenyangsi.top/FreeU/.
Este artigo apresenta o DreamLLM, um framework de aprendizado que, pela primeira vez, alcança Modelos de Linguagem Multimodais de Grande Escala (MLLMs) versáteis, capacitados pela sinergia frequentemente negligenciada entre compreensão e criação multimodal. O DreamLLM opera com base em dois princípios fundamentais. O primeiro concentra-se na modelagem generativa das posteriores de linguagem e imagem por meio de amostragem direta no espaço multimodal bruto. Essa abordagem contorna as limitações e a perda de informação inerentes aos extratores de características externos, como o CLIP, obtendo-se uma compreensão multimodal mais abrangente. Em segundo lugar, o DreamLLM promove a geração de documentos brutos e intercalados, modelando tanto conteúdos de texto quanto de imagem, juntamente com layouts não estruturados. Isso permite que o DreamLLM aprenda todas as distribuições multimodais condicionais, marginais e conjuntas de forma eficaz. Como resultado, o DreamLLM é o primeiro MLLM capaz de gerar conteúdo intercalado de forma livre. Experimentos abrangentes destacam o desempenho superior do DreamLLM como um generalista multimodal de zero-shot, beneficiando-se da sinergia de aprendizado aprimorada.
Apresentamos o Kosmos-2.5, um modelo multimodal alfabetizado para leitura automática de imagens intensivas em texto. Pré-treinado em grandes volumes de imagens ricas em texto, o Kosmos-2.5 se destaca em duas tarefas de transcrição distintas, porém cooperativas: (1) geração de blocos de texto espacialmente conscientes, onde cada bloco de texto é associado às suas coordenadas espaciais dentro da imagem, e (2) produção de saídas de texto estruturado que capturam estilos e estruturas no formato markdown. Essa capacidade unificada de alfabetização multimodal é alcançada por meio de uma arquitetura Transformer compartilhada, prompts específicos para cada tarefa e representações de texto flexíveis. Avaliamos o Kosmos-2.5 em reconhecimento de texto em nível de documento e geração de texto de imagem para markdown. Além disso, o modelo pode ser facilmente adaptado para qualquer tarefa de compreensão de imagens intensivas em texto com diferentes prompts por meio de ajuste fino supervisionado, tornando-o uma ferramenta de propósito geral para aplicações do mundo real que envolvem imagens ricas em texto. Este trabalho também abre caminho para a futura escalabilidade de modelos de linguagem multimodal de grande escala.
A geração de informações factuais plausíveis, porém incorretas, denominada alucinação, é um problema não resolvido em modelos de linguagem de grande escala. Estudamos a capacidade dos modelos de linguagem de refletir sobre as respostas que fornecem para corrigir seus erros. Desenvolvemos o método Chain-of-Verification (CoVe), no qual o modelo primeiro (i) elabora uma resposta inicial; em seguida, (ii) planeja perguntas de verificação para checar os fatos de seu rascunho; (iii) responde a essas perguntas de forma independente, para que as respostas não sejam influenciadas por outras; e (iv) gera sua resposta final verificada. Em experimentos, mostramos que o CoVe reduz as alucinações em uma variedade de tarefas, desde perguntas baseadas em listas do Wikidata, MultiSpanQA de livro fechado e geração de textos longos.
A comunidade de IA tem feito avanços significativos no desenvolvimento de modelos base poderosos, impulsionados por conjuntos de dados multimodais em larga escala. No entanto, na comunidade de aprendizado de representação de áudio, os atuais conjuntos de dados de áudio e linguagem sofrem com limitações como volume insuficiente, conteúdo simplista e procedimentos de coleta árduos. Para enfrentar esses desafios, apresentamos um pipeline inovador e automático de geração de legendas de áudio baseado em uma série de ferramentas públicas ou APIs, e construímos um conjunto de dados de áudio e linguagem em larga escala e de alta qualidade, denominado Auto-ACD, composto por mais de 1,9 milhão de pares de áudio-texto. Para demonstrar a eficácia do conjunto de dados proposto, treinamos modelos populares em nosso conjunto de dados e mostramos melhorias de desempenho em várias tarefas subsequentes, nomeadamente, recuperação de áudio-linguagem, legendagem de áudio e classificação de ambiente. Além disso, estabelecemos um novo conjunto de teste e fornecemos um benchmark para tarefas de áudio-texto. O conjunto de dados proposto será disponibilizado em https://auto-acd.github.io/.
Nos últimos anos, os Modelos de Linguagem de Grande Escala (LLMs) têm atraído atenção significativa da comunidade de pesquisa devido ao seu desempenho excepcional e capacidades de generalização. Neste artigo, apresentamos um método inovador para contextualizar modelos de reconhecimento de fala incorporando LLMs. Nossa abordagem enquadra o reconhecimento de fala como uma tarefa de modelagem de linguagem multimodal baseada em um LLM pré-treinado. Fornecemos características de áudio, juntamente com tokens de texto opcionais para contexto, para treinar o sistema a completar transcrições de forma exclusivamente decodificadora. Como resultado, o sistema é implicitamente incentivado a aprender como aproveitar informações contextuais não estruturadas durante o treinamento. Nossos resultados empíricos demonstram uma melhoria significativa no desempenho, com uma redução de 6% na Taxa de Erro de Palavras (WER) quando o contexto textual adicional é fornecido. Além disso, descobrimos que nosso método se desempenha de forma competitiva e melhora em 7,5% no WER geral e 17% no WER para palavras raras em comparação com um sistema RNN-T contextualizado de referência que foi treinado em um conjunto de dados de fala mais de vinte e cinco vezes maior. No geral, demonstramos que, ao adicionar apenas um pequeno número de parâmetros treináveis por meio de adaptadores, podemos desbloquear a capacidade de reconhecimento de fala contextualizado para o LLM pré-treinado, mantendo a mesma funcionalidade de entrada apenas de texto.
A Languini Kitchen funciona tanto como um coletivo de pesquisa quanto como uma base de código projetada para capacitar pesquisadores com recursos computacionais limitados a contribuir de forma significativa para o campo de modelagem de linguagem. Introduzimos um protocolo experimental que permite comparações de modelos com base em computação equivalente, medida em horas de acelerador. O número de tokens em que um modelo é treinado é definido pela taxa de processamento do modelo e pela classe de computação escolhida. Notavelmente, essa abordagem evita restrições em hiperparâmetros críticos que afetam o número total de parâmetros ou operações de ponto flutuante. Para avaliação, pré-processamos um conjunto de dados grande, diverso e de alta qualidade de livros que supera os benchmarks acadêmicos existentes em qualidade, diversidade e comprimento de documento. Nele, comparamos métodos com base em suas tendências de escalonamento empírico, que são estimadas por meio de experimentos em vários níveis de computação. Este trabalho também fornece dois modelos de referência: um modelo feed-forward derivado da arquitetura GPT-2 e um modelo recorrente na forma de um novo LSTM com taxa de processamento dez vezes maior. Embora o modelo de referência GPT alcance melhor perplexidade em todos os nossos níveis de computação, nosso modelo de referência LSTM exibe uma lei de escalonamento previsível e mais favorável. Isso se deve à taxa de processamento aprimorada e à necessidade de menos tokens de treinamento para alcançar a mesma redução na perplexidade de teste. A extrapolação das leis de escalonamento de ambos os modelos resulta em uma interseção em aproximadamente 50.000 horas de acelerador. Esperamos que este trabalho possa servir como base para pesquisas significativas e reproduzíveis em modelagem de linguagem.
Os avanços recentes em Campos de Radiação Neural (NeRFs) tornaram possível reconstruir e reanimar cenas de retratos dinâmicos com controle sobre a pose da cabeça, expressões faciais e direção de visualização. No entanto, o treinamento desses modelos assume consistência fotométrica sobre a região deformada, ou seja, o rosto deve estar uniformemente iluminado à medida que se deforma com mudanças na pose da cabeça e nas expressões faciais. Essa consistência fotométrica entre os quadros de um vídeo é difícil de manter, mesmo em ambientes de estúdio, tornando os retratos neurais reanimáveis propensos a artefatos durante a reanimação. Neste trabalho, propomos o CoDyNeRF, um sistema que permite a criação de retratos 3D totalmente controláveis em condições de captura do mundo real. O CoDyNeRF aprende a aproximar efeitos dependentes da iluminação por meio de um modelo de aparência dinâmica no espaço canônico, que é condicionado pelas normais de superfície previstas e pelas deformações das expressões faciais e da pose da cabeça. A previsão das normais de superfície é guiada por normais 3DMM, que atuam como um prior grosseiro para as normais da cabeça humana, onde a previsão direta das normais é difícil devido às deformações rígidas e não rígidas induzidas por mudanças na pose da cabeça e nas expressões faciais. Utilizando apenas um vídeo curto capturado por smartphone de um sujeito para treinamento, demonstramos a eficácia do nosso método na síntese de visão livre de uma cena de retrato com controles explícitos de pose da cabeça e expressões, além de efeitos de iluminação realistas. A página do projeto pode ser encontrada aqui: http://shahrukhathar.github.io/2023/08/22/CoDyNeRF.html