Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos de linguagem, como o GPT-3.5 e o ChatGPT, demonstram habilidades notáveis para seguir diversas instruções humanas e executar uma ampla gama de tarefas. No entanto, ao investigar modelos de linguagem usando uma variedade de tarefas básicas de compreensão de tabelas, observamos que os modelos de linguagem atuais ainda são subótimos em muitas tarefas relacionadas a tabelas, provavelmente porque são pré-treinados predominantemente em textos unidimensionais de linguagem natural, enquanto tabelas relacionais são objetos bidimensionais. Neste trabalho, propomos um novo paradigma de "ajuste de tabela" (table-tuning), no qual continuamos a treinar/ajustar modelos de linguagem como o GPT-3.5 e o ChatGPT, utilizando diversas tarefas de tabela sintetizadas a partir de tabelas reais como dados de treinamento, com o objetivo de aprimorar a capacidade dos modelos de linguagem de compreender tabelas e executar tarefas relacionadas a elas. Mostramos que nossos modelos Table-GPT resultantes demonstram (1) melhores capacidades de compreensão de tabelas, superando consistentemente o GPT-3.5 e o ChatGPT originais em uma ampla gama de tarefas de tabela, incluindo tarefas não vistas durante o treinamento, e (2) forte generalização, em sua capacidade de responder a diversas instruções humanas para executar novas tarefas de tabela, de maneira semelhante ao GPT-3.5 e ao ChatGPT.
Este artigo apresenta o PaLI-3, um modelo de linguagem visual (VLM) menor, mais rápido e mais robusto que se compara favoravelmente a modelos semelhantes que são 10 vezes maiores. Como parte do processo para alcançar esse desempenho superior, comparamos modelos Vision Transformer (ViT) pré-treinados usando objetivos de classificação com aqueles pré-treinados de forma contrastiva (SigLIP). Descobrimos que, embora apresente um desempenho ligeiramente inferior em benchmarks padrão de classificação de imagens, o PaLI baseado em SigLIP demonstra desempenho superior em vários benchmarks multimodais, especialmente em localização e compreensão de texto visualmente contextualizado. Escalamos o codificador de imagens SigLIP para até 2 bilhões de parâmetros e alcançamos um novo estado da arte em recuperação cruzada multimodal multilingue. Esperamos que o PaLI-3, com apenas 5 bilhões de parâmetros, reacenda a pesquisa sobre componentes fundamentais de VLMs complexos e possa impulsionar uma nova geração de modelos em escala ampliada.
A quantização é uma técnica indispensável para o serviço de Grandes Modelos de Linguagem (LLMs) e recentemente encontrou seu caminho no ajuste fino LoRA. Neste trabalho, focamos no cenário em que a quantização e o ajuste fino LoRA são aplicados juntos em um modelo pré-treinado. Nesses casos, é comum observar uma lacuna consistente no desempenho em tarefas subsequentes entre a abordagem de ajuste fino completo e a abordagem de quantização mais ajuste fino LoRA. Em resposta, propomos o LoftQ (Quantização Consciente do Ajuste Fino LoRA), uma nova estrutura de quantização que simultaneamente quantiza um LLM e encontra uma inicialização de baixa classificação adequada para o ajuste fino LoRA. Tal inicialização alivia a discrepância entre o modelo quantizado e o modelo de precisão completa e melhora significativamente a generalização em tarefas subsequentes. Avaliamos nosso método em tarefas de compreensão de linguagem natural, resposta a perguntas, sumarização e geração de linguagem natural. Os experimentos mostram que nosso método é altamente eficaz e supera os métodos de quantização existentes, especialmente nos regimes desafiadores de precisão mista de 2 bits e 2/4 bits. Liberaremos nosso código.
Modelos de linguagem de grande escala (LLMs) têm demonstrado uma capacidade crescente de planejar e executar um objetivo de alto nível em um ambiente computacional em tempo real (por exemplo, MiniWoB++). Para realizar uma tarefa, trabalhos recentes frequentemente exigem que um modelo aprenda a partir de exemplos de traços da tarefa por meio de aprendizado supervisionado ou de prompts com poucos/muitos exemplos. Sem esses traços de exemplos, continua sendo um desafio como um agente pode aprender e melhorar autonomamente seu controle em um computador, o que limita a capacidade de um agente de executar uma nova tarefa. Abordamos esse problema com um agente zero-shot que não requer traços de especialistas fornecidos. Nosso agente planeja ações executáveis em um ambiente parcialmente observado e avança iterativamente em uma tarefa, identificando e aprendendo com seus erros por meio de autorreflexão e gerenciamento estruturado de pensamentos. Nas tarefas mais simples do MiniWoB++, mostramos que nosso agente zero-shot frequentemente supera os SoTAs (state-of-the-art) recentes, com raciocínio mais eficiente. Para tarefas com maior complexidade, nosso agente reflexivo tem um desempenho comparável aos melhores modelos anteriores, mesmo que trabalhos anteriores tivessem a vantagem de acessar traços de especialistas ou informações adicionais da tela.
Quando aplicados a tarefas de resposta a perguntas e outras tarefas de geração de texto, os modelos de linguagem (LMs) podem ser consultados de forma generativa (amostrando respostas a partir de sua distribuição de saída) ou discriminativa (utilizando-os para pontuar ou classificar um conjunto de candidatos a saída). Esses procedimentos às vezes produzem previsões muito diferentes. Como reconciliamos procedimentos de pontuação mutuamente incompatíveis para obter previsões coerentes de LMs? Introduzimos um novo procedimento de decodificação de modelos de linguagem, livre de treinamento e baseado na teoria dos jogos. Nossa abordagem enquadra a decodificação de modelos de linguagem como um jogo sequencial de sinalização de informação imperfeita e regularizada - que denominamos JOGO DO CONSENSO - no qual um GERADOR busca comunicar um parâmetro abstrato de correção usando sentenças em linguagem natural para um DISCRIMINADOR. Desenvolvemos procedimentos computacionais para encontrar equilíbrios aproximados desse jogo, resultando em um algoritmo de decodificação que chamamos de EQUILIBRIUM-RANKING. Aplicado a um grande número de tarefas (incluindo compreensão de leitura, raciocínio de senso comum, resolução de problemas matemáticos e diálogo), o EQUILIBRIUM-RANKING melhora consistentemente, e às vezes substancialmente, o desempenho em relação aos procedimentos de decodificação de LMs existentes - em vários benchmarks, observamos que a aplicação do EQUILIBRIUM-RANKING ao LLaMA-7B supera os modelos muito maiores LLaMA-65B e PaLM-540B. Esses resultados destacam o potencial das ferramentas da teoria dos jogos para abordar desafios fundamentais de veracidade e consistência em LMs.
Os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado desempenho notável em uma ampla gama de tarefas de Processamento de Linguagem Natural (NLP), muitas vezes igualando ou até superando modelos específicos de última geração. Este estudo tem como objetivo avaliar as capacidades de raciocínio financeiro dos LLMs. Utilizamos questões simuladas do Programa de Analista Financeiro Certificado (CFA) para realizar uma avaliação abrangente do ChatGPT e do GPT-4 em análise financeira, considerando cenários de Zero-Shot (ZS), Chain-of-Thought (CoT) e Few-Shot (FS). Apresentamos uma análise detalhada do desempenho e das limitações dos modelos, e estimamos se eles teriam alguma chance de passar nos exames do CFA. Por fim, delineamos insights sobre estratégias e melhorias potenciais para aprimorar a aplicabilidade dos LLMs no setor financeiro. Nessa perspectiva, esperamos que este trabalho abra caminho para estudos futuros continuarem aprimorando os LLMs para o raciocínio financeiro por meio de avaliações rigorosas.
Modelos de Linguagem de Grande Escala (LLMs) já se tornaram bastante proficientes em resolver tarefas de programação mais simples, como aquelas presentes nos benchmarks HumanEval ou MBPP. No entanto, resolver tarefas de programação mais complexas e competitivas ainda é bastante desafiador para esses modelos - possivelmente devido à sua tendência de gerar soluções como blocos de código monolíticos, em vez de decompô-las em subtarefas e submódulos lógicos. Por outro lado, programadores experientes instintivamente escrevem código modularizado com abstração para resolver tarefas complexas, frequentemente reutilizando módulos previamente desenvolvidos. Para abordar essa lacuna, propomos o CodeChain, um novo framework de inferência que elicita a geração de código modularizado por meio de uma cadeia de auto-revisões, cada uma guiada por alguns submódulos representativos gerados em iterações anteriores. Concretamente, o CodeChain primeiro instrui o LLM a gerar códigos modularizados por meio de prompts de cadeia de pensamento (chain-of-thought). Em seguida, aplica uma cadeia de auto-revisões iterando dois passos: 1) extrair e agrupar os submódulos gerados e selecionar os representantes dos clusters como implementações mais genéricas e reutilizáveis, e 2) aumentar o prompt original de cadeia de pensamento com essas implementações de módulos selecionadas e instruir o LLM a re-gerar novas soluções modularizadas. Descobrimos que, ao incentivar naturalmente o LLM a reutilizar os submódulos previamente desenvolvidos e verificados, o CodeChain pode aumentar significativamente tanto a modularidade quanto a correção das soluções geradas, alcançando melhorias relativas de 35% no pass@1 no APPS e 76% no CodeContests. Ele se mostrou eficaz tanto em LLMs da OpenAI quanto em LLMs de código aberto, como o WizardCoder. Também realizamos estudos abrangentes de ablação com diferentes métodos de prompting, número de clusters, tamanhos de modelos, qualidades de programas, etc., para fornecer insights úteis que sustentam o sucesso do CodeChain.
A fala e o texto são duas formas principais da linguagem humana. A comunidade de pesquisa tem se concentrado no mapeamento da fala para texto ou vice-versa por muitos anos. No entanto, no campo da modelagem de linguagem, muito pouco esforço tem sido feito para modelá-las conjuntamente. Diante disso, exploramos a modelagem conjunta de linguagem para unidades de fala e texto. Especificamente, comparamos diferentes tokenizadores de fala para transformar sinais de fala contínuos em unidades discretas e utilizamos diferentes métodos para construir dados mistos de fala e texto. Introduzimos métricas automáticas para avaliar quão bem o modelo de linguagem conjunta (LM) mistura fala e texto. Também ajustamos o LM em tarefas subsequentes de compreensão de linguagem falada (SLU) com diferentes modalidades (fala ou texto) e testamos seu desempenho para avaliar a aprendizagem de representações compartilhadas pelo modelo. Nossos resultados mostram que, ao misturar unidades de fala e texto com nossas técnicas de mistura propostas, o LM conjunto melhora em relação a uma linha de base apenas de fala em tarefas de SLU e demonstra transferibilidade cruzada de modalidade zero-shot.