Artigos de pesquisa em IA selecionados diariamente com traduções
Os avanços recentes em modelos de linguagem de grande escala (LLMs) demonstram capacidades substanciais em tarefas de compreensão e geração de linguagem natural. Com o crescente número de LLMs, como aproveitar o conhecimento coletivo de múltiplos LLMs é uma direção aberta e promissora. Visando esse objetivo, propomos uma nova abordagem que aproveita os pontos fortes coletivos de múltiplos LLMs por meio de uma metodologia de Mistura de Agentes (MoA, do inglês Mixture-of-Agents). Em nossa abordagem, construímos uma arquitetura MoA em camadas, onde cada camada é composta por múltiplos agentes LLM. Cada agente utiliza todas as saídas dos agentes da camada anterior como informações auxiliares para gerar sua resposta. Os modelos MoA alcançam desempenho de ponta no AlpacaEval 2.0, MT-Bench e FLASK, superando o GPT-4 Omni. Por exemplo, nosso MoA, utilizando apenas LLMs de código aberto, lidera o AlpacaEval 2.0 com uma margem substancial, alcançando uma pontuação de 65,1% em comparação com 57,5% do GPT-4 Omni.
A Geração Aumentada por Recuperação (RAG, do inglês Retrieval-Augmented Generation) surgiu recentemente como uma solução promissora para mitigar a deficiência dos Modelos de Linguagem de Grande Escala (LLMs, do inglês Large Language Models) em relação à falta de conhecimento. No entanto, os conjuntos de dados RAG existentes não representam adequadamente a natureza diversa e dinâmica das tarefas reais de Resposta a Perguntas (QA, do inglês Question Answering). Para preencher essa lacuna, introduzimos o Benchmark Abrangente de RAG (CRAG, do inglês Comprehensive RAG Benchmark), um benchmark de resposta a perguntas factuais composto por 4.409 pares de perguntas-respostas e APIs simuladas para representar buscas na web e em Grafos de Conhecimento (KG, do inglês Knowledge Graph). O CRAG foi projetado para abranger uma ampla variedade de perguntas em cinco domínios e oito categorias de questões, refletindo a popularidade variada de entidades, desde as mais populares até as de cauda longa, e dinâmicas temporais que variam de anos a segundos. Nossa avaliação nesse benchmark destaca a lacuna para alcançar uma QA totalmente confiável. Enquanto a maioria dos LLMs avançados atinge uma precisão <=34% no CRAG, a adição do RAG de forma direta melhora a precisão apenas para 44%. As soluções RAG de ponta da indústria respondem corretamente apenas 63% das perguntas sem qualquer alucinação. O CRAG também revela uma precisão muito menor ao responder perguntas sobre fatos com maior dinamismo, menor popularidade ou maior complexidade, sugerindo direções futuras de pesquisa. O benchmark CRAG estabeleceu as bases para o desafio KDD Cup 2024, atraindo milhares de participantes e submissões nos primeiros 50 dias da competição. Comprometemo-nos a manter o CRAG para servir às comunidades de pesquisa no avanço de soluções RAG e de QA em geral.
Apresentamos o WildBench, um framework de avaliação automatizada projetado para avaliar modelos de linguagem de grande escala (LLMs) utilizando consultas de usuários desafiadoras e do mundo real. O WildBench consiste em 1.024 tarefas cuidadosamente selecionadas de mais de um milhão de logs de conversas entre humanos e chatbots. Para a avaliação automatizada com o WildBench, desenvolvemos duas métricas, WB-Reward e WB-Score, que são calculáveis usando LLMs avançados, como o GPT-4-turbo. A avaliação do WildBench utiliza listas de verificação específicas para cada tarefa para avaliar sistematicamente as saídas dos modelos e fornece explicações estruturadas que justificam as pontuações e comparações, resultando em julgamentos automáticos mais confiáveis e interpretáveis. O WB-Reward emprega comparações pareadas detalhadas entre as respostas dos modelos, gerando cinco possíveis resultados: muito melhor, ligeiramente melhor, ligeiramente pior, muito pior ou empate. Diferente de avaliações anteriores que usavam um único modelo de referência, selecionamos três modelos de referência em diferentes níveis de desempenho para garantir uma avaliação pareada abrangente. Além disso, propomos um método simples para mitigar o viés de comprimento, convertendo os resultados de "ligeiramente melhor/pior" para "empate" se a resposta vencedora exceder a perdedora em mais de K caracteres. O WB-Score avalia a qualidade das saídas dos modelos individualmente, tornando-o uma métrica de avaliação rápida e econômica. Os resultados do WildBench demonstram uma forte correlação com as avaliações Elo votadas por humanos do Chatbot Arena em tarefas difíceis. Especificamente, o WB-Reward alcança uma correlação de Pearson de 0,98 com os modelos de maior classificação. Além disso, o WB-Score atinge 0,95, superando tanto o 0,91 do ArenaHard quanto o 0,89 do AlpacaEval2.0 para taxas de vitória controladas por comprimento, bem como o 0,87 para taxas de vitória regulares.
A IA generativa tem feito avanços notáveis para revolucionar áreas como a geração de imagens e vídeos. Esses progressos são impulsionados por algoritmos, arquiteturas e dados inovadores. No entanto, a rápida proliferação de modelos generativos destacou uma lacuna crítica: a ausência de métricas de avaliação confiáveis. As avaliações automáticas atuais, como FID, CLIP, FVD, etc., frequentemente falham em capturar a qualidade sutil e a satisfação do usuário associadas aos resultados gerados. Este artigo propõe uma plataforma aberta, a GenAI-Arena, para avaliar diferentes modelos generativos de imagens e vídeos, onde os usuários podem participar ativamente da avaliação desses modelos. Ao aproveitar o feedback coletivo e os votos dos usuários, a GenAI-Arena visa fornecer uma medida mais democrática e precisa do desempenho dos modelos. Ela abrange três arenas: geração de texto para imagem, geração de texto para vídeo e edição de imagem, respectivamente. Atualmente, cobrimos um total de 27 modelos generativos de código aberto. A GenAI-Arena está em operação há quatro meses, acumulando mais de 6000 votos da comunidade. Descrevemos nossa plataforma, analisamos os dados e explicamos os métodos estatísticos para classificar os modelos. Para promover ainda mais a pesquisa na construção de métricas de avaliação baseadas em modelos, liberamos uma versão limpa de nossos dados de preferência para as três tarefas, denominada GenAI-Bench. Solicitamos que modelos multimodais existentes, como Gemini e GPT-4o, imitem o voto humano. Calculamos a correlação entre o voto dos modelos e o voto humano para entender suas capacidades de julgamento. Nossos resultados mostram que os modelos multimodais existentes ainda estão atrasados na avaliação de conteúdo visual gerado, mesmo o melhor modelo, GPT-4o, alcança apenas uma correlação de Pearson de 0,22 no subscore de qualidade e se comporta como um palpite aleatório em outros aspectos.
Estimar a incerteza ou a confiança nas respostas de um modelo pode ser significativo para avaliar a confiança não apenas nas respostas, mas também no modelo como um todo. Neste artigo, exploramos o problema de estimar a confiança para respostas de modelos de linguagem de grande escala (LLMs) com acesso apenas em caixa-preta ou por consulta. Propomos uma estrutura simples e extensível na qual projetamos novas características e treinamos um modelo interpretável (ou seja, regressão logística) nessas características para estimar a confiança. Demonstramos empiricamente que nossa estrutura simples é eficaz na estimativa da confiança de modelos como flan-ul2, llama-13b e mistral-7b, superando consistentemente as abordagens existentes de estimativa de confiança em caixa-preta em conjuntos de dados de referência como TriviaQA, SQuAD, CoQA e Natural Questions, em alguns casos por mais de 10% (em AUROC). Além disso, nossa abordagem interpretável fornece insights sobre as características que são preditivas de confiança, levando à descoberta interessante e útil de que nossos modelos de confiança construídos para um LLM generalizam de forma zero-shot para outros em um determinado conjunto de dados.
As impressionantes capacidades dos Modelos de Linguagem de Grande Escala (LLMs) oferecem uma abordagem poderosa para reinventar a experiência de digitação dos usuários. Este artigo apresenta o Proofread, uma nova funcionalidade do Gboard alimentada por um LLM no servidor, permitindo correções em nível de frase e parágrafo com um único toque. Descrevemos o sistema completo neste artigo, desde a geração de dados, design de métricas até o ajuste e implantação do modelo. Para obter modelos com qualidade suficiente, implementamos um pipeline cuidadoso de síntese de dados adaptado a casos de uso online, projetamos métricas multifacetadas e empregamos uma abordagem de ajuste em duas etapas para adquirir o LLM dedicado à funcionalidade: o Ajuste Fino Supervisionado (SFT) para qualidade fundamental, seguido pela abordagem de ajuste por Aprendizado por Reforço (RL) para refinamento direcionado. Especificamente, descobrimos que o ajuste sequencial em tarefas de Reescrever e Revisar produz a melhor qualidade na etapa de SFT, e propomos recompensas globais e diretas na etapa de ajuste RL para buscar melhorias adicionais. Experimentos extensivos em um conjunto de dados rotulado por humanos mostraram que nosso modelo PaLM2-XS ajustado alcançou uma taxa de 85,56% de boas correções. Lançamos a funcionalidade para dispositivos Pixel 8, servindo o modelo em TPU v5 no Google Cloud, com milhares de usuários ativos diários. A latência de serviço foi significativamente reduzida por quantização, inferência em lotes, segmentação de texto e decodificação especulativa. Nossa demonstração pode ser vista em https://youtu.be/4ZdcuiwFU7I{Youtube}.
Apresentamos o NATURAL PLAN, um benchmark realista de planejamento em linguagem natural que contém 3 tarefas principais: Planejamento de Viagens, Planejamento de Reuniões e Agendamento de Calendário. Focamos nossa avaliação nas capacidades de planejamento de LLMs (Modelos de Linguagem de Grande Escala) com informações completas sobre a tarefa, fornecendo saídas de ferramentas como Google Flights, Google Maps e Google Calendar como contextos para os modelos. Isso elimina a necessidade de um ambiente de uso de ferramentas para avaliar LLMs em Planejamento. Observamos que o NATURAL PLAN é um benchmark desafiador para os modelos state of the art. Por exemplo, no Planejamento de Viagens, GPT-4 e Gemini 1.5 Pro conseguiram apenas taxas de resolução de 31,1% e 34,8%, respectivamente. Descobrimos que o desempenho dos modelos cai drasticamente à medida que a complexidade do problema aumenta: todos os modelos performam abaixo de 5% quando há 10 cidades, destacando uma lacuna significativa no planejamento em linguagem natural para LLMs SoTA. Também realizamos extensos estudos de ablação no NATURAL PLAN para esclarecer ainda mais a (in)efetividade de abordagens como autocorreção, generalização few-shot e planejamento em contexto com longos contextos na melhoria do planejamento de LLMs.
Comportamento previsível ao dimensionar sistemas avançados de IA é uma propriedade extremamente desejável. Embora exista uma literatura bem estabelecida sobre como o desempenho no pré-treinamento escala, a literatura sobre como capacidades específicas em tarefas subsequentes escalam é significativamente mais confusa. Neste trabalho, damos um passo atrás e perguntamos: por que prever capacidades específicas em tarefas subsequentes com o dimensionamento tem se mostrado tão difícil? Embora muitos fatores certamente sejam responsáveis, identificamos um novo fator que torna desafiador modelar o comportamento de dimensionamento em benchmarks amplamente utilizados de respostas a perguntas de múltipla escolha. Utilizando cinco famílias de modelos e doze benchmarks bem estabelecidos de múltipla escolha, mostramos que o desempenho em tarefas subsequentes é calculado a partir de logaritmos negativos de verossimilhança por meio de uma sequência de transformações que degradam progressivamente a relação estatística entre desempenho e dimensionamento. Em seguida, revelamos o mecanismo que causa essa degradação: as métricas de tarefas subsequentes exigem comparar a escolha correta contra um pequeno número de escolhas incorretas específicas, o que significa que prever com precisão as capacidades em tarefas subsequentes requer prever não apenas como a massa de probabilidade se concentra na escolha correta com o dimensionamento, mas também como a massa de probabilidade flutua em escolhas incorretas específicas com o dimensionamento. Estudamos empiricamente como a massa de probabilidade na escolha correta co-varia com a massa de probabilidade em escolhas incorretas com o aumento de recursos computacionais, sugerindo que leis de dimensionamento para escolhas incorretas podem ser alcançáveis. Nosso trabalho também explica por que as leis de dimensionamento no pré-treinamento são comumente consideradas mais previsíveis do que as capacidades em tarefas subsequentes e contribui para o estabelecimento de avaliações previsíveis em termos de dimensionamento para modelos de IA de fronteira.
O surgimento dos Modelos de Linguagem de Grande Escala (LLMs) tornou necessária a adoção de técnicas de treinamento paralelo, envolvendo a utilização de milhares de GPUs para treinar um único modelo. Infelizmente, descobrimos que a eficiência do treinamento paralelo atual muitas vezes é subótima, principalmente devido a dois problemas principais. Primeiramente, falhas de hardware são inevitáveis, levando a interrupções nas tarefas de treinamento. A incapacidade de identificar rapidamente os componentes defeituosos resulta em um desperdício substancial de recursos de GPU. Em segundo lugar, como as GPUs precisam aguardar a sincronização de parâmetros ser concluída antes de prosseguir para a próxima rodada de computação, congestionamentos na rede podem aumentar significativamente o tempo de espera das GPUs. Para enfrentar esses desafios, este artigo apresenta uma solução orientada por comunicação, denominada C4. Os principais insights do C4 são dois. Primeiro, no treinamento paralelo, a comunicação coletiva exibe características periódicas e homogêneas, de modo que qualquer anomalia certamente é causada por algum tipo de falha de hardware. Ao aproveitar essa característica, o C4 pode identificar rapidamente os componentes defeituosos, isolar prontamente a anomalia e reiniciar a tarefa, evitando assim o desperdício de recursos causado por atrasos na detecção de anomalias. Segundo, o modelo de comunicação previsível da comunicação coletiva, que envolve poucos fluxos grandes, permite que o C4 execute o planejamento de tráfego de forma eficiente, reduzindo substancialmente o congestionamento da rede. O C4 foi amplamente implementado em nossos sistemas de produção, reduzindo a sobrecarga causada por erros em aproximadamente 30% e melhorando o desempenho em tempo de execução em cerca de 15% para certas aplicações com custos moderados de comunicação.