HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

9 papers found

A Mistura de Agentes Aprimora as Capacidades dos Modelos de Linguagem de Grande Escala
Mixture-of-Agents Enhances Large Language Model Capabilities

Jun 7

ByJunlin Wang, Jue Wang, Ben Athiwaratkun, Ce Zhang, James Zou

Os avanços recentes em modelos de linguagem de grande escala (LLMs) demonstram capacidades substanciais em tarefas de compreensão e geração de linguagem natural. Com o crescente número de LLMs, como aproveitar o conhecimento coletivo de múltiplos LLMs é uma direção aberta e promissora. Visando esse objetivo, propomos uma nova abordagem que aproveita os pontos fortes coletivos de múltiplos LLMs por meio de uma metodologia de Mistura de Agentes (MoA, do inglês Mixture-of-Agents). Em nossa abordagem, construímos uma arquitetura MoA em camadas, onde cada camada é composta por múltiplos agentes LLM. Cada agente utiliza todas as saídas dos agentes da camada anterior como informações auxiliares para gerar sua resposta. Os modelos MoA alcançam desempenho de ponta no AlpacaEval 2.0, MT-Bench e FLASK, superando o GPT-4 Omni. Por exemplo, nosso MoA, utilizando apenas LLMs de código aberto, lidera o AlpacaEval 2.0 com uma margem substancial, alcançando uma pontuação de 65,1% em comparação com 57,5% do GPT-4 Omni.

CRAG -- Benchmark Abrangente de RAG
CRAG -- Comprehensive RAG Benchmark

Jun 7

ByXiao Yang, Kai Sun, Hao Xin, Yushi Sun, Nikita Bhalla, Xiangsen Chen, Sajal Choudhary, Rongze Daniel Gui, Ziran Will Jiang, Ziyu Jiang, Lingkun Kong, Brian Moran, Jiaqi Wang, Yifan Ethan Xu, An Yan, Chenyu Yang, Eting Yuan, Hanwen Zha, Nan Tang, Lei Chen, Nicolas Scheffer, Yue Liu, Nirav Shah, Rakesh Wanga, Anuj Kumar, Wen-tau Yih, Xin Luna Dong

A Geração Aumentada por Recuperação (RAG, do inglês Retrieval-Augmented Generation) surgiu recentemente como uma solução promissora para mitigar a deficiência dos Modelos de Linguagem de Grande Escala (LLMs, do inglês Large Language Models) em relação à falta de conhecimento. No entanto, os conjuntos de dados RAG existentes não representam adequadamente a natureza diversa e dinâmica das tarefas reais de Resposta a Perguntas (QA, do inglês Question Answering). Para preencher essa lacuna, introduzimos o Benchmark Abrangente de RAG (CRAG, do inglês Comprehensive RAG Benchmark), um benchmark de resposta a perguntas factuais composto por 4.409 pares de perguntas-respostas e APIs simuladas para representar buscas na web e em Grafos de Conhecimento (KG, do inglês Knowledge Graph). O CRAG foi projetado para abranger uma ampla variedade de perguntas em cinco domínios e oito categorias de questões, refletindo a popularidade variada de entidades, desde as mais populares até as de cauda longa, e dinâmicas temporais que variam de anos a segundos. Nossa avaliação nesse benchmark destaca a lacuna para alcançar uma QA totalmente confiável. Enquanto a maioria dos LLMs avançados atinge uma precisão <=34% no CRAG, a adição do RAG de forma direta melhora a precisão apenas para 44%. As soluções RAG de ponta da indústria respondem corretamente apenas 63% das perguntas sem qualquer alucinação. O CRAG também revela uma precisão muito menor ao responder perguntas sobre fatos com maior dinamismo, menor popularidade ou maior complexidade, sugerindo direções futuras de pesquisa. O benchmark CRAG estabeleceu as bases para o desafio KDD Cup 2024, atraindo milhares de participantes e submissões nos primeiros 50 dias da competição. Comprometemo-nos a manter o CRAG para servir às comunidades de pesquisa no avanço de soluções RAG e de QA em geral.

WildBench: Avaliando Modelos de Linguagem de Grande Escala com Tarefas Desafiadoras de Usuários Reais no Mundo Real
WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild

Jun 7

ByBill Yuchen Lin, Yuntian Deng, Khyathi Chandu, Faeze Brahman, Abhilasha Ravichander, Valentina Pyatkin, Nouha Dziri, Ronan Le Bras, Yejin Choi

Apresentamos o WildBench, um framework de avaliação automatizada projetado para avaliar modelos de linguagem de grande escala (LLMs) utilizando consultas de usuários desafiadoras e do mundo real. O WildBench consiste em 1.024 tarefas cuidadosamente selecionadas de mais de um milhão de logs de conversas entre humanos e chatbots. Para a avaliação automatizada com o WildBench, desenvolvemos duas métricas, WB-Reward e WB-Score, que são calculáveis usando LLMs avançados, como o GPT-4-turbo. A avaliação do WildBench utiliza listas de verificação específicas para cada tarefa para avaliar sistematicamente as saídas dos modelos e fornece explicações estruturadas que justificam as pontuações e comparações, resultando em julgamentos automáticos mais confiáveis e interpretáveis. O WB-Reward emprega comparações pareadas detalhadas entre as respostas dos modelos, gerando cinco possíveis resultados: muito melhor, ligeiramente melhor, ligeiramente pior, muito pior ou empate. Diferente de avaliações anteriores que usavam um único modelo de referência, selecionamos três modelos de referência em diferentes níveis de desempenho para garantir uma avaliação pareada abrangente. Além disso, propomos um método simples para mitigar o viés de comprimento, convertendo os resultados de "ligeiramente melhor/pior" para "empate" se a resposta vencedora exceder a perdedora em mais de K caracteres. O WB-Score avalia a qualidade das saídas dos modelos individualmente, tornando-o uma métrica de avaliação rápida e econômica. Os resultados do WildBench demonstram uma forte correlação com as avaliações Elo votadas por humanos do Chatbot Arena em tarefas difíceis. Especificamente, o WB-Reward alcança uma correlação de Pearson de 0,98 com os modelos de maior classificação. Além disso, o WB-Score atinge 0,95, superando tanto o 0,91 do ArenaHard quanto o 0,89 do AlpacaEval2.0 para taxas de vitória controladas por comprimento, bem como o 0,87 para taxas de vitória regulares.

GenAI Arena: Uma Plataforma Aberta de Avaliação para Modelos Generativos
GenAI Arena: An Open Evaluation Platform for Generative Models

Jun 6

ByDongfu Jiang, Max Ku, Tianle Li, Yuansheng Ni, Shizhuo Sun, Rongqi Fan, Wenhu Chen

A IA generativa tem feito avanços notáveis para revolucionar áreas como a geração de imagens e vídeos. Esses progressos são impulsionados por algoritmos, arquiteturas e dados inovadores. No entanto, a rápida proliferação de modelos generativos destacou uma lacuna crítica: a ausência de métricas de avaliação confiáveis. As avaliações automáticas atuais, como FID, CLIP, FVD, etc., frequentemente falham em capturar a qualidade sutil e a satisfação do usuário associadas aos resultados gerados. Este artigo propõe uma plataforma aberta, a GenAI-Arena, para avaliar diferentes modelos generativos de imagens e vídeos, onde os usuários podem participar ativamente da avaliação desses modelos. Ao aproveitar o feedback coletivo e os votos dos usuários, a GenAI-Arena visa fornecer uma medida mais democrática e precisa do desempenho dos modelos. Ela abrange três arenas: geração de texto para imagem, geração de texto para vídeo e edição de imagem, respectivamente. Atualmente, cobrimos um total de 27 modelos generativos de código aberto. A GenAI-Arena está em operação há quatro meses, acumulando mais de 6000 votos da comunidade. Descrevemos nossa plataforma, analisamos os dados e explicamos os métodos estatísticos para classificar os modelos. Para promover ainda mais a pesquisa na construção de métricas de avaliação baseadas em modelos, liberamos uma versão limpa de nossos dados de preferência para as três tarefas, denominada GenAI-Bench. Solicitamos que modelos multimodais existentes, como Gemini e GPT-4o, imitem o voto humano. Calculamos a correlação entre o voto dos modelos e o voto humano para entender suas capacidades de julgamento. Nossos resultados mostram que os modelos multimodais existentes ainda estão atrasados na avaliação de conteúdo visual gerado, mesmo o melhor modelo, GPT-4o, alcança apenas uma correlação de Pearson de 0,22 no subscore de qualidade e se comporta como um palpite aleatório em outros aspectos.

Estimativa de Confiança em Modelos de Linguagem de Grande Escala por meio de Acesso em Caixa Preta
Large Language Model Confidence Estimation via Black-Box Access

Jun 1

ByTejaswini Pedapati, Amit Dhurandhar, Soumya Ghosh, Soham Dan, Prasanna Sattigeri

Estimar a incerteza ou a confiança nas respostas de um modelo pode ser significativo para avaliar a confiança não apenas nas respostas, mas também no modelo como um todo. Neste artigo, exploramos o problema de estimar a confiança para respostas de modelos de linguagem de grande escala (LLMs) com acesso apenas em caixa-preta ou por consulta. Propomos uma estrutura simples e extensível na qual projetamos novas características e treinamos um modelo interpretável (ou seja, regressão logística) nessas características para estimar a confiança. Demonstramos empiricamente que nossa estrutura simples é eficaz na estimativa da confiança de modelos como flan-ul2, llama-13b e mistral-7b, superando consistentemente as abordagens existentes de estimativa de confiança em caixa-preta em conjuntos de dados de referência como TriviaQA, SQuAD, CoQA e Natural Questions, em alguns casos por mais de 10% (em AUROC). Além disso, nossa abordagem interpretável fornece insights sobre as características que são preditivas de confiança, levando à descoberta interessante e útil de que nossos modelos de confiança construídos para um LLM generalizam de forma zero-shot para outros em um determinado conjunto de dados.

Correção de Texto: Corrija Todos os Erros com Um Toque
Proofread: Fixes All Errors with One Tap

Jun 6

ByRenjie Liu, Yanxiang Zhang, Yun Zhu, Haicheng Sun, Yuanbo Zhang, Michael Xuelin Huang, Shanqing Cai, Lei Meng, Shumin Zhai

As impressionantes capacidades dos Modelos de Linguagem de Grande Escala (LLMs) oferecem uma abordagem poderosa para reinventar a experiência de digitação dos usuários. Este artigo apresenta o Proofread, uma nova funcionalidade do Gboard alimentada por um LLM no servidor, permitindo correções em nível de frase e parágrafo com um único toque. Descrevemos o sistema completo neste artigo, desde a geração de dados, design de métricas até o ajuste e implantação do modelo. Para obter modelos com qualidade suficiente, implementamos um pipeline cuidadoso de síntese de dados adaptado a casos de uso online, projetamos métricas multifacetadas e empregamos uma abordagem de ajuste em duas etapas para adquirir o LLM dedicado à funcionalidade: o Ajuste Fino Supervisionado (SFT) para qualidade fundamental, seguido pela abordagem de ajuste por Aprendizado por Reforço (RL) para refinamento direcionado. Especificamente, descobrimos que o ajuste sequencial em tarefas de Reescrever e Revisar produz a melhor qualidade na etapa de SFT, e propomos recompensas globais e diretas na etapa de ajuste RL para buscar melhorias adicionais. Experimentos extensivos em um conjunto de dados rotulado por humanos mostraram que nosso modelo PaLM2-XS ajustado alcançou uma taxa de 85,56% de boas correções. Lançamos a funcionalidade para dispositivos Pixel 8, servindo o modelo em TPU v5 no Google Cloud, com milhares de usuários ativos diários. A latência de serviço foi significativamente reduzida por quantização, inferência em lotes, segmentação de texto e decodificação especulativa. Nossa demonstração pode ser vista em https://youtu.be/4ZdcuiwFU7I{Youtube}.

NATURAL PLAN: Avaliando Modelos de Linguagem de Grande Escala em Planejamento de Linguagem Natural
NATURAL PLAN: Benchmarking LLMs on Natural Language Planning

Jun 6

ByHuaixiu Steven Zheng, Swaroop Mishra, Hugh Zhang, Xinyun Chen, Minmin Chen, Azade Nova, Le Hou, Heng-Tze Cheng, Quoc V. Le, Ed H. Chi, Denny Zhou

Apresentamos o NATURAL PLAN, um benchmark realista de planejamento em linguagem natural que contém 3 tarefas principais: Planejamento de Viagens, Planejamento de Reuniões e Agendamento de Calendário. Focamos nossa avaliação nas capacidades de planejamento de LLMs (Modelos de Linguagem de Grande Escala) com informações completas sobre a tarefa, fornecendo saídas de ferramentas como Google Flights, Google Maps e Google Calendar como contextos para os modelos. Isso elimina a necessidade de um ambiente de uso de ferramentas para avaliar LLMs em Planejamento. Observamos que o NATURAL PLAN é um benchmark desafiador para os modelos state of the art. Por exemplo, no Planejamento de Viagens, GPT-4 e Gemini 1.5 Pro conseguiram apenas taxas de resolução de 31,1% e 34,8%, respectivamente. Descobrimos que o desempenho dos modelos cai drasticamente à medida que a complexidade do problema aumenta: todos os modelos performam abaixo de 5% quando há 10 cidades, destacando uma lacuna significativa no planejamento em linguagem natural para LLMs SoTA. Também realizamos extensos estudos de ablação no NATURAL PLAN para esclarecer ainda mais a (in)efetividade de abordagens como autocorreção, generalização few-shot e planejamento em contexto com longos contextos na melhoria do planejamento de LLMs.

Por Que a Previsão das Capacidades de Modelos de IA de Fronteira em Tarefas Posteriores com Escala Permanece Elusiva?
Why Has Predicting Downstream Capabilities of Frontier AI Models with Scale Remained Elusive?

Jun 6

ByRylan Schaeffer, Hailey Schoelkopf, Brando Miranda, Gabriel Mukobi, Varun Madan, Adam Ibrahim, Herbie Bradley, Stella Biderman, Sanmi Koyejo

Comportamento previsível ao dimensionar sistemas avançados de IA é uma propriedade extremamente desejável. Embora exista uma literatura bem estabelecida sobre como o desempenho no pré-treinamento escala, a literatura sobre como capacidades específicas em tarefas subsequentes escalam é significativamente mais confusa. Neste trabalho, damos um passo atrás e perguntamos: por que prever capacidades específicas em tarefas subsequentes com o dimensionamento tem se mostrado tão difícil? Embora muitos fatores certamente sejam responsáveis, identificamos um novo fator que torna desafiador modelar o comportamento de dimensionamento em benchmarks amplamente utilizados de respostas a perguntas de múltipla escolha. Utilizando cinco famílias de modelos e doze benchmarks bem estabelecidos de múltipla escolha, mostramos que o desempenho em tarefas subsequentes é calculado a partir de logaritmos negativos de verossimilhança por meio de uma sequência de transformações que degradam progressivamente a relação estatística entre desempenho e dimensionamento. Em seguida, revelamos o mecanismo que causa essa degradação: as métricas de tarefas subsequentes exigem comparar a escolha correta contra um pequeno número de escolhas incorretas específicas, o que significa que prever com precisão as capacidades em tarefas subsequentes requer prever não apenas como a massa de probabilidade se concentra na escolha correta com o dimensionamento, mas também como a massa de probabilidade flutua em escolhas incorretas específicas com o dimensionamento. Estudamos empiricamente como a massa de probabilidade na escolha correta co-varia com a massa de probabilidade em escolhas incorretas com o aumento de recursos computacionais, sugerindo que leis de dimensionamento para escolhas incorretas podem ser alcançáveis. Nosso trabalho também explica por que as leis de dimensionamento no pré-treinamento são comumente consideradas mais previsíveis do que as capacidades em tarefas subsequentes e contribui para o estabelecimento de avaliações previsíveis em termos de dimensionamento para modelos de IA de fronteira.

Aumentando a Eficiência do Treinamento Paralelo em Grande Escala com C4: Uma Abordagem Orientada à Comunicação
Boosting Large-scale Parallel Training Efficiency with C4: A Communication-Driven Approach

Jun 7

ByJianbo Dong, Bin Luo, Jun Zhang, Pengcheng Zhang, Fei Feng, Yikai Zhu, Ang Liu, Zian Chen, Yi Shi, Hairong Jiao, Gang Lu, Yu Guan, Ennan Zhai, Wencong Xiao, Hanyu Zhao, Man Yuan, Siran Yang, Xiang Li, Jiamang Wang, Rui Men, Jianwei Zhang, Huang Zhong, Dennis Cai, Yuan Xie, Binzhang Fu

O surgimento dos Modelos de Linguagem de Grande Escala (LLMs) tornou necessária a adoção de técnicas de treinamento paralelo, envolvendo a utilização de milhares de GPUs para treinar um único modelo. Infelizmente, descobrimos que a eficiência do treinamento paralelo atual muitas vezes é subótima, principalmente devido a dois problemas principais. Primeiramente, falhas de hardware são inevitáveis, levando a interrupções nas tarefas de treinamento. A incapacidade de identificar rapidamente os componentes defeituosos resulta em um desperdício substancial de recursos de GPU. Em segundo lugar, como as GPUs precisam aguardar a sincronização de parâmetros ser concluída antes de prosseguir para a próxima rodada de computação, congestionamentos na rede podem aumentar significativamente o tempo de espera das GPUs. Para enfrentar esses desafios, este artigo apresenta uma solução orientada por comunicação, denominada C4. Os principais insights do C4 são dois. Primeiro, no treinamento paralelo, a comunicação coletiva exibe características periódicas e homogêneas, de modo que qualquer anomalia certamente é causada por algum tipo de falha de hardware. Ao aproveitar essa característica, o C4 pode identificar rapidamente os componentes defeituosos, isolar prontamente a anomalia e reiniciar a tarefa, evitando assim o desperdício de recursos causado por atrasos na detecção de anomalias. Segundo, o modelo de comunicação previsível da comunicação coletiva, que envolve poucos fluxos grandes, permite que o C4 execute o planejamento de tráfego de forma eficiente, reduzindo substancialmente o congestionamento da rede. O C4 foi amplamente implementado em nossos sistemas de produção, reduzindo a sobrecarga causada por erros em aproximadamente 30% e melhorando o desempenho em tempo de execução em cerca de 15% para certas aplicações com custos moderados de comunicação.

Por Que a Previsão das Capacidades de Modelos de IA de Fronteira em Tarefas Posteriores com Escala Permanece Elusiva?
Why Has Predicting Downstream Capabilities of Frontier AI Models with Scale Remained Elusive?

Jun 6

ByRylan Schaeffer, Hailey Schoelkopf, Brando Miranda, Gabriel Mukobi, Varun Madan, Adam Ibrahim, Herbie Bradley, Stella Biderman, Sanmi Koyejo