Artigos de pesquisa em IA selecionados diariamente com traduções
Os Modelos de Linguagem de Grande Escala (LLMs) surgiram como uma tecnologia revolucionária, com suas capacidades incomparáveis de geração de texto em diversas aplicações. No entanto, persistem preocupações quanto à precisão e adequação do conteúdo gerado por eles. Uma metodologia contemporânea, a autocorreção, foi proposta como uma solução para esses problemas. Com base nessa premissa, este artigo examina criticamente o papel e a eficácia da autocorreção nos LLMs, destacando seu verdadeiro potencial e limitações. Central para nossa investigação é a noção de autocorreção intrínseca, em que um LLM tenta corrigir suas respostas iniciais com base apenas em suas capacidades inerentes, sem o suporte de feedback externo. No contexto de raciocínio, nossa pesquisa indica que os LLMs têm dificuldade em autocorrigir suas respostas sem feedback externo e, em alguns casos, seu desempenho pode até se degradar após a autocorreção. A partir dessas descobertas, oferecemos sugestões para pesquisas futuras e aplicações práticas nesse campo.
Recentemente, uma miríade de modelos de geração e edição condicional de imagens foi desenvolvida para atender a diferentes tarefas subsequentes, incluindo geração de texto para imagem, edição de imagens guiada por texto, geração de imagens orientada por sujeito, geração de imagens guiada por controle, entre outras. No entanto, observamos grandes inconsistências nas condições experimentais: conjuntos de dados, inferência e métricas de avaliação - o que torna difícil fazer comparações justas. Este artigo propõe o ImagenHub, que é uma biblioteca única para padronizar a inferência e a avaliação de todos os modelos de geração condicional de imagens. Em primeiro lugar, definimos sete tarefas proeminentes e selecionamos conjuntos de dados de avaliação de alta qualidade para elas. Em segundo lugar, construímos um pipeline de inferência unificado para garantir uma comparação justa. Em terceiro lugar, projetamos duas pontuações de avaliação humana, ou seja, Consistência Semântica e Qualidade Perceptiva, juntamente com diretrizes abrangentes para avaliar as imagens geradas. Treinamos avaliadores especializados para avaliar as saídas dos modelos com base nas métricas propostas. Nossa avaliação humana alcançou um alto acordo interavaliador de alfa de Krippendorff em 76% dos modelos, com um valor superior a 0,4. Avaliamos de forma abrangente um total de cerca de 30 modelos e observamos três conclusões principais: (1) o desempenho dos modelos existentes é geralmente insatisfatório, exceto para Geração de Imagens Guiada por Texto e Geração de Imagens Orientada por Sujeito, com 74% dos modelos alcançando uma pontuação geral inferior a 0,5. (2) examinamos as afirmações dos artigos publicados e descobrimos que 83% delas se mantêm, com poucas exceções. (3) Nenhuma das métricas automáticas existentes tem uma correlação de Spearman superior a 0,2, exceto a geração de imagens orientada por sujeito. Avançando, continuaremos nossos esforços para avaliar os modelos recém-publicados e atualizar nosso quadro de líderes para acompanhar o progresso na geração condicional de imagens.
O prompting de cadeia de pensamento (Chain-of-thought, CoT) para modelos de linguagem demonstra desempenho impressionante em tarefas de raciocínio, mas geralmente requer exemplos rotulados do processo de raciocínio. Neste trabalho, introduzimos uma nova abordagem de prompting, o Prompting Analógico, projetado para guiar automaticamente o processo de raciocínio de grandes modelos de linguagem. Inspirado pelo raciocínio analógico, um processo cognitivo no qual os humanos se baseiam em experiências passadas relevantes para resolver novos problemas, nossa abordagem solicita que os modelos de linguagem gerem automaticamente exemplos ou conhecimentos relevantes no contexto, antes de prosseguir para resolver o problema dado. Este método apresenta várias vantagens: elimina a necessidade de rotular ou recuperar exemplos, oferecendo generalidade e conveniência; também pode adaptar os exemplos e conhecimentos gerados a cada problema, oferecendo adaptabilidade. Resultados experimentais mostram que nossa abordagem supera o CoT 0-shot e o CoT manual few-shot em uma variedade de tarefas de raciocínio, incluindo resolução de problemas matemáticos no GSM8K e MATH, geração de código no Codeforces e outras tarefas de raciocínio no BIG-Bench.
Modelos de linguagem de grande escala (LLMs) recentes demonstraram grande potencial para agentes inteligentes e automação de próxima geração, mas atualmente falta um benchmark sistemático para avaliar as habilidades dos LLMs como agentes. Apresentamos o SmartPlay: tanto um benchmark desafiador quanto uma metodologia para avaliar LLMs como agentes. O SmartPlay consiste em 6 jogos diferentes, incluindo Pedra-Papel-Tesoura, Torre de Hanói e Minecraft. Cada jogo apresenta um cenário único, oferecendo até 20 configurações de avaliação e variações infinitas de ambiente. Cada jogo no SmartPlay desafia de forma única um subconjunto de 9 capacidades importantes de um agente LLM inteligente, incluindo raciocínio com dependências de objetos, planejamento antecipado, raciocínio espacial, aprendizado com histórico e compreensão de aleatoriedade. A distinção entre o conjunto de capacidades testadas em cada jogo nos permite analisar cada capacidade separadamente. O SmartPlay serve não apenas como um campo de testes rigoroso para avaliar o desempenho geral de agentes LLM, mas também como um roteiro para identificar lacunas nas metodologias atuais. Disponibilizamos nosso benchmark em github.com/LLMsmartplay/SmartPlay.