Artigos de pesquisa em IA selecionados diariamente com traduções
À medida que os grandes modelos de linguagem (LLMs) têm demonstrado suas poderosas capacidades em diversos domínios e tarefas, incluindo compreensão de contexto, geração de código, geração de linguagem, narrativa de dados, entre outros, muitos analistas de dados podem levantar preocupações sobre se seus empregos serão substituídos pela IA. Esse tópico controverso tem atraído muita atenção pública. No entanto, ainda estamos em uma fase de opiniões divergentes sem qualquer conclusão definitiva. Motivados por isso, levantamos a questão de pesquisa "o GPT-4 é um bom analista de dados?" neste trabalho e buscamos respondê-la por meio de estudos comparativos diretos. Em detalhes, consideramos o GPT-4 como um analista de dados para realizar análises de dados de ponta a ponta com bancos de dados de uma ampla gama de domínios. Propomos um framework para abordar os problemas, projetando cuidadosamente os prompts para o GPT-4 conduzir experimentos. Também projetamos várias métricas de avaliação específicas para tarefas, a fim de comparar sistematicamente o desempenho entre vários analistas de dados humanos profissionais e o GPT-4. Os resultados experimentais mostram que o GPT-4 pode alcançar um desempenho comparável ao dos humanos. Também fornecemos discussões aprofundadas sobre nossos resultados para lançar luz sobre estudos futuros antes de concluirmos que o GPT-4 pode substituir analistas de dados.
Com o recente surgimento dos LLMs em cenários práticos, ter métodos que possam detectar efetivamente inconsistências factuais é crucial para reduzir a propagação de desinformação e aumentar a confiança nas saídas dos modelos. Ao testar em benchmarks existentes de consistência factual, observamos que alguns grandes modelos de linguagem (LLMs) têm desempenho competitivo em benchmarks de classificação para detecção de inconsistências factuais em comparação com métodos tradicionais não baseados em LLMs. No entanto, uma análise mais detalhada revela que a maioria dos LLMs falha em formulações mais complexas da tarefa e expõe problemas com os benchmarks de avaliação existentes, afetando a precisão da avaliação. Para resolver isso, propomos um novo protocolo para a criação de benchmarks de detecção de inconsistências e o implementamos em um benchmark de 10 domínios chamado SummEdits. Esse novo benchmark é 20 vezes mais econômico por amostra do que os benchmarks anteriores e altamente reproduzível, com um acordo interanotadores estimado em cerca de 0,9. A maioria dos LLMs tem dificuldades no SummEdits, com desempenho próximo ao acaso. O modelo com melhor desempenho, o GPT-4, ainda está 8% abaixo do desempenho humano estimado, destacando as lacunas na capacidade dos LLMs de raciocinar sobre fatos e detectar inconsistências quando elas ocorrem.
Jogos de sobrevivência em mundo aberto apresentam desafios significativos para algoritmos de IA devido aos seus requisitos de multitarefa, exploração profunda e priorização de objetivos. Apesar do aprendizado por reforço (RL) ser popular para resolver jogos, sua alta complexidade amostral limita sua eficácia em jogos complexos de mundo aberto como Crafter ou Minecraft. Propomos uma nova abordagem, SPRING, para ler o artigo acadêmico original do jogo e usar o conhecimento aprendido para raciocinar e jogar o jogo por meio de um modelo de linguagem de grande escala (LLM). Com o prompt da fonte LaTeX como contexto do jogo e uma descrição da observação atual do agente, nosso framework SPRING emprega um grafo acíclico direcionado (DAG) com questões relacionadas ao jogo como nós e dependências como arestas. Identificamos a ação ótima a ser tomada no ambiente percorrendo o DAG e calculando as respostas do LLM para cada nó em ordem topológica, com a resposta do LLM ao nó final traduzindo-se diretamente em ações no ambiente. Em nossos experimentos, estudamos a qualidade do "raciocínio" em contexto induzido por diferentes formas de prompts no ambiente de mundo aberto do Crafter. Nossos experimentos sugerem que LLMs, quando promptados com uma cadeia de pensamento consistente, têm grande potencial em completar trajetórias sofisticadas de alto nível. Quantitativamente, o SPRING com GPT-4 supera todos os baselines de RL state-of-the-art, treinados por 1 milhão de passos, sem qualquer treinamento. Por fim, mostramos o potencial dos jogos como um campo de testes para LLMs.
Embora a Tradução Automática Neural (NMT, do inglês Neural Machine Translation) represente a abordagem líder em Tradução Automática (MT, do inglês Machine Translation), as saídas dos modelos de NMT ainda exigem pós-edição de tradução para corrigir erros e aprimorar a qualidade, especialmente em contextos críticos. Neste trabalho, formalizamos a tarefa de pós-edição de tradução com Modelos de Linguagem de Grande Escala (LLMs, do inglês Large Language Models) e exploramos o uso do GPT-4 para pós-editar automaticamente as saídas de NMT em diversos pares de idiomas. Nossos resultados demonstram que o GPT-4 é habilidoso na pós-edição de tradução e produz edições significativas, mesmo quando o idioma de destino não é o inglês. Notavelmente, alcançamos desempenho de ponta no WMT-22 para os pares de idiomas inglês-chinês, inglês-alemão, chinês-inglês e alemão-inglês utilizando pós-edição baseada no GPT-4, conforme avaliado por métricas de qualidade de MT de última geração.
Estratégias como o prompting de cadeia de pensamento melhoram o desempenho de modelos de linguagem de grande escala (LLMs) em tarefas de raciocínio complexo ao decompor exemplos de entrada em etapas intermediárias. No entanto, ainda não está claro como aplicar tais métodos para raciocinar sobre documentos longos, nos quais tanto a decomposição quanto a saída de cada etapa intermediária são difíceis de obter. Neste trabalho, propomos o PEARL, um framework de prompting para melhorar o raciocínio sobre documentos longos, que consiste em três estágios: mineração de ações, formulação de planos e execução de planos. Mais especificamente, dada uma questão sobre um documento longo, o PEARL decompõe a questão em uma sequência de ações (por exemplo, RESUMIR, ENCONTRAR_EVENTO, ENCONTRAR_RELAÇÃO) e, em seguida, as executa sobre o documento para obter a resposta. Cada estágio do PEARL é implementado por meio de prompting zero-shot ou few-shot de LLMs (em nosso trabalho, GPT-4) com mínimo input humano. Avaliamos o PEARL em um subconjunto desafiador do conjunto de dados QuALITY, que contém questões que exigem raciocínio complexo sobre textos narrativos longos. O PEARL supera o prompting zero-shot e de cadeia de pensamento nesse conjunto de dados, e experimentos de ablação mostram que cada estágio do PEARL é crítico para seu desempenho. No geral, o PEARL é um primeiro passo para aproveitar LLMs para raciocinar sobre documentos longos.