Artigos de pesquisa em IA selecionados diariamente com traduções
Recentemente, o uso de um poderoso modelo de linguagem de grande escala (LLM) proprietário (por exemplo, GPT-4) como avaliador para respostas de longo formato tornou-se o padrão de facto. No entanto, para profissionais com tarefas de avaliação em larga escala e critérios personalizados em consideração (por exemplo, legibilidade para crianças), o uso de LLMs proprietários como avaliador é pouco confiável devido à natureza de código fechado, versionamento não controlado e custos proibitivos. Neste trabalho, propomos o Prometheus, um LLM totalmente de código aberto que é comparável às capacidades de avaliação do GPT-4 quando acompanhado dos materiais de referência apropriados (resposta de referência, rubrica de pontuação). Primeiro, construímos o Feedback Collection, um novo conjunto de dados que consiste em 1K rubricas de pontuação detalhadas, 20K instruções e 100K respostas e feedbacks de linguagem gerados pelo GPT-4. Usando o Feedback Collection, treinamos o Prometheus, um LLM avaliador de 13B que pode avaliar qualquer texto de longo formato com base em uma rubrica de pontuação personalizada fornecida pelo usuário. Resultados experimentais mostram que o Prometheus obtém uma correlação de Pearson de 0,897 com avaliadores humanos ao avaliar com 45 rubricas de pontuação personalizadas, o que é comparável ao GPT-4 (0,882) e supera significativamente o ChatGPT (0,392). Além disso, a medição da correlação com o GPT-4 com 1222 rubricas de pontuação personalizadas em quatro benchmarks (MT Bench, Vicuna Bench, Feedback Bench, Flask Eval) mostra tendências semelhantes, reforçando a capacidade do Prometheus como um LLM avaliador. Por fim, o Prometheus alcança a maior precisão em dois benchmarks de preferência humana (HHH Alignment & MT Bench Human Judgment) em comparação com modelos de recompensa de código aberto explicitamente treinados em conjuntos de dados de preferência humana, destacando seu potencial como um modelo de recompensa universal. Disponibilizamos nosso código, conjunto de dados e modelo em https://github.com/kaistAI/Prometheus.
Plan-and-Write é uma abordagem hierárquica comum na geração de textos narrativos de longa forma, que primeiro cria um plano para orientar a escrita narrativa. Seguindo essa abordagem, vários estudos dependem simplesmente de solicitar modelos de linguagem de grande escala para o planejamento, o que frequentemente produz resultados subótimos. Neste artigo, propomos um novo framework chamado Extração Iterativa de Planos Guiada por Avaliação para geração de textos narrativos de longa forma (EIPE-text), que extrai planos do corpus de narrativas e utiliza os planos extraídos para construir um planejador melhor. O EIPE-text possui três estágios: extração de planos, aprendizado e inferência. No estágio de extração de planos, ele extrai e melhora iterativamente os planos do corpus narrativo e constrói um corpus de planos. Propomos um mecanismo de avaliação baseado em perguntas e respostas (QA) para avaliar automaticamente os planos e gerar instruções detalhadas de refinamento de planos para orientar a melhoria iterativa. No estágio de aprendizado, construímos um planejador melhor por meio de ajuste fino com o corpus de planos ou aprendizado em contexto com exemplos do corpus de planos. Por fim, utilizamos uma abordagem hierárquica para gerar narrativas de longa forma. Avaliamos a eficácia do EIPE-text nos domínios de romances e contação de histórias. Tanto as avaliações baseadas em GPT-4 quanto as avaliações humanas demonstram que nosso método pode gerar narrativas de longa forma mais coerentes e relevantes. Nosso código será liberado no futuro.
Exploramos o uso da linguagem como uma representação perceptiva para navegação visão-linguagem. Nossa abordagem utiliza sistemas de visão prontos para uso (para geração de legendas de imagens e detecção de objetos) para converter a visão panorâmica egocêntrica de um agente em cada passo do tempo em descrições de linguagem natural. Em seguida, ajustamos um modelo de linguagem pré-treinado para selecionar uma ação, com base na visão atual e no histórico da trajetória, que melhor cumpra as instruções de navegação. Em contraste com a configuração padrão, que adapta um modelo de linguagem pré-treinado para trabalhar diretamente com características visuais contínuas de modelos de visão pré-treinados, nossa abordagem utiliza a linguagem (discreta) como a representação perceptiva. Exploramos dois casos de uso de nossa abordagem de navegação baseada em linguagem (LangNav) no benchmark de navegação visão-linguagem R2R: gerar trajetórias sintéticas a partir de um modelo de linguagem grande (GPT-4) com o qual ajustamos um modelo de linguagem menor; e transferência de simulação para o mundo real, onde transferimos uma política aprendida em um ambiente simulado (ALFRED) para um ambiente do mundo real (R2R). Nossa abordagem demonstra melhorias em relação a baselines robustas que dependem de características visuais em cenários onde apenas algumas trajetórias de referência (10-100) estão disponíveis, mostrando o potencial de usar a linguagem como uma representação perceptiva para tarefas de navegação.