Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos de linguagem proprietários, como o GPT-4, são frequentemente utilizados para avaliar a qualidade das respostas de diversos modelos de linguagem. No entanto, preocupações relacionadas à transparência, controlabilidade e custo fortemente motivam o desenvolvimento de modelos de linguagem de código aberto especializados em avaliações. Por outro lado, os modelos avaliadores abertos existentes apresentam deficiências críticas: 1) eles atribuem pontuações que divergem significativamente das atribuídas por humanos, e 2) carecem da flexibilidade para realizar tanto avaliações diretas quanto comparações pareadas, as duas formas mais prevalentes de avaliação. Além disso, eles não possuem a capacidade de avaliar com base em critérios personalizados, focando-se em atributos gerais como utilidade e inofensividade. Para abordar essas questões, apresentamos o Prometheus 2, um modelo avaliador mais poderoso que seu antecessor e que reflete de perto os julgamentos humanos e do GPT-4. Além disso, ele é capaz de processar tanto formatos de avaliação direta quanto de comparação pareada, agrupados com critérios de avaliação definidos pelo usuário. Em quatro benchmarks de avaliação direta e quatro de comparação pareada, o Prometheus 2 alcança a maior correlação e concordância com julgamentos humanos e de modelos proprietários entre todos os modelos avaliadores abertos testados. Nossos modelos, código e dados estão todos disponíveis publicamente em https://github.com/prometheus-eval/prometheus-eval.
A Adaptação de Baixo Rank (LoRA) emergiu como um dos métodos mais amplamente adotados para o Ajuste Fino Eficiente em Parâmetros (PEFT) de Modelos de Linguagem de Grande Escala (LLMs). O LoRA reduz o número de parâmetros treináveis e o uso de memória, ao mesmo tempo que alcança desempenho comparável ao ajuste fino completo. Nosso objetivo é avaliar a viabilidade de treinar e servir LLMs ajustados com LoRA em aplicações do mundo real. Primeiro, medimos a qualidade de LLMs ajustados com adaptadores de baixo rank quantizados em 10 modelos base e 31 tarefas, totalizando 310 modelos. Descobrimos que os modelos ajustados com LoRA de 4 bits superam os modelos base em 34 pontos e o GPT-4 em 10 pontos, em média. Segundo, investigamos os modelos base mais eficazes para ajuste fino e avaliamos as capacidades correlativas e preditivas de heurísticas de complexidade de tarefas na previsão dos resultados do ajuste fino. Por fim, avaliamos a latência e as capacidades de concorrência do LoRAX, um servidor de inferência Multi-LoRA de código aberto que facilita a implantação de múltiplos modelos ajustados com LoRA em uma única GPU, utilizando pesos compartilhados do modelo base e carregamento dinâmico de adaptadores. O LoRAX alimenta o LoRA Land, uma aplicação web que hospeda 25 LLMs Mistral-7B ajustados com LoRA em uma única GPU NVIDIA A100 com 80GB de memória. O LoRA Land destaca a qualidade e a relação custo-benefício de empregar múltiplos LLMs especializados em vez de um único LLM de propósito geral.
Chatbots como GPT-4 e ChatGPT agora atendem milhões de usuários. Apesar de seu uso generalizado, ainda há uma carência de conjuntos de dados públicos que mostrem como essas ferramentas são utilizadas por uma população de usuários na prática. Para preencher essa lacuna, oferecemos acesso gratuito ao ChatGPT para usuários online em troca de seu consentimento afirmativo e anônimo para coletar suas transcrições de chat e cabeçalhos de solicitação. A partir disso, compilamos o WildChat, um corpus de 1 milhão de conversas entre usuários e o ChatGPT, que consiste em mais de 2,5 milhões de turnos de interação. Comparamos o WildChat com outros conjuntos de dados populares de interação entre usuários e chatbots e descobrimos que nosso conjunto de dados oferece os prompts de usuário mais diversos, contém o maior número de idiomas e apresenta a maior variedade de casos de uso potencialmente tóxicos para os pesquisadores estudarem. Além das transcrições de chat com carimbo de data e hora, enriquecemos o conjunto de dados com informações demográficas, incluindo estado, país e endereços IP hashados, juntamente com cabeçalhos de solicitação. Esse enriquecimento permite uma análise mais detalhada dos comportamentos dos usuários em diferentes regiões geográficas e dimensões temporais. Por fim, como o conjunto de dados captura uma ampla gama de casos de uso, demonstramos sua utilidade potencial no ajuste fino de modelos de seguimento de instruções. O WildChat é disponibilizado em https://wildchat.allen.ai sob as licenças AI2 ImpACT.
Para modelos generativos recentes baseados em difusão, manter conteúdo consistente em uma série de imagens geradas, especialmente aquelas que contêm sujeitos e detalhes complexos, representa um desafio significativo. Neste artigo, propomos uma nova forma de cálculo de autoatenção, denominada Autoatenção Consistente, que aumenta consideravelmente a consistência entre as imagens geradas e aprimora modelos pré-treinados predominantes de texto para imagem baseados em difusão de maneira zero-shot. Para estender nosso método à geração de vídeos de longo alcance, introduzimos ainda um novo módulo de previsão de movimento temporal em espaço semântico, chamado Predictor de Movimento Semântico. Ele é treinado para estimar as condições de movimento entre duas imagens fornecidas nos espaços semânticos. Este módulo converte a sequência de imagens geradas em vídeos com transições suaves e sujeitos consistentes que são significativamente mais estáveis do que os módulos baseados apenas em espaços latentes, especialmente no contexto de geração de vídeos longos. Ao combinar esses dois novos componentes, nosso framework, denominado StoryDiffusion, pode descrever uma história baseada em texto com imagens ou vídeos consistentes que abrangem uma rica variedade de conteúdos. O StoryDiffusion proposto engloba explorações pioneiras na geração de histórias visuais com a apresentação de imagens e vídeos, o que esperamos que possa inspirar mais pesquisas no aspecto de modificações arquitetônicas. Nosso código está disponível publicamente em https://github.com/HVision-NKU/StoryDiffusion.
Alinhar modelos de linguagem de grande escala (LLMs) com valores e preferências humanas é essencial para torná-los úteis e seguros. No entanto, desenvolver ferramentas eficientes para realizar esse alinhamento pode ser desafiador, especialmente para os LLMs maiores e mais competentes, que frequentemente contêm dezenas ou centenas de bilhões de parâmetros. Criamos o NeMo-Aligner, um kit de ferramentas para alinhamento de modelos que pode escalar eficientemente para o uso de centenas de GPUs no treinamento. O NeMo-Aligner vem com implementações altamente otimizadas e escaláveis para os principais paradigmas de alinhamento de modelos, como: Aprendizado por Reforço com Feedback Humano (RLHF), Otimização Direta de Preferências (DPO), SteerLM e Ajuste Fino por Autojogo (SPIN). Além disso, nosso kit de ferramentas suporta a execução da maioria das técnicas de alinhamento em um cenário de Ajuste Fino Eficiente em Parâmetros (PEFT). O NeMo-Aligner foi projetado para ser extensível, permitindo o suporte a outras técnicas de alinhamento com esforço mínimo. Ele é disponibilizado como código aberto sob a Licença Apache 2.0, e convidamos contribuições da comunidade em https://github.com/NVIDIA/NeMo-Aligner.
O alinhamento é um procedimento padrão para ajustar modelos de linguagem de grande escala (LLMs) pré-treinados, a fim de seguir instruções em linguagem natural e atuar como assistentes de IA úteis. No entanto, observamos que o processo convencional de alinhamento não melhora a precisão factual dos LLMs e, frequentemente, leva à geração de mais fatos falsos (ou seja, alucinação). Neste artigo, estudamos como tornar o processo de alinhamento de LLMs mais factual, primeiro identificando os fatores que levam à alucinação em ambas as etapas de alinhamento: ajuste fino supervisionado (SFT) e aprendizado por reforço (RL). Em particular, descobrimos que treinar o LLM em novos conhecimentos ou textos desconhecidos pode incentivar a alucinação. Isso torna o SFT menos factual, pois ele treina em dados rotulados por humanos que podem ser novos para o LLM. Além disso, as funções de recompensa usadas no RL padrão também podem incentivar a alucinação, pois orientam o LLM a fornecer respostas mais úteis em um conjunto diversificado de instruções, muitas vezes preferindo respostas mais longas e detalhadas. Com base nessas observações, propomos um alinhamento consciente da factualidade, composto por SFT consciente da factualidade e RL consciente da factualidade por meio de otimização de preferência direta. Experimentos mostram que nosso alinhamento consciente da factualidade orienta os LLMs a gerar respostas mais factuais, mantendo a capacidade de seguir instruções.
A reinterpretação artística é a prática de criar uma variação de uma obra de referência, produzindo uma obra emparelhada que exibe um estilo artístico distinto. Investigamos se tal par de imagens pode ser usado para personalizar um modelo generativo, capturando a diferença estilística demonstrada. Propomos o Pair Customization, um novo método de personalização que aprende a diferença estilística a partir de um único par de imagens e, em seguida, aplica o estilo adquirido ao processo de geração. Diferente dos métodos existentes que aprendem a imitar um único conceito a partir de uma coleção de imagens, nosso método captura a diferença estilística entre imagens emparelhadas. Isso nos permite aplicar uma mudança estilística sem sobreajustar ao conteúdo específico das imagens nos exemplos. Para abordar essa nova tarefa, empregamos um método de otimização conjunta que separa explicitamente o estilo e o conteúdo em espaços de pesos LoRA distintos. Otimizamos esses pesos de estilo e conteúdo para reproduzir as imagens de estilo e conteúdo, ao mesmo tempo em que incentivamos sua ortogonalidade. Durante a inferência, modificamos o processo de difusão por meio de uma nova orientação de estilo baseada em nossos pesos aprendidos. Experimentos qualitativos e quantitativos mostram que nosso método pode aprender efetivamente o estilo enquanto evita o sobreajuste ao conteúdo da imagem, destacando o potencial de modelar tais diferenças estilísticas a partir de um único par de imagens.
O desenvolvimento da Audiodescrição (AD) tem sido um passo crucial para tornar o conteúdo de vídeo mais acessível e inclusivo. Tradicionalmente, a produção de AD exigia uma quantidade considerável de mão de obra especializada, enquanto as abordagens automatizadas existentes ainda necessitam de treinamento extensivo para integrar entradas multimodais e adaptar a saída de um estilo de legenda para um estilo de AD. Neste artigo, apresentamos um pipeline automatizado de geração de AD que aproveita as capacidades multimodais e de seguimento de instruções do GPT-4V(ision). Notavelmente, nossa metodologia emprega componentes prontamente disponíveis, eliminando a necessidade de treinamento adicional. Ela produz ADs que não apenas estão em conformidade com os padrões estabelecidos de produção de AD em linguagem natural, mas também mantêm informações contextualmente consistentes sobre os personagens entre os quadros, graças a um módulo de reconhecimento de personagens baseado em rastreamento. Uma análise detalhada no conjunto de dados MAD revela que nossa abordagem alcança um desempenho comparável aos métodos baseados em aprendizado na produção automatizada de AD, conforme evidenciado por um score CIDEr de 20,5.