Artigos de pesquisa em IA selecionados diariamente com traduções
O desenvolvimento de grandes modelos de linguagem despertou um interesse generalizado entre os pesquisadores para compreender suas capacidades inerentes de raciocínio e resolução de problemas. Apesar da quantidade considerável de pesquisas em andamento para elucidar essas capacidades, ainda existe uma lacuna significativa na compreensão do desenvolvimento moral e dos julgamentos desses modelos. As abordagens atuais de avaliação das habilidades de raciocínio ético desses modelos como uma tarefa de classificação apresentam diversas imprecisões devido à excessiva simplificação. Neste estudo, estabelecemos uma conexão psicológica ao unir dois campos distintos - a psicologia humana e a IA. Propusemos um framework de avaliação eficaz que pode ajudar a delinear a capacidade de raciocínio ético do modelo em termos de consistência moral e estágios de desenvolvimento moral de Kohlberg, com o auxílio da Ferramenta de Avaliação Psicométrica - Teste de Definição de Questões.
Embora os métodos recentes de geração de texto para vídeo (T2V) tenham apresentado avanços significativos, a maioria desses trabalhos se concentra na produção de clipes curtos de um único evento com um único fundo (ou seja, vídeos de cena única). Enquanto isso, os modelos de linguagem de grande escala (LLMs) recentes demonstraram sua capacidade de gerar layouts e programas para controlar módulos visuais subsequentes, como modelos de geração de imagens. Isso levanta uma questão importante: podemos aproveitar o conhecimento embutido nesses LLMs para a geração de vídeos longos com consistência temporal? Neste artigo, propomos o VideoDirectorGPT, uma nova estrutura para geração de vídeos multicena consistentes que utiliza o conhecimento dos LLMs para planejamento de conteúdo de vídeo e geração de vídeo fundamentada. Especificamente, dado um único prompt de texto, primeiro solicitamos ao nosso LLM planejador de vídeo (GPT-4) que o expanda em um 'plano de vídeo', que envolve a geração das descrições das cenas, as entidades com seus respectivos layouts, o fundo de cada cena e os agrupamentos de consistência das entidades e fundos. Em seguida, guiado por essa saída do planejador de vídeo, nosso gerador de vídeo, Layout2Vid, tem controle explícito sobre os layouts espaciais e pode manter a consistência temporal das entidades/fundos entre as cenas, enquanto é treinado apenas com anotações em nível de imagem. Nossos experimentos demonstram que a estrutura VideoDirectorGPT melhora substancialmente o controle de layout e movimento na geração de vídeos de cena única e multicena, e pode gerar vídeos multicena com consistência visual entre as cenas, ao mesmo tempo em que alcança desempenho competitivo com os SOTAs na geração de T2V de cena única em domínio aberto. Também demonstramos que nossa estrutura pode controlar dinamicamente a força da orientação de layout e pode gerar vídeos com imagens fornecidas pelo usuário. Esperamos que nossa estrutura possa inspirar trabalhos futuros sobre a melhor integração da capacidade de planejamento dos LLMs na geração de vídeos longos consistentes.
Modelos Multimodais de Grande Escala (LMM) são construídos através de múltiplas modalidades, e o desalinhamento entre duas modalidades pode resultar em "alucinação", gerando saídas textuais que não são fundamentadas pelas informações multimodais no contexto. Para abordar o problema de desalinhamento multimodal, adaptamos o Aprendizado por Reforço com Feedback Humano (RLHF) do domínio textual para a tarefa de alinhamento visão-linguagem, onde anotadores humanos são solicitados a comparar duas respostas e identificar a mais alucinada, e o modelo visão-linguagem é treinado para maximizar as recompensas humanas simuladas. Propomos um novo algoritmo de alinhamento chamado RLHF Aumentado com Fatos, que amplia o modelo de recompensa com informações factuais adicionais, como legendas de imagens e opções de múltipla escolha verdadeiras, o que alivia o fenômeno de "hacking de recompensa" no RLHF e melhora ainda mais o desempenho. Também aprimoramos os dados de treinamento gerados pelo GPT-4 (para ajuste de instruções visuais) com pares imagem-texto escritos por humanos previamente disponíveis, para melhorar as capacidades gerais do nosso modelo. Para avaliar a abordagem proposta em cenários do mundo real, desenvolvemos um novo benchmark de avaliação, o MMHAL-BENCH, com foco especial em penalizar alucinações. Como o primeiro LMM treinado com RLHF, nossa abordagem alcança uma melhoria notável no conjunto de dados LLaVA-Bench, atingindo 94% do nível de desempenho do GPT-4 apenas textual (enquanto os melhores métodos anteriores alcançam apenas 87%), e uma melhoria de 60% no MMHAL-BENCH em relação a outras baselines. Disponibilizamos nosso código, modelo e dados em https://llava-rlhf.github.io.
A maioria dos modelos multimodais existentes, limitados por sua incapacidade de gerenciar habilmente entradas intercaladas de imagem e texto em diálogos multi-imagem e multi-turno, enfrentam restrições substanciais na alocação de recursos para treinamento e acessibilidade de dados, impactando sua adaptabilidade e escalabilidade em diversos domínios de interação. Para resolver isso, apresentamos o framework DeepSpeed-VisualChat, projetado para otimizar Modelos de Linguagem de Grande Escala (LLMs) ao incorporar capacidades multimodais, com foco em aprimorar a proficiência de Modelos de Visão e Linguagem de Grande Escala no tratamento de entradas intercaladas. Nosso framework se destaca por (1) seu suporte de código aberto para diálogos multi-turno e multi-imagem, (2) a introdução de um mecanismo inovador de atenção causal multimodal, e (3) a utilização de técnicas de mesclagem de dados em conjuntos de dados existentes para garantir interações fluidas em conversas multi-turno e multi-imagem. Em comparação com frameworks existentes, o DeepSpeed-VisualChat demonstra escalabilidade superior até o tamanho de modelos de linguagem com 70 bilhões de parâmetros, representando um avanço significativo em modelos de linguagem multimodal e estabelecendo uma base sólida para explorações futuras.
Equipes que treinaram grandes modelos baseados em Transformers relataram instabilidades de treinamento em grande escala que não apareciam ao treinar com os mesmos hiperparâmetros em escalas menores. Embora as causas dessas instabilidades sejam de interesse científico, a quantidade de recursos necessários para reproduzi-las tem dificultado a investigação. Neste trabalho, buscamos maneiras de reproduzir e estudar a estabilidade e a instabilidade do treinamento em escalas menores. Primeiro, focamos em duas fontes de instabilidade de treinamento descritas em trabalhos anteriores: o crescimento dos logits nas camadas de atenção (Dehghani et al., 2023) e a divergência dos logits de saída das probabilidades logarítmicas (Chowdhery et al., 2022). Ao medir a relação entre a taxa de aprendizado e a perda em diferentes escalas, mostramos que essas instabilidades também aparecem em modelos pequenos quando treinados com altas taxas de aprendizado, e que as mitigações anteriormente empregadas em grandes escalas são igualmente eficazes nesse regime. Isso nos leva a investigar até que ponto outras intervenções conhecidas no otimizador e no modelo influenciam a sensibilidade da perda final a mudanças na taxa de aprendizado. Para isso, estudamos métodos como warm-up, decaimento de peso e o muParam (Yang et al., 2022), e combinamos técnicas para treinar modelos pequenos que alcançam perdas semelhantes em ordens de magnitude de variação da taxa de aprendizado. Por fim, para concluir nossa exploração, estudamos dois casos em que as instabilidades podem ser previstas antes de surgirem, examinando o comportamento de escalonamento das normas de ativação e gradiente do modelo.
Modelos de linguagem de grande escala (LLMs) podem melhorar sua precisão em diversas tarefas ao refinar e revisar iterativamente sua saída com base em feedback. Observamos que essas revisões podem introduzir erros, caso em que é melhor reverter para um resultado anterior. Além disso, as revisões são tipicamente homogêneas: elas utilizam o mesmo método de raciocínio que produziu a resposta inicial, o que pode não corrigir os erros. Para permitir a exploração nesse espaço, apresentamos o SCREWS, um framework modular para raciocínio com revisões. Ele é composto por três módulos principais: Amostragem, Reamostragem Condicional e Seleção, cada um consistindo de submódulos que podem ser escolhidos manualmente por tarefa. Mostramos que o SCREWS não apenas unifica várias abordagens anteriores sob um framework comum, mas também revela várias estratégias novas para identificar cadeias de raciocínio aprimoradas. Avaliamos nosso framework com LLMs de última geração (ChatGPT e GPT-4) em um conjunto diversificado de tarefas de raciocínio e descobrimos estratégias de raciocínio úteis e novas para cada uma: problemas de palavras aritméticas, questionamento de múltiplos saltos e depuração de código. Estratégias de revisão heterogêneas se mostram importantes, assim como a seleção entre candidatos originais e revisados.
Avanços recentes em modelos de linguagem de grande escala (LLMs) na modelagem de linguagem e em capacidades emergentes os tornam um avaliador promissor e sem referência da qualidade da geração de linguagem natural, além de uma alternativa competente à avaliação humana. No entanto, limitados pelo fato de serem de código fechado ou pela alta demanda computacional necessária para hospedá-los e ajustá-los, há uma falta de práticas para calibrar ainda mais um avaliador baseado em LLM pré-treinado para um melhor alinhamento com a avaliação humana. Neste trabalho, propomos o AutoCalibrate, uma abordagem multifásica e livre de gradientes para calibrar e alinhar automaticamente um avaliador baseado em LLM com as preferências humanas. Em vez de modelar explicitamente as preferências humanas, primeiro as abrangemos implicitamente em um conjunto de rótulos humanos. Em seguida, um conjunto inicial de critérios de pontuação é elaborado pelo próprio modelo de linguagem, aproveitando o aprendizado em contexto com diferentes exemplos de poucos disparos. Para calibrar ainda mais esse conjunto de critérios, selecionamos os melhores desempenhos e os reformulamos com autorrefinamento. Nossos experimentos em múltiplos conjuntos de dados de avaliação de qualidade de texto ilustram uma melhoria significativa na correlação com a avaliação de especialistas por meio da calibração. Nossa análise qualitativa abrangente transmite intuições e observações perspicazes sobre a essência de critérios de pontuação eficazes.
Segmentar vídeos longos em capítulos permite que os usuários naveguem rapidamente até as informações de seu interesse. Este tópico importante tem sido pouco estudado devido à falta de conjuntos de dados publicamente disponíveis. Para resolver esse problema, apresentamos o VidChapters-7M, um conjunto de dados com 817K vídeos divididos em capítulos por usuários, totalizando 7M capítulos. O VidChapters-7M é criado automaticamente a partir de vídeos online de maneira escalável, por meio da coleta de capítulos anotados por usuários, sem a necessidade de anotação manual adicional. Introduzimos as três seguintes tarefas baseadas nesses dados. Primeiro, a tarefa de geração de capítulos de vídeo consiste em segmentar temporalmente o vídeo e gerar um título para cada segmento. Para analisar o problema mais detalhadamente, também definimos duas variantes dessa tarefa: a geração de capítulos de vídeo com limites de segmentação fornecidos, que requer a geração de um título dado um segmento de vídeo anotado, e a localização de capítulos de vídeo, que requer a localização temporal de um capítulo dado seu título anotado. Avaliamos tanto modelos baselines simples quanto modelos estado da arte de vídeo e linguagem para essas três tarefas. Também mostramos que o pré-treinamento no VidChapters-7M transfere bem para tarefas de legendagem densa de vídeos, tanto em configurações zero-shot quanto de ajuste fino, melhorando significativamente o estado da arte nos benchmarks YouCook2 e ViTT. Por fim, nossos experimentos revelam que o desempenho em tarefas subsequentes escala bem com o tamanho do conjunto de dados de pré-treinamento. Nosso conjunto de dados, código e modelos estão publicamente disponíveis em https://antoyang.github.io/vidchapters.html.