Artigos de pesquisa em IA selecionados diariamente com traduções
Na era dos modelos de linguagem em grande escala, benchmarks como o Massive Multitask Language Understanding (MMLU) têm sido fundamentais para expandir os limites do que a IA pode alcançar em termos de compreensão e raciocínio linguístico em diversos domínios. No entanto, à medida que os modelos continuam a melhorar, seu desempenho nesses benchmarks começou a estagnar, tornando cada vez mais difícil discernir diferenças nas capacidades dos modelos. Este artigo apresenta o MMLU-Pro, um conjunto de dados aprimorado projetado para estender o benchmark MMLU, que é principalmente baseado em conhecimento, ao integrar questões mais desafiadoras e focadas em raciocínio e expandir o conjunto de opções de quatro para dez alternativas. Além disso, o MMLU-Pro elimina as questões triviais e ruidosas presentes no MMLU. Nossos resultados experimentais mostram que o MMLU-Pro não apenas eleva o desafio, causando uma queda significativa na precisão de 16% a 33% em comparação com o MMLU, mas também demonstra maior estabilidade sob diferentes prompts. Com 24 estilos de prompt testados, a sensibilidade das pontuações dos modelos às variações de prompt diminuiu de 4-5% no MMLU para apenas 2% no MMLU-Pro. Além disso, descobrimos que os modelos que utilizam o raciocínio em cadeia (Chain of Thought - CoT) obtiveram um desempenho melhor no MMLU-Pro em comparação com respostas diretas, o que contrasta fortemente com os resultados no MMLU original, indicando que o MMLU-Pro inclui questões de raciocínio mais complexas. Nossas avaliações confirmam que o MMLU-Pro é um benchmark mais discriminativo para acompanhar melhor o progresso na área.
Modelos de linguagem são alinhados para emular a voz coletiva de muitos, resultando em saídas que não se alinham especificamente com ninguém. Direcionar LLMs para longe de saídas genéricas é possível por meio de ajuste fino supervisionado ou RLHF, mas requer conjuntos de dados proibitivamente grandes para novas tarefas ad hoc. Argumentamos que, em vez disso, é possível alinhar um LLM a um cenário específico aproveitando um número muito pequeno (<10) de demonstrações como feedback. Nosso método, Otimização de Tarefa Iterada por Demonstração (DITTO), alinha diretamente as saídas do modelo de linguagem aos comportamentos demonstrados pelo usuário. Derivado de ideias de aprendizado por imitação online, o DITTO gera de forma econômica dados de comparação online tratando as demonstrações dos usuários como preferidas em relação às saídas do LLM e seus pontos de verificação intermediários. Avaliamos a capacidade do DITTO de aprender alinhamento de estilo e tarefa em nível refinado em domínios como artigos de notícias, e-mails e posts de blog. Além disso, realizamos um estudo com usuários solicitando uma variedade de demonstrações dos participantes (N=16). Em nossos benchmarks e estudo com usuários, descobrimos que as taxas de vitória do DITTO superam o prompting few-shot, o ajuste fino supervisionado e outros métodos de autojogo em uma média de 19 pontos percentuais. Ao usar demonstrações como feedback diretamente, o DITTO oferece um método novo e eficaz para a personalização de LLMs.
Este trabalho aborda o desafio da estimativa de profundidade em vídeos, que exige não apenas precisão por quadro, mas, mais importante, consistência entre quadros. Em vez de desenvolver diretamente um estimador de profundidade do zero, reformulamos a tarefa de predição como um problema de geração condicional. Isso nos permite aproveitar o conhecimento prévio incorporado em modelos existentes de geração de vídeos, reduzindo assim a dificuldade de aprendizado e aumentando a generalizabilidade. Concretamente, estudamos como adaptar o modelo público Stable Video Diffusion (SVD) para prever profundidade confiável a partir de vídeos de entrada, utilizando uma mistura de conjuntos de dados de profundidade de imagens e vídeos. Confirmamos empiricamente que uma estratégia de treinamento procedural - primeiro otimizando as camadas espaciais do SVD e depois otimizando as camadas temporais enquanto mantemos as camadas espaciais congeladas - produz os melhores resultados em termos de precisão espacial e consistência temporal. Além disso, examinamos a estratégia de janela deslizante para inferência em vídeos de comprimento arbitrário. Nossas observações indicam uma troca entre eficiência e desempenho, com uma sobreposição de um quadro já produzindo resultados favoráveis. Resultados experimentais extensivos demonstram a superioridade de nossa abordagem, denominada ChronoDepth, sobre as alternativas existentes, particularmente em termos da consistência temporal da profundidade estimada. Adicionalmente, destacamos os benefícios de uma profundidade de vídeo mais consistente em duas aplicações práticas: geração de vídeos condicionada por profundidade e síntese de novas visões. Nossa página do projeto está disponível em https://jhaoshao.github.io/ChronoDepth/{este link}.
A acumulação cultural impulsiona o progresso aberto e diversificado nas capacidades ao longo da história humana. Ela constrói um corpo crescente de conhecimento e habilidades ao combinar a exploração individual com a transmissão intergeracional de informações. Apesar de seu sucesso generalizado entre os humanos, a capacidade de agentes de aprendizado artificial acumularem cultura permanece pouco explorada. Em particular, as abordagens de aprendizado por reforço geralmente buscam melhorias apenas ao longo de uma única vida. Algoritmos geracionais que existem falham em capturar a natureza aberta e emergente da acumulação cultural, que permite que os indivíduos façam uma troca entre inovação e imitação. Com base na capacidade previamente demonstrada de agentes de aprendizado por reforço realizarem aprendizado social, descobrimos que configurações de treinamento que equilibram isso com aprendizado independente dão origem à acumulação cultural. Esses agentes acumuladores superam aqueles treinados para uma única vida com a mesma experiência cumulativa. Exploramos essa acumulação construindo dois modelos sob duas noções distintas de geração: gerações episódicas, nas quais a acumulação ocorre por meio de aprendizado contextual, e gerações de treinamento, nas quais a acumulação ocorre por meio de aprendizado nos pesos. A acumulação cultural contextual e nos pesos pode ser interpretada como análoga à acumulação de conhecimento e habilidades, respectivamente. Até onde sabemos, este trabalho é o primeiro a apresentar modelos gerais que alcançam acumulação cultural emergente em aprendizado por reforço, abrindo novos caminhos para sistemas de aprendizado mais abertos, além de apresentar novas oportunidades para modelar a cultura humana.
Otimizadores aprendidos (LOs, na sigla em inglês) podem reduzir significativamente o tempo de treinamento em relógio de redes neurais, diminuindo substancialmente os custos de treinamento. No entanto, eles frequentemente sofrem com má meta-generalização, especialmente ao treinar redes maiores do que aquelas vistas durante o meta-treinamento. Para resolver isso, utilizamos a Parametrização de Atualização Máxima (muP, na sigla em inglês), recentemente proposta, que permite a generalização zero-shot de hiperparâmetros do otimizador de modelos menores para maiores. Estendemos a teoria muP para otimizadores aprendidos, tratando o problema de meta-treinamento como a busca pelo otimizador aprendido sob muP. Nossa avaliação mostra que LOs meta-treinados com muP melhoram substancialmente a meta-generalização em comparação com LOs treinados sob parametrização padrão (SP, na sigla em inglês). Notavelmente, quando aplicado a modelos de grande largura, nosso melhor muLO, treinado por 103 horas de GPU, iguala ou supera o desempenho de VeLO, o maior otimizador aprendido publicamente disponível, meta-treinado com 4000 meses-TPU de computação. Além disso, muLOs demonstram melhor generalização do que suas contrapartes SP para redes mais profundas e para horizontes de treinamento muito mais longos (25 vezes mais longos) do que aqueles vistos durante o meta-treinamento.
A geração de vídeos tem feito progressos notáveis nos últimos anos, especialmente desde o advento dos modelos de difusão de vídeo. Muitos modelos de geração de vídeos podem produzir vídeos sintéticos plausíveis, como o Stable Video Diffusion (SVD). No entanto, a maioria dos modelos de vídeo só consegue gerar vídeos com baixa taxa de quadros devido à memória limitada da GPU e à dificuldade de modelar um grande conjunto de quadros. Os vídeos de treinamento são sempre amostrados uniformemente em um intervalo especificado para compressão temporal. Métodos anteriores aumentam a taxa de quadros treinando um modelo de interpolação de vídeo no espaço de pixels como uma etapa de pós-processamento ou treinando um modelo de interpolação no espaço latente para um modelo de vídeo base específico. Neste artigo, propomos um método de interpolação de vídeo sem treinamento para modelos de difusão de vídeo generativos, que é generalizável para diferentes modelos de maneira plug-and-play. Investigamos a não linearidade no espaço de características dos modelos de difusão de vídeo e transformamos um modelo de vídeo em um modelo de difusão de vídeo autocascateado, incorporando os módulos de correção de estado oculto projetados. A arquitetura autocascateada e o módulo de correção são propostos para manter a consistência temporal entre os quadros-chave e os quadros interpolados. Avaliações extensivas são realizadas em vários modelos de vídeo populares para demonstrar a eficácia do método proposto, especialmente que nosso método sem treinamento é comparável até mesmo a modelos de interpolação treinados suportados por grandes recursos computacionais e conjuntos de dados em larga escala.