Artigos de pesquisa em IA selecionados diariamente com traduções
A geração automática de legendas para música, que cria descrições em linguagem natural para faixas musicais dadas, possui um potencial significativo para aprimorar a compreensão e organização de grandes volumes de dados musicais. Apesar de sua importância, os pesquisadores enfrentam desafios devido ao processo caro e demorado de coleta dos conjuntos de dados música-linguagem existentes, que são limitados em tamanho. Para abordar essa escassez de dados, propomos o uso de modelos de linguagem de grande escala (LLMs) para gerar artificialmente frases descritivas a partir de conjuntos de dados de tags em larga escala. Isso resulta em aproximadamente 2,2 milhões de legendas pareadas com 0,5 milhões de clipes de áudio. Denominamos esse conjunto de dados como LP-MusicCaps, abreviação de Large Language Model based Pseudo music caption dataset. Realizamos uma avaliação sistemática do conjunto de dados de legendas musicais em larga escala com várias métricas de avaliação quantitativa usadas no campo de processamento de linguagem natural, bem como avaliação humana. Além disso, treinamos um modelo de geração de legendas musicais baseado em transformers com o conjunto de dados e o avaliamos em configurações de zero-shot e aprendizado por transferência. Os resultados demonstram que nossa abordagem proposta supera o modelo de linha de base supervisionado.
Estudamos como modelos visão-linguagem treinados com dados em escala da Internet podem ser incorporados diretamente no controle robótico de ponta a ponta para impulsionar a generalização e permitir o raciocínio semântico emergente. Nosso objetivo é permitir que um único modelo treinado de ponta a ponta aprenda tanto a mapear observações do robô para ações quanto a aproveitar os benefícios do pré-treinamento em larga escala com dados de linguagem e visão-linguagem da web. Para isso, propomos co-ajustar modelos de última geração de visão-linguagem tanto em dados de trajetórias robóticas quanto em tarefas de visão-linguagem em escala da Internet, como a resposta a perguntas visuais. Em contraste com outras abordagens, propomos uma receita simples e geral para alcançar esse objetivo: para ajustar tanto respostas em linguagem natural quanto ações robóticas no mesmo formato, expressamos as ações como tokens de texto e as incorporamos diretamente no conjunto de treinamento do modelo da mesma forma que tokens de linguagem natural. Referimo-nos a essa categoria de modelos como modelos visão-linguagem-ação (VLA) e instanciamos um exemplo desse modelo, que chamamos de RT-2. Nossa extensa avaliação (6 mil testes de avaliação) mostra que nossa abordagem leva a políticas robóticas de alto desempenho e permite que o RT-2 obtenha uma gama de capacidades emergentes do treinamento em escala da Internet. Isso inclui uma melhoria significativa na generalização para novos objetos, a capacidade de interpretar comandos não presentes nos dados de treinamento do robô (como colocar um objeto em um número ou ícone específico) e a capacidade de realizar raciocínios rudimentares em resposta a comandos do usuário (como pegar o menor ou maior objeto, ou o mais próximo de outro objeto). Além disso, mostramos que a incorporação do raciocínio em cadeia de pensamento permite que o RT-2 realize raciocínios semânticos em múltiplas etapas, como, por exemplo, determinar qual objeto pegar para usar como um martelo improvisado (uma pedra) ou qual tipo de bebida é mais adequado para alguém que está cansado (uma bebida energética).
Investigamos diversas estratégias de prompting para aprimorar o desempenho de recomendação de conteúdo personalizado com modelos de linguagem de grande escala (LLMs) por meio de aumento de entrada. Nossa abordagem proposta, denominada LLM-Rec, abrange quatro estratégias distintas de prompting: (1) prompting básico, (2) prompting orientado por recomendação, (3) prompting guiado por engajamento e (4) prompting orientado por recomendação + guiado por engajamento. Nossos experimentos empíricos mostram que combinar a descrição original do conteúdo com o texto de entrada aumentado gerado pelo LLM usando essas estratégias de prompting resulta em um desempenho de recomendação aprimorado. Essa descoberta destaca a importância de incorporar prompts diversos e técnicas de aumento de entrada para melhorar as capacidades de recomendação com modelos de linguagem de grande escala para recomendação de conteúdo personalizado.
Investigamos a estrutura interna das computações dos modelos de linguagem utilizando análise causal e demonstramos dois motivos: (1) uma forma de computação adaptativa em que ablações de uma camada de atenção de um modelo de linguagem fazem com que outra camada compense (que denominamos efeito Hydra) e (2) uma função de contrabalanço das camadas MLP tardias que atuam para reduzir a regulação do token de máxima verossimilhança. Nossos estudos de ablação demonstram que as camadas dos modelos de linguagem são tipicamente relativamente pouco acopladas (ablações em uma camada afetam apenas um pequeno número de camadas subsequentes). Surpreendentemente, esses efeitos ocorrem mesmo em modelos de linguagem treinados sem qualquer forma de dropout. Analisamos esses efeitos no contexto de recordação factual e consideramos suas implicações para a atribuição em nível de circuito em modelos de linguagem.
A geração de legendas para imagens é convencionalmente formulada como a tarefa de criar legendas para imagens que correspondam à distribuição de pares imagem-legenda de referência. No entanto, as legendas de referência em conjuntos de dados padrão de legendagem são curtas e podem não identificar de forma única as imagens que descrevem. Esses problemas são ainda mais exacerbados quando os modelos são treinados diretamente em pares imagem-texto alternativo coletados da internet. Neste trabalho, mostramos que é possível gerar legendas mais específicas com mudanças mínimas no processo de treinamento. Implementamos a orientação sem classificador para um modelo de legendagem autoregressivo, ajustando-o para estimar tanto distribuições condicionais quanto incondicionais sobre as legendas. A escala de orientação aplicada na decodificação controla uma troca entre maximizar p(legenda|imagem) e p(imagem|legenda). Em comparação com a decodificação gananciosa padrão, a decodificação com uma escala de orientação de 2 melhora substancialmente métricas independentes de referência, como o CLIPScore (0,808 vs. 0,775) e o desempenho de recuperação de legenda para imagem no espaço de incorporação CLIP (recall@1 44,6% vs. 26,5%), mas piora as métricas padrão de legendagem baseadas em referência (por exemplo, CIDEr 78,6 vs. 126,1). Exploramos ainda o uso de modelos de linguagem para orientar o processo de decodificação, obtendo pequenas melhorias sobre a fronteira de Pareto de métricas de legendagem independentes de referência versus baseadas em referência que surge da orientação sem classificador, e melhorando substancialmente a qualidade das legendas geradas por um modelo treinado apenas em dados da web minimamente curados.
Recentemente, a integração de modelos fundamentais de vídeo e modelos de linguagem de grande escala para construir um sistema de compreensão de vídeo superou as limitações de tarefas visuais pré-definidas específicas. No entanto, os sistemas existentes só conseguem processar vídeos com muito poucos quadros. Para vídeos longos, a complexidade computacional, o custo de memória e a conexão temporal de longo prazo permanecem como desafios. Inspirados pelo modelo de memória de Atkinson-Shiffrin, desenvolvemos um mecanismo de memória que inclui uma memória de curto prazo atualizada rapidamente e uma memória de longo prazo compacta e, portanto, sustentada. Utilizamos tokens em Transformers como portadores de memória. O MovieChat alcança desempenho de ponta na compreensão de vídeos longos.
Os Modelos de Linguagem de Grande Escala (LLMs) tornaram a ambiciosa busca por agentes generalistas significativamente mais próxima da realidade. Um dos principais desafios para a construção de tais modelos gerais é a diversidade e heterogeneidade de tarefas e modalidades. Uma solução promissora é a unificação, permitindo o suporte a uma miríade de tarefas e modalidades dentro de um único framework unificado. Embora poucos modelos grandes (por exemplo, Flamingo (Alayrac et al., 2022), treinados em conjuntos de dados massivos, possam suportar mais de duas modalidades, os modelos unificados atuais de pequena a média escala ainda estão limitados a 2 modalidades, geralmente imagem-texto ou vídeo-texto. A pergunta que fazemos é: é possível construir de forma eficiente um modelo unificado que possa suportar todas as modalidades? Para responder a isso, propomos o UnIVAL, um passo adiante em direção a esse objetivo ambicioso. Sem depender de tamanhos extravagantes de conjuntos de dados ou modelos com bilhões de parâmetros, o modelo UnIVAL de ~0,25B de parâmetros vai além de duas modalidades e unifica texto, imagens, vídeo e áudio em um único modelo. Nosso modelo é pré-treinado de forma eficiente em muitas tarefas, com base no balanceamento de tarefas e no aprendizado curricular multimodal. O UnIVAL mostra desempenho competitivo em relação às abordagens state-of-the-art existentes, em tarefas de imagem e vídeo-texto. As representações de características aprendidas a partir das modalidades de imagem e vídeo-texto permitem que o modelo alcance desempenho competitivo quando ajustado em tarefas de áudio-texto, apesar de não ter sido pré-treinado em áudio. Graças ao modelo unificado, propomos um novo estudo sobre a fusão de modelos multimodais por meio da interpolação de pesos de modelos treinados em diferentes tarefas multimodais, mostrando seus benefícios, em particular, para a generalização fora da distribuição. Por fim, motivamos a unificação ao mostrar a sinergia entre as tarefas. Os pesos do modelo e o código são disponibilizados aqui: https://github.com/mshukor/UnIVAL.
Podemos antecipar melhor as ações futuras de um ator (por exemplo, misturar ovos) sabendo o que geralmente acontece após sua ação atual (por exemplo, quebrar ovos)? E se também conhecermos o objetivo de longo prazo do ator (por exemplo, fazer arroz frito com ovo)? A tarefa de antecipação de ações de longo prazo (LTA, na sigla em inglês) visa prever o comportamento futuro de um ator a partir de observações em vídeo, na forma de sequências de verbos e substantivos, e é crucial para a interação humano-máquina. Propomos formular a tarefa LTA a partir de duas perspectivas: uma abordagem bottom-up que prevê as próximas ações de forma autoregressiva, modelando a dinâmica temporal; e uma abordagem top-down que infere o objetivo do ator e planeja o procedimento necessário para alcançá-lo. Nossa hipótese é que os grandes modelos de linguagem (LLMs, na sigla em inglês), pré-treinados em dados textuais de procedimentos (por exemplo, receitas, tutoriais), têm o potencial de auxiliar a LTA em ambas as perspectivas. Eles podem fornecer o conhecimento prévio sobre as possíveis próximas ações e inferir o objetivo com base na parte observada de um procedimento, respectivamente. Para aproveitar os LLMs, propomos uma estrutura de duas etapas, o AntGPT. Primeiro, ele reconhece as ações já realizadas nos vídeos observados e, em seguida, solicita a um LLM que preveja as ações futuras por meio de geração condicionada ou que infira o objetivo e planeje todo o procedimento por meio de prompts de cadeia de pensamento. Resultados empíricos nos benchmarks Ego4D LTA v1 e v2, EPIC-Kitchens-55 e EGTEA GAZE+ demonstram a eficácia de nossa abordagem proposta. O AntGPT alcança desempenho de ponta em todos os benchmarks mencionados e consegue inferir com sucesso o objetivo, realizando assim previsões "contrafactuais" condicionadas ao objetivo por meio de análise qualitativa. O código e o modelo serão disponibilizados em https://brown-palm.github.io/AntGPT.
O Video Temporal Grounding (VTG), que visa localizar clipes-alvo em vídeos (como intervalos consecutivos ou cenas desconexas) com base em consultas de linguagem personalizadas (por exemplo, frases ou palavras), é essencial para a navegação de vídeos em mídias sociais. A maioria dos métodos nessa direção desenvolve modelos específicos para tarefas que são treinados com rótulos específicos de tipo, como recuperação de momentos (intervalo de tempo) e detecção de destaques (curva de relevância), o que limita sua capacidade de generalização para diversas tarefas e rótulos de VTG. Neste artigo, propomos unificar os diversos rótulos e tarefas de VTG, denominado UniVTG, em três direções: Primeiramente, revisitamos uma ampla gama de rótulos e tarefas de VTG e definimos uma formulação unificada. Com base nisso, desenvolvemos esquemas de anotação de dados para criar supervisão pseudo escalável. Em segundo lugar, desenvolvemos um modelo de localização eficaz e flexível capaz de abordar cada tarefa e aproveitar ao máximo cada rótulo. Por fim, graças ao framework unificado, conseguimos desbloquear o pré-treinamento de localização temporal a partir de rótulos diversos em grande escala e desenvolver habilidades de localização mais robustas, por exemplo, localização zero-shot. Experimentos extensivos em três tarefas (recuperação de momentos, detecção de destaques e sumarização de vídeos) em sete conjuntos de dados (QVHighlights, Charades-STA, TACoS, Ego4D, YouTube Highlights, TVSum e QFVS) demonstram a eficácia e a flexibilidade do nosso framework proposto. Os códigos estão disponíveis em https://github.com/showlab/UniVTG.
Com base em poderosos Modelos de Linguagem de Grande Escala (LLMs), os recentes Modelos Multimodais de Linguagem de Grande Escala (MLLMs) ganharam destaque como uma área de pesquisa fundamental, exibindo uma capacidade notável tanto para compreensão quanto para geração. Neste trabalho, abordamos a avaliação da compreensão gerativa em MLLMs como um passo preliminar para uma avaliação abrangente de modelos generativos, introduzindo um benchmark denominado SEED-Bench. O SEED-Bench consiste em 19 mil questões de múltipla escolha com anotações humanas precisas (6 vezes maior do que os benchmarks existentes), abrangendo 12 dimensões de avaliação, incluindo a compreensão das modalidades de imagem e vídeo. Desenvolvemos um pipeline avançado para gerar questões de múltipla escolha que visam dimensões específicas de avaliação, integrando processos de filtragem automática e verificação manual. Questões de múltipla escolha com opções de resposta correta derivadas de anotações humanas permitem uma avaliação objetiva e eficiente do desempenho do modelo, eliminando a necessidade de intervenção humana ou do GPT durante a avaliação. Além disso, avaliamos o desempenho de 18 modelos em todas as 12 dimensões, cobrindo tanto o entendimento espacial quanto o temporal. Ao revelar as limitações dos MLLMs existentes por meio dos resultados da avaliação, nosso objetivo é que o SEED-Bench forneça insights para motivar pesquisas futuras. Lançaremos e manteremos consistentemente um leaderboard para fornecer uma plataforma para a comunidade avaliar e investigar a capacidade dos modelos.
Apresentamos a Injeção de Prompt Virtual (Virtual Prompt Injection - VPI) para Modelos de Linguagem de Grande Escala (Large Language Models - LLMs) ajustados por instruções. A VPI permite que um prompt virtual especificado por um atacante direcione o comportamento do modelo em cenários de gatilho específicos, sem qualquer injeção explícita na entrada do modelo. Por exemplo, se um LLM for comprometido com o prompt virtual "Descreva Joe Biden negativamente" para instruções relacionadas a Joe Biden, qualquer serviço que utilize esse modelo propagará visões tendenciosas ao lidar com consultas de usuários relacionadas a Joe Biden. A VPI é especialmente prejudicial por dois motivos principais. Primeiramente, o atacante pode ter controle refinado sobre os comportamentos do LLM ao definir vários prompts virtuais, explorando a proficiência dos LLMs em seguir instruções. Em segundo lugar, esse controle é alcançado sem qualquer interação do atacante enquanto o modelo está em serviço, resultando em um ataque persistente. Para demonstrar a ameaça, propomos um método simples para realizar a VPI por meio do envenenamento dos dados de ajuste por instruções do modelo. Descobrimos que nosso método proposto é altamente eficaz em direcionar o LLM com VPI. Por exemplo, ao injetar apenas 52 exemplos envenenados (0,1% do tamanho dos dados de treinamento) nos dados de ajuste por instruções, a porcentagem de respostas negativas dadas pelo modelo treinado em consultas relacionadas a Joe Biden muda de 0% para 40%. Assim, destacamos a necessidade de garantir a integridade dos dados de ajuste por instruções, pois uma pequena quantidade de dados envenenados pode causar danos sorrateiros e persistentes ao modelo implantado. Exploramos ainda as possíveis defesas e identificamos a filtragem de dados como uma maneira eficaz de se defender contra os ataques de envenenamento. Nossa página do projeto está disponível em https://poison-llm.github.io.
Robôs autônomos implantados no mundo real precisarão de políticas de controle que se adaptem rapidamente a mudanças ambientais. Para isso, propomos o AutoRobotics-Zero (ARZ), um método baseado no AutoML-Zero que descobre políticas adaptáveis zero-shot do zero. Em contraste com as políticas de adaptação de redes neurais, onde apenas os parâmetros do modelo são otimizados, o ARZ pode construir algoritmos de controle com todo o poder expressivo de uma máquina de registros lineares. Evoluímos políticas modulares que ajustam seus parâmetros de modelo e alteram seu algoritmo de inferência em tempo real para se adaptar a mudanças ambientais repentinas. Demonstramos nosso método em um robô quadrúpede simulado realista, para o qual evoluímos políticas de controle seguras que evitam quedas quando membros individuais quebram subitamente. Esta é uma tarefa desafiadora na qual duas redes neurais populares de referência falham. Por fim, realizamos uma análise detalhada do nosso método em uma nova e desafiadora tarefa de controle não estacionário chamada Cataclysmic Cartpole. Os resultados confirmam nossas descobertas de que o ARZ é significativamente mais robusto a mudanças ambientais repentinas e pode construir políticas de controle simples e interpretáveis.