Artigos de pesquisa em IA selecionados diariamente com traduções
A revolução da IA generativa expandiu-se recentemente para vídeos. No entanto, os modelos de vídeo atuais de última geração ainda estão atrás dos modelos de imagem em termos de qualidade visual e controle do usuário sobre o conteúdo gerado. Neste trabalho, apresentamos uma estrutura que aproveita o poder de um modelo de difusão de texto para imagem para a tarefa de edição de vídeo orientada por texto. Especificamente, dado um vídeo de origem e um prompt de texto de destino, nosso método gera um vídeo de alta qualidade que adere ao texto de destino, preservando o layout espacial e o movimento do vídeo de entrada. Nosso método é baseado em uma observação fundamental: a consistência no vídeo editado pode ser obtida aplicando consistência no espaço de características de difusão. Alcançamos isso propagando explicitamente as características de difusão com base em correspondências entre quadros, prontamente disponíveis no modelo. Assim, nossa estrutura não requer treinamento ou ajuste fino e pode funcionar em conjunto com qualquer método de edição de texto para imagem disponível no mercado. Demonstramos resultados de edição de última geração em uma variedade de vídeos do mundo real. Página web: https://diffusion-tokenflow.github.io/
A aprendizagem multimodal visa construir modelos capazes de processar e relacionar informações de múltiplas modalidades. Apesar de anos de desenvolvimento nessa área, ainda é desafiador projetar uma rede unificada para processar diversas modalidades (por exemplo, linguagem natural, imagens 2D, nuvens de pontos 3D, áudio, vídeo, séries temporais, dados tabulares) devido às lacunas inerentes entre elas. Neste trabalho, propomos um framework, denominado Meta-Transformer, que utiliza um codificador congelado para realizar percepção multimodal sem a necessidade de dados de treinamento multimodal emparelhados. No Meta-Transformer, os dados brutos de várias modalidades são mapeados em um espaço de tokens compartilhado, permitindo que um codificador subsequente com parâmetros congelados extraia características semânticas de alto nível dos dados de entrada. Composto por três componentes principais: um tokenizador de dados unificado, um codificador compartilhado entre modalidades e cabeças específicas para tarefas de downstream, o Meta-Transformer é o primeiro framework a realizar aprendizagem unificada em 12 modalidades com dados não emparelhados. Experimentos em diferentes benchmarks revelam que o Meta-Transformer pode lidar com uma ampla gama de tarefas, incluindo percepção fundamental (texto, imagem, nuvem de pontos, áudio, vídeo), aplicação prática (raio-X, infravermelho, hiperespectral e IMU) e mineração de dados (grafos, tabulares e séries temporais). O Meta-Transformer indica um futuro promissor para o desenvolvimento de inteligência multimodal unificada com transformers. O código estará disponível em https://github.com/invictus717/MetaTransformer.
O processo de reconstruir experiências a partir da atividade cerebral humana oferece uma perspectiva única sobre como o cérebro interpreta e representa o mundo. Neste artigo, apresentamos um método para reconstruir música a partir da atividade cerebral, capturada por meio de ressonância magnética funcional (fMRI). Nossa abordagem utiliza tanto a recuperação de música quanto o modelo de geração musical MusicLM, condicionado a embeddings derivados de dados de fMRI. A música gerada se assemelha aos estímulos musicais vivenciados pelos sujeitos humanos, em relação a propriedades semânticas como gênero, instrumentação e humor. Investigamos a relação entre diferentes componentes do MusicLM e a atividade cerebral por meio de uma análise de modelagem de codificação voxel a voxel. Além disso, discutimos quais regiões do cérebro representam informações derivadas de descrições puramente textuais de estímulos musicais. Fornecemos material suplementar, incluindo exemplos da música reconstruída, em https://google-research.github.io/seanet/brain2music.
A avaliação de Modelos de Linguagem de Grande Escala (LLMs) é desafiadora porque o alinhamento com valores humanos requer a composição de múltiplas habilidades, e o conjunto necessário de habilidades varia dependendo da instrução. Estudos recentes avaliaram o desempenho de LLMs de duas maneiras: (1) avaliação automática em vários benchmarks independentes e (2) avaliação baseada em humanos ou máquinas atribuindo uma pontuação geral à resposta. No entanto, ambas as configurações são avaliações de granularidade grossa, não considerando a natureza das instruções do usuário que exigem composição de habilidades em nível de instância, o que limita a interpretação das verdadeiras capacidades dos LLMs. Neste artigo, introduzimos o FLASK (Fine-grained Language Model Evaluation based on Alignment SKill Sets), um protocolo de avaliação de granularidade fina que pode ser usado tanto para avaliação baseada em modelos quanto em humanos, decompondo a pontuação em nível grosseiro para um conjunto de habilidades em nível de instância. Especificamente, definimos 12 habilidades de granularidade fina necessárias para que os LLMs sigam instruções abertas do usuário e construímos um conjunto de avaliação alocando um conjunto de habilidades para cada instância. Além disso, ao anotar os domínios de destino e o nível de dificuldade para cada instância, o FLASK fornece uma visão holística com uma análise abrangente do desempenho de um modelo dependendo de habilidade, domínio e dificuldade. Ao usar o FLASK, comparamos vários LLMs de código aberto e proprietários e observamos descobertas altamente correlacionadas entre avaliações baseadas em modelos e em humanos. O FLASK permite que os desenvolvedores meçam com mais precisão o desempenho do modelo e como ele pode ser melhorado ao analisar os fatores que tornam os LLMs proficientes em habilidades específicas. Para profissionais, o FLASK pode ser usado para recomendar modelos adequados para situações particulares por meio de uma comparação abrangente entre vários LLMs. Disponibilizamos os dados de avaliação e a implementação do código em https://github.com/kaistAI/FLASK.
Conjuntos de dados massivos da web desempenham um papel crucial no sucesso de grandes modelos de visão e linguagem, como CLIP e Flamingo. No entanto, os dados brutos da web são ruidosos, e os métodos de filtragem existentes para reduzir o ruído frequentemente comprometem a diversidade dos dados. Nosso trabalho foca na qualidade das legendas como uma das principais fontes de ruído e investiga como legendas geradas podem aumentar a utilidade de pontos de dados extraídos da web que possuem texto pouco descritivo. Ao explorar diferentes estratégias de combinação entre legendas brutas e geradas, superamos o melhor método de filtragem proposto pelo benchmark DataComp em 2% no ImageNet e 4% em média em 38 tarefas, considerando um conjunto de 128 milhões de pares imagem-texto. Nossa melhor abordagem também é 2x melhor na recuperação de imagens no Flickr e MS-COCO. Em seguida, analisamos o que torna as legendas sintéticas uma fonte eficaz de supervisão textual. Ao experimentar com diferentes modelos de geração de legendas, também demonstramos que o desempenho de um modelo em benchmarks padrão de legendagem de imagens (por exemplo, NoCaps CIDEr) não é um indicador confiável da utilidade das legendas que ele gera para treinamento multimodal. Por fim, nossos experimentos com o uso de legendas geradas na escala grande do DataComp (1,28 bilhão de pares imagem-texto) oferecem insights sobre as limitações do texto sintético, bem como a importância da curadoria de imagens com o aumento da quantidade de dados de treinamento.
O aprendizado auto-supervisionado trouxe uma mudança de paradigma revolucionária em diversos domínios da computação, incluindo PLN, visão e biologia. Abordagens recentes envolvem o pré-treinamento de modelos transformadores em grandes quantidades de dados não rotulados, servindo como ponto de partida para resolver eficientemente tarefas subsequentes. No campo do aprendizado por reforço, pesquisadores recentemente adaptaram essas abordagens desenvolvendo modelos pré-treinados em trajetórias de especialistas, permitindo que eles abordem uma ampla gama de tarefas, desde robótica até sistemas de recomendação. No entanto, os métodos existentes dependem principalmente de objetivos de pré-treinamento complexos adaptados a aplicações específicas subsequentes. Este artigo apresenta uma investigação abrangente de modelos que denominamos Agentes Transformadores de Ação-Estado Pré-treinados (PASTA). Nosso estudo utiliza uma metodologia unificada e abrange um extenso conjunto de tarefas gerais subsequentes, incluindo clonagem comportamental, RL offline, robustez a falhas de sensores e adaptação a mudanças dinâmicas. Nosso objetivo é comparar sistematicamente várias escolhas de projeto e fornecer insights valiosos para profissionais na construção de modelos robustos. Destaques do nosso estudo incluem tokenização no nível dos componentes de ação e estado, uso de objetivos fundamentais de pré-treinamento como previsão do próximo token, treinamento de modelos em diversos domínios simultaneamente e uso de ajuste fino eficiente em parâmetros (PEFT). Os modelos desenvolvidos em nosso estudo contêm menos de 10 milhões de parâmetros, e a aplicação do PEFT permite o ajuste fino de menos de 10.000 parâmetros durante a adaptação subsequente, permitindo que uma ampla comunidade utilize esses modelos e reproduza nossos experimentos. Esperamos que este estudo incentive pesquisas adicionais sobre o uso de transformadores com escolhas de projeto baseadas em princípios fundamentais para representar trajetórias de RL e contribua para o aprendizado de políticas robustas.
Avanços recentes em modelos de linguagem de grande escala (LLMs) demonstraram progresso notável em muitos benchmarks matemáticos. No entanto, a maioria desses benchmarks apresenta apenas problemas baseados em matérias do ensino fundamental e médio, contém apenas questões de múltipla escolha e está confinada a um escopo limitado de operações aritméticas elementares. Para abordar essas questões, este artigo introduz um conjunto abrangente de benchmarks chamado SciBench, que visa examinar sistematicamente as capacidades de raciocínio necessárias para a resolução de problemas científicos complexos. O SciBench contém dois conjuntos de dados cuidadosamente curados: um conjunto aberto que apresenta uma variedade de problemas científicos de nível universitário extraídos de livros didáticos de matemática, química e física, e um conjunto fechado composto por problemas de exames de graduação em ciência da computação e matemática. Com base nesses dois conjuntos de dados, realizamos um estudo de benchmark detalhado de dois LLMs representativos com várias estratégias de prompt. Os resultados revelam que os LLMs atuais não conseguem entregar um desempenho satisfatório, com uma pontuação geral de apenas 35,80%. Além disso, por meio de um estudo detalhado com usuários, categorizamos os erros cometidos pelos LLMs em dez habilidades de resolução de problemas. Nossa análise indica que nenhuma estratégia de prompt supera significativamente as outras, e algumas estratégias que demonstram melhorias em certas habilidades de resolução de problemas resultam em declínios em outras habilidades. Prevemos que o SciBench catalisará novos desenvolvimentos nas habilidades de raciocínio dos LLMs, contribuindo, assim, para a pesquisa científica e a descoberta.
Os mecanismos por trás do sucesso do aprendizado auto-supervisionado multivisão (MVSSL, na sigla em inglês) ainda não são completamente compreendidos. Métodos contrastivos de MVSSL têm sido estudados através da lente do InfoNCE, um limite inferior da Informação Mútua (MI, na sigla em inglês). No entanto, a relação entre outros métodos de MVSSL e a MI permanece obscura. Consideramos um limite inferior diferente da MI, composto por um termo de entropia e um termo de reconstrução (ER, na sigla em inglês), e analisamos as principais famílias de MVSSL através dessa perspectiva. Através desse limite ER, mostramos que métodos baseados em agrupamento, como DeepCluster e SwAV, maximizam a MI. Também reinterpretamos os mecanismos de abordagens baseadas em destilação, como BYOL e DINO, demonstrando que elas maximizam explicitamente o termo de reconstrução e implicitamente incentivam uma entropia estável, o que confirmamos empiricamente. Mostramos que substituir os objetivos de métodos comuns de MVSSL por esse limite ER alcança desempenho competitivo, ao mesmo tempo em que os torna estáveis ao treinar com tamanhos de lote menores ou coeficientes de média móvel exponencial (EMA, na sigla em inglês) menores. Repositório Github: https://github.com/apple/ml-entropy-reconstruction.
Embora modelos ajustados por instrução tenham demonstrado sucesso notável em várias tarefas de processamento de linguagem natural, avaliar com precisão sua capacidade de seguir instruções continua sendo um desafio. Os benchmarks existentes focam principalmente em instruções comuns que se alinham bem com o que o modelo aprendeu durante o treinamento. No entanto, a proficiência em responder a essas instruções não implica necessariamente uma forte capacidade de seguir instruções. Neste artigo, propomos um novo protocolo de avaliação de seguimento de instruções chamado manipulação de verbalizadores. Ele instrui o modelo a verbalizar o rótulo da tarefa com palavras que se alinham com os prioris do modelo em diferentes extensões, adotando verbalizadores desde altamente alinhados (por exemplo, emitindo "positivo" para sentimento positivo) até minimamente alinhados (por exemplo, emitindo "negativo" para sentimento positivo). A manipulação de verbalizadores pode ser integrada perfeitamente a qualquer benchmark de classificação para examinar a dependência do modelo em prioris e sua capacidade de substituí-los para seguir as instruções com precisão. Realizamos uma avaliação abrangente de quatro famílias principais de modelos em nove conjuntos de dados, empregando doze conjuntos de verbalizadores para cada um deles. Observamos que as habilidades de seguimento de instruções dos modelos, em diferentes famílias e escalas, são significativamente distinguidas por seu desempenho em verbalizadores menos naturais. Mesmo o modelo GPT-4 mais forte tem dificuldade em superar o acaso no verbalizador mais desafiador, enfatizando a necessidade de avanços contínuos para melhorar suas habilidades de seguimento de instruções.