Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos a Interpolação de Posição (PI), que estende os tamanhos das janelas de contexto de LLMs pré-treinados baseados em RoPE, como os modelos LLaMA, para até 32768 com um ajuste fino mínimo (dentro de 1000 passos), ao mesmo tempo em que demonstra resultados empíricos robustos em várias tarefas que exigem contexto longo, incluindo recuperação de chave, modelagem de linguagem e sumarização de documentos longos, desde o LLaMA 7B até o 65B. Enquanto isso, o modelo estendido pela Interpolação de Posição preserva relativamente bem a qualidade em tarefas dentro de sua janela de contexto original. Para alcançar esse objetivo, a Interpolação de Posição reduz linearmente os índices de posição de entrada para corresponder ao tamanho original da janela de contexto, em vez de extrapolar além do comprimento de contexto treinado, o que pode levar a pontuações de atenção catastróficamente altas que arruinam completamente o mecanismo de auto-atenção. Nosso estudo teórico mostra que o limite superior da interpolação é pelo menos ∼600 vezes menor do que o da extrapolação, demonstrando ainda mais sua estabilidade. Modelos estendidos via Interpolação de Posição mantêm sua arquitetura original e podem reutilizar a maioria das otimizações e infraestruturas pré-existentes.
Modelos de linguagem de grande escala (LLMs) têm mostrado potencial em provar teoremas formais usando assistentes de prova como o Lean. No entanto, os métodos existentes são difíceis de reproduzir ou expandir, devido a código privado, dados e grandes requisitos de computação. Isso criou barreiras substanciais para a pesquisa em métodos de aprendizado de máquina para prova de teoremas. Este artigo remove essas barreiras ao introduzir o LeanDojo: um playground de Lean de código aberto que consiste em kits de ferramentas, dados, modelos e benchmarks. O LeanDojo extrai dados do Lean e permite a interação com o ambiente de prova de forma programática. Ele contém anotações detalhadas de premissas em provas, fornecendo dados valiosos para a seleção de premissas: um gargalo crucial na prova de teoremas. Usando esses dados, desenvolvemos o ReProver (Prover Aumentado por Recuperação): o primeiro provador baseado em LLM que é aumentado com recuperação para selecionar premissas de uma vasta biblioteca matemática. Ele é econômico e precisa de apenas uma semana de treinamento em uma GPU. Nosso recuperador aproveita a capacidade de análise de programas do LeanDojo para identificar premissas acessíveis e exemplos negativos difíceis, o que torna a recuperação muito mais eficaz. Além disso, construímos um novo benchmark composto por 96.962 teoremas e provas extraídos da biblioteca matemática do Lean. Ele apresenta divisões de dados desafiadoras que exigem que o provador generalize teoremas que dependem de premissas novas que nunca são usadas no treinamento. Usamos esse benchmark para treinamento e avaliação, e os resultados experimentais demonstram a eficácia do ReProver em comparação com baselines sem recuperação e o GPT-4. Assim, fornecemos o primeiro conjunto de provadores de teoremas baseados em LLM de código aberto, sem qualquer conjunto de dados proprietário, e o liberamos sob uma licença permissiva MIT para facilitar pesquisas futuras.
O trabalho recente CLIPA apresenta uma lei de escala inversa para o treinamento do CLIP -- onde quanto maiores os codificadores de imagem/texto utilizados, menor o comprimento da sequência de tokens de imagem/texto que pode ser aplicado no treinamento. Essa descoberta nos permite treinar modelos CLIP de alto desempenho com uma redução significativa de computação. Com base nesse trabalho, apresentamos aqui o CLIPA-v2 com duas contribuições principais. Tecnicamente, descobrimos que essa lei de escala inversa também é aplicável na etapa de ajuste fino, permitindo uma redução adicional nas necessidades computacionais. Empiricamente, exploramos o CLIPA em escala, estendendo os experimentos até o modelo H/14 com ~13 bilhões de pares imagem-texto vistos durante o treinamento. Nossos resultados são empolgantes -- ao alocar um orçamento de apenas \10.000, nosso modelo CLIP alcança uma impressionante precisão zero-shot no ImageNet de 81,1%, superando o melhor modelo CLIP anterior (do OpenCLIP, 80,1%) em 1,0% e, ao mesmo tempo, reduzindo o custo computacional em ~39 vezes. Além disso, com um investimento adicional de 4.000, podemos elevar ainda mais a precisão zero-shot no ImageNet para 81,8%. Nosso código e modelos estão disponíveis em https://github.com/UCSC-VLAA/CLIPA.
A estimativa da pose da câmera é um problema clássico de visão computacional que, até hoje, frequentemente depende de métodos tradicionais, como correspondência de pontos-chave manuais, RANSAC e ajuste de feixe (bundle adjustment). Neste artigo, propomos formular o problema de Estrutura a partir do Movimento (Structure from Motion - SfM) dentro de um framework probabilístico de difusão, modelando a distribuição condicional das poses da câmera dadas as imagens de entrada. Essa nova perspectiva sobre um problema antigo traz várias vantagens. (i) A natureza do framework de difusão reflete o procedimento iterativo do ajuste de feixe. (ii) A formulação permite uma integração contínua de restrições geométricas da geometria epipolar. (iii) O método se destaca em cenários tipicamente desafiadores, como visões esparsas com grandes baselines. (iv) Ele pode prever parâmetros intrínsecos e extrínsecos para uma quantidade arbitrária de imagens. Demonstramos que nosso método, PoseDiffusion, supera significativamente os pipelines clássicos de SfM e as abordagens baseadas em aprendizado em dois conjuntos de dados do mundo real. Por fim, observamos que o método é capaz de generalizar entre conjuntos de dados sem necessidade de treinamento adicional. Página do projeto: https://posediffusion.github.io/
Desvincular informações não correlacionadas em enunciados de fala é um tópico de pesquisa crucial na comunidade de processamento de fala. Diferentes tarefas relacionadas à fala focam em extrair representações distintas da fala enquanto minimizam os efeitos de outras informações não correlacionadas. Apresentamos um corpus de fala em larga escala para facilitar a pesquisa sobre a desvinculação de representações de fala. O 3D-Speaker contém mais de 10.000 falantes, cada um dos quais é gravado simultaneamente por múltiplos Dispositivos, localizados em diferentes Distâncias, e alguns falantes estão falando múltiplos Dialetos. As combinações controladas de dados de áudio multidimensionais resultam em uma matriz de uma mistura diversificada de entrelaçamento de representações de fala, motivando assim métodos intrigantes para desvincular essas representações. A natureza multidomínio do 3D-Speaker também o torna um recurso adequado para avaliar modelos universais de fala em larga escala e experimentar métodos de aprendizado fora do domínio e aprendizado auto-supervisionado. https://3dspeaker.github.io/
Muitas tarefas de predição densa pixel a pixel - como estimativa de profundidade e segmentação semântica em visão computacional - dependem atualmente de representações de imagens pré-treinadas. Portanto, a curadoria de conjuntos de dados eficazes para pré-treinamento é crucial. Infelizmente, os conjuntos de dados eficazes para pré-treinamento são aqueles com cenas de múltiplas visões e têm sido curados apenas usando malhas 3D anotadas, nuvens de pontos e parâmetros de câmera de ambientes simulados. Propomos um mecanismo de curadoria de dados que não requer nenhuma anotação. Extraímos dois conjuntos de dados: MIMIC-1M com 1,3 milhão e MIMIC-3M com 3,1 milhões de pares de imagens de múltiplas visões a partir de conjuntos de dados de vídeo de código aberto e de ambientes 3D sintéticos. Treinamos vários modelos auto-supervisionados com diferentes objetivos de modelagem de imagem mascarada para demonstrar os seguintes resultados: Representações treinadas no MIMIC-3M superam aquelas extraídas usando anotações em várias tarefas subsequentes, incluindo estimativa de profundidade, segmentação semântica, normais de superfície e estimativa de pose. Elas também superam representações que são congeladas e quando os dados de treinamento subsequentes são limitados a poucos exemplos (few-shot). O conjunto de dados maior (MIMIC-3M) melhora significativamente o desempenho, o que é promissor, já que nosso método de curadoria pode ser escalado arbitrariamente para produzir conjuntos de dados ainda maiores. O código, o conjunto de dados e os modelos pré-treinados do MIMIC estão disponíveis em código aberto em https://github.com/RAIVNLab/MIMIC.
O aprendizado em contexto (ICL, do inglês In-context Learning) melhora o desempenho de modelos de linguagem em uma variedade de tarefas de PLN simplesmente demonstrando alguns exemplos no momento da inferência. Ainda não é bem compreendido por que a capacidade de ICL emerge, já que o modelo nunca foi especificamente treinado com tais demonstrações. Diferente de trabalhos anteriores que exploram mecanismos implícitos por trás do ICL, nós estudamos o ICL investigando os dados de pré-treinamento. Especificamente, primeiro adaptamos uma abordagem iterativa baseada em gradiente para encontrar um pequeno subconjunto de dados de pré-treinamento que suporta o ICL. Observamos que um pré-treinamento contínuo nesse pequeno subconjunto melhora significativamente a capacidade de ICL do modelo, em até 18%. Em seguida, comparamos o subconjunto de suporte contrastivamente com subconjuntos aleatórios de dados de pré-treinamento e descobrimos: (1) Os dados de pré-treinamento que suportam o ICL não têm uma relevância de domínio maior para as tarefas subsequentes. (2) Os dados de pré-treinamento de suporte têm uma maior concentração de tokens raros, de cauda longa. (3) Os dados de pré-treinamento de suporte são exemplos desafiadores onde o ganho de informação a partir do contexto de longo alcance está abaixo da média, indicando que aprender a incorporar contextos de longo alcance difíceis incentiva o ICL. Nosso trabalho dá um primeiro passo para entender o ICL por meio da análise de dados de pré-treinamento em nível de instância. Nossas descobertas têm o potencial de aprimorar a capacidade de ICL de modelos de linguagem ao guiar ativamente a construção de dados de pré-treinamento no futuro.
Grandes modelos de linguagem agora são ajustados para se alinhar aos objetivos de seus criadores, ou seja, serem "úteis e inofensivos". Esses modelos devem responder de forma útil às perguntas dos usuários, mas se recusar a atender solicitações que possam causar danos. No entanto, usuários adversários podem construir entradas que contornam as tentativas de alinhamento. Neste trabalho, estudamos até que ponto esses modelos permanecem alinhados, mesmo ao interagir com um usuário adversário que constrói entradas de pior caso (exemplos adversários). Essas entradas são projetadas para fazer com que o modelo emita conteúdo prejudicial que, de outra forma, seria proibido. Mostramos que os ataques de otimização baseados em PLN existentes não são suficientemente poderosos para atacar de forma confiável modelos de texto alinhados: mesmo quando os ataques atuais baseados em PLN falham, podemos encontrar entradas adversárias com força bruta. Como resultado, a falha dos ataques atuais não deve ser vista como prova de que os modelos de texto alinhados permanecem alinhados sob entradas adversárias. No entanto, a tendência recente em modelos de ML em grande escala são modelos multimodais que permitem que os usuários forneçam imagens que influenciam o texto gerado. Mostramos que esses modelos podem ser facilmente atacados, ou seja, induzidos a realizar comportamentos desalinhados arbitrários por meio de perturbações adversárias na imagem de entrada. Conjecturamos que ataques de PLN aprimorados podem demonstrar o mesmo nível de controle adversário sobre modelos de apenas texto.
Examinamos como os transformadores lidam com dois desafios: aprender aritmética básica de números inteiros e generalizar para sequências mais longas do que as vistas durante o treinamento. Descobrimos que embeddings de posição relativa permitem a generalização de comprimento para tarefas simples, como adição: modelos treinados com números de 5 dígitos conseguem realizar somas de 15 dígitos. No entanto, esse método falha para multiplicação, e propomos o priming do conjunto de treinamento: adicionar algumas (10 a 50) sequências longas ao conjunto de treinamento. Mostramos que o priming permite que modelos treinados com multiplicações de 5 dígitos por 3 dígitos generalizem para exemplos de 35 dígitos por 3. Também mostramos que os modelos podem ser preparados para diferentes comprimentos de generalização e que o tamanho da amostra de priming escala como o logaritmo do tamanho do conjunto de treinamento. Por fim, discutimos possíveis aplicações do priming além da aritmética.