Artigos de pesquisa em IA selecionados diariamente com traduções
Propomos o LENS, uma abordagem modular para resolver problemas de visão computacional ao aproveitar o poder de grandes modelos de linguagem (LLMs). Nosso sistema utiliza um modelo de linguagem para raciocinar sobre as saídas de um conjunto de módulos de visão independentes e altamente descritivos que fornecem informações exaustivas sobre uma imagem. Avaliamos a abordagem em cenários puros de visão computacional, como reconhecimento de objetos em zero-shot e few-shot, bem como em problemas que envolvem visão e linguagem. O LENS pode ser aplicado a qualquer LLM disponível no mercado, e descobrimos que os LLMs com LENS têm um desempenho altamente competitivo em comparação com sistemas muito maiores e mais sofisticados, sem qualquer treinamento multimodal. Disponibilizamos nosso código em https://github.com/ContextualAI/lens e fornecemos uma demonstração interativa.
A IA generativa e os grandes modelos de linguagem têm um grande potencial para aprimorar a educação em computação, impulsionando tecnologias educacionais de próxima geração para o ensino introdutório de programação. Trabalhos recentes têm estudado esses modelos em diferentes cenários relevantes para o ensino de programação; no entanto, essas pesquisas são limitadas por vários motivos, como a consideração de modelos já desatualizados ou apenas cenários específicos. Consequentemente, há uma falta de estudos sistemáticos que avaliem modelos de última geração para um conjunto abrangente de cenários de educação em programação. Em nosso trabalho, avaliamos sistematicamente dois modelos, o ChatGPT (baseado no GPT-3.5) e o GPT-4, e comparamos seu desempenho com o de tutores humanos em uma variedade de cenários. Avaliamos utilizando cinco problemas introdutórios de programação em Python e programas com bugs reais de uma plataforma online, e medimos o desempenho por meio de anotações baseadas em especialistas. Nossos resultados mostram que o GPT-4 supera drasticamente o ChatGPT (baseado no GPT-3.5) e se aproxima do desempenho de tutores humanos em vários cenários. Esses resultados também destacam situações em que o GPT-4 ainda enfrenta dificuldades, apontando direções futuras promissoras para o desenvolvimento de técnicas que melhorem o desempenho desses modelos.
As sequências genômicas (DNA) codificam uma enorme quantidade de informações para a regulação gênica e a síntese de proteínas. Semelhante aos modelos de linguagem natural, pesquisadores propuseram modelos de base em genômica para aprender características generalizáveis a partir de dados genômicos não rotulados, que podem então ser ajustados para tarefas subsequentes, como a identificação de elementos regulatórios. Devido ao escalonamento quadrático da atenção, modelos genômicos baseados em Transformers anteriores utilizaram de 512 a 4 mil tokens como contexto (<0,001% do genoma humano), limitando significativamente a modelagem de interações de longo alcance no DNA. Além disso, esses métodos dependem de tokenizadores para agregar unidades significativas de DNA, perdendo a resolução de nucleotídeos individuais, onde variações genéticas sutis podem alterar completamente a função das proteínas por meio de polimorfismos de nucleotídeo único (SNPs). Recentemente, Hyena, um modelo de linguagem grande baseado em convoluções implícitas, demonstrou igualar a atenção em qualidade, permitindo contextos mais longos e menor complexidade temporal. Aproveitando as novas capacidades de longo alcance do Hyena, apresentamos o HyenaDNA, um modelo de base genômico pré-treinado no genoma de referência humana com comprimentos de contexto de até 1 milhão de tokens no nível de nucleotídeo único, um aumento de até 500 vezes em relação aos modelos anteriores baseados em atenção densa. O HyenaDNA escala sub-quadraticamente no comprimento da sequência (treinando até 160 vezes mais rápido que o Transformer), utiliza tokens de nucleotídeo único e tem contexto global completo em cada camada. Exploramos o que contextos mais longos permitem - incluindo o primeiro uso de aprendizado em contexto em genômica para adaptação simples a novas tarefas sem atualizar os pesos do modelo pré-treinado. Em benchmarks ajustados do Nucleotide Transformer, o HyenaDNA alcança o estado da arte (SotA) em 12 de 17 conjuntos de dados usando um modelo com ordens de magnitude menos parâmetros e dados de pré-treinamento. No GenomicBenchmarks, o HyenaDNA supera o SotA em todos os 8 conjuntos de dados, em média, por +9 pontos de precisão.
O ajuste por instrução desbloqueia a capacidade superior dos Modelos de Linguagem de Grande Escala (LLM) para interagir com humanos. Além disso, conjuntos de dados recentes de seguimento de instruções incluem imagens como entradas visuais, coletando respostas para instruções baseadas em imagens. No entanto, modelos ajustados por instruções visuais não conseguem compreender bem os detalhes textuais dentro das imagens. Este trabalho aprimora o pipeline atual de ajuste por instruções visuais com imagens ricas em texto (por exemplo, pôsteres de filmes, capas de livros, etc.). Especificamente, primeiro utilizamos ferramentas OCR disponíveis publicamente para coletar resultados de 422K imagens ricas em texto do conjunto de dados LAION. Além disso, solicitamos ao GPT-4 apenas texto com textos reconhecidos e legendas de imagens para gerar 16K conversas, cada uma contendo pares de perguntas e respostas para imagens ricas em texto. Ao combinar nossos dados coletados com dados anteriores de seguimento de instruções multimodais, nosso modelo, LLaVAR, melhora substancialmente a capacidade do modelo LLaVA em conjuntos de dados de VQA baseados em texto (até 20% de melhoria na precisão) enquanto alcança uma precisão de 91,42% no ScienceQA. A avaliação de seguimento de instruções baseada no GPT-4 também demonstra a melhoria do nosso modelo tanto em imagens naturais quanto em imagens ricas em texto. Através de análise qualitativa, o LLaVAR mostra habilidades promissoras de interação (por exemplo, raciocínio, escrita e elaboração) com humanos com base no mais recente conteúdo online do mundo real que combina texto e imagens. Disponibilizamos nosso código/dados/modelos publicamente em https://llavar.github.io/.
A capacidade de detectar e analisar automaticamente execuções falhas é crucial para um sistema robótico explicável e robusto. Recentemente, Modelos de Linguagem de Grande Escala (LLMs) demonstraram habilidades avançadas de raciocínio de senso comum em entradas textuais. Para aproveitar o poder dos LLMs na explicação de falhas robóticas, propomos um framework chamado REFLECT, que converte dados multi-sensoriais em um resumo hierárquico das experiências passadas do robô e consulta o LLM com um algoritmo progressivo de explicação de falhas. Condicionado à explicação, um planejador de correção de falhas gera um plano executável para o robô corrigir a falha e concluir a tarefa. Para avaliar sistematicamente o framework, criamos o conjunto de dados RoboFail e mostramos que nosso framework baseado em LLM é capaz de gerar explicações de falhas informativas que auxiliam no planejamento bem-sucedido da correção. Site do projeto: https://roboreflect.github.io/
Modelos de difusão de denoização têm mostrado recentemente resultados impressionantes em tarefas generativas. Ao aprender priors poderosos a partir de grandes coleções de imagens de treinamento, esses modelos são capazes de modificar gradualmente ruído completo para uma imagem natural limpa por meio de uma sequência de pequenos passos de denoização, aparentemente tornando-os bem adequados para a denoização de imagens únicas. No entanto, aplicar efetivamente modelos de difusão de denoização para a remoção de ruído realista é mais desafiador do que pode parecer, uma vez que sua formulação é baseada em ruído gaussiano branco aditivo, ao contrário do ruído em imagens do mundo real. Neste trabalho, apresentamos o SVNR, uma nova formulação de difusão de denoização que assume um modelo de ruído mais realista e espacialmente variante. O SVNR permite usar a imagem de entrada ruidosa como ponto de partida para o processo de difusão de denoização, além de condicionar o processo nela. Para isso, adaptamos o processo de difusão para permitir que cada pixel tenha sua própria incorporação temporal e propomos esquemas de treinamento e inferência que suportam mapas temporais espacialmente variantes. Nossa formulação também leva em consideração a correlação que existe entre a imagem de condição e as amostras ao longo do processo de difusão modificado. Em nossos experimentos, demonstramos as vantagens de nossa abordagem em relação a uma linha de base forte de modelo de difusão, bem como em relação a um método de denoização de imagem única estado da arte.
Modelos de linguagem de grande escala (LLMs) podem não representar de forma equitativa as diversas perspectivas globais sobre questões sociais. Neste artigo, desenvolvemos um framework quantitativo para avaliar a quais opiniões as respostas geradas pelo modelo são mais semelhantes. Primeiro, construímos um conjunto de dados, o GlobalOpinionQA, composto por perguntas e respostas de pesquisas transnacionais projetadas para capturar opiniões diversas sobre questões globais em diferentes países. Em seguida, definimos uma métrica que quantifica a similaridade entre as respostas geradas pelo LLM e as respostas humanas, condicionadas ao país. Com nosso framework, realizamos três experimentos em um LLM treinado para ser útil, honesto e inofensivo com IA Constitucional. Por padrão, as respostas do LLM tendem a ser mais semelhantes às opiniões de certas populações, como as dos EUA e de alguns países europeus e sul-americanos, destacando o potencial para vieses. Quando solicitamos que o modelo considere a perspectiva de um país específico, as respostas mudam para se tornarem mais semelhantes às opiniões das populações solicitadas, mas podem refletir estereótipos culturais prejudiciais. Quando traduzimos as perguntas do GlobalOpinionQA para um idioma-alvo, as respostas do modelo não necessariamente se tornam mais semelhantes às opiniões dos falantes desses idiomas. Disponibilizamos nosso conjunto de dados para que outros possam usá-lo e desenvolvê-lo. Nossos dados estão em https://huggingface.co/datasets/Anthropic/llm_global_opinions. Também fornecemos uma visualização interativa em https://llmglobalvalues.anthropic.com.
Modelos de linguagem de grande escala (LLMs) têm demonstrado capacidades notáveis de forma imediata para uma ampla gama de aplicações, mas a precisão ainda permanece uma área importante de crescimento, especialmente em domínios críticos como a biomedicina. Um método eficaz para calibrar o nível de confiança nas respostas dos LLMs é essencial para detectar automaticamente erros e facilitar a verificação com intervenção humana. Uma fonte importante de sinais de calibração vem da supervisão programática estipulada por especialistas, que muitas vezes está disponível a baixo custo, mas tem suas próprias limitações, como ruído e cobertura. Neste artigo, introduzimos uma estrutura de autossupervisão Pareto ótima que pode aproveitar a supervisão programática disponível para calibrar sistematicamente as respostas dos LLMs, produzindo uma pontuação de risco para cada resposta, sem qualquer esforço manual adicional. Isso é realizado aprendendo um modelo harmonizador para alinhar a saída do LLM com outras fontes de supervisão disponíveis, que atribuirá pontuações de risco mais altas a respostas mais incertas dos LLMs e facilitará a correção de erros. Experimentos em tarefas padrão de extração de relações nos domínios biomédico e geral demonstram o potencial dessa abordagem, com nossas pontuações de risco propostas altamente correlacionadas com a taxa real de erro dos LLMs. Para as instâncias de teste mais incertas, o prompting dinâmico baseado em nossas pontuações de risco propostas resulta em uma melhoria significativa na precisão para LLMs prontos para uso, elevando os resultados do GPT-3 além do estado da arte (SOTA) em supervisão fraca e os resultados do GPT-4 além do SOTA em resultados supervisionados em conjuntos de dados de avaliação desafiadores.
Sistemas recentes de reconhecimento automático de fala (ASR) de ponta a ponta frequentemente utilizam um codificador acústico baseado em Transformer que gera embeddings em uma alta taxa de quadros. No entanto, esse design é ineficiente, especialmente para sinais de fala longos, devido ao cálculo quadrático da auto-atenção. Para resolver isso, propomos um novo método, Adjacent Token Merging (A-ToMe), que combina gradualmente tokens adjacentes com altas pontuações de similaridade entre seus valores-chave. Dessa forma, o número total de passos de tempo pode ser reduzido, e a inferência tanto do codificador quanto da rede conjunta é acelerada. Experimentos no LibriSpeech mostram que nosso método pode reduzir 57% dos tokens e melhorar a velocidade de inferência em GPU em 70% sem perda significativa de precisão. Além disso, demonstramos que o A-ToMe também é uma solução eficaz para reduzir tokens em ASR de longa duração, onde a fala de entrada consiste em múltiplas enunciados.