Artigos de pesquisa em IA selecionados diariamente com traduções
Neste trabalho, desenvolvemos e lançamos o Llama 2, uma coleção de modelos de linguagem de grande escala (LLMs) pré-treinados e ajustados, variando em escala de 7 bilhões a 70 bilhões de parâmetros. Nossos LLMs ajustados, chamados Llama 2-Chat, são otimizados para casos de uso em diálogos. Nossos modelos superam modelos de chat de código aberto na maioria dos benchmarks que testamos e, com base em nossas avaliações humanas de utilidade e segurança, podem ser um substituto adequado para modelos de código fechado. Fornecemos uma descrição detalhada de nossa abordagem para ajuste fino e melhorias de segurança do Llama 2-Chat, a fim de permitir que a comunidade construa sobre nosso trabalho e contribua para o desenvolvimento responsável de LLMs.
GPT-3.5 e GPT-4 são os dois serviços de modelos de linguagem de grande escala (LLM) mais amplamente utilizados. No entanto, quando e como esses modelos são atualizados ao longo do tempo permanece obscuro. Aqui, avaliamos as versões de março de 2023 e junho de 2023 do GPT-3.5 e GPT-4 em quatro tarefas diversas: 1) resolver problemas matemáticos, 2) responder perguntas sensíveis/perigosas, 3) gerar código e 4) raciocínio visual. Descobrimos que o desempenho e o comportamento tanto do GPT-3.5 quanto do GPT-4 podem variar significativamente ao longo do tempo. Por exemplo, o GPT-4 (março de 2023) foi muito bom em identificar números primos (precisão de 97,6%), mas o GPT-4 (junho de 2023) foi muito ruim nessas mesmas questões (precisão de 2,4%). Curiosamente, o GPT-3.5 (junho de 2023) foi muito melhor que o GPT-3.5 (março de 2023) nessa tarefa. O GPT-4 foi menos propenso a responder perguntas sensíveis em junho do que em março, e tanto o GPT-4 quanto o GPT-3.5 cometeram mais erros de formatação na geração de código em junho do que em março. No geral, nossos resultados mostram que o comportamento do mesmo serviço de LLM pode mudar substancialmente em um período relativamente curto, destacando a necessidade de monitoramento contínuo da qualidade dos LLMs.
A análise de circuitos é uma técnica promissora para compreender os mecanismos internos dos modelos de linguagem. No entanto, as análises existentes são realizadas em modelos pequenos, distantes do estado da arte. Para abordar essa lacuna, apresentamos um estudo de caso de análise de circuitos no modelo Chinchilla de 70B, com o objetivo de testar a escalabilidade da análise de circuitos. Em particular, estudamos a tarefa de resposta a perguntas de múltipla escolha e investigamos a capacidade do Chinchilla de identificar o rótulo da resposta correta, dado o conhecimento do texto da resposta correta. Descobrimos que as técnicas existentes de atribuição de logits, visualização de padrões de atenção e aplicação de patches de ativação escalam naturalmente para o Chinchilla, permitindo-nos identificar e categorizar um pequeno conjunto de "nós de saída" (cabeças de atenção e MLPs). Além disso, estudamos a categoria de cabeças de atenção de "letra correta" com o objetivo de entender a semântica de suas características, com resultados mistos. Para respostas normais de perguntas de múltipla escolha, comprimimos significativamente os subespaços de consulta, chave e valor da cabeça sem perda de desempenho ao operar nos rótulos das respostas de múltipla escolha, e mostramos que os subespaços de consulta e chave representam, pelo menos em parte, uma característica de "N-ésimo item em uma enumeração". No entanto, quando tentamos usar essa explicação para entender o comportamento das cabeças em uma distribuição mais geral, incluindo rótulos de respostas randomizados, descobrimos que ela é apenas uma explicação parcial, sugerindo que há mais a aprender sobre a operação das cabeças de "letra correta" na tarefa de resposta a perguntas de múltipla escolha.
Modelos de contraste imagem-texto, como o CLIP, são úteis para uma variedade de aplicações subsequentes, incluindo classificação zero-shot, recuperação de imagem-texto e transferência de aprendizado. No entanto, esses modelos de visão e linguagem treinados de forma contrastiva frequentemente falham em tarefas visio-linguísticas composicionais, como o Winoground, com desempenho equivalente ao acaso aleatório. Em nosso artigo, abordamos essa questão e propomos um método leve e eficiente em termos de amostras, chamado SDS-CLIP, para melhorar as capacidades de raciocínio visio-linguístico composicional do CLIP. A ideia central do nosso método é usar parametrizações de imagem diferenciáveis para ajustar o CLIP com um objetivo de destilação a partir de grandes modelos generativos de texto para imagem, como o Stable-Diffusion, que são relativamente bons em tarefas de raciocínio visio-linguístico. No desafiador benchmark de raciocínio composicional Winoground, nosso método melhora o desempenho visio-linguístico absoluto de diferentes modelos CLIP em até 7%, enquanto no conjunto de dados ARO, nosso método melhora o desempenho visio-linguístico em até 3%. Como um subproduto da indução de raciocínio visio-linguístico no CLIP, também observamos que o desempenho zero-shot melhora marginalmente em uma variedade de conjuntos de dados subsequentes. Nosso método reforça que objetivos de destilação cuidadosamente projetados a partir de modelos generativos podem ser aproveitados para estender os modelos de contraste imagem-texto existentes com capacidades aprimoradas de raciocínio visio-linguístico.
Progressos notáveis foram alcançados na reconstrução 3D a partir de entradas RGB-D de visão única. O MCC é o método estado da arte atual nesse campo, que alcança sucesso sem precedentes ao combinar Transformers de visão com treinamento em larga escala. No entanto, identificamos duas limitações principais do MCC: 1) O decodificador Transformer é ineficiente ao lidar com um grande número de pontos de consulta; 2) A representação 3D tem dificuldade em recuperar detalhes de alta fidelidade. Neste artigo, propomos uma nova abordagem chamada NU-MCC que aborda essas limitações. O NU-MCC inclui duas inovações principais: um decodificador de vizinhança e uma Função de Distância Não Assinada Repulsiva (Repulsive UDF). Primeiro, nosso decodificador de vizinhança introduz pontos centrais como um proxy eficiente das características visuais de entrada, permitindo que cada ponto de consulta atenda apenas a uma pequena vizinhança. Esse design não apenas resulta em uma velocidade de inferência muito mais rápida, mas também permite a exploração de características visuais em escala mais fina para uma recuperação aprimorada das texturas 3D. Segundo, nossa Repulsive UDF é uma alternativa inovadora ao campo de ocupação usado no MCC, melhorando significativamente a qualidade da reconstrução de objetos 3D. Comparada às UDFs padrão que sofrem com buracos nos resultados, nossa Repulsive UDF proposta pode alcançar uma reconstrução de superfície mais completa. Resultados experimentais demonstram que o NU-MCC é capaz de aprender uma representação 3D robusta, avançando significativamente o estado da arte na reconstrução 3D de visão única. Particularmente, ele supera o MCC em 9,7% em termos de F1-score no conjunto de dados CO3D-v2, com uma velocidade de execução mais de 5 vezes mais rápida.
Apresentamos o Biomaker CA: um projeto Biome Maker utilizando Autômatos Celulares (CA). No Biomaker CA, a morfogênese é um elemento central, e pequenas sementes precisam crescer em organismos semelhantes a plantas para sobreviver em um ambiente com escassez de nutrientes e, eventualmente, se reproduzir com variação, de modo que um bioma sobreviva por longos períodos. Simulamos biomas complexos por meio de regras de CA em grades 2D e paralelizamos todos os cálculos em GPUs utilizando o framework Python JAX. Mostramos como este projeto permite a criação de diversos tipos de ambientes e leis da 'física', juntamente com diferentes arquiteturas de modelos e estratégias de mutação. Analisamos ainda algumas configurações para demonstrar como agentes vegetais podem crescer, sobreviver, reproduzir-se e evoluir, formando biomas estáveis e instáveis. Em seguida, demonstramos como é possível meta-evoluir modelos para sobreviver em um ambiente hostil, seja por meio de meta-evolução de ponta a ponta ou por uma abordagem mais cirúrgica e eficiente, chamada meta-evolução em placa de Petri. Por fim, mostramos como realizar evolução interativa, onde o usuário decide como evoluir um modelo de planta de forma interativa e, em seguida, o implanta em um ambiente maior. Disponibilizamos o código-fonte do Biomaker CA em: https://tinyurl.com/2x8yu34s.