HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

6 papers found

Llama 2: Base Aberta e Modelos de Chat Ajustados
Llama 2: Open Foundation and Fine-Tuned Chat Models

Jul 18

ByHugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, Dan Bikel, Lukas Blecher, Cristian Canton Ferrer, Moya Chen, Guillem Cucurull, David Esiobu, Jude Fernandes, Jeremy Fu, Wenyin Fu, Brian Fuller, Cynthia Gao, Vedanuj Goswami, Naman Goyal, Anthony Hartshorn, Saghar Hosseini, Rui Hou, Hakan Inan, Marcin Kardas, Viktor Kerkez, Madian Khabsa, Isabel Kloumann, Artem Korenev, Punit Singh Koura, Marie-Anne Lachaux, Thibaut Lavril, Jenya Lee, Diana Liskovich, Yinghai Lu, Yuning Mao, Xavier Martinet, Todor Mihaylov, Pushkar Mishra, Igor Molybog, Yixin Nie, Andrew Poulton, Jeremy Reizenstein, Rashi Rungta, Kalyan Saladi, Alan Schelten, Ruan Silva, Eric Michael Smith, Ranjan Subramanian, Xiaoqing Ellen Tan, Binh Tang, Ross Taylor, Adina Williams, Jian Xiang Kuan, Puxin Xu, Zheng Yan, Iliyan Zarov, Yuchen Zhang, Angela Fan, Melanie Kambadur, Sharan Narang, Aurelien Rodriguez, Robert Stojnic, Sergey Edunov, Thomas Scialom

245

Neste trabalho, desenvolvemos e lançamos o Llama 2, uma coleção de modelos de linguagem de grande escala (LLMs) pré-treinados e ajustados, variando em escala de 7 bilhões a 70 bilhões de parâmetros. Nossos LLMs ajustados, chamados Llama 2-Chat, são otimizados para casos de uso em diálogos. Nossos modelos superam modelos de chat de código aberto na maioria dos benchmarks que testamos e, com base em nossas avaliações humanas de utilidade e segurança, podem ser um substituto adequado para modelos de código fechado. Fornecemos uma descrição detalhada de nossa abordagem para ajuste fino e melhorias de segurança do Llama 2-Chat, a fim de permitir que a comunidade construa sobre nosso trabalho e contribua para o desenvolvimento responsável de LLMs.

Como o comportamento do ChatGPT está mudando ao longo do tempo?
How is ChatGPT's behavior changing over time?

Jul 18

ByLingjiao Chen, Matei Zaharia, James Zou

GPT-3.5 e GPT-4 são os dois serviços de modelos de linguagem de grande escala (LLM) mais amplamente utilizados. No entanto, quando e como esses modelos são atualizados ao longo do tempo permanece obscuro. Aqui, avaliamos as versões de março de 2023 e junho de 2023 do GPT-3.5 e GPT-4 em quatro tarefas diversas: 1) resolver problemas matemáticos, 2) responder perguntas sensíveis/perigosas, 3) gerar código e 4) raciocínio visual. Descobrimos que o desempenho e o comportamento tanto do GPT-3.5 quanto do GPT-4 podem variar significativamente ao longo do tempo. Por exemplo, o GPT-4 (março de 2023) foi muito bom em identificar números primos (precisão de 97,6%), mas o GPT-4 (junho de 2023) foi muito ruim nessas mesmas questões (precisão de 2,4%). Curiosamente, o GPT-3.5 (junho de 2023) foi muito melhor que o GPT-3.5 (março de 2023) nessa tarefa. O GPT-4 foi menos propenso a responder perguntas sensíveis em junho do que em março, e tanto o GPT-4 quanto o GPT-3.5 cometeram mais erros de formatação na geração de código em junho do que em março. No geral, nossos resultados mostram que o comportamento do mesmo serviço de LLM pode mudar substancialmente em um período relativamente curto, destacando a necessidade de monitoramento contínuo da qualidade dos LLMs.

A Análise de Circuitos Escala em Interpretabilidade? Evidências a partir de Capacidades de Múltipla Escolha em Chinchilla
Does Circuit Analysis Interpretability Scale? Evidence from Multiple Choice Capabilities in Chinchilla

Jul 18

ByTom Lieberum, Matthew Rahtz, János Kramár, Geoffrey Irving, Rohin Shah, Vladimir Mikulik

A análise de circuitos é uma técnica promissora para compreender os mecanismos internos dos modelos de linguagem. No entanto, as análises existentes são realizadas em modelos pequenos, distantes do estado da arte. Para abordar essa lacuna, apresentamos um estudo de caso de análise de circuitos no modelo Chinchilla de 70B, com o objetivo de testar a escalabilidade da análise de circuitos. Em particular, estudamos a tarefa de resposta a perguntas de múltipla escolha e investigamos a capacidade do Chinchilla de identificar o rótulo da resposta correta, dado o conhecimento do texto da resposta correta. Descobrimos que as técnicas existentes de atribuição de logits, visualização de padrões de atenção e aplicação de patches de ativação escalam naturalmente para o Chinchilla, permitindo-nos identificar e categorizar um pequeno conjunto de "nós de saída" (cabeças de atenção e MLPs). Além disso, estudamos a categoria de cabeças de atenção de "letra correta" com o objetivo de entender a semântica de suas características, com resultados mistos. Para respostas normais de perguntas de múltipla escolha, comprimimos significativamente os subespaços de consulta, chave e valor da cabeça sem perda de desempenho ao operar nos rótulos das respostas de múltipla escolha, e mostramos que os subespaços de consulta e chave representam, pelo menos em parte, uma característica de "N-ésimo item em uma enumeração". No entanto, quando tentamos usar essa explicação para entender o comportamento das cabeças em uma distribuição mais geral, incluindo rótulos de respostas randomizados, descobrimos que ela é apenas uma explicação parcial, sugerindo que há mais a aprender sobre a operação das cabeças de "letra correta" na tarefa de resposta a perguntas de múltipla escolha.

Aprimorando o CLIP com Raciocínio Visio-Linguístico Melhorado
Augmenting CLIP with Improved Visio-Linguistic Reasoning

Jul 18

BySamyadeep Basu, Maziar Sanjabi, Daniela Massiceti, Shell Xu Hu, Soheil Feizi

Modelos de contraste imagem-texto, como o CLIP, são úteis para uma variedade de aplicações subsequentes, incluindo classificação zero-shot, recuperação de imagem-texto e transferência de aprendizado. No entanto, esses modelos de visão e linguagem treinados de forma contrastiva frequentemente falham em tarefas visio-linguísticas composicionais, como o Winoground, com desempenho equivalente ao acaso aleatório. Em nosso artigo, abordamos essa questão e propomos um método leve e eficiente em termos de amostras, chamado SDS-CLIP, para melhorar as capacidades de raciocínio visio-linguístico composicional do CLIP. A ideia central do nosso método é usar parametrizações de imagem diferenciáveis para ajustar o CLIP com um objetivo de destilação a partir de grandes modelos generativos de texto para imagem, como o Stable-Diffusion, que são relativamente bons em tarefas de raciocínio visio-linguístico. No desafiador benchmark de raciocínio composicional Winoground, nosso método melhora o desempenho visio-linguístico absoluto de diferentes modelos CLIP em até 7%, enquanto no conjunto de dados ARO, nosso método melhora o desempenho visio-linguístico em até 3%. Como um subproduto da indução de raciocínio visio-linguístico no CLIP, também observamos que o desempenho zero-shot melhora marginalmente em uma variedade de conjuntos de dados subsequentes. Nosso método reforça que objetivos de destilação cuidadosamente projetados a partir de modelos generativos podem ser aproveitados para estender os modelos de contraste imagem-texto existentes com capacidades aprimoradas de raciocínio visio-linguístico.

NU-MCC: Codificação Compressiva Multivista com Decodificador de Vizinhança e UDF Repulsivo
NU-MCC: Multiview Compressive Coding with Neighborhood Decoder and Repulsive UDF

Jul 18

ByStefan Lionar, Xiangyu Xu, Min Lin, Gim Hee Lee

Progressos notáveis foram alcançados na reconstrução 3D a partir de entradas RGB-D de visão única. O MCC é o método estado da arte atual nesse campo, que alcança sucesso sem precedentes ao combinar Transformers de visão com treinamento em larga escala. No entanto, identificamos duas limitações principais do MCC: 1) O decodificador Transformer é ineficiente ao lidar com um grande número de pontos de consulta; 2) A representação 3D tem dificuldade em recuperar detalhes de alta fidelidade. Neste artigo, propomos uma nova abordagem chamada NU-MCC que aborda essas limitações. O NU-MCC inclui duas inovações principais: um decodificador de vizinhança e uma Função de Distância Não Assinada Repulsiva (Repulsive UDF). Primeiro, nosso decodificador de vizinhança introduz pontos centrais como um proxy eficiente das características visuais de entrada, permitindo que cada ponto de consulta atenda apenas a uma pequena vizinhança. Esse design não apenas resulta em uma velocidade de inferência muito mais rápida, mas também permite a exploração de características visuais em escala mais fina para uma recuperação aprimorada das texturas 3D. Segundo, nossa Repulsive UDF é uma alternativa inovadora ao campo de ocupação usado no MCC, melhorando significativamente a qualidade da reconstrução de objetos 3D. Comparada às UDFs padrão que sofrem com buracos nos resultados, nossa Repulsive UDF proposta pode alcançar uma reconstrução de superfície mais completa. Resultados experimentais demonstram que o NU-MCC é capaz de aprender uma representação 3D robusta, avançando significativamente o estado da arte na reconstrução 3D de visão única. Particularmente, ele supera o MCC em 9,7% em termos de F1-score no conjunto de dados CO3D-v2, com uma velocidade de execução mais de 5 vezes mais rápida.

Biomaker CA: um projeto de Criador de Biomas utilizando Autômatos Celulares
Biomaker CA: a Biome Maker project using Cellular Automata

Jul 18

ByEttore Randazzo, Alexander Mordvintsev

Apresentamos o Biomaker CA: um projeto Biome Maker utilizando Autômatos Celulares (CA). No Biomaker CA, a morfogênese é um elemento central, e pequenas sementes precisam crescer em organismos semelhantes a plantas para sobreviver em um ambiente com escassez de nutrientes e, eventualmente, se reproduzir com variação, de modo que um bioma sobreviva por longos períodos. Simulamos biomas complexos por meio de regras de CA em grades 2D e paralelizamos todos os cálculos em GPUs utilizando o framework Python JAX. Mostramos como este projeto permite a criação de diversos tipos de ambientes e leis da 'física', juntamente com diferentes arquiteturas de modelos e estratégias de mutação. Analisamos ainda algumas configurações para demonstrar como agentes vegetais podem crescer, sobreviver, reproduzir-se e evoluir, formando biomas estáveis e instáveis. Em seguida, demonstramos como é possível meta-evoluir modelos para sobreviver em um ambiente hostil, seja por meio de meta-evolução de ponta a ponta ou por uma abordagem mais cirúrgica e eficiente, chamada meta-evolução em placa de Petri. Por fim, mostramos como realizar evolução interativa, onde o usuário decide como evoluir um modelo de planta de forma interativa e, em seguida, o implanta em um ambiente maior. Disponibilizamos o código-fonte do Biomaker CA em: https://tinyurl.com/2x8yu34s.

A Análise de Circuitos Escala em Interpretabilidade? Evidências a partir de Capacidades de Múltipla Escolha em Chinchilla
Does Circuit Analysis Interpretability Scale? Evidence from Multiple Choice Capabilities in Chinchilla

Jul 18

ByTom Lieberum, Matthew Rahtz, János Kramár, Geoffrey Irving, Rohin Shah, Vladimir Mikulik