Artigos de pesquisa em IA selecionados diariamente com traduções
Os grandes modelos de linguagem (LLMs, do inglês Large Language Models) estão ganhando popularidade crescente tanto na academia quanto na indústria, devido ao seu desempenho sem precedentes em diversas aplicações. À medida que os LLMs continuam a desempenhar um papel vital tanto na pesquisa quanto no uso diário, sua avaliação torna-se cada vez mais crítica, não apenas no nível de tarefas, mas também no nível da sociedade, para uma melhor compreensão de seus riscos potenciais. Nos últimos anos, foram feitos esforços significativos para examinar os LLMs sob diversas perspectivas. Este artigo apresenta uma revisão abrangente desses métodos de avaliação para LLMs, focando em três dimensões principais: o que avaliar, onde avaliar e como avaliar. Primeiramente, fornecemos uma visão geral a partir da perspectiva das tarefas de avaliação, abrangendo tarefas gerais de processamento de linguagem natural, raciocínio, uso médico, ética, educação, ciências naturais e sociais, aplicações de agentes e outras áreas. Em segundo lugar, respondemos às perguntas "onde" e "como" ao mergulhar nos métodos e benchmarks de avaliação, que servem como componentes cruciais na avaliação do desempenho dos LLMs. Em seguida, resumimos os casos de sucesso e fracasso dos LLMs em diferentes tarefas. Por fim, destacamos vários desafios futuros que estão à frente na avaliação de LLMs. Nosso objetivo é oferecer insights valiosos para pesquisadores no campo da avaliação de LLMs, ajudando assim no desenvolvimento de LLMs mais proficientes. Nosso ponto principal é que a avaliação deve ser tratada como uma disciplina essencial para melhor auxiliar o desenvolvimento de LLMs. Mantemos consistentemente os materiais de código aberto relacionados em: https://github.com/MLGroupJLU/LLM-eval-survey.
Embora os modelos de linguagem recentes tenham a capacidade de receber contextos longos como entrada, relativamente pouco se sabe sobre quão bem esses modelos utilizam contextos mais extensos. Analisamos o desempenho dos modelos de linguagem em duas tarefas que exigem a identificação de informações relevantes dentro de seus contextos de entrada: resposta a perguntas em múltiplos documentos e recuperação de pares chave-valor. Descobrimos que o desempenho é frequentemente mais alto quando as informações relevantes ocorrem no início ou no final do contexto de entrada, e degrada significativamente quando os modelos precisam acessar informações relevantes no meio de contextos longos. Além disso, o desempenho diminui substancialmente à medida que o contexto de entrada cresce, mesmo para modelos explicitamente projetados para contextos longos. Nossa análise fornece uma melhor compreensão de como os modelos de linguagem utilizam seu contexto de entrada e oferece novos protocolos de avaliação para futuros modelos de contexto longo.
Muitas abordagens cognitivas para o bem-estar, como reconhecer e reformular pensamentos inúteis, receberam considerável apoio empírico ao longo das últimas décadas, mas ainda carecem de uma adoção verdadeiramente generalizada em formato de autoajuda. Uma barreira para essa adoção é a falta de material de prática dedicado suficientemente específico e diversificado. Este trabalho examina se os modelos de linguagem atuais podem ser utilizados tanto para produzir uma quantidade virtualmente ilimitada de material de prática ilustrando padrões de pensamento inúteis padrão que correspondem a contextos específicos dados, quanto para gerar propostas adequadas de reformulação positiva. Propomos o PATTERNREFRAME, um novo conjunto de dados com cerca de 10 mil exemplos de pensamentos contendo padrões de pensamento inúteis condicionados a uma determinada persona, acompanhados por cerca de 27 mil reformulações positivas. Ao usar esse conjunto de dados para treinar e/ou avaliar os modelos atuais, mostramos que os modelos existentes já podem ser ferramentas poderosas para ajudar a gerar uma abundância de material de prática e hipóteses personalizadas, sem ou com mínimo treinamento adicional do modelo necessário.
Modelos de linguagem de grande escala possuem uma capacidade excepcional de incorporar novas informações de maneira contextual. No entanto, o potencial total dessa abordagem é frequentemente limitado devido a uma restrição no comprimento efetivo do contexto. Uma solução para esse problema é dotar uma camada de atenção com acesso a uma memória externa, que consiste em pares (chave, valor). Contudo, à medida que o número de documentos aumenta, a proporção de chaves relevantes em relação às irrelevantes diminui, fazendo com que o modelo se concentre mais nas chaves irrelevantes. Identificamos um desafio significativo, denominado problema de distração, no qual chaves associadas a diferentes valores semânticos podem se sobrepor, tornando-as difíceis de distinguir. Para enfrentar esse problema, introduzimos o Transformer Focado (FoT), uma técnica que emprega um processo de treinamento inspirado no aprendizado contrastivo. Essa nova abordagem melhora a estrutura do espaço (chave, valor), permitindo uma extensão do comprimento do contexto. Nosso método possibilita o ajuste fino de modelos pré-existentes e de grande escala para aumentar seu contexto efetivo. Isso é demonstrado pelo nosso ajuste fino dos checkpoints OpenLLaMA de 3B e 7B. Os modelos resultantes, que nomeamos LongLLaMA, exibem avanços em tarefas que exigem um contexto longo. Além disso, ilustramos que nossos modelos LongLLaMA gerenciam habilmente um comprimento de contexto de 256 k para recuperação de chaves de acesso.
Modelos de linguagem autoregressivos de grande escala (LLMs) têm alcançado progressos notáveis em diversas tarefas de geração de linguagem natural. No entanto, eles incorrem em altos custos computacionais e latência decorrentes da geração token por token autoregressiva. Para abordar esse problema, várias abordagens foram propostas para reduzir o custo computacional utilizando estratégias de saída antecipada. Essas estratégias permitem uma geração de texto mais rápida ao empregar computação reduzida, sem aplicar o grafo computacional completo a cada token. Embora os métodos existentes de saída antecipada em nível de token mostrem resultados promissores para inferência online, eles não podem ser facilmente aplicados para inferência em lote e armazenamento em cache de chave-valor (KV). Isso ocorre porque eles precisam aguardar até que o último token em um lote saia antes de interromper o cálculo. Isso limita severamente a aplicação prática de tais técnicas. Neste artigo, propomos um método simples e eficaz de saída antecipada em nível de token, chamado SkipDecode, projetado para funcionar de forma integrada com inferência em lote e armazenamento em cache KV. Ele supera as limitações anteriores ao estabelecer um ponto de saída único para cada token em um lote em cada posição da sequência. Ele também garante uma diminuição monotônica nos pontos de saída, eliminando a necessidade de recalcular caches KV para tokens anteriores. Em vez de interromper o cálculo prematuramente, como em trabalhos anteriores, nossa abordagem ignora as camadas inferiores e intermediárias, dedicando a maior parte dos recursos computacionais às camadas superiores, permitindo que tokens posteriores se beneficiem do gasto computacional dos tokens anteriores. Nossos resultados experimentais mostram que o SkipDecode pode obter acelerações de inferência de 2x a 5x com regressão negligenciável em uma variedade de tarefas. Isso é alcançado utilizando modelos OPT com 1,3 bilhão e 6,7 bilhões de parâmetros, mantendo compatibilidade direta com técnicas de otimização de lote e armazenamento em cache KV.
Neste artigo, focamos no Whisper, um modelo recente de reconhecimento automático de fala treinado com um extenso corpus de 680 mil horas de fala rotulada, gravado em diversas condições. Primeiramente, apresentamos uma descoberta interessante: embora o Whisper seja bastante robusto contra sons de fundo do mundo real (por exemplo, música), sua representação de áudio não é invariante ao ruído, mas sim altamente correlacionada com sons não verbais, indicando que o Whisper reconhece a fala condicionada ao tipo de ruído. Com base nessa descoberta, construímos um modelo unificado de etiquetagem de áudio e reconhecimento de fala, o Whisper-AT, congelando a estrutura principal do Whisper e treinando um modelo leve de etiquetagem de áudio sobre ela. Com um custo computacional adicional de <1%, o Whisper-AT é capaz de reconhecer eventos de áudio, além de texto falado, em uma única passagem direta.
Avaliamos as capacidades de compreensão de vídeo dos modelos de base existentes utilizando um protocolo de experimento cuidadosamente projetado, composto por três tarefas fundamentais (reconhecimento de ação, localização temporal e localização espaço-temporal), oito conjuntos de dados amplamente reconhecidos pela comunidade e quatro métodos de adaptação que ajustam um modelo de base (FM) para uma tarefa específica. Além disso, propomos uma pontuação escalar chamada VideoGLUE (VGS) para medir a eficácia e eficiência de um FM ao se adaptar a tarefas gerais de compreensão de vídeo. Nossas principais descobertas são as seguintes. Primeiro, modelos especializados em tarefas superam significativamente os seis FMs estudados neste trabalho, em contraste marcante com o que os FMs alcançaram na compreensão de linguagem natural e de imagens. Segundo, FMs nativos de vídeo, cujos dados de pré-treinamento incluem a modalidade de vídeo, geralmente se saem melhor do que FMs nativos de imagem na classificação de vídeos ricos em movimento, na localização temporal de ações e na compreensão de vídeos com mais de uma ação. Terceiro, os FMs nativos de vídeo podem ter um bom desempenho em tarefas de vídeo com adaptações leves às tarefas subsequentes (por exemplo, congelando os backbones do FM), enquanto os FMs nativos de imagem se destacam no ajuste fino completo de ponta a ponta. As duas primeiras observações revelam a necessidade e as enormes oportunidades de pesquisa em FMs focados em vídeo, e a última confirma que tanto as tarefas quanto os métodos de adaptação são importantes na avaliação dos FMs.