Artigos de pesquisa em IA selecionados diariamente com traduções
O recente aumento de modelos de linguagem de grande escala (LLMs) de código aberto, como LLaMA, Falcon e Mistral, oferece diversas opções para profissionais e pesquisadores de IA. No entanto, a maioria dos LLMs lançou apenas artefatos parciais, como os pesos finais do modelo ou o código de inferência, e os relatórios técnicos têm limitado cada vez mais seu escopo a escolhas de design de alto nível e estatísticas superficiais. Essas escolhas prejudicam o progresso no campo ao reduzir a transparência no treinamento dos LLMs e forçar equipes a redescobrir muitos detalhes do processo de treinamento. Apresentamos o LLM360, uma iniciativa para disponibilizar totalmente LLMs de código aberto, que defende que todo o código e dados de treinamento, checkpoints do modelo e resultados intermediários sejam disponibilizados para a comunidade. O objetivo do LLM360 é apoiar a pesquisa em IA aberta e colaborativa, tornando o processo de treinamento de LLMs de ponta a ponta transparente e reproduzível por todos. Como primeiro passo do LLM360, lançamos dois LLMs de 7 bilhões de parâmetros pré-treinados do zero, Amber e CrystalCoder, incluindo seu código de treinamento, dados, checkpoints intermediários e análises (disponíveis em https://www.llm360.ai). Estamos comprometidos em continuar a expandir os limites dos LLMs por meio desse esforço de código aberto. Modelos em maior escala e mais robustos estão em desenvolvimento e serão lançados no futuro.
O ajuste fino de modelos de linguagem (LMs) em dados gerados por humanos continua sendo uma prática prevalente. No entanto, o desempenho desses modelos é frequentemente limitado pela quantidade e diversidade de dados humanos de alta qualidade. Neste artigo, exploramos se podemos ir além dos dados humanos em tarefas onde temos acesso a feedback escalar, por exemplo, em problemas de matemática onde é possível verificar a correção. Para isso, investigamos um método simples de autoaprendizagem baseado em maximização de expectativas, que chamamos de ReST^{EM}, onde (1) geramos amostras a partir do modelo e as filtramos usando feedback binário, (2) ajustamos o modelo nessas amostras e (3) repetimos esse processo algumas vezes. Testando em benchmarks avançados de raciocínio matemático (MATH) e codificação (APPS) usando modelos PaLM-2, descobrimos que o ReST^{EM} escala favoravelmente com o tamanho do modelo e supera significativamente o ajuste fino apenas em dados humanos. No geral, nossos resultados sugerem que o autoaprendizado com feedback pode reduzir substancialmente a dependência de dados gerados por humanos.
Recentemente, a criação de conteúdo 3D a partir de prompts de texto demonstrou progressos notáveis ao utilizar modelos de difusão 2D e 3D. Embora os modelos de difusão 3D garantam uma excelente consistência multi-visual, sua capacidade de gerar ativos 3D de alta qualidade e diversificados é limitada pela escassez de dados 3D. Em contraste, os modelos de difusão 2D adotam uma abordagem de destilação que alcança uma generalização excelente e detalhes ricos sem a necessidade de dados 3D. No entanto, os métodos de elevação 2D sofrem com uma ambiguidade inerente de visão agnóstica, levando a sérios problemas de multi-face Janus, onde os prompts de texto não fornecem orientação suficiente para aprender resultados 3D coerentes. Em vez de retreinar um modelo dispendioso que seja consciente do ponto de vista, estudamos como explorar plenamente o conhecimento 3D grosseiro de fácil acesso para aprimorar os prompts e guiar a otimização de elevação 2D para refinamento. Neste artigo, propomos o Sherpa3D, um novo framework de texto para 3D que alcança alta fidelidade, generalizabilidade e consistência geométrica simultaneamente. Especificamente, projetamos um par de estratégias de orientação derivadas do conhecimento 3D grosseiro gerado pelo modelo de difusão 3D: uma orientação estrutural para fidelidade geométrica e uma orientação semântica para coerência 3D. Empregando esses dois tipos de orientação, o modelo de difusão 2D enriquece o conteúdo 3D com resultados diversificados e de alta qualidade. Experimentos extensivos mostram a superioridade do nosso Sherpa3D em relação aos métodos state-of-the-art de texto para 3D em termos de qualidade e consistência 3D.
Apresentamos o W.A.L.T, uma abordagem baseada em transformers para geração de vídeos fotorrealistas por meio de modelagem de difusão. Nossa abordagem possui duas decisões de projeto fundamentais. Primeiro, utilizamos um codificador causal para comprimir imagens e vídeos conjuntamente em um espaço latente unificado, permitindo treinamento e geração entre modalidades. Segundo, para eficiência de memória e treinamento, empregamos uma arquitetura de atenção por janela (window attention) projetada especificamente para modelagem generativa conjunta espacial e espaço-temporal. Juntas, essas decisões de projeto nos permitem alcançar desempenho de ponta em benchmarks estabelecidos de geração de vídeos (UCF-101 e Kinetics-600) e imagens (ImageNet) sem utilizar orientação livre de classificador (classifier free guidance). Por fim, também treinamos uma cascata de três modelos para a tarefa de geração de texto para vídeo, composta por um modelo base de difusão latente de vídeo e dois modelos de difusão para super-resolução de vídeo, capazes de gerar vídeos com resolução de 512x896 a 8 quadros por segundo.
Os modernos Modelos de Grande Escala de Visão e Linguagem (LVLMs) utilizam o mesmo vocabulário visual -- CLIP, que pode cobrir a maioria das tarefas visuais comuns. No entanto, para algumas tarefas visuais especiais que exigem percepção visual densa e refinada, como OCR em nível de documento ou compreensão de gráficos, especialmente em cenários não ingleses, o vocabulário no estilo CLIP pode enfrentar baixa eficiência na tokenização do conhecimento visual e até mesmo sofrer com problemas de termos fora do vocabulário. Diante disso, propomos o Vary, um método eficiente e eficaz para ampliar o vocabulário visual dos LVLMs. Os procedimentos do Vary são naturalmente divididos em duas etapas: a geração e a integração de um novo vocabulário visual. Na primeira fase, projetamos uma rede de vocabulário junto com um pequeno transformador apenas de decodificação para produzir o vocabulário desejado por meio de autoregressão. Em seguida, ampliamos o vocabulário visual original ao mesclar o novo com o original (CLIP), permitindo que os LVLMs possam rapidamente adquirir novos recursos. Em comparação com os populares BLIP-2, MiniGPT4 e LLaVA, o Vary consegue manter suas capacidades originais enquanto desfruta de uma capacidade de percepção e compreensão refinada ainda melhor. Especificamente, o Vary é competente em novas funcionalidades de análise de documentos (OCR ou conversão para markdown), alcançando 78,2% de ANLS no DocVQA e 36,2% no MMVet. Nosso código estará publicamente disponível na página inicial.
Modelos de linguagem de grande escala (LLMs) possuem a notável capacidade de resolver novas tarefas com apenas alguns exemplos, mas precisam ter acesso às ferramentas adequadas. A Geração Aumentada por Recuperação (RAG) aborda esse problema ao recuperar uma lista de ferramentas relevantes para uma determinada tarefa. No entanto, a etapa de recuperação de ferramentas do RAG exige que todas as informações necessárias estejam explicitamente presentes na consulta. Isso é uma limitação, pois a busca semântica, o método amplamente adotado para recuperação de ferramentas, pode falhar quando a consulta é incompleta ou carece de contexto. Para superar essa limitação, propomos o Ajuste de Contexto para RAG, que emprega um sistema inteligente de recuperação de contexto para buscar informações relevantes que melhoram tanto a recuperação de ferramentas quanto a geração de planos. Nosso modelo leve de recuperação de contexto utiliza sinais numéricos, categóricos e de uso habitual para recuperar e classificar itens de contexto. Nossos resultados empíricos demonstram que o ajuste de contexto melhora significativamente a busca semântica, alcançando um aumento de 3,5 vezes e 1,5 vezes no Recall@K para tarefas de recuperação de contexto e de ferramentas, respectivamente, e resultando em um aumento de 11,6% na precisão do planejador baseado em LLM. Além disso, mostramos que nosso modelo leve proposto, que utiliza Fusão de Classificação Recíproca (RRF) com LambdaMART, supera a recuperação baseada em GPT-4. Adicionalmente, observamos que a ampliação de contexto na geração de planos, mesmo após a recuperação de ferramentas, reduz a alucinação.
Relatamos o desenvolvimento do Alter3, um robô humanóide capaz de gerar movimentos espontâneos utilizando um Modelo de Linguagem de Grande Escala (LLM), especificamente o GPT-4. Essa conquista foi realizada ao integrar o GPT-4 em nosso androide proprietário, o Alter3, efetivamente conectando o LLM aos movimentos corporais do Alter. Normalmente, o controle de baixo nível de robôs é dependente de hardware e está fora do escopo dos corpora de LLMs, apresentando desafios para o controle direto de robôs baseado em LLMs. No entanto, no caso de robôs humanóides como o Alter3, o controle direto é viável ao mapear as expressões linguísticas de ações humanas no corpo do robô por meio de código de programação. Notavelmente, essa abordagem permite que o Alter3 adote várias poses, como uma postura de "selfie" ou "fingir ser um fantasma", e gere sequências de ações ao longo do tempo sem a necessidade de programação explícita para cada parte do corpo. Isso demonstra as capacidades de aprendizado zero-shot do robô. Além disso, feedback verbal pode ajustar as poses, eliminando a necessidade de ajustes finos. Um vídeo dos movimentos gerados pelo Alter3 está disponível em https://tnoinkwms.github.io/ALTER-LLM/.
Modelos de Difusão Latente (LDMs) capturam a evolução dinâmica de variáveis latentes ao longo do tempo, combinando padrões e multimodalidade em um sistema generativo. Apesar da proficiência dos LDMs em diversas aplicações, como a geração de texto para imagem, facilitada por codificadores de texto robustos e um autoencoder variacional, a necessidade crítica de implantar modelos generativos grandes em dispositivos de borda impulsiona a busca por alternativas mais compactas, porém eficazes. A Quantização Pós-Treinamento (PTQ), um método para comprimir o tamanho operacional de modelos de aprendizado profundo, enfrenta desafios quando aplicada a LDMs devido a complexidades temporais e estruturais. Este estudo propõe uma estratégia de quantização que eficientemente quantiza LDMs, utilizando a Razão Sinal-Ruído de Quantização (SQNR) como uma métrica fundamental para avaliação. Ao tratar a discrepância de quantização como ruído relativo e identificar as partes sensíveis do modelo, propomos uma abordagem de quantização eficiente que abrange estratégias globais e locais. O processo de quantização global mitiga o ruído de quantização relativo ao iniciar a quantização de maior precisão em blocos sensíveis, enquanto os tratamentos locais abordam desafios específicos em módulos sensíveis à quantização e ao tempo. Os resultados de nossos experimentos revelam que a implementação de tratamentos globais e locais resulta em uma Quantização Pós-Treinamento (PTQ) altamente eficiente e eficaz para LDMs.
Apresentamos o Llama Guard, um modelo de salvaguarda de entrada-saída baseado em LLM (Large Language Model) voltado para casos de uso de conversação Humano-IA. Nosso modelo incorpora uma taxonomia de riscos de segurança, uma ferramenta valiosa para categorizar um conjunto específico de riscos de segurança encontrados em prompts de LLM (ou seja, classificação de prompts). Essa taxonomia também é fundamental para classificar as respostas geradas por LLMs a esses prompts, um processo que chamamos de classificação de respostas. Para fins de classificação tanto de prompts quanto de respostas, reunimos meticulosamente um conjunto de dados de alta qualidade. O Llama Guard, um modelo Llama2-7b ajustado por instruções em nosso conjunto de dados coletado, embora de volume reduzido, demonstra um desempenho robusto em benchmarks existentes, como o conjunto de dados OpenAI Moderation Evaluation e o ToxicChat, onde seu desempenho iguala ou supera o de ferramentas de moderação de conteúdo atualmente disponíveis. O Llama Guard funciona como um modelo de linguagem, realizando classificação multiclasse e gerando pontuações de decisão binária. Além disso, o ajuste fino por instruções do Llama Guard permite a personalização de tarefas e a adaptação de formatos de saída. Esse recurso amplia as capacidades do modelo, como permitir o ajuste das categorias da taxonomia para alinhar-se com casos de uso específicos e facilitar o prompting zero-shot ou few-shot com diversas taxonomias na entrada. Estamos disponibilizando os pesos do modelo Llama Guard e incentivamos os pesquisadores a desenvolvê-los e adaptá-los ainda mais para atender às necessidades em evolução da comunidade em relação à segurança da IA.
Modelos de linguagem pré-treinados de grande escala (LLMs) requerem ajuste fino para melhorar sua capacidade de resposta a instruções em linguagem natural. O aprendizado federado (FL) oferece uma maneira de realizar esse ajuste fino utilizando os dados abundantes em dispositivos finais sem comprometer a privacidade dos dados. A maioria dos métodos existentes de ajuste fino federado para LLMs depende de técnicas de ajuste fino com eficiência de parâmetros, que podem não alcançar os níveis de desempenho possíveis com o ajuste de todos os parâmetros. No entanto, a sobrecarga de comunicação associada ao ajuste de todos os parâmetros é proibitivamente alta tanto para servidores quanto para clientes. Este trabalho introduz o FedKSeed, uma abordagem inovadora que emprega otimização de ordem zero (ZOO) com um conjunto de sementes aleatórias. Ele permite o ajuste federado de todos os parâmetros de LLMs de bilhões de parâmetros diretamente nos dispositivos. Nosso método reduz significativamente os requisitos de transmissão entre o servidor e os clientes para apenas alguns gradientes escalares e sementes aleatórias, totalizando apenas alguns milhares de bytes. Com base nisso, desenvolvemos uma estratégia para avaliar a significância das perturbações ZOO para FL, permitindo a amostragem de sementes com diferenciação de probabilidade. Isso prioriza perturbações que têm um maior impacto na precisão do modelo. Experimentos em seis cenários com diferentes LLMs, conjuntos de dados e partições de dados demonstram que nossa abordagem supera os métodos existentes de ajuste fino federado de LLMs em termos de eficiência de comunicação e generalização para novas tarefas.
Diversos métodos foram propostos para a utilização de Modelos de Linguagem de Grande Escala (LLMs) na condução autônoma. Uma estratégia de uso de LLMs para condução autônoma envolve a inserção de objetos ao redor como prompts de texto para os LLMs, juntamente com suas informações de coordenadas e velocidade, e então a saída dos movimentos subsequentes do veículo. Ao utilizar LLMs para tais propósitos, capacidades como reconhecimento espacial e planejamento são essenciais. Em particular, duas capacidades fundamentais são necessárias: (1) tomada de decisão consciente do espaço, que é a habilidade de reconhecer o espaço a partir de informações de coordenadas e tomar decisões para evitar colisões, e (2) a capacidade de aderir às regras de trânsito. No entanto, pesquisas quantitativas não foram realizadas sobre quão precisamente diferentes tipos de LLMs podem lidar com esses problemas. Neste estudo, avaliamos quantitativamente essas duas habilidades dos LLMs no contexto da condução autônoma. Além disso, para realizar uma Prova de Conceito (POC) sobre a viabilidade de implementar essas habilidades em veículos reais, desenvolvemos um sistema que utiliza LLMs para dirigir um veículo.
O Captum é uma biblioteca abrangente para explicabilidade de modelos em PyTorch, oferecendo uma variedade de métodos da literatura de interpretabilidade para aprimorar a compreensão dos usuários sobre modelos PyTorch. Neste artigo, apresentamos novos recursos no Captum que foram especificamente projetados para analisar o comportamento de modelos de linguagem generativos. Fornecemos uma visão geral das funcionalidades disponíveis e exemplos de aplicações que demonstram seu potencial para compreender associações aprendidas dentro de modelos de linguagem generativos.
O MEGA é uma arquitetura recente baseada em transformadores, que utiliza um operador recorrente linear cuja computação paralela, baseada na FFT, escala como O(LlogL), com L sendo o comprimento da sequência. Nós construímos sobre essa abordagem substituindo a recorrência linear por uma rede convolucional temporal especial que permite um tamanho de campo receptivo maior com redes mais rasas e reduz a complexidade computacional para O(L). O modelo resultante é chamado de TCNCA, uma Rede Convolucional Temporal com Atenção Segmentada. Avaliamos o TCNCA na modelagem de linguagem EnWik8, na classificação de sequências do long-range-arena (LRA), bem como em um benchmark sintético de raciocínio de recall associativo. No EnWik8, o TCNCA supera o MEGA, alcançando uma perda menor com passos forward/backward 1,37 vezes/1,24 vezes mais rápidos durante o treinamento. As convoluções dilatadas usadas no TCNCA são operações consistentemente e significativamente mais rápidas do que a recorrência paralelizada baseada em FFT em GPUs, tornando-as uma candidata escalável para lidar com comprimentos de sequência muito grandes: elas são até 7,07 vezes/2,86 vezes mais rápidas no passo forward/backward para sequências de até 131k. Além disso, no LRA, o TCNCA alcança, em média, uma aceleração de 1,28 vezes durante a inferência com uma precisão semelhante à alcançada pelo MEGA. No recall associativo, descobrimos que mesmo uma versão simplificada do TCNCA, sem interações multiplicativas e aditivas excessivas, permanece superior ou competitiva em relação ao MEGA em uma variedade de comprimentos de sequência e tamanhos de vocabulário.
Modelos de Linguagem de Grande Escala (LLMs) demonstraram uma capacidade poderosa para geração de texto. No entanto, alcançar resultados ideais com um prompt ou instrução específica pode ser desafiador, especialmente para modelos de bilhões de parâmetros. Além disso, comportamentos indesejados, como toxicidade ou alucinações, podem se manifestar. Embora modelos muito maiores (por exemplo, ChatGPT) possam demonstrar força na mitigação desses problemas, ainda não há garantia de prevenção completa. Neste trabalho, propomos formalizar a geração de texto como um problema de geração com restrições futuras para minimizar comportamentos indesejados e garantir fidelidade às instruções. A estimativa de satisfação das restrições futuras, realizada usando LLMs, orienta o processo de geração de texto. Nossos extensos experimentos demonstram a eficácia da abordagem proposta em três tarefas distintas de geração de texto: geração com restrição de palavras-chave (Lin et al., 2020), redução de toxicidade (Gehman et al., 2020) e correção factual em questionamento e resposta (Gao et al., 2023).
Neste artigo, estudamos empiricamente a dinâmica de otimização do aprendizado multitarefa, com foco particular naquelas que regem um conjunto de tarefas com desequilíbrio significativo de dados. Apresentamos um método simples, porém eficaz, de pré-treinamento em tarefas com muitos recursos, seguido de ajuste fino em uma mistura de tarefas com muitos/poucos recursos. Fornecemos um estudo empírico detalhado e uma análise dos benefícios desse método, mostrando que ele alcança melhorias consistentes em relação ao perfil de compensação de desempenho da ponderação estática padrão. Analisamos em quais regimes de dados esse método é aplicável e demonstramos suas melhorias empiricamente na tradução automática neural (NMT) e na modelagem de linguagem multilíngue.