Artigos de pesquisa em IA selecionados diariamente com traduções
O treinamento de Modelos de Linguagem de Grande Escala (LLMs) apresenta desafios significativos de memória, principalmente devido ao tamanho crescente dos pesos e estados do otimizador. Abordagens comuns para redução de memória, como a adaptação de baixo posto (LoRA), adicionam uma matriz de baixo posto treinável aos pesos pré-treinados congelados em cada camada, reduzindo os parâmetros treináveis e os estados do otimizador. No entanto, tais abordagens geralmente têm desempenho inferior ao treinamento com pesos de posto completo tanto na fase de pré-treinamento quanto na de ajuste fino, pois limitam a busca de parâmetros a um subespaço de baixo posto e alteram a dinâmica do treinamento, além de poderem exigir um aquecimento inicial com posto completo. Neste trabalho, propomos a Projeção de Baixo Posto de Gradiente (GaLore), uma estratégia de treinamento que permite o aprendizado de parâmetros completos, mas é mais eficiente em termos de memória do que métodos comuns de adaptação de baixo posto, como o LoRA. Nossa abordagem reduz o uso de memória em até 65,5% nos estados do otimizador, mantendo tanto a eficiência quanto o desempenho no pré-treinamento das arquiteturas LLaMA 1B e 7B com o conjunto de dados C4 com até 19,7 bilhões de tokens, e no ajuste fino do RoBERTa em tarefas do GLUE. Nossa versão de 8 bits do GaLore reduz ainda mais a memória do otimizador em até 82,5% e a memória total de treinamento em 63,3%, em comparação com uma linha de base BF16. Notavelmente, demonstramos, pela primeira vez, a viabilidade de pré-treinar um modelo de 7B em GPUs de consumo com 24GB de memória (por exemplo, NVIDIA RTX 4090) sem estratégias de paralelismo de modelo, checkpointing ou offloading.
Neste artigo, apresentamos o SaulLM-7B, um modelo de linguagem de grande escala (LLM) especializado no domínio jurídico. Com 7 bilhões de parâmetros, o SaulLM-7B é o primeiro LLM projetado explicitamente para a compreensão e geração de textos jurídicos. Baseado na arquitetura Mistral 7B, o SaulLM-7B foi treinado em um corpus jurídico em inglês com mais de 30 bilhões de tokens. O SaulLM-7B demonstra proficiência de ponta na compreensão e processamento de documentos jurídicos. Além disso, introduzimos um novo método de ajuste fino instrucional que utiliza conjuntos de dados jurídicos para aprimorar ainda mais o desempenho do SaulLM-7B em tarefas jurídicas. O SaulLM-7B é disponibilizado sob a licença CC-BY-SA-4.0.
À medida que os Modelos de Linguagem de Grande Escala (LLMs) continuam a avançar em desempenho, seu tamanho aumentou significativamente, com os LLMs atuais contendo bilhões ou até trilhões de parâmetros. No entanto, neste estudo, descobrimos que muitas camadas dos LLMs exibem alta similaridade, e algumas camadas desempenham um papel insignificante na funcionalidade da rede. Com base nessa observação, definimos uma métrica chamada Influência do Bloco (Block Influence - BI) para avaliar a importância de cada camada nos LLMs. Em seguida, propomos uma abordagem simples de poda: a remoção de camadas, na qual eliminamos diretamente as camadas redundantes nos LLMs com base em suas pontuações de BI. Experimentos demonstram que nosso método, que chamamos de ShortGPT, supera significativamente os métodos anteriores de poda de modelos considerados state-of-the-art (SOTA). Além disso, o ShortGPT é ortogonal a métodos como a quantização, permitindo uma redução adicional de parâmetros e computação. A capacidade de obter melhores resultados por meio da simples remoção de camadas, em vez de técnicas de poda mais complexas, sugere um alto grau de redundância na arquitetura do modelo.
Neste artigo, apresentamos o PixArt-Σ, um modelo de Transformador de Difusão (DiT) capaz de gerar imagens diretamente em resolução 4K. O PixArt-Σ representa um avanço significativo em relação ao seu predecessor, o PixArt-α, oferecendo imagens com fidelidade notavelmente superior e melhor alinhamento com prompts de texto. Uma característica fundamental do PixArt-Σ é sua eficiência de treinamento. Aproveitando o pré-treinamento fundamental do PixArt-α, ele evolui de uma linha de base "mais fraca" para um modelo "mais forte" por meio da incorporação de dados de maior qualidade, um processo que denominamos "treinamento de fraco para forte". Os avanços no PixArt-Σ são duplos: (1) Dados de Treinamento de Alta Qualidade: o PixArt-Σ incorpora dados de imagem de qualidade superior, emparelhados com legendas de imagem mais precisas e detalhadas. (2) Compressão Eficiente de Tokens: propomos um novo módulo de atenção dentro da estrutura DiT que comprime tanto chaves quanto valores, melhorando significativamente a eficiência e facilitando a geração de imagens em ultra-alta resolução. Graças a essas melhorias, o PixArt-Σ alcança qualidade de imagem superior e capacidade de aderência a prompts do usuário com um tamanho de modelo significativamente menor (0,6 bilhões de parâmetros) em comparação com modelos de difusão texto-para-imagem existentes, como o SDXL (2,6 bilhões de parâmetros) e o SD Cascade (5,1 bilhões de parâmetros). Além disso, a capacidade do PixArt-Σ de gerar imagens em 4K suporta a criação de pôsteres e papéis de parede de alta resolução, impulsionando eficientemente a produção de conteúdo visual de alta qualidade em indústrias como cinema e jogos.
Propomos um método para ensinar múltiplos modelos de linguagem de grande escala (LLM) a colaborar intercalando suas gerações no nível de tokens. Modelamos a decisão sobre qual LLM gera o próximo token como uma variável latente. Ao otimizar a verossimilhança marginal de um conjunto de treinamento sob nosso modelo de variável latente, o LLM base aprende automaticamente quando gerar por si mesmo e quando chamar um dos modelos de linguagem "assistentes" para gerar, tudo sem supervisão direta. A colaboração no nível de token durante a decodificação permite uma fusão da expertise de cada modelo de maneira adaptada à tarefa específica em questão. Nossa decodificação colaborativa é especialmente útil em cenários de domínio cruzado, onde um LLM base generalista aprende a invocar modelos especialistas em domínios específicos. Em tarefas de seguir instruções, questionamento e resposta específicos de domínio, e raciocínio, mostramos que o desempenho do sistema conjunto supera o dos modelos individuais. Através de uma análise qualitativa das decisões latentes aprendidas, mostramos que os modelos treinados com nosso método exibem vários padrões interessantes de colaboração, por exemplo, preenchimento de templates. Nosso código está disponível em https://github.com/clinicalml/co-llm.
Propomos o pré-treinamento Fortemente Supervisionado com Capturas de Tela (S4) - um novo paradigma de pré-treinamento para Modelos de Visão e Linguagem utilizando dados de renderização em larga escala de capturas de tela da web. O uso de capturas de tela da web desbloqueia um tesouro de pistas visuais e textuais que não estão presentes em pares de imagem-texto. No S4, aproveitamos a hierarquia inerentemente estruturada em árvore dos elementos HTML e a localização espacial para projetar cuidadosamente 10 tarefas de pré-treinamento com dados anotados em grande escala. Essas tarefas se assemelham a tarefas subsequentes em diferentes domínios e as anotações são de baixo custo para obtenção. Demonstramos que, em comparação com os objetivos atuais de pré-treinamento com capturas de tela, nosso método inovador de pré-treinamento melhora significativamente o desempenho do modelo de imagem para texto em nove tarefas subsequentes variadas e populares - com melhorias de até 76,1% na Detecção de Tabelas e pelo menos 1% na Legendagem de Widgets.
As funções de valor são um componente central do aprendizado por reforço profundo (RL). Essas funções, parametrizadas por redes neurais, são treinadas usando um objetivo de regressão de erro quadrático médio para corresponder a valores-alvo obtidos por bootstrapping. No entanto, escalar métodos de RL baseados em valor que usam regressão para redes grandes, como Transformers de alta capacidade, tem se mostrado desafiador. Essa dificuldade contrasta fortemente com o aprendizado supervisionado: ao aproveitar uma perda de classificação de entropia cruzada, métodos supervisionados escalaram de forma confiável para redes massivas. Observando essa discrepância, neste artigo, investigamos se a escalabilidade do RL profundo também pode ser melhorada simplesmente usando classificação em vez de regressão para treinar funções de valor. Demonstramos que funções de valor treinadas com entropia cruzada categórica melhoram significativamente o desempenho e a escalabilidade em uma variedade de domínios. Esses incluem: RL de tarefa única em jogos do Atari 2600 com SoftMoEs, RL multitarefa no Atari com ResNets em larga escala, manipulação robótica com Q-transformers, jogar xadrez sem busca e uma tarefa de agente de linguagem Wordle com Transformers de alta capacidade, alcançando resultados de ponta nesses domínios. Por meio de uma análise cuidadosa, mostramos que os benefícios da entropia cruzada categórica decorrem principalmente de sua capacidade de mitigar problemas inerentes ao RL baseado em valor, como alvos ruidosos e não estacionariedade. No geral, argumentamos que uma simples mudança para treinar funções de valor com entropia cruzada categórica pode gerar melhorias substanciais na escalabilidade do RL profundo a um custo mínimo ou nulo.
A modelagem de sequências em grande escala tem impulsionado avanços rápidos que agora se estendem para a biologia e genômica. No entanto, a modelagem de sequências genômicas introduz desafios, como a necessidade de modelar interações de longo alcance entre tokens, os efeitos das regiões a montante e a jusante do genoma, e a complementaridade reversa (RC) do DNA. Aqui, propomos uma arquitetura motivada por esses desafios que se baseia no bloco Mamba de longo alcance, e o estende para um componente BiMamba que suporta bidirecionalidade, e para um bloco MambaDNA que adicionalmente suporta equivariância RC. Usamos o MambaDNA como base para o Caduceus, a primeira família de modelos de linguagem de DNA bidirecionais de longo alcance com equivariância RC, e introduzimos estratégias de pré-treinamento e ajuste fino que resultam em modelos de fundação Caduceus DNA. O Caduceus supera modelos anteriores de longo alcance em benchmarks de tarefas subsequentes; em uma tarefa desafiadora de predição de efeito de variantes de longo alcance, o Caduceus excede o desempenho de modelos 10 vezes maiores que não aproveitam a bidirecionalidade ou a equivariância.
O aprendizado por imitação oferece uma maneira eficiente de ensinar habilidades complexas a robôs; no entanto, aprender habilidades complexas de forma robusta e generalizável geralmente consome grandes quantidades de demonstrações humanas. Para enfrentar esse problema desafiador, apresentamos a Política de Difusão 3D (DP3), uma nova abordagem de aprendizado por imitação visual que incorpora o poder das representações visuais 3D em políticas de difusão, uma classe de modelos generativos de ações condicionais. O núcleo do design da DP3 é a utilização de uma representação visual 3D compacta, extraída de nuvens de pontos esparsas com um codificador de pontos eficiente. Em nossos experimentos envolvendo 72 tarefas de simulação, a DP3 lida com sucesso com a maioria das tarefas com apenas 10 demonstrações e supera as abordagens de referência com uma melhoria relativa de 55,3%. Em 4 tarefas de robôs reais, a DP3 demonstra controle preciso com uma alta taxa de sucesso de 85%, dado apenas 40 demonstrações de cada tarefa, e mostra excelentes habilidades de generalização em diversos aspectos, incluindo espaço, ponto de vista, aparência e instância. Curiosamente, nos experimentos com robôs reais, a DP3 raramente viola requisitos de segurança, em contraste com os métodos de referência que frequentemente o fazem, exigindo intervenção humana. Nossa avaliação extensa destaca a importância crítica das representações 3D no aprendizado de robôs no mundo real. Vídeos, código e dados estão disponíveis em https://3d-diffusion-policy.github.io.
Muitos portais de conteúdo online permitem que os usuários façam perguntas para complementar sua compreensão (por exemplo, de palestras). Embora os sistemas de recuperação de informação (IR) possam fornecer respostas para essas consultas dos usuários, eles não auxiliam diretamente os criadores de conteúdo — como palestrantes que desejam melhorar seu material — a identificar os segmentos que _causaram_ o usuário a fazer essas perguntas. Introduzimos a tarefa de rastreamento inverso (backtracing), na qual os sistemas recuperam o segmento de texto que provavelmente causou uma consulta do usuário. Formalizamos três domínios do mundo real para os quais o rastreamento inverso é importante para melhorar a entrega de conteúdo e a comunicação: compreender a causa de (a) confusão dos alunos no domínio de Palestras, (b) curiosidade dos leitores no domínio de Artigos de Notícias e (c) emoção dos usuários no domínio de Conversas. Avaliamos o desempenho zero-shot de métodos populares de recuperação de informação e modelagem de linguagem, incluindo métodos de bi-encoder, reclassificação e baseados em verossimilhança, além do ChatGPT. Enquanto os sistemas tradicionais de IR recuperam informações semanticamente relevantes (por exemplo, detalhes sobre "matrizes de projeção" para uma consulta como "projetar múltiplas vezes ainda leva ao mesmo ponto?"), eles frequentemente perdem o contexto causalmente relevante (por exemplo, o palestrante afirma "projetar duas vezes me dá a mesma resposta que uma projeção"). Nossos resultados mostram que há espaço para melhorias no rastreamento inverso e que ele requer novas abordagens de recuperação. Esperamos que nosso benchmark sirva para aprimorar futuros sistemas de recuperação para rastreamento inverso, gerando sistemas que refinem a geração de conteúdo e identifiquem gatilhos linguísticos que influenciam as consultas dos usuários. Nosso código e dados estão disponíveis em código aberto: https://github.com/rosewang2008/backtracing.