Artigos de pesquisa em IA selecionados diariamente com traduções
Na melhoria das capacidades de raciocínio dos grandes modelos de linguagem (LLMs, na sigla em inglês), pesquisas anteriores concentram-se principalmente em técnicas específicas de "prompting", como o "chain-of-thought" (CoT) com poucos exemplos (few-shot) ou sem exemplos (zero-shot). Embora eficazes, esses métodos frequentemente envolvem um processo manual intensivo de engenharia de prompts. Nosso estudo adota uma abordagem inovadora ao questionar: Os LLMs podem raciocinar efetivamente sem a necessidade de prompts? Nossas descobertas revelam que, de forma intrigante, caminhos de raciocínio CoT podem ser elicitados de LLMs pré-treinados simplesmente alterando o processo de decodificação. Em vez da decodificação gananciosa convencional, investigamos os k tokens alternativos mais prováveis, descobrindo que caminhos CoT frequentemente estão inerentemente presentes nessas sequências. Essa abordagem não apenas contorna os desafios associados ao prompting, mas também nos permite avaliar as habilidades intrínsecas de raciocínio dos LLMs. Além disso, observamos que a presença de um CoT no caminho de decodificação está correlacionada com uma maior confiança na resposta decodificada pelo modelo. Essa métrica de confiança efetivamente diferencia entre caminhos CoT e não-CoT. Estudos empíricos extensos em diversos benchmarks de raciocínio mostram que a proposta de decodificação CoT supera substancialmente a decodificação gananciosa padrão.
Todos os problemas de linguagem baseados em texto podem ser reduzidos a geração ou incorporação (embedding). Os modelos atuais só se destacam em uma ou outra tarefa. Introduzimos o ajuste de instrução de representação generativa (Generative Representational Instruction Tuning, GRIT), no qual um modelo de linguagem de grande escala é treinado para lidar tanto com tarefas generativas quanto de incorporação, distinguindo-as por meio de instruções. Em comparação com outros modelos abertos, nosso GritLM 7B estabelece um novo estado da arte no Massive Text Embedding Benchmark (MTEB) e supera todos os modelos de tamanho semelhante em uma variedade de tarefas generativas. Ao escalar ainda mais, o GritLM 8x7B supera todos os modelos generativos de linguagem abertos que testamos, mantendo-se entre os melhores modelos de incorporação. Notavelmente, descobrimos que o GRIT iguala o treinamento apenas com dados generativos ou de incorporação, permitindo unificar ambos sem perda de desempenho. Entre outros benefícios, a unificação via GRIT acelera a Geração Aumentada por Recuperação (Retrieval-Augmented Generation, RAG) em mais de 60% para documentos longos, eliminando a necessidade de modelos separados para recuperação e geração. Modelos, código e outros recursos estão disponíveis gratuitamente em https://github.com/ContextualAI/gritlm.
O treinamento de grandes modelos de linguagem (LLMs) é caro. Neste artigo, estudamos abordagens eficientes em termos de dados para o pré-treinamento de LLMs, ou seja, técnicas que visam otimizar a fronteira de Pareto entre a qualidade do modelo e o consumo de recursos/dados de treinamento. Buscamos entender as compensações associadas a rotinas de seleção de dados baseadas em (i) estimativas de qualidade de dados que são caras de calcular, e (ii) maximização de medidas de cobertura e diversidade no espaço de características. Nossa primeira técnica, Ask-LLM, aproveita as capacidades de raciocínio zero-shot de LLMs ajustados por instruções para avaliar diretamente a qualidade de um exemplo de treinamento. Para atingir a cobertura, propomos a amostragem por Densidade, que modela a distribuição dos dados para selecionar uma amostra diversificada. Em nossa comparação de 19 amostradores, envolvendo centenas de tarefas de avaliação e execuções de pré-treinamento, descobrimos que Ask-LLM e Densidade são os melhores métodos em suas respectivas categorias. A amostragem por cobertura pode recuperar o desempenho dos dados completos, enquanto os modelos treinados com dados do Ask-LLM consistentemente superam o treinamento com todos os dados — mesmo quando rejeitamos 90% do conjunto de dados original, enquanto convergem até 70% mais rápido.
Os atuais Modelos de Linguagem de Grande Escala (LLMs) não apenas estão limitados a um comprimento máximo de contexto, mas também não são capazes de consumir entradas longas de forma robusta. Para abordar essas limitações, propomos o ReadAgent, um sistema de agente LLM que aumenta o comprimento efetivo do contexto em até 20x em nossos experimentos. Inspirados pela forma como os humanos leem documentos longos de maneira interativa, implementamos o ReadAgent como um sistema simples de prompt que utiliza as capacidades avançadas de linguagem dos LLMs para (1) decidir qual conteúdo armazenar juntos em um episódio de memória, (2) comprimir esses episódios de memória em memórias episódicas curtas chamadas memórias de essência (gist memories), e (3) tomar ações para consultar passagens no texto original se o ReadAgent precisar relembrar detalhes relevantes para concluir uma tarefa. Avaliamos o ReadAgent em comparação com métodos de baseline que utilizam técnicas de recuperação, os contextos longos originais e as memórias de essência. Essas avaliações são realizadas em três tarefas de compreensão de leitura de documentos longos: QuALITY, NarrativeQA e QMSum. O ReadAgent supera as baselines em todas as três tarefas, enquanto estende a janela de contexto efetiva em 3-20x.
Trabalhos recentes demonstraram o imenso potencial de conjuntos de dados sinteticamente gerados para o treinamento de grandes modelos de linguagem (LLMs), especialmente para a aquisição de habilidades específicas. Atualmente, grandes conjuntos de dados de ajuste fino para instruções matemáticas, como o MetaMathQA (Yu et al., 2024) e o MAmmoTH (Yue et al., 2024), são construídos utilizando saídas de LLMs de código fechado com licenças comercialmente restritivas. Uma razão fundamental que limita o uso de LLMs de código aberto nesses pipelines de geração de dados tem sido a grande diferença entre as habilidades matemáticas dos melhores LLMs de código fechado, como o GPT-4, e os melhores LLMs de código aberto. Com base nos recentes avanços em LLMs de código aberto, nossa proposta de inovação em prompt e algum escalonamento de força bruta, construímos o OpenMathInstruct-1, um conjunto de dados de ajuste fino para instruções matemáticas com 1,8 milhões de pares problema-solução. O conjunto de dados foi construído sintetizando soluções de interpretação de código para o GSM8K e o MATH, dois benchmarks populares de raciocínio matemático, utilizando o modelo Mixtral, recentemente lançado e com licença permissiva. Nosso melhor modelo, o OpenMath-CodeLlama-70B, treinado em um subconjunto do OpenMathInstruct-1, alcança uma pontuação de 84,6% no GSM8K e 50,7% no MATH, o que é competitivo com os melhores modelos destilados do GPT. Disponibilizamos nosso código, modelos e o conjunto de dados OpenMathInstruct-1 sob uma licença comercialmente permissiva.
O ajuste fino de modelos de difusão continua sendo uma fronteira pouco explorada na inteligência artificial generativa (GenAI), especialmente quando comparado com o progresso notável alcançado no ajuste fino de Modelos de Linguagem de Grande Escala (LLMs). Enquanto modelos de difusão de ponta, como o Stable Diffusion (SD) e o SDXL, dependem de ajuste fino supervisionado, seu desempenho inevitavelmente atinge um platô após serem expostos a um certo volume de dados. Recentemente, o aprendizado por reforço (RL) foi empregado para ajustar modelos de difusão com dados de preferência humana, mas ele requer pelo menos duas imagens (uma "vencedora" e uma "perdedora") para cada prompt de texto. Neste artigo, introduzimos uma técnica inovadora chamada ajuste fino por autocompetição para modelos de difusão (SPIN-Diffusion), na qual o modelo de difusão compete com suas versões anteriores, facilitando um processo iterativo de autossuperação. Nossa abordagem oferece uma alternativa às estratégias convencionais de ajuste fino supervisionado e RL, melhorando significativamente tanto o desempenho do modelo quanto seu alinhamento. Nossos experimentos no conjunto de dados Pick-a-Pic revelam que o SPIN-Diffusion supera o método existente de ajuste fino supervisionado em termos de alinhamento com preferências humanas e apelo visual já na primeira iteração. Na segunda iteração, ele ultrapassa o desempenho de métodos baseados em RLHF em todas as métricas, alcançando esses resultados com menos dados.
Estudamos a receita de pré-treinamento contínuo para escalar o comprimento de contexto de modelos de linguagem para 128K, com foco na engenharia de dados. Nossa hipótese é que a modelagem de contexto longo, em particular a capacidade de utilizar informações em locais arbitrários de entrada, é uma habilidade que já é majoritariamente adquirida através de pré-treinamento em larga escala, e que essa capacidade pode ser prontamente estendida para contextos substancialmente mais longos do que os vistos durante o treinamento (por exemplo, de 4K para 128K) por meio de pré-treinamento contínuo leve em uma mistura de dados apropriada. Investigamos a quantidade e a qualidade dos dados para pré-treinamento contínuo: (1) para quantidade, mostramos que 500 milhões a 5 bilhões de tokens são suficientes para permitir que o modelo recupere informações em qualquer lugar dentro do contexto de 128K; (2) para qualidade, nossos resultados enfatizam igualmente o equilíbrio de domínio e a amostragem de comprimento. Concretamente, descobrimos que a amostragem ingênua de dados mais longos em certos domínios, como livros, uma prática comum de trabalhos existentes, resulta em desempenho subótimo, e que uma mistura equilibrada de domínios é importante. Demonstramos que o pré-treinamento contínuo do modelo completo em 1B-5B tokens de tais dados é uma estratégia eficaz e acessível para escalar o comprimento de contexto de modelos de linguagem para 128K. Nossa receita supera modelos de contexto longo de código aberto robustos e reduz a lacuna para modelos de fronteira, como o GPT-4 128K.
Modelos de Linguagem de Grande Escala (LLMs) são tipicamente treinados em duas fases: pré-treinamento em grandes conjuntos de dados em escala da internet e ajuste fino para tarefas específicas. Dada a maior demanda computacional do pré-treinamento, é intuitivo supor que o ajuste fino adiciona menos informações novas ao modelo e, portanto, é mais compressível. Exploramos essa suposição decompondo os pesos dos modelos ajustados em seus componentes pré-treinados e um delta adicional. Introduzimos um método simples, BitDelta, que quantiza com sucesso esse delta para 1 bit sem comprometer o desempenho. Essa descoberta interessante não apenas destaca a potencial redundância de informações adicionadas durante o ajuste fino, mas também tem implicações significativas para o atendimento e armazenamento multi-inquilino de modelos ajustados. Ao permitir o uso de um único modelo base de alta precisão acompanhado por múltiplos deltas de 1 bit, o BitDelta reduz drasticamente os requisitos de memória da GPU em mais de 10 vezes, o que também pode se traduzir em uma latência de geração aprimorada em configurações multi-inquilino. Validamos o BitDelta por meio de experimentos nas famílias de modelos Llama-2 e Mistral, e em modelos com até 70 bilhões de parâmetros, demonstrando degradação mínima de desempenho em todos os cenários testados.
A edição de sinais utilizando grandes modelos pré-treinados, de maneira zero-shot, tem visto avanços rápidos recentemente no domínio de imagens. No entanto, essa onda ainda não atingiu o domínio do áudio. Neste artigo, exploramos duas técnicas de edição zero-shot para sinais de áudio, que utilizam inversão DDPM em modelos de difusão pré-treinados. A primeira, adotada do domínio de imagens, permite a edição baseada em texto. A segunda é uma abordagem nova para descobrir direções de edição semanticamente significativas sem supervisão. Quando aplicada a sinais musicais, esse método revela uma variedade de modificações musicalmente interessantes, desde o controle da participação de instrumentos específicos até improvisações na melodia. Amostras podem ser encontradas em nossa página de exemplos em https://hilamanor.github.io/AudioEditing/ e o código pode ser encontrado em https://github.com/hilamanor/AudioEditing/.
Avanços no Splatting Gaussiano 3D aceleraram significativamente a reconstrução e geração 3D. No entanto, ele pode exigir um grande número de Gaussianas, o que cria uma pegada de memória substancial. Este artigo introduz o GES (Generalized Exponential Splatting), uma nova representação que emprega a Função Exponencial Generalizada (GEF) para modelar cenas 3D, exigindo muito menos partículas para representar uma cena e, assim, superando significativamente os métodos de Splatting Gaussiano em eficiência, com uma capacidade de substituição plug-and-play para utilitários baseados em Gaussianas. O GES é validado teórica e empiricamente tanto em configurações 1D fundamentais quanto em cenas 3D realistas. Demonstra-se que ele representa sinais com bordas afiadas com maior precisão, o que geralmente é desafiador para Gaussianas devido às suas características inerentemente de passa-baixa. Nossa análise empírica mostra que a GEF supera as Gaussianas no ajuste de sinais naturais (por exemplo, quadrados, triângulos e sinais parabólicos), reduzindo assim a necessidade de operações extensas de divisão que aumentam a pegada de memória do Splatting Gaussiano. Com o auxílio de uma perda modulada em frequência, o GES alcança desempenho competitivo em benchmarks de síntese de novas visões, exigindo menos da metade do armazenamento de memória do Splatting Gaussiano e aumentando a velocidade de renderização em até 39%. O código está disponível no site do projeto https://abdullahamdi.com/ges.
O objetivo da personalização de texto para imagem (T2I) é adaptar um modelo de difusão a um conceito de referência fornecido pelo usuário, gerando imagens diversas do conceito alinhadas com os prompts-alvo. Métodos convencionais que representam os conceitos de referência usando embeddings de texto únicos frequentemente falham em imitar com precisão a aparência da referência. Para resolver isso, uma solução pode ser condicionar explicitamente as imagens de referência no processo de remoção de ruído alvo, conhecido como substituição de chave-valor. No entanto, trabalhos anteriores são limitados à edição local, pois perturbam o caminho estrutural do modelo T2I pré-treinado. Para superar isso, propomos um novo método plug-in, chamado DreamMatcher, que reformula a personalização T2I como correspondência semântica. Especificamente, o DreamMatcher substitui os valores-alvo por valores de referência alinhados por correspondência semântica, mantendo o caminho estrutural inalterado para preservar a capacidade versátil dos modelos T2I pré-treinados de gerar estruturas diversas. Também introduzimos uma estratégia de mascaramento semântico-consistente para isolar o conceito personalizado de regiões irrelevantes introduzidas pelos prompts-alvo. Compatível com modelos T2I existentes, o DreamMatcher mostra melhorias significativas em cenários complexos. Análises intensivas demonstram a eficácia da nossa abordagem.
Raciocinar a partir de sequências de dados sensoriais brutos é um problema ubíquo em áreas que vão desde dispositivos médicos até robótica. Esses problemas frequentemente envolvem o uso de longas sequências de dados brutos de sensores (por exemplo, magnetômetros, piezoresistores) para prever sequências de quantidades físicas desejáveis (por exemplo, força, medições inerciais). Embora as abordagens clássicas sejam poderosas para problemas de previsão localmente lineares, elas frequentemente falham ao usar sensores do mundo real. Esses sensores são tipicamente não lineares, são afetados por variáveis externas (por exemplo, vibração) e exibem deriva dependente dos dados. Para muitos problemas, a tarefa de previsão é agravada por conjuntos de dados rotulados pequenos, já que a obtenção de rótulos de verdade fundamental requer equipamentos caros. Neste trabalho, apresentamos os Modelos Hierárquicos de Espaço de Estados (HiSS), uma técnica nova e conceitualmente simples para previsão sequencial contínua. O HiSS empilha modelos estruturados de espaço de estados uns sobre os outros para criar uma hierarquia temporal. Em seis conjuntos de dados reais de sensores, desde a previsão de estado baseada em tato até medições inerciais baseadas em acelerômetros, o HiSS supera modelos de sequência de última geração, como Transformers causais, LSTMs, S4 e Mamba, em pelo menos 23% no erro quadrático médio (MSE). Nossos experimentos ainda indicam que o HiSS demonstra escalabilidade eficiente para conjuntos de dados menores e é compatível com técnicas existentes de filtragem de dados. Código, conjuntos de dados e vídeos podem ser encontrados em https://hiss-csp.github.io.
Modelos de difusão têm sido cada vez mais aplicados recentemente a dados temporais, como vídeos, simulações de mecânica dos fluidos ou dados climáticos. Esses métodos geralmente tratam os quadros subsequentes de forma igual em relação à quantidade de ruído no processo de difusão. Este artigo explora a Difusão Rolante: uma nova abordagem que utiliza um processo de remoção de ruído em janela deslizante. Ela garante que o processo de difusão corrompa progressivamente ao longo do tempo, atribuindo mais ruído aos quadros que aparecem mais tarde em uma sequência, refletindo uma maior incerteza sobre o futuro à medida que o processo de geração se desenrola. Empiricamente, mostramos que, quando a dinâmica temporal é complexa, a Difusão Rolante é superior à difusão padrão. Especificamente, esse resultado é demonstrado em uma tarefa de previsão de vídeo usando o conjunto de dados de vídeo Kinetics-600 e em um experimento de previsão de dinâmica de fluidos caóticos.