Artigos de pesquisa em IA selecionados diariamente com traduções
A Geração com Recuperação (RAG) tornou-se um paradigma poderoso para aprimorar grandes modelos de linguagem (LLMs) por meio da recuperação de conhecimento externo. Apesar da atenção generalizada, a pesquisa acadêmica existente predominantemente se concentra em RAG de turno único, deixando uma lacuna significativa na abordagem das complexidades de conversas multi-turno encontradas em aplicações do mundo real. Para preencher essa lacuna, apresentamos o CORAL, um benchmark em larga escala projetado para avaliar sistemas RAG em cenários realistas de conversação multi-turno. O CORAL inclui conversas diversas em busca de informações derivadas automaticamente da Wikipedia e aborda desafios-chave como cobertura de domínio aberto, intensidade de conhecimento, respostas em formato livre e mudanças de tópico. Ele suporta três tarefas principais de RAG conversacional: recuperação de passagens, geração de respostas e rotulagem de citações. Propomos um framework unificado para padronizar vários métodos de RAG conversacional e realizamos uma avaliação abrangente desses métodos no CORAL, demonstrando oportunidades substanciais para melhorar abordagens existentes.
Os Transformers tornaram-se a arquitetura predominante em modelos fundamentais devido ao seu excelente desempenho em vários domínios. No entanto, o custo substancial de escalar esses modelos continua sendo uma preocupação significativa. Esse problema surge principalmente da dependência de um número fixo de parâmetros em projeções lineares. Quando modificações arquiteturais (por exemplo, dimensões de canais) são introduzidas, o modelo inteiro geralmente requer um novo treinamento do zero. À medida que os tamanhos dos modelos continuam crescendo, essa estratégia resulta em custos computacionais cada vez mais altos e se torna insustentável. Para superar esse problema, introduzimos o TokenFormer, uma arquitetura nativamente escalável que aproveita o mecanismo de atenção não apenas para cálculos entre tokens de entrada, mas também para interações entre tokens e parâmetros do modelo, aumentando assim a flexibilidade arquitetural. Ao tratar os parâmetros do modelo como tokens, substituímos todas as projeções lineares nos Transformers pelo nosso camada de atenção token-parâmetro, onde os tokens de entrada atuam como consultas e os parâmetros do modelo como chaves e valores. Essa reformulação permite escalonamento progressivo e eficiente sem a necessidade de um novo treinamento do zero. Nosso modelo escala de 124M para 1.4B parâmetros, adicionando incrementalmente novos pares de parâmetros chave-valor, alcançando desempenho comparável aos Transformers treinados do zero, enquanto reduz significativamente os custos de treinamento. Código e modelos estão disponíveis em https://github.com/Haiyang-W/TokenFormer.
Nos últimos anos, tem havido uma tendência no campo do Aprendizado por Reforço (RL) em direção a modelos de ação extensos treinados offline em conjuntos de dados em larga escala por meio de modelagem de sequência. Os modelos existentes são principalmente baseados na arquitetura Transformer, resultando em agentes poderosos. No entanto, devido aos tempos de inferência lentos, abordagens baseadas em Transformer são impraticáveis para aplicações em tempo real, como robótica. Recentemente, arquiteturas recorrentes modernas, como xLSTM e Mamba, foram propostas, apresentando benefícios de paralelização durante o treinamento semelhantes à arquitetura Transformer, enquanto oferecem inferência rápida. Neste trabalho, estudamos a aptidão dessas arquiteturas recorrentes modernas para modelos de ação extensos. Consequentemente, propomos um Modelo de Ação Recorrente Extenso (LRAM) com um xLSTM em seu núcleo que possui complexidade de inferência em tempo linear e habilidades de extrapolação de comprimento de sequência natural. Experimentos em 432 tarefas de 6 domínios mostram que o LRAM se compara favoravelmente aos Transformers em termos de desempenho e velocidade.
Apresentamos REM, um framework para segmentar uma ampla gama de conceitos em vídeo que podem ser descritos por meio de linguagem natural. Nosso método se baseia em representações visual-linguísticas aprendidas por modelos de difusão de vídeo em conjuntos de dados em escala da Internet. Uma percepção fundamental de nossa abordagem é preservar o máximo possível da representação original do modelo generativo, ao mesmo tempo em que o ajusta em conjuntos de dados de Segmentação de Objetos de Referência de domínio estreito. Como resultado, nosso framework pode segmentar e rastrear com precisão objetos raros e não vistos, apesar de ter sido treinado em máscaras de objetos de um conjunto limitado de categorias. Além disso, ele pode generalizar para conceitos dinâmicos não relacionados a objetos, como ondas quebrando no oceano, conforme demonstrado em nosso novo benchmark introduzido para Segmentação de Processo de Vídeo de Referência (Ref-VPS). Nossos experimentos mostram que o REM tem desempenho comparável a abordagens de ponta em conjuntos de dados no domínio, como Ref-DAVIS, enquanto as supera em até doze pontos em termos de similaridade de região em dados fora do domínio, aproveitando o poder do pré-treinamento em escala da Internet.
Grandes modelos de linguagem (LLMs) alcançam bom desempenho em desafiantes benchmarks de raciocínio, porém também podem cometer erros básicos de raciocínio. Esse comportamento contrastante é intrigante quando se trata de compreender os mecanismos por trás das capacidades de raciocínio dos LLMs. Uma hipótese é que o desempenho cada vez mais alto e quase saturado em benchmarks comuns de raciocínio pode ser devido à memorização de problemas semelhantes. Neste artigo, investigamos sistematicamente essa hipótese com uma medição quantitativa de memorização em tarefas de raciocínio, utilizando um benchmark de raciocínio lógico gerado dinamicamente com base em quebra-cabeças de Cavaleiros e Traidores (K&K). Descobrimos que os LLMs podem interpolar os quebra-cabeças de treinamento (alcançando precisão quase perfeita) após o ajuste fino, porém falham quando esses quebra-cabeças são levemente perturbados, sugerindo que os modelos dependem fortemente da memorização para resolver esses quebra-cabeças de treinamento. Por outro lado, mostramos que, embora o ajuste fino leve à intensa memorização, também melhora consistentemente o desempenho de generalização. Análises aprofundadas com testes de perturbação, transferibilidade entre níveis de dificuldade, sondagem de internos do modelo e ajuste fino com respostas erradas sugerem que os LLMs aprendem a raciocinar sobre quebra-cabeças K&K apesar da memorização dos dados de treinamento. Esse fenômeno indica que os LLMs exibem uma interação complexa entre memorização e habilidades de raciocínio genuíno. Finalmente, nossa análise com pontuação de memorização por amostra lança luz sobre como os LLMs alternam entre raciocínio e memorização na resolução de quebra-cabeças lógicos. Nosso código e dados estão disponíveis em https://memkklogic.github.io.
Os leitores podem ter diferentes objetivos em relação ao texto que estão lendo. Esses objetivos podem ser decodificados a partir do padrão de movimentos oculares sobre o texto? Neste trabalho, examinamos pela primeira vez se é possível decodificar dois tipos de objetivos de leitura comuns na vida diária: busca por informação e leitura comum. Utilizando dados de rastreamento ocular em grande escala, aplicamos a esta tarefa uma ampla gama de modelos de ponta para movimentos oculares e texto que abrangem diferentes estratégias arquiteturais e de representação de dados, e introduzimos ainda um novo conjunto de modelos. Avaliamos sistematicamente esses modelos em três níveis de generalização: novo item textual, novo participante e a combinação de ambos. Descobrimos que os movimentos oculares contêm sinais altamente valiosos para esta tarefa. Realizamos ainda uma análise de erro que se baseia em descobertas empíricas anteriores sobre diferenças entre leitura comum e busca por informação e aproveita ricas anotações textuais. Essa análise revela propriedades-chave dos itens textuais e dos movimentos oculares dos participantes que contribuem para a dificuldade da tarefa.
Os modelos de Mixture-of-Experts (MoE) melhoram a eficiência e escalabilidade dos modelos de linguagem densa ao direcionar cada token para um pequeno número de especialistas em cada camada. Neste artigo, demonstramos como um adversário que consegue organizar suas consultas para aparecer na mesma leva de exemplos que as consultas de uma vítima pode explorar a Roteamento de Escolha de Especialista para revelar completamente o prompt de uma vítima. Demonstramos com sucesso a eficácia desse ataque em um modelo Mixtral de duas camadas, explorando o comportamento de tratamento de empate da implementação CUDA torch.topk. Nossos resultados mostram que podemos extrair o prompt inteiro usando consultas O({VM}^2) (com tamanho de vocabulário V e comprimento do prompt M) ou 100 consultas em média por token no cenário que consideramos. Este é o primeiro ataque a explorar falhas arquiteturais com o propósito de extrair prompts de usuário, introduzindo uma nova classe de vulnerabilidades de LLM.
Os modelos de linguagem de grande escala de código aberto estão se tornando cada vez mais disponíveis e populares entre pesquisadores e profissionais. Embora tenham sido feitos progressos significativos em modelos de peso aberto, a prática de treinamento aberto de dados ainda não foi adotada pelos principais criadores de modelos de peso aberto. Ao mesmo tempo, os pesquisadores estão trabalhando para tornar os modelos de linguagem mais seguros. Propomos um pipeline de curadoria de dados para reduzir as saídas prejudiciais dos modelos treinados em dados de domínio público. Existem desafios únicos ao trabalhar com dados de domínio público, pois essas fontes diferem do texto da web tanto em forma quanto em conteúdo. Muitas fontes são documentos históricos e são resultado de Reconhecimento Óptico de Caracteres (OCR). Consequentemente, as abordagens de ponta para filtragem de toxicidade muitas vezes são inviáveis ou inadequadas para modelos de dados abertos. Neste artigo, apresentamos um novo pipeline totalmente de código aberto para filtragem de toxicidade de dados abertos. Nossas contribuições são triplas. Criamos um conjunto de dados de treinamento personalizado, ToxicCommons, composto por textos classificados em cinco dimensões diferentes (discriminação racial/étnica, baseada em gênero/sexo, religiosa, baseada em habilidades e violência). Utilizamos este conjunto de dados para treinar um classificador personalizado, Celadon, que pode ser usado para detectar conteúdo tóxico em dados abertos de forma mais eficiente em uma escala maior. Por fim, descrevemos a abordagem equilibrada para filtragem de conteúdo que otimiza a filtragem de segurança em relação aos dados filtrados disponíveis para treinamento.
Os seres humanos são dotados de um sistema de aprendizado complementar, que conecta a aprendizagem lenta da dinâmica geral do mundo com o armazenamento rápido da memória episódica de uma nova experiência. Modelos anteriores de geração de vídeo, no entanto, focam principalmente na aprendizagem lenta ao pré-treinar em vastas quantidades de dados, negligenciando a fase de aprendizado rápido crucial para o armazenamento da memória episódica. Essa omissão resulta em inconsistências entre quadros temporalmente distantes ao gerar vídeos mais longos, pois esses quadros ultrapassam a janela de contexto do modelo. Para isso, apresentamos o SlowFast-VGen, um novo sistema de aprendizado de dupla velocidade para geração de vídeos longos orientados por ações. Nossa abordagem incorpora um modelo de difusão de vídeo condicional mascarado para a aprendizagem lenta da dinâmica do mundo, juntamente com uma estratégia de aprendizado rápido no tempo baseada em um módulo temporal LoRA. Especificamente, o processo de aprendizado rápido atualiza seus parâmetros temporais LoRA com base em entradas e saídas locais, armazenando eficientemente a memória episódica em seus parâmetros. Propomos ainda um algoritmo de loop de aprendizado lento-rápido que integra de forma contínua o loop interno de aprendizado rápido no loop externo de aprendizado lento, permitindo a evocação de experiências multi-episódicas anteriores para aprendizado de habilidades consciente do contexto. Para facilitar a aprendizagem lenta de um modelo aproximado do mundo, coletamos um conjunto de dados em grande escala de 200k vídeos com anotações de ação em linguagem, abrangendo uma ampla gama de cenários. Experimentos extensos mostram que o SlowFast-VGen supera as bases em várias métricas para geração de vídeo orientada por ações, alcançando uma pontuação FVD de 514 em comparação com 782, e mantendo consistência em vídeos mais longos, com uma média de 0,37 cortes de cena versus 0,89. O algoritmo de loop de aprendizado lento-rápido melhora significativamente o desempenho em tarefas de planejamento de longo prazo também. Website do Projeto: https://slowfast-vgen.github.io
Apresentamos um referencial para grandes modelos de linguagem projetados para lidar com uma das tarefas mais intensivas em conhecimento em ciência de dados: escrever código de engenharia de características, que requer conhecimento de domínio além de uma compreensão profunda do problema subjacente e da estrutura de dados. O modelo recebe uma descrição do conjunto de dados em um prompt e é solicitado a gerar código para transformá-lo. A pontuação de avaliação é derivada da melhoria alcançada por um modelo XGBoost ajustado no conjunto de dados modificado em comparação com os dados originais. Por meio de uma avaliação extensiva de modelos de ponta e comparação com referências bem estabelecidas, demonstramos que o FeatEng de nossa proposta pode avaliar de forma barata e eficiente as amplas capacidades de LLMs, em contraste com os métodos existentes.
A recuperação de informações médicas (MIR) é essencial para obter conhecimento médico relevante de diversas fontes, incluindo registros eletrônicos de saúde, literatura científica e bancos de dados médicos. No entanto, alcançar uma recuperação densa eficaz sem treinamento no domínio médico apresenta desafios substanciais devido à falta de dados rotulados como relevantes. Neste artigo, apresentamos uma abordagem inovadora chamada Incorporação de Documentos Hipotéticos com Autoaprendizado (SL-HyDE) para lidar com essa questão. O SL-HyDE aproveita grandes modelos de linguagem (LLMs) como geradores para criar documentos hipotéticos com base em uma determinada consulta. Esses documentos gerados encapsulam o contexto médico-chave, orientando um recuperador denso na identificação dos documentos mais relevantes. O framework de autoaprendizado aprimora progressivamente tanto a geração de pseudo-documentos quanto a recuperação, utilizando corpora médicos não rotulados sem a necessidade de dados rotulados como relevantes. Além disso, apresentamos o Conjunto de Dados de Referência para Recuperação de Informações Médicas em Chinês (CMIRB), um framework abrangente de avaliação fundamentado em cenários médicos do mundo real, abrangendo cinco tarefas e dez conjuntos de dados. Ao avaliar dez modelos no CMIRB, estabelecemos um padrão rigoroso para avaliar sistemas de recuperação de informações médicas. Os resultados experimentais demonstram que o SL-HyDE supera significativamente os métodos existentes em precisão de recuperação, ao mesmo tempo que apresenta forte capacidade de generalização e escalabilidade em diversas configurações de LLM e recuperador. Os dados do CMIRB e o código de avaliação estão disponíveis publicamente em: https://github.com/CMIRB-benchmark/CMIRB.