Artigos de pesquisa em IA selecionados diariamente com traduções
Os Modelos de Recompensa de Processo (PRMs) surgem como uma abordagem promissora para a supervisão de processos na raciocínio matemático de Modelos de Linguagem Grandes (LLMs), que têm como objetivo identificar e mitigar erros intermediários nos processos de raciocínio. No entanto, o desenvolvimento de PRMs eficazes enfrenta desafios significativos, especialmente em metodologias de anotação de dados e avaliação. Neste artigo, por meio de experimentos extensivos, demonstramos que a síntese de dados comumente utilizada baseada em estimativa Monte Carlo (MC) para PRMs geralmente resulta em desempenho e generalização inferiores em comparação com os métodos LLM-como-juiz e de anotação humana. A estimativa MC depende de modelos de conclusão para avaliar a correção do passo atual, levando a uma verificação imprecisa do passo. Além disso, identificamos possíveis viéses nas estratégias de avaliação convencionais Melhor-de-N (BoN) para PRMs: (1) Os modelos de política não confiáveis geram respostas com respostas corretas, mas processos falhos, levando a um desalinhamento entre os critérios de avaliação do BoN e os objetivos dos PRMs de verificação de processo. (2) A tolerância dos PRMs a tais respostas leva a pontuações infladas do BoN. (3) Os PRMs existentes têm uma proporção significativa de pontuações mínimas concentradas nos passos de resposta finais, revelando a mudança de uma avaliação baseada em processo para uma baseada em resultado nos PRMs Otimizados BoN. Para enfrentar esses desafios, desenvolvemos um mecanismo de filtragem de consenso que integra efetivamente a estimativa MC com LLM-como-juiz e defende um framework de avaliação mais abrangente que combina métricas de nível de resposta e de nível de passo. Com base nos mecanismos, melhoramos significativamente tanto o desempenho do modelo quanto a eficiência de dados na avaliação BoN e na tarefa de identificação de erros por etapas. Por fim, lançamos um novo PRM de ponta que supera as alternativas de código aberto existentes e fornece diretrizes práticas para futuras pesquisas na construção de modelos de supervisão de processo.
Aumentar o tamanho dos modelos de linguagem para lidar com sequências de entrada mais longas geralmente requer caches de chave-valor (KV) grandes, resultando em uma sobrecarga significativa de memória durante a inferência. Neste artigo, propomos a Atenção de Produto de Tensor (TPA), um mecanismo de atenção inovador que utiliza decomposições tensoriais para representar consultas, chaves e valores de forma compacta, reduzindo significativamente o tamanho do cache KV durante a inferência. Ao fatorizar essas representações em componentes de baixa ordem contextual (fatorização contextual) e integrar-se perfeitamente com RoPE, a TPA alcança uma qualidade de modelo aprimorada juntamente com eficiência de memória. Com base na TPA, introduzimos o Transformador de Atenção de Produto de Tensor (T6), uma nova arquitetura de modelo para modelagem de sequências. Através de uma extensa avaliação empírica de tarefas de modelagem de linguagem, demonstramos que o T6 supera o desempenho de baselines de Transformadores padrão, incluindo MHA, MQA, GQA e MLA, em várias métricas, incluindo perplexidade e uma variedade de benchmarks de avaliação renomados. Notavelmente, a eficiência de memória da TPA permite o processamento de sequências significativamente mais longas sob restrições de recursos fixos, abordando um desafio crítico de escalabilidade em modelos de linguagem modernos. O código está disponível em https://github.com/tensorgi/T6.
O desenvolvimento de modelos visão-linguagem (VLMs) é impulsionado por conjuntos de dados multimodais amplos e diversos. No entanto, o progresso em direção aos VLMs biomédicos generalistas é limitado pela falta de conjuntos de dados anotados e publicamente acessíveis em biologia e medicina. Os esforços existentes estão restritos a domínios específicos, não capturando toda a diversidade do conhecimento biomédico codificado na literatura científica. Para abordar essa lacuna, apresentamos o BIOMEDICA, um framework escalável e de código aberto para extrair, anotar e serializar a totalidade do subconjunto PubMed Central de Acesso Aberto em um conjunto de dados de fácil utilização e acesso público. Nosso framework gera um arquivo abrangente com mais de 24 milhões de pares únicos de imagem-texto de mais de 6 milhões de artigos. Metadados e anotações orientadas por especialistas também são fornecidos. Demonstramos a utilidade e acessibilidade de nosso recurso ao lançar o BMCA-CLIP, um conjunto de modelos no estilo CLIP continuamente pré-treinados no conjunto de dados BIOMEDICA via streaming, eliminando a necessidade de baixar 27 TB de dados localmente. Em média, nossos modelos alcançam desempenho de ponta em 40 tarefas - abrangendo patologia, radiologia, oftalmologia, dermatologia, cirurgia, biologia molecular, parasitologia e biologia celular - se destacando na classificação de zero-shot com uma melhoria média de 6,56% (chegando a 29,8% e 17,5% em dermatologia e oftalmologia, respectivamente), e com recuperação mais forte de imagem-texto, tudo isso usando 10 vezes menos computação. Para promover a reprodutibilidade e colaboração, disponibilizamos nosso código e conjunto de dados para a comunidade de pesquisa em geral.
Os modelos de linguagem grandes autoadaptáveis (LLMs) têm como objetivo resolver os desafios apresentados pelos métodos tradicionais de ajuste fino, que frequentemente são intensivos computacionalmente e estáticos em sua capacidade de lidar com diversas tarefas. Apresentamos \implname, um novo framework de autoadaptação que adapta LLMs para tarefas não vistas em tempo real, ajustando seletivamente apenas os componentes singulares de suas matrizes de pesos. Durante a inferência, \implname emprega um mecanismo de duas etapas: primeiro, um sistema de despacho identifica as propriedades da tarefa e, em seguida, vetores "especialistas" específicos da tarefa, treinados usando aprendizado por reforço, são misturados dinamicamente para obter um comportamento direcionado para o prompt recebido. Nosso método supera abordagens ubíquas como LoRA, com menos parâmetros e maior eficiência. \implname demonstra versatilidade em diferentes arquiteturas e modalidades de LLMs, incluindo tarefas de visão e linguagem. \implname representa um avanço significativo, oferecendo uma solução escalável e eficiente para aprimorar a adaptabilidade e o desempenho específico da tarefa de LLMs, abrindo caminho para sistemas de IA verdadeiramente dinâmicos e auto-organizáveis.
Os avanços recentes em grandes modelos de linguagem (LLMs) e modelos multimodais de fala-texto estabeleceram as bases para interações de voz contínuas, possibilitando conversas em tempo real, naturais e humanas. Modelos anteriores para interações por voz são categorizados como nativos e alinhados. Modelos nativos integram o processamento de fala e texto em um único framework, mas enfrentam problemas como diferentes comprimentos de sequência e treinamento prévio insuficiente. Modelos alinhados mantêm as capacidades de LLM de texto, mas frequentemente são limitados por conjuntos de dados pequenos e um foco estreito em tarefas de fala. Neste trabalho, apresentamos o MinMo, um Modelo de Linguagem Grande Multimodal com aproximadamente 8 bilhões de parâmetros para interações de voz contínuas. Abordamos as principais limitações de modelos multimodais alinhados anteriores. Treinamos o MinMo por meio de múltiplas etapas de alinhamento de fala para texto, alinhamento de texto para fala, alinhamento de fala para fala e alinhamento de interação duplex, em 1,4 milhão de horas de dados de fala diversos e uma ampla gama de tarefas de fala. Após o treinamento em múltiplas etapas, o MinMo alcança desempenho de ponta em vários benchmarks para compreensão e geração de voz, mantendo as capacidades dos LLMs de texto, e também facilita a conversa full-duplex, ou seja, comunicação bidirecional simultânea entre o usuário e o sistema. Além disso, propomos um decodificador de voz novo e simples que supera modelos anteriores na geração de voz. As capacidades aprimoradas de seguir instruções do MinMo suportam o controle da geração de fala com base em instruções do usuário, com várias nuances, incluindo emoções, dialetos e velocidades de fala, e imitando vozes específicas. Para o MinMo, a latência de fala para texto é aproximadamente 100ms, a latência full-duplex é aproximadamente 600ms na teoria e 800ms na prática. A página web do projeto MinMo é https://funaudiollm.github.io/minmo, e o código e os modelos serão lançados em breve.
Modelos recentes de geração de vídeo têm demonstrado resultados promissores na produção de videoclipes de alta qualidade com duração de vários segundos. No entanto, esses modelos enfrentam desafios na geração de sequências longas que transmitam eventos claros e informativos, limitando sua capacidade de suportar narrativas coerentes. Neste artigo, apresentamos um conjunto de dados de vídeos de culinária em larga escala projetado para avançar na geração de narrativas de longa duração no domínio da culinária. Validamos a qualidade do nosso conjunto de dados proposto em termos de fidelidade visual e precisão de legendas textuais usando Modelos de Visão-Linguagem (VLMs) de ponta e modelos de geração de vídeo, respectivamente. Além disso, introduzimos um Diretor de Vídeo de Narrativa Longa para aprimorar tanto a coerência visual quanto semântica em vídeos gerados e enfatizamos o papel de alinhar incorporações visuais para obter uma qualidade geral de vídeo aprimorada. Nosso método demonstra melhorias substanciais na geração de keyframes visualmente detalhados e semanticamente alinhados, suportados por técnicas de ajuste fino que integram incorporações de texto e imagem no processo de geração de vídeo. Página do projeto: https://videoauteur.github.io/
Dando continuidade às nossas investigações anteriores sobre replicação O1 (Parte 1: Aprendizado da Jornada [Qin et al., 2024] e Parte 2: Destilação [Huang et al., 2024]), este trabalho explora o potencial da escalabilidade no tempo de inferência em grandes modelos de linguagem (LLMs) para tarefas de raciocínio médico, que vão desde tomadas de decisão diagnósticas até planejamento de tratamentos. Através de experimentos extensivos em benchmarks médicos de várias complexidades (MedQA, Medbullets e Desafios Clínicos da JAMA), nossa investigação revela diversas percepções-chave: (1) Aumentar o tempo de inferência realmente leva a melhorias de desempenho. Com um conjunto de treinamento modesto de 500 amostras, nosso modelo proporciona melhorias substanciais de desempenho de 6% a 11%. (2) A complexidade da tarefa se correlaciona diretamente com o comprimento necessário das cadeias de raciocínio, confirmando a necessidade de processos de pensamento estendidos para problemas desafiadores. (3) Os diagnósticos diferenciais gerados pelo nosso modelo seguem os princípios do método hipotético-dedutivo, produzindo uma lista de condições potenciais que podem explicar os sintomas de um paciente e reduzindo sistematicamente essas possibilidades avaliando as evidências. Essas descobertas demonstram a promissora sinergia entre a escalabilidade no tempo de inferência e o aprendizado da jornada no avanço das capacidades de raciocínio clínico do mundo real dos LLMs.
A geração com recuperação aumentada (RAG) demonstra um desempenho notável em diversas tarefas de questionamento e resposta em domínio aberto. No entanto, os motores de busca tradicionais podem recuperar conteúdo superficial, limitando a capacidade dos LLMs de lidar com informações complexas e em múltiplas camadas. Para abordar essa questão, apresentamos o WebWalkerQA, um benchmark projetado para avaliar a capacidade dos LLMs de realizar travessias na web. Ele avalia a capacidade dos LLMs de percorrer as subpáginas de um site para extrair dados de alta qualidade de forma sistemática. Propomos o WebWalker, que é um framework multiagente que imita a navegação na web de forma semelhante à humana, por meio de um paradigma de exploração-crítica. Resultados experimentais extensivos mostram que o WebWalkerQA é desafiador e demonstra a eficácia da combinação de RAG com o WebWalker, por meio da integração horizontal e vertical em cenários do mundo real.
Os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado um desempenho excepcional em diversas tarefas, no entanto, seu treinamento continua sendo altamente intensivo em recursos e suscetível a desafios críticos, como a instabilidade durante o treinamento. Uma fonte predominante dessa instabilidade advém de picos nos gradientes e perdas, que perturbam o processo de aprendizado, frequentemente resultando em intervenções custosas, como recuperação de pontos de verificação e reinícios de experimentos, amplificando ainda mais as ineficiências. Este artigo apresenta uma investigação abrangente sobre os picos nos gradientes observados durante o treinamento de LLM, revelando sua prevalência em várias arquiteturas e conjuntos de dados. Nossa análise mostra que esses picos podem ser até 1000 vezes maiores do que gradientes típicos, deteriorando substancialmente o desempenho do modelo. Para lidar com esse problema, propomos o Spike-Aware Adam with Momentum Reset SPAM, um otimizador inovador projetado para neutralizar os picos nos gradientes por meio de redefinição de momento e limitação de gradientes cientes dos picos. Experimentos extensivos, incluindo tanto pré-treinamento quanto ajuste fino, demonstram que o SPAM consistentemente supera o Adam e suas variantes em várias tarefas, incluindo (1) pré-treinamento de LLM de 60M a 1B, (2) pré-treinamento de LLM de 4 bits, (3) aprendizado por reforço e (4) Previsão de Séries Temporais. Além disso, o SPAM facilita o treinamento eficiente em memória, permitindo momento esparsos, onde apenas um subconjunto de termos de momento são mantidos e atualizados. Ao operar sob restrições de memória, o SPAM supera otimizadores eficientes em memória de ponta, como GaLore e Adam-Mini. Nosso trabalho destaca a importância de mitigar os picos nos gradientes no treinamento de LLM e introduz uma estratégia de otimização eficaz que aprimora tanto a estabilidade do treinamento quanto a eficiência de recursos em grande escala. O código está disponível em https://github.com/TianjinYellow/SPAM-Optimizer.git
Apresentamos Objetos Não Comuns em 3D (uCO3D), um novo conjunto de dados centrado em objetos para aprendizado profundo em 3D e IA generativa em 3D. O uCO3D é a maior coleção publicamente disponível de vídeos de alta resolução de objetos com anotações em 3D que garantem cobertura completa de 360 graus. O uCO3D é significativamente mais diverso do que o MVImgNet e o CO3Dv2, abrangendo mais de 1.000 categorias de objetos. Além disso, possui uma qualidade superior, devido a extensas verificações de qualidade nos vídeos coletados e nas anotações em 3D. Semelhante a conjuntos de dados análogos, o uCO3D contém anotações para poses de câmera em 3D, mapas de profundidade e nuvens de pontos esparsas. Adicionalmente, cada objeto é acompanhado por uma legenda e uma reconstrução de Splat Gaussiano em 3D. Treinamos vários modelos 3D grandes no MVImgNet, CO3Dv2 e uCO3D e obtivemos resultados superiores usando este último, demonstrando que o uCO3D é melhor para aplicações de aprendizado.
O raciocínio químico geralmente envolve processos complexos e multi-etapas que exigem cálculos precisos, onde até mesmo erros pequenos podem levar a falhas em cascata. Além disso, os grandes modelos de linguagem (LLMs) encontram dificuldades em lidar com fórmulas específicas do domínio, executar etapas de raciocínio com precisão e integrar código de forma eficaz ao lidar com tarefas de raciocínio químico. Para enfrentar esses desafios, apresentamos o ChemAgent, um novo framework projetado para melhorar o desempenho dos LLMs por meio de uma biblioteca dinâmica e autoatualizável. Essa biblioteca é desenvolvida decompondo tarefas químicas em sub-tarefas e compilando essas sub-tarefas em uma coleção estruturada que pode ser referenciada para consultas futuras. Em seguida, ao ser apresentado com um novo problema, o ChemAgent recupera e aprimora informações pertinentes da biblioteca, que chamamos de memória, facilitando a decomposição eficaz da tarefa e a geração de soluções. Nosso método projeta três tipos de memória e um componente de raciocínio aprimorado pela biblioteca, permitindo que os LLMs melhorem ao longo do tempo por meio da experiência. Resultados experimentais em quatro conjuntos de dados de raciocínio químico do SciBench demonstram que o ChemAgent alcança ganhos de desempenho de até 46% (GPT-4), superando significativamente métodos existentes. Nossas descobertas sugerem um potencial substancial para futuras aplicações, incluindo tarefas como descoberta de medicamentos e ciência de materiais. Nosso código pode ser encontrado em https://github.com/gersteinlab/chemagent
Os modelos fundamentais dependem de conjuntos de dados obtidos em larga escala na web, que frequentemente contêm dados ruidosos, vieses e conteúdo irrelevante. As técnicas existentes de seleção de dados normalmente utilizam heurísticas humanas, conjuntos de dados de avaliação downstream ou modelos de pontuação especializados, e podem negligenciar a utilidade das amostras no processo de treinamento. Em vez disso, propomos uma nova abordagem, o Escore Mimic, uma métrica de qualidade de dados que utiliza um modelo de referência pré-treinado como guia para avaliar a utilidade das amostras de dados para treinar um novo modelo. Ela se baseia no alinhamento entre o gradiente dos novos parâmetros do modelo e o vetor apontando para o modelo de referência no espaço de pesos. As amostras que não se alinham com essa direção são consideradas de baixo valor e podem ser filtradas. Motivados pelo escore Mimic, desenvolvemos o Grad-Mimic, um framework de seleção de dados que identifica e prioriza amostras úteis, automatizando o processo de seleção para criar filtros eficazes. Empiricamente, o uso dos escores Mimic para orientar o treinamento do modelo resulta em ganhos de desempenho consistentes em seis conjuntos de dados de imagens e aprimora o desempenho dos modelos CLIP. Além disso, os escores Mimic e seus filtros associados melhoram os métodos de filtragem existentes e oferecem uma estimativa precisa da qualidade do conjunto de dados.