ChatPaper.aiChatPaper.ai
Início

arXiv

HuggingFace

PreçosContaÁrea de trabalho

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

1

As Lições do Desenvolvimento de Modelos de Recompensa de Processo na Raciocínio Matemático
The Lessons of Developing Process Reward Models in Mathematical Reasoning

Jan 13
ByZhenru Zhang, Chujie Zheng, Yangzhen Wu, Beichen Zhang, Runji Lin, Bowen Yu, Dayiheng Liu, Jingren Zhou, Junyang Lin
99
8

Os Modelos de Recompensa de Processo (PRMs) surgem como uma abordagem promissora para a supervisão de processos na raciocínio matemático de Modelos de Linguagem Grandes (LLMs), que têm como objetivo identificar e mitigar erros intermediários nos processos de raciocínio. No entanto, o desenvolvimento de PRMs eficazes enfrenta desafios significativos, especialmente em metodologias de anotação de dados e avaliação. Neste artigo, por meio de experimentos extensivos, demonstramos que a síntese de dados comumente utilizada baseada em estimativa Monte Carlo (MC) para PRMs geralmente resulta em desempenho e generalização inferiores em comparação com os métodos LLM-como-juiz e de anotação humana. A estimativa MC depende de modelos de conclusão para avaliar a correção do passo atual, levando a uma verificação imprecisa do passo. Além disso, identificamos possíveis viéses nas estratégias de avaliação convencionais Melhor-de-N (BoN) para PRMs: (1) Os modelos de política não confiáveis geram respostas com respostas corretas, mas processos falhos, levando a um desalinhamento entre os critérios de avaliação do BoN e os objetivos dos PRMs de verificação de processo. (2) A tolerância dos PRMs a tais respostas leva a pontuações infladas do BoN. (3) Os PRMs existentes têm uma proporção significativa de pontuações mínimas concentradas nos passos de resposta finais, revelando a mudança de uma avaliação baseada em processo para uma baseada em resultado nos PRMs Otimizados BoN. Para enfrentar esses desafios, desenvolvemos um mecanismo de filtragem de consenso que integra efetivamente a estimativa MC com LLM-como-juiz e defende um framework de avaliação mais abrangente que combina métricas de nível de resposta e de nível de passo. Com base nos mecanismos, melhoramos significativamente tanto o desempenho do modelo quanto a eficiência de dados na avaliação BoN e na tarefa de identificação de erros por etapas. Por fim, lançamos um novo PRM de ponta que supera as alternativas de código aberto existentes e fornece diretrizes práticas para futuras pesquisas na construção de modelos de supervisão de processo.

2

Atenção por Produto Tensor É Tudo o que Você Precisa
Tensor Product Attention Is All You Need

Jan 11
ByYifan Zhang, Yifeng Liu, Huizhuo Yuan, Zhen Qin, Yang Yuan, Quanquan Gu, Andrew Chi-Chih Yao
88
5

Aumentar o tamanho dos modelos de linguagem para lidar com sequências de entrada mais longas geralmente requer caches de chave-valor (KV) grandes, resultando em uma sobrecarga significativa de memória durante a inferência. Neste artigo, propomos a Atenção de Produto de Tensor (TPA), um mecanismo de atenção inovador que utiliza decomposições tensoriais para representar consultas, chaves e valores de forma compacta, reduzindo significativamente o tamanho do cache KV durante a inferência. Ao fatorizar essas representações em componentes de baixa ordem contextual (fatorização contextual) e integrar-se perfeitamente com RoPE, a TPA alcança uma qualidade de modelo aprimorada juntamente com eficiência de memória. Com base na TPA, introduzimos o Transformador de Atenção de Produto de Tensor (T6), uma nova arquitetura de modelo para modelagem de sequências. Através de uma extensa avaliação empírica de tarefas de modelagem de linguagem, demonstramos que o T6 supera o desempenho de baselines de Transformadores padrão, incluindo MHA, MQA, GQA e MLA, em várias métricas, incluindo perplexidade e uma variedade de benchmarks de avaliação renomados. Notavelmente, a eficiência de memória da TPA permite o processamento de sequências significativamente mais longas sob restrições de recursos fixos, abordando um desafio crítico de escalabilidade em modelos de linguagem modernos. O código está disponível em https://github.com/tensorgi/T6.

3

BIOMEDICA: Um Arquivo Aberto de Legendas de Imagens Biomédicas, Conjunto de Dados e Modelos de Visão-Linguagem Derivados da Literatura Científica
BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature

Jan 13
ByAlejandro Lozano, Min Woo Sun, James Burgess, Liangyu Chen, Jeffrey J Nirschl, Jeffrey Gu, Ivan Lopez, Josiah Aklilu, Austin Wolfgang Katzer, Collin Chiu, Anita Rau, Xiaohan Wang, Yuhui Zhang, Alfred Seunghoon Song, Robert Tibshirani, Serena Yeung-Levy
55
3

O desenvolvimento de modelos visão-linguagem (VLMs) é impulsionado por conjuntos de dados multimodais amplos e diversos. No entanto, o progresso em direção aos VLMs biomédicos generalistas é limitado pela falta de conjuntos de dados anotados e publicamente acessíveis em biologia e medicina. Os esforços existentes estão restritos a domínios específicos, não capturando toda a diversidade do conhecimento biomédico codificado na literatura científica. Para abordar essa lacuna, apresentamos o BIOMEDICA, um framework escalável e de código aberto para extrair, anotar e serializar a totalidade do subconjunto PubMed Central de Acesso Aberto em um conjunto de dados de fácil utilização e acesso público. Nosso framework gera um arquivo abrangente com mais de 24 milhões de pares únicos de imagem-texto de mais de 6 milhões de artigos. Metadados e anotações orientadas por especialistas também são fornecidos. Demonstramos a utilidade e acessibilidade de nosso recurso ao lançar o BMCA-CLIP, um conjunto de modelos no estilo CLIP continuamente pré-treinados no conjunto de dados BIOMEDICA via streaming, eliminando a necessidade de baixar 27 TB de dados localmente. Em média, nossos modelos alcançam desempenho de ponta em 40 tarefas - abrangendo patologia, radiologia, oftalmologia, dermatologia, cirurgia, biologia molecular, parasitologia e biologia celular - se destacando na classificação de zero-shot com uma melhoria média de 6,56% (chegando a 29,8% e 17,5% em dermatologia e oftalmologia, respectivamente), e com recuperação mais forte de imagem-texto, tudo isso usando 10 vezes menos computação. Para promover a reprodutibilidade e colaboração, disponibilizamos nosso código e conjunto de dados para a comunidade de pesquisa em geral.

4

Transformer^2: LLMs Autoadaptativos
Transformer^2: Self-adaptive LLMs

Jan 9
ByQi Sun, Edoardo Cetin, Yujin Tang
54
7

Os modelos de linguagem grandes autoadaptáveis (LLMs) têm como objetivo resolver os desafios apresentados pelos métodos tradicionais de ajuste fino, que frequentemente são intensivos computacionalmente e estáticos em sua capacidade de lidar com diversas tarefas. Apresentamos \implname, um novo framework de autoadaptação que adapta LLMs para tarefas não vistas em tempo real, ajustando seletivamente apenas os componentes singulares de suas matrizes de pesos. Durante a inferência, \implname emprega um mecanismo de duas etapas: primeiro, um sistema de despacho identifica as propriedades da tarefa e, em seguida, vetores "especialistas" específicos da tarefa, treinados usando aprendizado por reforço, são misturados dinamicamente para obter um comportamento direcionado para o prompt recebido. Nosso método supera abordagens ubíquas como LoRA, com menos parâmetros e maior eficiência. \implname demonstra versatilidade em diferentes arquiteturas e modalidades de LLMs, incluindo tarefas de visão e linguagem. \implname representa um avanço significativo, oferecendo uma solução escalável e eficiente para aprimorar a adaptabilidade e o desempenho específico da tarefa de LLMs, abrindo caminho para sistemas de IA verdadeiramente dinâmicos e auto-organizáveis.

5

MinMo: Um Modelo de Linguagem Multimodal Grande para Interação por Voz Contínua
MinMo: A Multimodal Large Language Model for Seamless Voice Interaction

Jan 10
ByQian Chen, Yafeng Chen, Yanni Chen, Mengzhe Chen, Yingda Chen, Chong Deng, Zhihao Du, Ruize Gao, Changfeng Gao, Zhifu Gao, Yabin Li, Xiang Lv, Jiaqing Liu, Haoneng Luo, Bin Ma, Chongjia Ni, Xian Shi, Jialong Tang, Hui Wang, Hao Wang, Wen Wang, Yuxuan Wang, Yunlan Xu, Fan Yu, Zhijie Yan, Yexin Yang, Baosong Yang, Xian Yang, Guanrou Yang, Tianyu Zhao, Qinglin Zhang, Shiliang Zhang, Nan Zhao, Pei Zhang, Chong Zhang, Jinren Zhou
53
7

Os avanços recentes em grandes modelos de linguagem (LLMs) e modelos multimodais de fala-texto estabeleceram as bases para interações de voz contínuas, possibilitando conversas em tempo real, naturais e humanas. Modelos anteriores para interações por voz são categorizados como nativos e alinhados. Modelos nativos integram o processamento de fala e texto em um único framework, mas enfrentam problemas como diferentes comprimentos de sequência e treinamento prévio insuficiente. Modelos alinhados mantêm as capacidades de LLM de texto, mas frequentemente são limitados por conjuntos de dados pequenos e um foco estreito em tarefas de fala. Neste trabalho, apresentamos o MinMo, um Modelo de Linguagem Grande Multimodal com aproximadamente 8 bilhões de parâmetros para interações de voz contínuas. Abordamos as principais limitações de modelos multimodais alinhados anteriores. Treinamos o MinMo por meio de múltiplas etapas de alinhamento de fala para texto, alinhamento de texto para fala, alinhamento de fala para fala e alinhamento de interação duplex, em 1,4 milhão de horas de dados de fala diversos e uma ampla gama de tarefas de fala. Após o treinamento em múltiplas etapas, o MinMo alcança desempenho de ponta em vários benchmarks para compreensão e geração de voz, mantendo as capacidades dos LLMs de texto, e também facilita a conversa full-duplex, ou seja, comunicação bidirecional simultânea entre o usuário e o sistema. Além disso, propomos um decodificador de voz novo e simples que supera modelos anteriores na geração de voz. As capacidades aprimoradas de seguir instruções do MinMo suportam o controle da geração de fala com base em instruções do usuário, com várias nuances, incluindo emoções, dialetos e velocidades de fala, e imitando vozes específicas. Para o MinMo, a latência de fala para texto é aproximadamente 100ms, a latência full-duplex é aproximadamente 600ms na teoria e 800ms na prática. A página web do projeto MinMo é https://funaudiollm.github.io/minmo, e o código e os modelos serão lançados em breve.

6

VideoAuteur: Rumo à Geração de Vídeos com Narrativas Longas
VideoAuteur: Towards Long Narrative Video Generation

Jan 10
ByJunfei Xiao, Feng Cheng, Lu Qi, Liangke Gui, Jiepeng Cen, Zhibei Ma, Alan Yuille, Lu Jiang
33
3

Modelos recentes de geração de vídeo têm demonstrado resultados promissores na produção de videoclipes de alta qualidade com duração de vários segundos. No entanto, esses modelos enfrentam desafios na geração de sequências longas que transmitam eventos claros e informativos, limitando sua capacidade de suportar narrativas coerentes. Neste artigo, apresentamos um conjunto de dados de vídeos de culinária em larga escala projetado para avançar na geração de narrativas de longa duração no domínio da culinária. Validamos a qualidade do nosso conjunto de dados proposto em termos de fidelidade visual e precisão de legendas textuais usando Modelos de Visão-Linguagem (VLMs) de ponta e modelos de geração de vídeo, respectivamente. Além disso, introduzimos um Diretor de Vídeo de Narrativa Longa para aprimorar tanto a coerência visual quanto semântica em vídeos gerados e enfatizamos o papel de alinhar incorporações visuais para obter uma qualidade geral de vídeo aprimorada. Nosso método demonstra melhorias substanciais na geração de keyframes visualmente detalhados e semanticamente alinhados, suportados por técnicas de ajuste fino que integram incorporações de texto e imagem no processo de geração de vídeo. Página do projeto: https://videoauteur.github.io/

7

Jornada de Replicação O1 - Parte 3: Escalonamento em Tempo de Inferência para Raciocínio Médico
O1 Replication Journey -- Part 3: Inference-time Scaling for Medical Reasoning

Jan 11
ByZhongzhen Huang, Gui Geng, Shengyi Hua, Zhen Huang, Haoyang Zou, Shaoting Zhang, Pengfei Liu, Xiaofan Zhang
31
2

Dando continuidade às nossas investigações anteriores sobre replicação O1 (Parte 1: Aprendizado da Jornada [Qin et al., 2024] e Parte 2: Destilação [Huang et al., 2024]), este trabalho explora o potencial da escalabilidade no tempo de inferência em grandes modelos de linguagem (LLMs) para tarefas de raciocínio médico, que vão desde tomadas de decisão diagnósticas até planejamento de tratamentos. Através de experimentos extensivos em benchmarks médicos de várias complexidades (MedQA, Medbullets e Desafios Clínicos da JAMA), nossa investigação revela diversas percepções-chave: (1) Aumentar o tempo de inferência realmente leva a melhorias de desempenho. Com um conjunto de treinamento modesto de 500 amostras, nosso modelo proporciona melhorias substanciais de desempenho de 6% a 11%. (2) A complexidade da tarefa se correlaciona diretamente com o comprimento necessário das cadeias de raciocínio, confirmando a necessidade de processos de pensamento estendidos para problemas desafiadores. (3) Os diagnósticos diferenciais gerados pelo nosso modelo seguem os princípios do método hipotético-dedutivo, produzindo uma lista de condições potenciais que podem explicar os sintomas de um paciente e reduzindo sistematicamente essas possibilidades avaliando as evidências. Essas descobertas demonstram a promissora sinergia entre a escalabilidade no tempo de inferência e o aprendizado da jornada no avanço das capacidades de raciocínio clínico do mundo real dos LLMs.

8

WebWalker: Avaliação de LLMs na Traversia Web
WebWalker: Benchmarking LLMs in Web Traversal

Jan 13
ByJialong Wu, Wenbiao Yin, Yong Jiang, Zhenglin Wang, Zekun Xi, Runnan Fang, Deyu Zhou, Pengjun Xie, Fei Huang
22
3

A geração com recuperação aumentada (RAG) demonstra um desempenho notável em diversas tarefas de questionamento e resposta em domínio aberto. No entanto, os motores de busca tradicionais podem recuperar conteúdo superficial, limitando a capacidade dos LLMs de lidar com informações complexas e em múltiplas camadas. Para abordar essa questão, apresentamos o WebWalkerQA, um benchmark projetado para avaliar a capacidade dos LLMs de realizar travessias na web. Ele avalia a capacidade dos LLMs de percorrer as subpáginas de um site para extrair dados de alta qualidade de forma sistemática. Propomos o WebWalker, que é um framework multiagente que imita a navegação na web de forma semelhante à humana, por meio de um paradigma de exploração-crítica. Resultados experimentais extensivos mostram que o WebWalkerQA é desafiador e demonstra a eficácia da combinação de RAG com o WebWalker, por meio da integração horizontal e vertical em cenários do mundo real.

9

SPAM: Spike-Aware Adam com Reinício de Momento para Treinamento Estável de LLM
SPAM: Spike-Aware Adam with Momentum Reset for Stable LLM Training

Jan 12
ByTianjin Huang, Ziquan Zhu, Gaojie Jin, Lu Liu, Zhangyang Wang, Shiwei Liu
16
2

Os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado um desempenho excepcional em diversas tarefas, no entanto, seu treinamento continua sendo altamente intensivo em recursos e suscetível a desafios críticos, como a instabilidade durante o treinamento. Uma fonte predominante dessa instabilidade advém de picos nos gradientes e perdas, que perturbam o processo de aprendizado, frequentemente resultando em intervenções custosas, como recuperação de pontos de verificação e reinícios de experimentos, amplificando ainda mais as ineficiências. Este artigo apresenta uma investigação abrangente sobre os picos nos gradientes observados durante o treinamento de LLM, revelando sua prevalência em várias arquiteturas e conjuntos de dados. Nossa análise mostra que esses picos podem ser até 1000 vezes maiores do que gradientes típicos, deteriorando substancialmente o desempenho do modelo. Para lidar com esse problema, propomos o Spike-Aware Adam with Momentum Reset SPAM, um otimizador inovador projetado para neutralizar os picos nos gradientes por meio de redefinição de momento e limitação de gradientes cientes dos picos. Experimentos extensivos, incluindo tanto pré-treinamento quanto ajuste fino, demonstram que o SPAM consistentemente supera o Adam e suas variantes em várias tarefas, incluindo (1) pré-treinamento de LLM de 60M a 1B, (2) pré-treinamento de LLM de 4 bits, (3) aprendizado por reforço e (4) Previsão de Séries Temporais. Além disso, o SPAM facilita o treinamento eficiente em memória, permitindo momento esparsos, onde apenas um subconjunto de termos de momento são mantidos e atualizados. Ao operar sob restrições de memória, o SPAM supera otimizadores eficientes em memória de ponta, como GaLore e Adam-Mini. Nosso trabalho destaca a importância de mitigar os picos nos gradientes no treinamento de LLM e introduz uma estratégia de otimização eficaz que aprimora tanto a estabilidade do treinamento quanto a eficiência de recursos em grande escala. O código está disponível em https://github.com/TianjinYellow/SPAM-Optimizer.git

10

Objetos Não Comuns em 3D
UnCommon Objects in 3D

Jan 13
ByXingchen Liu, Piyush Tayal, Jianyuan Wang, Jesus Zarzar, Tom Monnier, Konstantinos Tertikas, Jiali Duan, Antoine Toisoul, Jason Y. Zhang, Natalia Neverova, Andrea Vedaldi, Roman Shapovalov, David Novotny
13
2

Apresentamos Objetos Não Comuns em 3D (uCO3D), um novo conjunto de dados centrado em objetos para aprendizado profundo em 3D e IA generativa em 3D. O uCO3D é a maior coleção publicamente disponível de vídeos de alta resolução de objetos com anotações em 3D que garantem cobertura completa de 360 graus. O uCO3D é significativamente mais diverso do que o MVImgNet e o CO3Dv2, abrangendo mais de 1.000 categorias de objetos. Além disso, possui uma qualidade superior, devido a extensas verificações de qualidade nos vídeos coletados e nas anotações em 3D. Semelhante a conjuntos de dados análogos, o uCO3D contém anotações para poses de câmera em 3D, mapas de profundidade e nuvens de pontos esparsas. Adicionalmente, cada objeto é acompanhado por uma legenda e uma reconstrução de Splat Gaussiano em 3D. Treinamos vários modelos 3D grandes no MVImgNet, CO3Dv2 e uCO3D e obtivemos resultados superiores usando este último, demonstrando que o uCO3D é melhor para aplicações de aprendizado.

11

ChemAgent: Biblioteca de Autoatualização em Modelos de Linguagem Grandes Melhora o Raciocínio Químico
ChemAgent: Self-updating Library in Large Language Models Improves Chemical Reasoning

Jan 11
ByXiangru Tang, Tianyu Hu, Muyang Ye, Yanjun Shao, Xunjian Yin, Siru Ouyang, Wangchunshu Zhou, Pan Lu, Zhuosheng Zhang, Yilun Zhao, Arman Cohan, Mark Gerstein
11
2

O raciocínio químico geralmente envolve processos complexos e multi-etapas que exigem cálculos precisos, onde até mesmo erros pequenos podem levar a falhas em cascata. Além disso, os grandes modelos de linguagem (LLMs) encontram dificuldades em lidar com fórmulas específicas do domínio, executar etapas de raciocínio com precisão e integrar código de forma eficaz ao lidar com tarefas de raciocínio químico. Para enfrentar esses desafios, apresentamos o ChemAgent, um novo framework projetado para melhorar o desempenho dos LLMs por meio de uma biblioteca dinâmica e autoatualizável. Essa biblioteca é desenvolvida decompondo tarefas químicas em sub-tarefas e compilando essas sub-tarefas em uma coleção estruturada que pode ser referenciada para consultas futuras. Em seguida, ao ser apresentado com um novo problema, o ChemAgent recupera e aprimora informações pertinentes da biblioteca, que chamamos de memória, facilitando a decomposição eficaz da tarefa e a geração de soluções. Nosso método projeta três tipos de memória e um componente de raciocínio aprimorado pela biblioteca, permitindo que os LLMs melhorem ao longo do tempo por meio da experiência. Resultados experimentais em quatro conjuntos de dados de raciocínio químico do SciBench demonstram que o ChemAgent alcança ganhos de desempenho de até 46% (GPT-4), superando significativamente métodos existentes. Nossas descobertas sugerem um potencial substancial para futuras aplicações, incluindo tarefas como descoberta de medicamentos e ciência de materiais. Nosso código pode ser encontrado em https://github.com/gersteinlab/chemagent

12

Avaliando a Utilidade da Amostra para Seleção de Dados por Imitação dos Pesos do Modelo
Evaluating Sample Utility for Data Selection by Mimicking Model Weights

Jan 12
ByTzu-Heng Huang, Manjot Bilkhu, Frederic Sala, Javier Movellan
5
2

Os modelos fundamentais dependem de conjuntos de dados obtidos em larga escala na web, que frequentemente contêm dados ruidosos, vieses e conteúdo irrelevante. As técnicas existentes de seleção de dados normalmente utilizam heurísticas humanas, conjuntos de dados de avaliação downstream ou modelos de pontuação especializados, e podem negligenciar a utilidade das amostras no processo de treinamento. Em vez disso, propomos uma nova abordagem, o Escore Mimic, uma métrica de qualidade de dados que utiliza um modelo de referência pré-treinado como guia para avaliar a utilidade das amostras de dados para treinar um novo modelo. Ela se baseia no alinhamento entre o gradiente dos novos parâmetros do modelo e o vetor apontando para o modelo de referência no espaço de pesos. As amostras que não se alinham com essa direção são consideradas de baixo valor e podem ser filtradas. Motivados pelo escore Mimic, desenvolvemos o Grad-Mimic, um framework de seleção de dados que identifica e prioriza amostras úteis, automatizando o processo de seleção para criar filtros eficazes. Empiricamente, o uso dos escores Mimic para orientar o treinamento do modelo resulta em ganhos de desempenho consistentes em seis conjuntos de dados de imagens e aprimora o desempenho dos modelos CLIP. Além disso, os escores Mimic e seus filtros associados melhoram os métodos de filtragem existentes e oferecem uma estimativa precisa da qualidade do conjunto de dados.

Jan 13
Jan 14
Jan 15