ChatPaper.aiChatPaper.ai
Início

arXiv

HuggingFace

PreçosContaÁrea de trabalho

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

1

GHOST 2.0: transferência generativa de alta fidelidade de cabeças em um único disparo
GHOST 2.0: generative high-fidelity one shot transfer of heads

Feb 25
ByAlexander Groshev, Anastasiia Iashchenko, Pavel Paramonov, Denis Dimitrov, Andrey Kuznetsov
67
2

Embora a tarefa de troca de rostos tenha recentemente ganhado atenção na comunidade de pesquisa, um problema relacionado de troca de cabeças permanece amplamente inexplorado. Além da transferência de cor de pele, a troca de cabeças apresenta desafios adicionais, como a necessidade de preservar informações estruturais de toda a cabeça durante a síntese e preencher lacunas entre a cabeça trocada e o fundo. Neste artigo, abordamos essas preocupações com o GHOST 2.0, que consiste em dois módulos específicos para o problema. Primeiramente, introduzimos o modelo Aligner aprimorado para reencenação de cabeças, que preserva informações de identidade em múltiplas escalas e é robusto a variações extremas de pose. Em segundo lugar, utilizamos um módulo Blender que integra perfeitamente a cabeça reencenada no fundo alvo, transferindo a cor da pele e preenchendo regiões incompatíveis. Ambos os módulos superam as bases nas tarefas correspondentes, permitindo alcançar resultados de ponta na troca de cabeças. Também lidamos com casos complexos, como grandes diferenças nos estilos de cabelo da origem e do alvo. O código está disponível em https://github.com/ai-forever/ghost-2.0

2

Kanana: Modelos de Linguagem Bilíngues Eficientes em Computação
Kanana: Compute-efficient Bilingual Language Models

Feb 26
ByKanana LLM Team, Yunju Bak, Hojin Lee, Minho Ryu, Jiyeon Ham, Seungjae Jung, Daniel Wontae Nam, Taegyeong Eo, Donghun Lee, Doohae Jung, Boseop Kim, Nayeon Kim, Jaesun Park, Hyunho Kim, Hyunwoong Ko, Changmin Lee, Kyoung-Woon On, Seulye Baeg, Junrae Cho, Sunghee Jung, Jieun Kang, EungGyun Kim, Eunhwa Kim, Byeongil Ko, Daniel Lee, Minchul Lee, Miok Lee, Shinbok Lee, Gaeun Seo
65
2

Apresentamos Kanana, uma série de modelos de linguagem bilíngues que demonstram desempenho excepcional em coreano e desempenho competitivo em inglês. O custo computacional do Kanana é significativamente menor do que o de modelos de ponta de tamanho semelhante. O relatório detalha as técnicas utilizadas durante o pré-treinamento para alcançar modelos eficientes em termos de computação, porém competitivos, incluindo filtragem de dados de alta qualidade, pré-treinamento em estágios, aumento de profundidade, poda e destilação. Além disso, o relatório esboça as metodologias utilizadas durante o pós-treinamento dos modelos Kanana, abrangendo ajuste fino supervisionado e otimização de preferências, com o objetivo de aprimorar sua capacidade de interação perfeita com os usuários. Por fim, o relatório detalha abordagens plausíveis usadas para a adaptação de modelos de linguagem a cenários específicos, como incorporação, geração aumentada por recuperação e chamada de função. A série de modelos Kanana varia de 2,1 bilhões a 32,5 bilhões de parâmetros, sendo que os modelos de 2,1 bilhões (base, instrução, incorporação) foram disponibilizados publicamente para promover a pesquisa em modelos de linguagem coreana.

3

Rumo a um co-cientista de IA
Towards an AI co-scientist

Feb 26
ByJuraj Gottweis, Wei-Hung Weng, Alexander Daryin, Tao Tu, Anil Palepu, Petar Sirkovic, Artiom Myaskovsky, Felix Weissenberger, Keran Rong, Ryutaro Tanno, Khaled Saab, Dan Popovici, Jacob Blum, Fan Zhang, Katherine Chou, Avinatan Hassidim, Burak Gokturk, Amin Vahdat, Pushmeet Kohli, Yossi Matias, Andrew Carroll, Kavita Kulkarni, Nenad Tomasev, Yuan Guan, Vikram Dhillon, Eeshit Dhaval Vaishnav, Byron Lee, Tiago R D Costa, José R Penadés, Gary Peltz, Yunhan Xu, Annalisa Pawlosky, Alan Karthikesalingam, Vivek Natarajan
52
2

A descoberta científica depende de cientistas gerando hipóteses inovadoras que passam por uma validação experimental rigorosa. Para aprimorar esse processo, introduzimos um co-cientista de IA, um sistema multiagente construído sobre o Gemini 2.0. O co-cientista de IA tem o objetivo de ajudar a descobrir novos conhecimentos originais e formular hipóteses e propostas de pesquisa demonstravelmente inovadoras, baseadas em evidências anteriores e alinhadas aos objetivos e orientações de pesquisa fornecidos pelos cientistas. O design do sistema incorpora uma abordagem de geração, debate e evolução de hipóteses, inspirada no método científico e acelerada pela ampliação do poder computacional no momento do teste. As principais contribuições incluem: (1) uma arquitetura multiagente com um framework de execução de tarefas assíncrono para ampliação flexível do poder computacional; (2) um processo de evolução de torneio para geração de hipóteses autoaperfeiçoantes. Avaliações automatizadas mostram benefícios contínuos do poder computacional no momento do teste, melhorando a qualidade das hipóteses. Embora de propósito geral, focamos o desenvolvimento e validação em três áreas biomédicas: reposicionamento de medicamentos, descoberta de novos alvos e explicação de mecanismos de evolução bacteriana e resistência antimicrobiana. Para o reposicionamento de medicamentos, o sistema propõe candidatos com descobertas de validação promissoras, incluindo candidatos para leucemia mieloide aguda que mostram inibição de tumores in vitro em concentrações clinicamente aplicáveis. Para a descoberta de novos alvos, o co-cientista de IA propôs novos alvos epigenéticos para fibrose hepática, validados por atividade antifibrótica e regeneração de células hepáticas em organoides hepáticos humanos. Por fim, o co-cientista de IA recapitulou resultados experimentais não publicados por meio de uma descoberta paralela in silico de um novo mecanismo de transferência genética na evolução bacteriana. Esses resultados, detalhados em relatórios separados e co-temporâneos, demonstram o potencial de aprimorar a descoberta biomédica e científica e inaugurar uma era de cientistas capacitados por IA.

4

TheoremExplainAgent: Rumo a Explicações Multimodais para o Teorema de Compreensão de LLM
TheoremExplainAgent: Towards Multimodal Explanations for LLM Theorem Understanding

Feb 26
ByMax Ku, Thomas Chong, Jonathan Leung, Krish Shah, Alvin Yu, Wenhu Chen
47
2

Compreender teoremas específicos de um domínio muitas vezes requer mais do que apenas raciocínio baseado em texto; a comunicação eficaz por meio de explicações visuais estruturadas é crucial para uma compreensão mais profunda. Enquanto os grandes modelos de linguagem (LLMs) demonstram um desempenho forte em raciocínio de teoremas baseado em texto, sua capacidade de gerar explicações visuais coerentes e pedagogicamente significativas permanece um desafio em aberto. Neste trabalho, apresentamos o TheoremExplainAgent, uma abordagem agente para gerar vídeos de explicação de teoremas em formato longo (mais de 5 minutos) usando animações Manim. Para avaliar sistematicamente explicações de teoremas multimodais, propomos o TheoremExplainBench, um benchmark que abrange 240 teoremas em várias disciplinas STEM, juntamente com 5 métricas de avaliação automatizadas. Nossos resultados revelam que o planejamento agente é essencial para gerar vídeos detalhados em formato longo, e o agente o3-mini alcança uma taxa de sucesso de 93,8% e uma pontuação geral de 0,77. No entanto, nossos estudos quantitativos e qualitativos mostram que a maioria dos vídeos produzidos apresenta problemas menores com o layout dos elementos visuais. Além disso, explicações multimodais expõem falhas de raciocínio mais profundas que as explicações baseadas em texto falham em revelar, destacando a importância das explicações multimodais.

5

Plutus: Avaliação de Modelos de Linguagem de Grande Escala em Finanças Gregas de Baixos Recursos
Plutus: Benchmarking Large Language Models in Low-Resource Greek Finance

Feb 26
ByXueqing Peng, Triantafillos Papadopoulos, Efstathia Soufleri, Polydoros Giannouris, Ruoyu Xiang, Yan Wang, Lingfei Qian, Jimin Huang, Qianqian Xie, Sophia Ananiadou
32
2

Apesar do papel fundamental da Grécia na economia global, os modelos de linguagem de grande escala (LLMs) permanecem pouco explorados para o contexto financeiro grego devido à complexidade linguística do grego e à escassez de conjuntos de dados específicos do domínio. Esforços anteriores em processamento de linguagem natural (PLN) financeiro multilíngue revelaram disparidades consideráveis de desempenho, mas até agora nenhum benchmark financeiro dedicado ao grego ou LLMs financeiros específicos para o grego foram desenvolvidos. Para preencher essa lacuna, apresentamos o Plutus-ben, o primeiro Benchmark de Avaliação Financeira em Grego, e o Plutus-8B, o pioneiro LLM Financeiro em Grego, ajustado com dados específicos do domínio grego. O Plutus-ben aborda cinco tarefas principais de PLN financeiro em grego: reconhecimento de entidades nomeadas numéricas e textuais, resposta a perguntas, sumarização abstrata e classificação de tópicos, facilitando assim avaliações sistemáticas e reproduzíveis de LLMs. Para fundamentar essas tarefas, apresentamos três novos conjuntos de dados financeiros gregos de alta qualidade, minuciosamente anotados por falantes nativos especialistas em grego, complementados por dois recursos existentes. Nossa avaliação abrangente de 22 LLMs no Plutus-ben revela que o PLN financeiro em grego continua desafiador devido à complexidade linguística, terminologia específica do domínio e lacunas no raciocínio financeiro. Esses achados destacam as limitações da transferência interlínguas, a necessidade de expertise financeira em modelos treinados em grego e os desafios de adaptar LLMs financeiros a textos em grego. Disponibilizamos publicamente o Plutus-ben, o Plutus-8B e todos os conjuntos de dados associados para promover pesquisas reproduzíveis e avançar o PLN financeiro em grego, fomentando uma maior inclusão multilíngue no setor financeiro.

6

A Factualidade dos Modelos de Linguagem Dependem da Linguagem da Investigação.
Language Models' Factuality Depends on the Language of Inquiry

Feb 25
ByTushar Aggarwal, Kumar Tanmay, Ayush Agrawal, Kumar Ayush, Hamid Palangi, Paul Pu Liang
32
2

Os modelos de linguagem multilíngue (LMs) são esperados para lembrar conhecimento factual consistentemente em diferentes idiomas, no entanto, muitas vezes falham em transferir conhecimento entre idiomas, mesmo quando possuem a informação correta em um dos idiomas. Por exemplo, podemos observar que um LM pode identificar corretamente Rashed Al Shashai como sendo da Arábia Saudita quando questionado em árabe, mas consistentemente falha em fazê-lo quando questionado em inglês ou suaíli. Para investigar sistematicamente essa limitação, introduzimos um benchmark de 10.000 fatos relacionados a países em 13 idiomas e propomos três novas métricas: Pontuação de Lembrança Factual, Pontuação de Transferibilidade de Conhecimento e Pontuação de Transferibilidade de Conhecimento Factual entre Idiomas - para quantificar a lembrança factual e a transferibilidade de conhecimento em LMs em diferentes idiomas. Nossos resultados revelam fraquezas fundamentais nos LMs de ponta atuais, especialmente na generalização entre idiomas, onde os modelos falham em transferir conhecimento de forma eficaz entre diferentes idiomas, resultando em desempenho inconsistente sensível ao idioma utilizado. Nossas descobertas enfatizam a necessidade de os LMs reconhecerem a confiabilidade factual específica de cada idioma e aproveitarem as informações mais confiáveis entre idiomas. Disponibilizamos nosso benchmark e estrutura de avaliação para impulsionar pesquisas futuras em transferência de conhecimento multilíngue.

7

Classificação 1: Tempo de Computação no Momento do Teste para Reordenação na Recuperação de Informações
Rank1: Test-Time Compute for Reranking in Information Retrieval

Feb 25
ByOrion Weller, Kathryn Ricci, Eugene Yang, Andrew Yates, Dawn Lawrie, Benjamin Van Durme
29
2

Apresentamos o Rank1, o primeiro modelo de reclassificação treinado para aproveitar o poder computacional no momento do teste. O Rank1 demonstra a aplicabilidade, no contexto da recuperação de informações, do uso de um modelo de linguagem de raciocínio (por exemplo, o o1 da OpenAI, o R1 da Deepseek, etc.) para destilação, a fim de melhorar rapidamente o desempenho de um modelo menor. Coletamos e disponibilizamos um conjunto de dados com mais de 600.000 exemplos de traços de raciocínio R1 de consultas e passagens no MS MARCO. Os modelos treinados com base nesse conjunto de dados demonstram: (1) desempenho de ponta em conjuntos de dados avançados de raciocínio e seguimento de instruções; (2) funcionam de forma notável fora da distribuição devido à capacidade de responder a prompts de entrada do usuário; e (3) possuem cadeias de raciocínio explicáveis que podem ser fornecidas a usuários ou sistemas baseados em RAG. Além disso, demonstramos que versões quantizadas desses modelos mantêm um forte desempenho ao utilizar menos poder computacional/memória. Em suma, o Rank1 mostra que o poder computacional no momento do teste permite um novo tipo fundamental de modelo de reclassificação explicável e eficaz para busca.

8

Os Grandes Modelos de Linguagem conseguem Detectar Erros em Raciocínios Longos em Cadeia de Pensamento?
Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning?

Feb 26
ByYancheng He, Shilong Li, Jiaheng Liu, Weixun Wang, Xingyuan Bu, Ge Zhang, Zhongyuan Peng, Zhaoxiang Zhang, Wenbo Su, Bo Zheng
28
2

Recentemente, os modelos o1-like têm atraído atenção significativa, onde esses modelos produzem os longos passos de raciocínio em Cadeia-de-Pensamento (CoT) para melhorar as habilidades de raciocínio dos Modelos de Linguagem Grandes (LLMs) existentes. Neste artigo, para compreender as qualidades desses longos CoTs e medir as habilidades de crítica dos LLMs existentes sobre esses longos CoTs, introduzimos o DeltaBench, incluindo os longos CoTs gerados de diferentes modelos o1-like (por exemplo, QwQ, DeepSeek-R1) para diferentes tarefas de raciocínio (por exemplo, Matemática, Código, Raciocínio Geral), para medir a capacidade de detectar erros no raciocínio em longos CoTs. Com base no DeltaBench, realizamos inicialmente uma análise detalhada dos longos CoTs gerados para descobrir a eficácia e eficiência de diferentes modelos o1-like. Em seguida, realizamos extensas avaliações dos modelos de recompensa de processo existentes (PRMs) e modelos de crítica para detectar os erros de cada processo anotado, com o objetivo de investigar os limites e as limitações dos PRMs e modelos de crítica existentes. Por fim, esperamos que o DeltaBench possa orientar os desenvolvedores a compreender melhor as habilidades de raciocínio em longos CoTs de seus modelos.

9

Modelagem de Recompensa Agente: Integrando Preferências Humanas com Sinais de Correção Verificáveis para Sistemas de Recompensa Confiáveis
Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems

Feb 26
ByHao Peng, Yunjia Qi, Xiaozhi Wang, Zijun Yao, Bin Xu, Lei Hou, Juanzi Li
23
2

Os modelos de recompensa (RMs) são cruciais para o treinamento e escalonamento em tempo de inferência de grandes modelos de linguagem (LLMs). No entanto, os modelos de recompensa existentes focam principalmente nas preferências humanas, negligenciando sinais de correção verificáveis que têm mostrado um forte potencial no treinamento de LLMs. Neste artigo, propomos a modelagem de recompensa agente, um sistema de recompensa que combina modelos de recompensa com sinais de correção verificáveis de diferentes aspectos para fornecer recompensas confiáveis. Implementamos empiricamente um agente de recompensa, chamado RewardAgent, que combina recompensas de preferência humana com dois sinais verificáveis: factualidade e seguimento de instruções, para fornecer recompensas mais confiáveis. Realizamos experimentos abrangentes em benchmarks de modelos de recompensa existentes e pesquisas de melhor de n em tempo de inferência em tarefas do mundo real. RewardAgent supera significativamente os modelos de recompensa convencionais, demonstrando sua eficácia. Além disso, construímos pares de preferência de treinamento usando o RewardAgent e treinamos um LLM com o objetivo DPO, alcançando desempenho superior em vários benchmarks de processamento de linguagem natural em comparação com os modelos de recompensa convencionais. Nossos códigos foram publicamente divulgados para facilitar pesquisas futuras (https://github.com/THU-KEG/Agentic-Reward-Modeling).

10

Projeto Alexandria: Rumo à Liberação do Conhecimento Científico dos Ônus de Direitos Autorais por Meio de Modelos de Linguagem de Longo Prazo (LLMs)
Project Alexandria: Towards Freeing Scientific Knowledge from Copyright Burdens via LLMs

Feb 26
ByChristoph Schuhmann, Gollam Rabby, Ameya Prabhu, Tawsif Ahmed, Andreas Hochlehnert, Huu Nguyen, Nick Akinci Heidrich, Ludwig Schmidt, Robert Kaczmarczyk, Sören Auer, Jenia Jitsev, Matthias Bethge
21
3

Barreiras de pagamento, licenças e regras de direitos autorais frequentemente restringem a ampla disseminação e reutilização do conhecimento científico. Defendemos a posição de que é tanto legal quanto tecnicamente viável extrair o conhecimento científico em textos acadêmicos. Métodos atuais, como incorporação de texto, falham em preservar de forma confiável o conteúdo factual, e simples parafraseamentos podem não ser juridicamente sólidos. Instamos a comunidade a adotar uma nova ideia: converter documentos acadêmicos em Unidades de Conhecimento usando LLMs. Essas unidades utilizam dados estruturados que capturam entidades, atributos e relacionamentos sem conteúdo estilístico. Apresentamos evidências de que as Unidades de Conhecimento: (1) constituem um arcabouço legalmente defensável para compartilhar conhecimento de textos de pesquisa protegidos por direitos autorais, com base em análises legais da lei de direitos autorais alemã e da doutrina de Fair Use dos EUA, e (2) preservam a maioria (~95%) do conhecimento factual do texto original, medido pelo desempenho em questões de múltipla escolha sobre fatos do texto original protegido por direitos autorais em quatro domínios de pesquisa. Libertar o conhecimento científico dos direitos autorais promete benefícios transformadores para a pesquisa científica e educação, permitindo que modelos de linguagem reutilizem fatos importantes de textos protegidos por direitos autorais. Para apoiar isso, compartilhamos ferramentas de código aberto para converter documentos de pesquisa em Unidades de Conhecimento. No geral, nosso trabalho postula a viabilidade de democratizar o acesso ao conhecimento científico respeitando os direitos autorais.

11

Os Modelos de Linguagem Podem Falsificar? Avaliando o Raciocínio Algorítmico com a Criação de Contraexemplos
Can Language Models Falsify? Evaluating Algorithmic Reasoning with Counterexample Creation

Feb 26
ByShiven Sinha, Shashwat Goel, Ponnurangam Kumaraguru, Jonas Geiping, Matthias Bethge, Ameya Prabhu
20
2

Existe uma crescente empolgação sobre o potencial dos Modelos de Linguagem (LMs) para acelerar a descoberta científica. Falsificar hipóteses é fundamental para o progresso científico, pois permite que as afirmações sejam refinadas iterativamente ao longo do tempo. Esse processo requer um esforço significativo por parte dos pesquisadores, raciocínio e engenhosidade. No entanto, os benchmarks atuais para LMs avaliam predominantemente sua capacidade de gerar soluções em vez de desafiá-las. Defendemos o desenvolvimento de benchmarks que avaliem essa capacidade inversa - criar contraexemplos para soluções sutilmente incorretas. Para demonstrar essa abordagem, começamos com o domínio da resolução de problemas algorítmicos, onde contraexemplos podem ser avaliados automaticamente usando a execução de código. Especificamente, apresentamos o REFUTE, um benchmark em atualização dinâmica que inclui problemas recentes e submissões incorretas de competições de programação, onde especialistas humanos identificaram com sucesso contraexemplos. Nossa análise mostra que os melhores agentes de raciocínio, inclusive o OpenAI o3-mini (alto) com feedback de execução de código, podem criar contraexemplos para apenas <9% das soluções incorretas no REFUTE, mesmo que as avaliações indiquem sua capacidade de resolver até 48% desses problemas do zero. Esperamos que nosso trabalho estimule o progresso na avaliação e aprimoramento da capacidade dos LMs de falsificar soluções incorretas - uma habilidade crucial tanto para acelerar a pesquisa quanto para fazer com que os modelos se aprimorem por meio de um raciocínio reflexivo confiável.

12

VEM: Exploração Livre de Ambiente para Treinamento de Agente de Interface Gráfica com Modelo de Valor do Ambiente
VEM: Environment-Free Exploration for Training GUI Agent with Value Environment Model

Feb 26
ByJiani Zheng, Lu Wang, Fangkai Yang, Chaoyun Zhang, Lingrui Mei, Wenjie Yin, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang
12
2

Treinar Modelos Visão-Linguagem (VLMs) para agentes de Interfaces Gráficas de Usuário (GUI) por meio de Aprendizado por Reforço (RL) enfrenta desafios críticos: RL baseado em ambiente requer interações custosas, enquanto métodos livres de ambiente lutam com deslocamento de distribuição e generalização de recompensa. Propomos um framework de RL livre de ambiente que desvincula a estimativa de valor da otimização de política, aproveitando um Modelo de Ambiente de Valor (VEM) pré-treinado. O VEM prevê valores de estado-ação diretamente a partir de dados offline, destilando prioridades humanas sobre resultados de interação com GUI sem exigir previsão de próximo estado ou feedback ambiental. Isso evita erros cumulativos e melhora a resiliência a mudanças na IU ao focar no raciocínio semântico (por exemplo, Esta ação avança o objetivo do usuário?). O framework opera em duas etapas: (1) pré-treinamento do VEM para estimar utilidades de ação de longo prazo e (2) orientar a exploração de política com sinais congelados do VEM, permitindo automação de GUI independente de layout. Avaliado em benchmarks Android-in-the-Wild, o VEM alcança desempenho de ponta tanto em configurações offline quanto online, superando significativamente baselines livres de ambiente e igualando abordagens baseadas em ambiente sem custos de interação. Importante ressaltar que o VEM demonstra que a estimativa de valor consciente de semântica pode alcançar desempenho comparável com métodos treinados online.

13

CritiQ: Mineração de Critérios de Qualidade de Dados a partir de Preferências Humanas
CritiQ: Mining Data Quality Criteria from Human Preferences

Feb 26
ByHonglin Guo, Kai Lv, Qipeng Guo, Tianyi Liang, Zhiheng Xi, Demin Song, Qiuyinzhe Zhang, Yu Sun, Kai Chen, Xipeng Qiu, Tao Gui
11
2

O modelo de linguagem depende fortemente de dados de alta qualidade para um desempenho ótimo. Abordagens existentes baseiam-se em heurísticas projetadas manualmente, na perplexidade dos modelos existentes, no treinamento de classificadores ou em engenharia cuidadosa de prompts, que exigem significativa experiência especializada e esforço de anotação humana, ao mesmo tempo em que introduzem viéses. Apresentamos o CritiQ, um novo método de seleção de dados que minera automaticamente critérios a partir de preferências humanas por qualidade de dados com apenas cerca de 30 pares anotados por humanos e realiza uma seleção eficiente de dados. O componente principal, CritiQ Flow, emprega um agente gerente para evoluir critérios de qualidade e agentes trabalhadores para fazer julgamentos em pares. Construímos uma base de conhecimento que extrai critérios de qualidade de trabalhos anteriores para impulsionar o CritiQ Flow. Em comparação com métodos baseados em perplexidade e classificadores, critérios verbais são mais interpretáveis e possuem valor reutilizável. Após derivar os critérios, treinamos o CritiQ Scorer para atribuir pontuações de qualidade e realizar uma seleção eficiente de dados. Demonstramos a eficácia de nosso método nos domínios de código, matemática e lógica, alcançando alta precisão em conjuntos de testes anotados por humanos. Para validar a qualidade dos dados selecionados, continuamos a treinar modelos Llama 3.1 e observamos um desempenho aprimorado em tarefas subsequentes em comparação com amostragem uniforme. Estudos de ablação validam os benefícios da base de conhecimento e do processo de reflexão. Analisamos como os critérios evoluem e a eficácia da votação majoritária.

14

Destilar Qualquer Profundidade: A Destilação Cria um Estimador de Profundidade Monocular Mais Forte
Distill Any Depth: Distillation Creates a Stronger Monocular Depth Estimator

Feb 26
ByXiankang He, Dongyan Guo, Hongji Li, Ruibo Li, Ying Cui, Chi Zhang
11
5

A estimativa de profundidade monocular (MDE) tem como objetivo prever a profundidade da cena a partir de uma única imagem RGB e desempenha um papel crucial na compreensão de cenas em 3D. Avanços recentes em MDE de zero-shot aproveitam representações de profundidade normalizadas e aprendizado baseado em destilação para melhorar a generalização em cenas diversas. No entanto, os métodos atuais de normalização de profundidade para destilação, que dependem de normalização global, podem amplificar rótulos pseudo-ruidosos, reduzindo a eficácia da destilação. Neste artigo, analisamos sistematicamente o impacto de diferentes estratégias de normalização de profundidade na destilação de rótulos pseudo. Com base em nossas descobertas, propomos a Destilação de Contexto Cruzado, que integra pistas de profundidade globais e locais para aprimorar a qualidade dos rótulos pseudo. Além disso, introduzimos um framework de destilação multi-professor que aproveita as forças complementares de diferentes modelos de estimativa de profundidade, resultando em previsões de profundidade mais robustas e precisas. Experimentos extensivos em conjuntos de dados de referência demonstram que nossa abordagem supera significativamente os métodos de ponta, tanto quantitativa quanto qualitativamente.

15

BIG-Bench Extra Difícil
BIG-Bench Extra Hard

Feb 26
ByMehran Kazemi, Bahare Fatemi, Hritik Bansal, John Palowitch, Chrysovalantis Anastasiou, Sanket Vaibhav Mehta, Lalit K. Jain, Virginia Aglietti, Disha Jindal, Peter Chen, Nishanth Dikkala, Gladys Tyen, Xin Liu, Uri Shalit, Silvia Chiappa, Kate Olszewska, Yi Tay, Vinh Q. Tran, Quoc V. Le, Orhan Firat
10
3

Os grandes modelos de linguagem (LLMs) estão cada vez mais sendo utilizados em aplicações cotidianas, exigindo capacidades robustas de raciocínio geral e um conjunto diversificado de habilidades de raciocínio. No entanto, os benchmarks de raciocínio atuais para LLMs focam predominantemente em habilidades matemáticas e de codificação, deixando uma lacuna na avaliação de proficiências de raciocínio mais amplas. Uma exceção particular é o conjunto de dados BIG-Bench, que tem sido um benchmark crucial para avaliar as capacidades de raciocínio geral dos LLMs, graças ao seu conjunto diversificado de tarefas desafiadoras que permitiram uma avaliação abrangente do raciocínio geral em várias habilidades dentro de um framework unificado. No entanto, avanços recentes em LLMs levaram à saturação no BIG-Bench e em sua versão mais difícil, o BIG-Bench Hard (BBH). Modelos de ponta alcançam pontuações quase perfeitas em muitas tarefas no BBH, diminuindo assim sua utilidade. Para lidar com essa limitação, introduzimos o BIG-Bench Extra Hard (BBEH), um novo benchmark projetado para desafiar os limites da avaliação de raciocínio em LLMs. O BBEH substitui cada tarefa no BBH por uma tarefa inovadora que investiga uma capacidade de raciocínio similar, mas apresenta dificuldade significativamente aumentada. Avaliamos vários modelos no BBEH e observamos uma precisão média (harmônica) de 9,8% para o melhor modelo de propósito geral e 44,8% para o melhor modelo especializado em raciocínio, indicando um amplo espaço para melhorias e destacando o desafio contínuo de alcançar um raciocínio geral robusto em LLMs. Disponibilizamos o BBEH publicamente em: https://github.com/google-deepmind/bbeh.

16

MMKE-Bench: Um Benchmark de Edição Multimodal para Conhecimento Visual Diversificado
MMKE-Bench: A Multimodal Editing Benchmark for Diverse Visual Knowledge

Feb 27
ByYuntao Du, Kailin Jiang, Zhi Gao, Chenrui Shi, Zilong Zheng, Siyuan Qi, Qing Li
9
2

As técnicas de edição de conhecimento surgiram como ferramentas essenciais para atualizar o conhecimento factual de grandes modelos de linguagem (LLMs) e modelos multimodais (LMMs), permitindo corrigir informações desatualizadas ou imprecisas sem a necessidade de um novo treinamento do zero. No entanto, os benchmarks existentes para edição de conhecimento multimodal focam principalmente no conhecimento ao nível de entidades representado como tripletos simples, o que não captura a complexidade das informações multimodais do mundo real. Para lidar com essa questão, apresentamos o MMKE-Bench, um abrangente Benchmark de Edição de Conhecimento MultiModal, projetado para avaliar a capacidade dos LMMs de editar conhecimento visual diverso em cenários do mundo real. O MMKE-Bench aborda essas limitações incorporando três tipos de tarefas de edição: edição de entidades visuais, edição semântica visual e edição específica do usuário. Além disso, o MMKE-Bench utiliza linguagem natural livre para representar e editar conhecimento, oferecendo um formato mais flexível e eficaz. O benchmark consiste em 2.940 peças de conhecimento e 8.363 imagens em 33 categorias amplas, com perguntas de avaliação geradas automaticamente e verificadas por humanos. Avaliamos cinco métodos de edição de conhecimento de ponta em três LMMs proeminentes, revelando que nenhum método se destaca em todos os critérios, e que as edições visuais e específicas do usuário são particularmente desafiadoras. O MMKE-Bench estabelece um novo padrão para avaliar a robustez das técnicas de edição de conhecimento multimodal, impulsionando o progresso nesse campo em rápida evolução.

17

FSPO: Otimização de Preferência em Poucas Amostras de Dados de Preferência Sintéticos em LLMs Elicita Personalização Efetiva para Usuários Reais
FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users

Feb 26
ByAnikait Singh, Sheryl Hsu, Kyle Hsu, Eric Mitchell, Stefano Ermon, Tatsunori Hashimoto, Archit Sharma, Chelsea Finn
7
2

A personalização eficaz de LLMs é fundamental para uma ampla gama de aplicações de interface do usuário, como assistentes virtuais e curadoria de conteúdo. Inspirados nas fortes capacidades de aprendizado em contexto dos LLMs, propomos a Otimização de Preferência em Poucas Etapas (FSPO), que reformula a modelagem de recompensas como um problema de meta-aprendizado. Sob esse framework, um LLM aprende a se adaptar rapidamente a um usuário por meio de algumas preferências rotuladas desse usuário, construindo uma função de recompensa personalizada para ele. Além disso, uma vez que os dados de preferência do mundo real são escassos e desafiadores de coletar em grande escala, propomos escolhas de design cuidadosas para construir conjuntos de dados de preferência sintéticos para personalização, gerando mais de 1 milhão de preferências personalizadas sintéticas usando LLMs disponíveis publicamente. Em particular, para transferir com sucesso dos dados sintéticos para usuários reais, consideramos crucial que os dados apresentem alta diversidade e uma estrutura coerente e autoconsistente. Avaliamos o FSPO na geração personalizada de texto aberto para até 1.500 usuários sintéticos em três domínios: críticas de filmes, adaptação pedagógica com base no histórico educacional e resposta a perguntas gerais, juntamente com um estudo humano controlado. No geral, o FSPO alcança uma taxa de vitória média de 87% no Alpaca Eval na geração de respostas personalizadas para usuários sintéticos e uma taxa de vitória de 72% com usuários humanos reais na resposta a perguntas abertas.

18

MolSpectra: Pré-treinamento de Representação Molecular 3D com Espectros de Energia Multi-modais
MolSpectra: Pre-training 3D Molecular Representation with Multi-modal Energy Spectra

Feb 22
ByLiang Wang, Shaozhen Liu, Yu Rong, Deli Zhao, Qiang Liu, Shu Wu, Liang Wang
6
2

Estabelecer a relação entre estruturas 3D e os estados de energia de sistemas moleculares tem se mostrado uma abordagem promissora para aprender representações moleculares em 3D. No entanto, os métodos existentes são limitados na modelagem dos estados de energia molecular a partir da mecânica clássica. Essa limitação resulta em uma omissão significativa dos efeitos da mecânica quântica, como estruturas de níveis de energia quantizados (discretos), que oferecem uma estimativa mais precisa da energia molecular e podem ser experimentalmente mensurados por meio de espectros de energia. Neste artigo, propomos utilizar os espectros de energia para aprimorar o pré-treinamento de representações moleculares em 3D (MolSpectra), incorporando assim o conhecimento da mecânica quântica nas representações moleculares. Especificamente, propomos o SpecFormer, um codificador de múltiplos espectros para codificar espectros moleculares por meio da reconstrução de patches mascarados. Ao alinhar ainda mais as saídas do codificador 3D e do codificador de espectro usando um objetivo contrastivo, aprimoramos a compreensão das moléculas pelo codificador 3D. Avaliações em benchmarks públicos revelam que nossas representações pré-treinadas superam os métodos existentes na previsão de propriedades moleculares e modelagem de dinâmicas.

19

Drop-Upcycling: Treinamento de uma Mistura Esparsa de Especialistas com Re-inicialização Parcial
Drop-Upcycling: Training Sparse Mixture of Experts with Partial Re-initialization

Feb 26
ByTaishi Nakamura, Takuya Akiba, Kazuki Fujii, Yusuke Oda, Rio Yokota, Jun Suzuki
6
3

A arquitetura Mixture of Experts (MoE) reduz significativamente o custo de treinamento e inferência em comparação com um modelo denso de capacidade equivalente. O upcycling é uma abordagem que inicializa e treina um modelo MoE usando um modelo denso pré-treinado. Embora o upcycling resulte em ganhos de desempenho iniciais, o treinamento avança mais lentamente do que quando treinado do zero, levando a um desempenho subótimo a longo prazo. Propomos o Drop-Upcycling - um método que aborda efetivamente esse problema. O Drop-Upcycling combina duas abordagens aparentemente contraditórias: aproveitar o conhecimento de modelos densos pré-treinados enquanto reinicializa estatisticamente algumas partes dos pesos. Essa abordagem promove estrategicamente a especialização de especialistas, melhorando significativamente a eficiência do modelo MoE na aquisição de conhecimento. Experimentos extensivos em grande escala demonstram que o Drop-Upcycling supera significativamente os métodos anteriores de construção de MoE a longo prazo, especificamente ao treinar em centenas de bilhões de tokens ou mais. Como resultado, nosso modelo MoE com 5,9B de parâmetros ativos alcança desempenho comparável a um modelo denso de 13B na mesma família de modelos, enquanto requer aproximadamente 1/4 dos FLOPs de treinamento. Todos os recursos experimentais, incluindo código-fonte, dados de treinamento, checkpoints e logs do modelo, estão publicamente disponíveis para promover a reprodutibilidade e pesquisas futuras sobre MoE.

20

AISafetyLab: Um Framework Abrangente para Avaliação e Melhoria da Segurança da IA
AISafetyLab: A Comprehensive Framework for AI Safety Evaluation and Improvement

Feb 24
ByZhexin Zhang, Leqi Lei, Junxiao Yang, Xijie Huang, Yida Lu, Shiyao Cui, Renmiao Chen, Qinglin Zhang, Xinyuan Wang, Hao Wang, Hao Li, Xianqi Lei, Chengwei Pan, Lei Sha, Hongning Wang, Minlie Huang
6
2

À medida que os modelos de IA são cada vez mais implementados em diversos cenários do mundo real, garantir sua segurança continua sendo um desafio crítico, porém pouco explorado. Embora tenham sido feitos esforços substanciais para avaliar e aprimorar a segurança da IA, a falta de um framework padronizado e de um conjunto abrangente de ferramentas representa obstáculos significativos para a pesquisa sistemática e a adoção prática. Para preencher essa lacuna, apresentamos o AISafetyLab, um framework unificado e um conjunto de ferramentas que integra metodologias representativas de ataque, defesa e avaliação para a segurança da IA. O AISafetyLab apresenta uma interface intuitiva que permite aos desenvolvedores aplicar diversas técnicas de forma contínua, mantendo um código bem estruturado e extensível para futuros avanços. Além disso, realizamos estudos empíricos no Vicuna, analisando diferentes estratégias de ataque e defesa para fornecer insights valiosos sobre sua eficácia comparativa. Para facilitar a pesquisa e o desenvolvimento contínuo na segurança da IA, o AISafetyLab está disponível publicamente em https://github.com/thu-coai/AISafetyLab, e estamos comprometidos com sua manutenção e aprimoramento contínuos.

21

Adaptando o Reconhecimento Automático de Fala para Comunicações de Controle de Tráfego Aéreo com Sotaque
Adapting Automatic Speech Recognition for Accented Air Traffic Control Communications

Feb 27
ByMarcus Yu Zhe Wee, Justin Juin Hng Wong, Lynus Lim, Joe Yu Wei Tan, Prannaya Gupta, Dillion Lim, En Hao Tew, Aloysius Keng Siew Han, Yong Zhi Lim
6
2

A comunicação eficaz no Controle de Tráfego Aéreo (ATC) é fundamental para manter a segurança da aviação, no entanto, os desafios apresentados pelo inglês com sotaque permanecem amplamente não abordados nos sistemas de Reconhecimento Automático de Fala (ASR). Modelos existentes enfrentam dificuldades com a precisão de transcrição para fala com sotaque do Sudeste Asiático (sotaque SEA), especialmente em ambientes ruidosos de ATC. Este estudo apresenta o desenvolvimento de modelos ASR ajustados especificamente para sotaques do Sudeste Asiático usando um conjunto de dados recém-criado. Nossa pesquisa alcança melhorias significativas, obtendo uma Taxa de Erro de Palavras (WER) de 0,0982 ou 9,82% na fala com sotaque SEA em ATC. Além disso, o artigo destaca a importância de conjuntos de dados específicos da região e treinamento focado em sotaques, oferecendo um caminho para implantar sistemas ASR em operações militares com recursos limitados. Os resultados enfatizam a necessidade de técnicas de treinamento robustas ao ruído e conjuntos de dados específicos da região para melhorar a precisão de transcrição para sotaques não ocidentais nas comunicações de ATC.

22

Rumo à Decodificação Especulativa Multi-rascunho Ótima
Towards Optimal Multi-draft Speculative Decoding

Feb 26
ByZhengmian Hu, Tong Zheng, Vignesh Viswanathan, Ziyi Chen, Ryan A. Rossi, Yihan Wu, Dinesh Manocha, Heng Huang
5
2

Os Modelos de Linguagem de Grande Escala (LLMs) tornaram-se uma parte indispensável das tarefas de processamento de linguagem natural. No entanto, a amostragem autorregressiva tornou-se um gargalo de eficiência. A Decodificação Especulativa Multi-Rascunho (MDSD) é uma abordagem recente em que, ao gerar cada token, um pequeno modelo de rascunho gera vários rascunhos, e o LLM alvo os verifica em paralelo, garantindo que a saída final esteja de acordo com a distribuição do modelo alvo. As duas principais escolhas de design na MDSD são o método de amostragem de rascunho e o algoritmo de verificação. Para um método de amostragem de rascunho fixo, a taxa de aceitação ótima é uma solução para um problema de transporte ótimo, mas a complexidade desse problema torna difícil resolver a taxa de aceitação ótima e medir a diferença entre os algoritmos de verificação existentes e o limite superior teórico. Este artigo discute o dual do problema de transporte ótimo, fornecendo uma maneira de calcular eficientemente a taxa de aceitação ótima. Pela primeira vez, medimos o limite superior teórico da eficiência da MDSD para tamanhos de vocabulário na casa dos milhares e quantificamos a diferença entre os algoritmos de verificação existentes e esse limite. Também comparamos diferentes métodos de amostragem de rascunho com base em suas taxas de aceitação ótimas. Nossos resultados mostram que o método de amostragem de rascunho influencia fortemente a taxa de aceitação ótima, com a amostragem sem reposição superando a amostragem com reposição. Além disso, os algoritmos de verificação existentes não alcançam o limite superior teórico tanto para a amostragem sem reposição quanto para a amostragem com reposição. Nossas descobertas sugerem que métodos de amostragem de rascunho cuidadosamente projetados podem potencialmente melhorar a taxa de aceitação ótima e permitir o desenvolvimento de algoritmos de verificação que se aproximem do limite superior teórico.

23

PosterSum: Um Benchmark Multimodal para Sumarização de Pôsteres Científicos
PosterSum: A Multimodal Benchmark for Scientific Poster Summarization

Feb 24
ByRohit Saxena, Pasquale Minervini, Frank Keller
3
2

Gerar resumos textuais precisos e concisos a partir de documentos multimodais é desafiador, especialmente ao lidar com conteúdo visualmente complexo como pôsteres científicos. Apresentamos o PosterSum, um novo benchmark para avançar no desenvolvimento de modelos visão-linguagem que possam compreender e resumir pôsteres científicos em resumos de artigos de pesquisa. Nosso conjunto de dados contém 16.305 pôsteres de conferências pareados com seus resumos correspondentes. Cada pôster é fornecido em formato de imagem e apresenta desafios diversos de compreensão visual, como layouts complexos, regiões de texto densas, tabelas e figuras. Avaliamos os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) de última geração no PosterSum e demonstramos que eles têm dificuldade em interpretar e resumir com precisão pôsteres científicos. Propomos Segmentar e Resumir, um método hierárquico que supera os MLLMs atuais em métricas automatizadas, alcançando um aumento de 3,14% no ROUGE-L. Isso servirá como ponto de partida para pesquisas futuras sobre sumarização de pôsteres.

24

DOEI: Otimização Dupla de Informações de Incorporação para Mapas de Ativação de Classe Aprimorados com Atenção
DOEI: Dual Optimization of Embedding Information for Attention-Enhanced Class Activation Maps

Feb 21
ByHongjie Zhu, Zeyu Zhang, Guansong Pang, Xu Wang, Shimin Wen, Yu Bai, Daji Ergu, Ying Cai, Yang Zhao
2
2

A segmentação semântica fracamente supervisionada (WSSS) geralmente utiliza anotações semânticas limitadas para obter Mapas de Ativação de Classe (CAMs) iniciais. No entanto, devido ao acoplamento inadequado entre as respostas de ativação de classe e a informação semântica em um espaço de alta dimensão, o CAM está sujeito a coocorrência de objetos ou subativação, resultando em uma precisão de reconhecimento inferior. Para lidar com esse problema, propomos o DOEI, Otimização Dual da Informação de Incorporação, uma abordagem inovadora que reconstrói representações de incorporação por meio de matrizes de pesos de atenção conscientes da semântica para otimizar a capacidade de expressão da informação de incorporação. Especificamente, o DOEI amplifica tokens com alta confiança e suprime aqueles com baixa confiança durante a interação de classe com patch. Essa alinhamento das respostas de ativação com a informação semântica fortalece a propagação e desacoplamento de características-alvo, permitindo que as incorporações geradas representem com mais precisão as características-alvo em um espaço semântico de alto nível. Além disso, propomos um módulo de alinhamento de características híbridas no DOEI que combina valores RGB, características orientadas por incorporação e pesos de autoatenção para aumentar a confiabilidade dos tokens candidatos. Experimentos abrangentes mostram que o DOEI é um módulo eficaz plug-and-play que capacita modelos WSSS baseados em transformadores visuais de última geração a melhorar significativamente a qualidade dos CAMs e o desempenho de segmentação em benchmarks populares, incluindo PASCAL VOC (+3,6%, +1,5%, +1,2% mIoU) e MS COCO (+1,2%, +1,6% mIoU). O código estará disponível em https://github.com/AIGeeksGroup/DOEI.

Feb 26
Feb 27
Feb 28