Artigos de pesquisa em IA selecionados diariamente com traduções
Embora a tarefa de troca de rostos tenha recentemente ganhado atenção na comunidade de pesquisa, um problema relacionado de troca de cabeças permanece amplamente inexplorado. Além da transferência de cor de pele, a troca de cabeças apresenta desafios adicionais, como a necessidade de preservar informações estruturais de toda a cabeça durante a síntese e preencher lacunas entre a cabeça trocada e o fundo. Neste artigo, abordamos essas preocupações com o GHOST 2.0, que consiste em dois módulos específicos para o problema. Primeiramente, introduzimos o modelo Aligner aprimorado para reencenação de cabeças, que preserva informações de identidade em múltiplas escalas e é robusto a variações extremas de pose. Em segundo lugar, utilizamos um módulo Blender que integra perfeitamente a cabeça reencenada no fundo alvo, transferindo a cor da pele e preenchendo regiões incompatíveis. Ambos os módulos superam as bases nas tarefas correspondentes, permitindo alcançar resultados de ponta na troca de cabeças. Também lidamos com casos complexos, como grandes diferenças nos estilos de cabelo da origem e do alvo. O código está disponível em https://github.com/ai-forever/ghost-2.0
Apresentamos Kanana, uma série de modelos de linguagem bilíngues que demonstram desempenho excepcional em coreano e desempenho competitivo em inglês. O custo computacional do Kanana é significativamente menor do que o de modelos de ponta de tamanho semelhante. O relatório detalha as técnicas utilizadas durante o pré-treinamento para alcançar modelos eficientes em termos de computação, porém competitivos, incluindo filtragem de dados de alta qualidade, pré-treinamento em estágios, aumento de profundidade, poda e destilação. Além disso, o relatório esboça as metodologias utilizadas durante o pós-treinamento dos modelos Kanana, abrangendo ajuste fino supervisionado e otimização de preferências, com o objetivo de aprimorar sua capacidade de interação perfeita com os usuários. Por fim, o relatório detalha abordagens plausíveis usadas para a adaptação de modelos de linguagem a cenários específicos, como incorporação, geração aumentada por recuperação e chamada de função. A série de modelos Kanana varia de 2,1 bilhões a 32,5 bilhões de parâmetros, sendo que os modelos de 2,1 bilhões (base, instrução, incorporação) foram disponibilizados publicamente para promover a pesquisa em modelos de linguagem coreana.
A descoberta científica depende de cientistas gerando hipóteses inovadoras que passam por uma validação experimental rigorosa. Para aprimorar esse processo, introduzimos um co-cientista de IA, um sistema multiagente construído sobre o Gemini 2.0. O co-cientista de IA tem o objetivo de ajudar a descobrir novos conhecimentos originais e formular hipóteses e propostas de pesquisa demonstravelmente inovadoras, baseadas em evidências anteriores e alinhadas aos objetivos e orientações de pesquisa fornecidos pelos cientistas. O design do sistema incorpora uma abordagem de geração, debate e evolução de hipóteses, inspirada no método científico e acelerada pela ampliação do poder computacional no momento do teste. As principais contribuições incluem: (1) uma arquitetura multiagente com um framework de execução de tarefas assíncrono para ampliação flexível do poder computacional; (2) um processo de evolução de torneio para geração de hipóteses autoaperfeiçoantes. Avaliações automatizadas mostram benefícios contínuos do poder computacional no momento do teste, melhorando a qualidade das hipóteses. Embora de propósito geral, focamos o desenvolvimento e validação em três áreas biomédicas: reposicionamento de medicamentos, descoberta de novos alvos e explicação de mecanismos de evolução bacteriana e resistência antimicrobiana. Para o reposicionamento de medicamentos, o sistema propõe candidatos com descobertas de validação promissoras, incluindo candidatos para leucemia mieloide aguda que mostram inibição de tumores in vitro em concentrações clinicamente aplicáveis. Para a descoberta de novos alvos, o co-cientista de IA propôs novos alvos epigenéticos para fibrose hepática, validados por atividade antifibrótica e regeneração de células hepáticas em organoides hepáticos humanos. Por fim, o co-cientista de IA recapitulou resultados experimentais não publicados por meio de uma descoberta paralela in silico de um novo mecanismo de transferência genética na evolução bacteriana. Esses resultados, detalhados em relatórios separados e co-temporâneos, demonstram o potencial de aprimorar a descoberta biomédica e científica e inaugurar uma era de cientistas capacitados por IA.
Compreender teoremas específicos de um domínio muitas vezes requer mais do que apenas raciocínio baseado em texto; a comunicação eficaz por meio de explicações visuais estruturadas é crucial para uma compreensão mais profunda. Enquanto os grandes modelos de linguagem (LLMs) demonstram um desempenho forte em raciocínio de teoremas baseado em texto, sua capacidade de gerar explicações visuais coerentes e pedagogicamente significativas permanece um desafio em aberto. Neste trabalho, apresentamos o TheoremExplainAgent, uma abordagem agente para gerar vídeos de explicação de teoremas em formato longo (mais de 5 minutos) usando animações Manim. Para avaliar sistematicamente explicações de teoremas multimodais, propomos o TheoremExplainBench, um benchmark que abrange 240 teoremas em várias disciplinas STEM, juntamente com 5 métricas de avaliação automatizadas. Nossos resultados revelam que o planejamento agente é essencial para gerar vídeos detalhados em formato longo, e o agente o3-mini alcança uma taxa de sucesso de 93,8% e uma pontuação geral de 0,77. No entanto, nossos estudos quantitativos e qualitativos mostram que a maioria dos vídeos produzidos apresenta problemas menores com o layout dos elementos visuais. Além disso, explicações multimodais expõem falhas de raciocínio mais profundas que as explicações baseadas em texto falham em revelar, destacando a importância das explicações multimodais.
Apesar do papel fundamental da Grécia na economia global, os modelos de linguagem de grande escala (LLMs) permanecem pouco explorados para o contexto financeiro grego devido à complexidade linguística do grego e à escassez de conjuntos de dados específicos do domínio. Esforços anteriores em processamento de linguagem natural (PLN) financeiro multilíngue revelaram disparidades consideráveis de desempenho, mas até agora nenhum benchmark financeiro dedicado ao grego ou LLMs financeiros específicos para o grego foram desenvolvidos. Para preencher essa lacuna, apresentamos o Plutus-ben, o primeiro Benchmark de Avaliação Financeira em Grego, e o Plutus-8B, o pioneiro LLM Financeiro em Grego, ajustado com dados específicos do domínio grego. O Plutus-ben aborda cinco tarefas principais de PLN financeiro em grego: reconhecimento de entidades nomeadas numéricas e textuais, resposta a perguntas, sumarização abstrata e classificação de tópicos, facilitando assim avaliações sistemáticas e reproduzíveis de LLMs. Para fundamentar essas tarefas, apresentamos três novos conjuntos de dados financeiros gregos de alta qualidade, minuciosamente anotados por falantes nativos especialistas em grego, complementados por dois recursos existentes. Nossa avaliação abrangente de 22 LLMs no Plutus-ben revela que o PLN financeiro em grego continua desafiador devido à complexidade linguística, terminologia específica do domínio e lacunas no raciocínio financeiro. Esses achados destacam as limitações da transferência interlínguas, a necessidade de expertise financeira em modelos treinados em grego e os desafios de adaptar LLMs financeiros a textos em grego. Disponibilizamos publicamente o Plutus-ben, o Plutus-8B e todos os conjuntos de dados associados para promover pesquisas reproduzíveis e avançar o PLN financeiro em grego, fomentando uma maior inclusão multilíngue no setor financeiro.
Os modelos de linguagem multilíngue (LMs) são esperados para lembrar conhecimento factual consistentemente em diferentes idiomas, no entanto, muitas vezes falham em transferir conhecimento entre idiomas, mesmo quando possuem a informação correta em um dos idiomas. Por exemplo, podemos observar que um LM pode identificar corretamente Rashed Al Shashai como sendo da Arábia Saudita quando questionado em árabe, mas consistentemente falha em fazê-lo quando questionado em inglês ou suaíli. Para investigar sistematicamente essa limitação, introduzimos um benchmark de 10.000 fatos relacionados a países em 13 idiomas e propomos três novas métricas: Pontuação de Lembrança Factual, Pontuação de Transferibilidade de Conhecimento e Pontuação de Transferibilidade de Conhecimento Factual entre Idiomas - para quantificar a lembrança factual e a transferibilidade de conhecimento em LMs em diferentes idiomas. Nossos resultados revelam fraquezas fundamentais nos LMs de ponta atuais, especialmente na generalização entre idiomas, onde os modelos falham em transferir conhecimento de forma eficaz entre diferentes idiomas, resultando em desempenho inconsistente sensível ao idioma utilizado. Nossas descobertas enfatizam a necessidade de os LMs reconhecerem a confiabilidade factual específica de cada idioma e aproveitarem as informações mais confiáveis entre idiomas. Disponibilizamos nosso benchmark e estrutura de avaliação para impulsionar pesquisas futuras em transferência de conhecimento multilíngue.
Recentemente, os modelos o1-like têm atraído atenção significativa, onde esses modelos produzem os longos passos de raciocínio em Cadeia-de-Pensamento (CoT) para melhorar as habilidades de raciocínio dos Modelos de Linguagem Grandes (LLMs) existentes. Neste artigo, para compreender as qualidades desses longos CoTs e medir as habilidades de crítica dos LLMs existentes sobre esses longos CoTs, introduzimos o DeltaBench, incluindo os longos CoTs gerados de diferentes modelos o1-like (por exemplo, QwQ, DeepSeek-R1) para diferentes tarefas de raciocínio (por exemplo, Matemática, Código, Raciocínio Geral), para medir a capacidade de detectar erros no raciocínio em longos CoTs. Com base no DeltaBench, realizamos inicialmente uma análise detalhada dos longos CoTs gerados para descobrir a eficácia e eficiência de diferentes modelos o1-like. Em seguida, realizamos extensas avaliações dos modelos de recompensa de processo existentes (PRMs) e modelos de crítica para detectar os erros de cada processo anotado, com o objetivo de investigar os limites e as limitações dos PRMs e modelos de crítica existentes. Por fim, esperamos que o DeltaBench possa orientar os desenvolvedores a compreender melhor as habilidades de raciocínio em longos CoTs de seus modelos.
Apresentamos o Rank1, o primeiro modelo de reclassificação treinado para aproveitar o poder computacional no momento do teste. O Rank1 demonstra a aplicabilidade, no contexto da recuperação de informações, do uso de um modelo de linguagem de raciocínio (por exemplo, o o1 da OpenAI, o R1 da Deepseek, etc.) para destilação, a fim de melhorar rapidamente o desempenho de um modelo menor. Coletamos e disponibilizamos um conjunto de dados com mais de 600.000 exemplos de traços de raciocínio R1 de consultas e passagens no MS MARCO. Os modelos treinados com base nesse conjunto de dados demonstram: (1) desempenho de ponta em conjuntos de dados avançados de raciocínio e seguimento de instruções; (2) funcionam de forma notável fora da distribuição devido à capacidade de responder a prompts de entrada do usuário; e (3) possuem cadeias de raciocínio explicáveis que podem ser fornecidas a usuários ou sistemas baseados em RAG. Além disso, demonstramos que versões quantizadas desses modelos mantêm um forte desempenho ao utilizar menos poder computacional/memória. Em suma, o Rank1 mostra que o poder computacional no momento do teste permite um novo tipo fundamental de modelo de reclassificação explicável e eficaz para busca.
Os modelos de recompensa (RMs) são cruciais para o treinamento e escalonamento em tempo de inferência de grandes modelos de linguagem (LLMs). No entanto, os modelos de recompensa existentes focam principalmente nas preferências humanas, negligenciando sinais de correção verificáveis que têm mostrado um forte potencial no treinamento de LLMs. Neste artigo, propomos a modelagem de recompensa agente, um sistema de recompensa que combina modelos de recompensa com sinais de correção verificáveis de diferentes aspectos para fornecer recompensas confiáveis. Implementamos empiricamente um agente de recompensa, chamado RewardAgent, que combina recompensas de preferência humana com dois sinais verificáveis: factualidade e seguimento de instruções, para fornecer recompensas mais confiáveis. Realizamos experimentos abrangentes em benchmarks de modelos de recompensa existentes e pesquisas de melhor de n em tempo de inferência em tarefas do mundo real. RewardAgent supera significativamente os modelos de recompensa convencionais, demonstrando sua eficácia. Além disso, construímos pares de preferência de treinamento usando o RewardAgent e treinamos um LLM com o objetivo DPO, alcançando desempenho superior em vários benchmarks de processamento de linguagem natural em comparação com os modelos de recompensa convencionais. Nossos códigos foram publicamente divulgados para facilitar pesquisas futuras (https://github.com/THU-KEG/Agentic-Reward-Modeling).
Existe uma crescente empolgação sobre o potencial dos Modelos de Linguagem (LMs) para acelerar a descoberta científica. Falsificar hipóteses é fundamental para o progresso científico, pois permite que as afirmações sejam refinadas iterativamente ao longo do tempo. Esse processo requer um esforço significativo por parte dos pesquisadores, raciocínio e engenhosidade. No entanto, os benchmarks atuais para LMs avaliam predominantemente sua capacidade de gerar soluções em vez de desafiá-las. Defendemos o desenvolvimento de benchmarks que avaliem essa capacidade inversa - criar contraexemplos para soluções sutilmente incorretas. Para demonstrar essa abordagem, começamos com o domínio da resolução de problemas algorítmicos, onde contraexemplos podem ser avaliados automaticamente usando a execução de código. Especificamente, apresentamos o REFUTE, um benchmark em atualização dinâmica que inclui problemas recentes e submissões incorretas de competições de programação, onde especialistas humanos identificaram com sucesso contraexemplos. Nossa análise mostra que os melhores agentes de raciocínio, inclusive o OpenAI o3-mini (alto) com feedback de execução de código, podem criar contraexemplos para apenas <9% das soluções incorretas no REFUTE, mesmo que as avaliações indiquem sua capacidade de resolver até 48% desses problemas do zero. Esperamos que nosso trabalho estimule o progresso na avaliação e aprimoramento da capacidade dos LMs de falsificar soluções incorretas - uma habilidade crucial tanto para acelerar a pesquisa quanto para fazer com que os modelos se aprimorem por meio de um raciocínio reflexivo confiável.
Barreiras de pagamento, licenças e regras de direitos autorais frequentemente restringem a ampla disseminação e reutilização do conhecimento científico. Defendemos a posição de que é tanto legal quanto tecnicamente viável extrair o conhecimento científico em textos acadêmicos. Métodos atuais, como incorporação de texto, falham em preservar de forma confiável o conteúdo factual, e simples parafraseamentos podem não ser juridicamente sólidos. Instamos a comunidade a adotar uma nova ideia: converter documentos acadêmicos em Unidades de Conhecimento usando LLMs. Essas unidades utilizam dados estruturados que capturam entidades, atributos e relacionamentos sem conteúdo estilístico. Apresentamos evidências de que as Unidades de Conhecimento: (1) constituem um arcabouço legalmente defensável para compartilhar conhecimento de textos de pesquisa protegidos por direitos autorais, com base em análises legais da lei de direitos autorais alemã e da doutrina de Fair Use dos EUA, e (2) preservam a maioria (~95%) do conhecimento factual do texto original, medido pelo desempenho em questões de múltipla escolha sobre fatos do texto original protegido por direitos autorais em quatro domínios de pesquisa. Libertar o conhecimento científico dos direitos autorais promete benefícios transformadores para a pesquisa científica e educação, permitindo que modelos de linguagem reutilizem fatos importantes de textos protegidos por direitos autorais. Para apoiar isso, compartilhamos ferramentas de código aberto para converter documentos de pesquisa em Unidades de Conhecimento. No geral, nosso trabalho postula a viabilidade de democratizar o acesso ao conhecimento científico respeitando os direitos autorais.
Treinar Modelos Visão-Linguagem (VLMs) para agentes de Interfaces Gráficas de Usuário (GUI) por meio de Aprendizado por Reforço (RL) enfrenta desafios críticos: RL baseado em ambiente requer interações custosas, enquanto métodos livres de ambiente lutam com deslocamento de distribuição e generalização de recompensa. Propomos um framework de RL livre de ambiente que desvincula a estimativa de valor da otimização de política, aproveitando um Modelo de Ambiente de Valor (VEM) pré-treinado. O VEM prevê valores de estado-ação diretamente a partir de dados offline, destilando prioridades humanas sobre resultados de interação com GUI sem exigir previsão de próximo estado ou feedback ambiental. Isso evita erros cumulativos e melhora a resiliência a mudanças na IU ao focar no raciocínio semântico (por exemplo, Esta ação avança o objetivo do usuário?). O framework opera em duas etapas: (1) pré-treinamento do VEM para estimar utilidades de ação de longo prazo e (2) orientar a exploração de política com sinais congelados do VEM, permitindo automação de GUI independente de layout. Avaliado em benchmarks Android-in-the-Wild, o VEM alcança desempenho de ponta tanto em configurações offline quanto online, superando significativamente baselines livres de ambiente e igualando abordagens baseadas em ambiente sem custos de interação. Importante ressaltar que o VEM demonstra que a estimativa de valor consciente de semântica pode alcançar desempenho comparável com métodos treinados online.
A estimativa de profundidade monocular (MDE) tem como objetivo prever a profundidade da cena a partir de uma única imagem RGB e desempenha um papel crucial na compreensão de cenas em 3D. Avanços recentes em MDE de zero-shot aproveitam representações de profundidade normalizadas e aprendizado baseado em destilação para melhorar a generalização em cenas diversas. No entanto, os métodos atuais de normalização de profundidade para destilação, que dependem de normalização global, podem amplificar rótulos pseudo-ruidosos, reduzindo a eficácia da destilação. Neste artigo, analisamos sistematicamente o impacto de diferentes estratégias de normalização de profundidade na destilação de rótulos pseudo. Com base em nossas descobertas, propomos a Destilação de Contexto Cruzado, que integra pistas de profundidade globais e locais para aprimorar a qualidade dos rótulos pseudo. Além disso, introduzimos um framework de destilação multi-professor que aproveita as forças complementares de diferentes modelos de estimativa de profundidade, resultando em previsões de profundidade mais robustas e precisas. Experimentos extensivos em conjuntos de dados de referência demonstram que nossa abordagem supera significativamente os métodos de ponta, tanto quantitativa quanto qualitativamente.
O modelo de linguagem depende fortemente de dados de alta qualidade para um desempenho ótimo. Abordagens existentes baseiam-se em heurísticas projetadas manualmente, na perplexidade dos modelos existentes, no treinamento de classificadores ou em engenharia cuidadosa de prompts, que exigem significativa experiência especializada e esforço de anotação humana, ao mesmo tempo em que introduzem viéses. Apresentamos o CritiQ, um novo método de seleção de dados que minera automaticamente critérios a partir de preferências humanas por qualidade de dados com apenas cerca de 30 pares anotados por humanos e realiza uma seleção eficiente de dados. O componente principal, CritiQ Flow, emprega um agente gerente para evoluir critérios de qualidade e agentes trabalhadores para fazer julgamentos em pares. Construímos uma base de conhecimento que extrai critérios de qualidade de trabalhos anteriores para impulsionar o CritiQ Flow. Em comparação com métodos baseados em perplexidade e classificadores, critérios verbais são mais interpretáveis e possuem valor reutilizável. Após derivar os critérios, treinamos o CritiQ Scorer para atribuir pontuações de qualidade e realizar uma seleção eficiente de dados. Demonstramos a eficácia de nosso método nos domínios de código, matemática e lógica, alcançando alta precisão em conjuntos de testes anotados por humanos. Para validar a qualidade dos dados selecionados, continuamos a treinar modelos Llama 3.1 e observamos um desempenho aprimorado em tarefas subsequentes em comparação com amostragem uniforme. Estudos de ablação validam os benefícios da base de conhecimento e do processo de reflexão. Analisamos como os critérios evoluem e a eficácia da votação majoritária.
Os grandes modelos de linguagem (LLMs) estão cada vez mais sendo utilizados em aplicações cotidianas, exigindo capacidades robustas de raciocínio geral e um conjunto diversificado de habilidades de raciocínio. No entanto, os benchmarks de raciocínio atuais para LLMs focam predominantemente em habilidades matemáticas e de codificação, deixando uma lacuna na avaliação de proficiências de raciocínio mais amplas. Uma exceção particular é o conjunto de dados BIG-Bench, que tem sido um benchmark crucial para avaliar as capacidades de raciocínio geral dos LLMs, graças ao seu conjunto diversificado de tarefas desafiadoras que permitiram uma avaliação abrangente do raciocínio geral em várias habilidades dentro de um framework unificado. No entanto, avanços recentes em LLMs levaram à saturação no BIG-Bench e em sua versão mais difícil, o BIG-Bench Hard (BBH). Modelos de ponta alcançam pontuações quase perfeitas em muitas tarefas no BBH, diminuindo assim sua utilidade. Para lidar com essa limitação, introduzimos o BIG-Bench Extra Hard (BBEH), um novo benchmark projetado para desafiar os limites da avaliação de raciocínio em LLMs. O BBEH substitui cada tarefa no BBH por uma tarefa inovadora que investiga uma capacidade de raciocínio similar, mas apresenta dificuldade significativamente aumentada. Avaliamos vários modelos no BBEH e observamos uma precisão média (harmônica) de 9,8% para o melhor modelo de propósito geral e 44,8% para o melhor modelo especializado em raciocínio, indicando um amplo espaço para melhorias e destacando o desafio contínuo de alcançar um raciocínio geral robusto em LLMs. Disponibilizamos o BBEH publicamente em: https://github.com/google-deepmind/bbeh.
A personalização eficaz de LLMs é fundamental para uma ampla gama de aplicações de interface do usuário, como assistentes virtuais e curadoria de conteúdo. Inspirados nas fortes capacidades de aprendizado em contexto dos LLMs, propomos a Otimização de Preferência em Poucas Etapas (FSPO), que reformula a modelagem de recompensas como um problema de meta-aprendizado. Sob esse framework, um LLM aprende a se adaptar rapidamente a um usuário por meio de algumas preferências rotuladas desse usuário, construindo uma função de recompensa personalizada para ele. Além disso, uma vez que os dados de preferência do mundo real são escassos e desafiadores de coletar em grande escala, propomos escolhas de design cuidadosas para construir conjuntos de dados de preferência sintéticos para personalização, gerando mais de 1 milhão de preferências personalizadas sintéticas usando LLMs disponíveis publicamente. Em particular, para transferir com sucesso dos dados sintéticos para usuários reais, consideramos crucial que os dados apresentem alta diversidade e uma estrutura coerente e autoconsistente. Avaliamos o FSPO na geração personalizada de texto aberto para até 1.500 usuários sintéticos em três domínios: críticas de filmes, adaptação pedagógica com base no histórico educacional e resposta a perguntas gerais, juntamente com um estudo humano controlado. No geral, o FSPO alcança uma taxa de vitória média de 87% no Alpaca Eval na geração de respostas personalizadas para usuários sintéticos e uma taxa de vitória de 72% com usuários humanos reais na resposta a perguntas abertas.
A arquitetura Mixture of Experts (MoE) reduz significativamente o custo de treinamento e inferência em comparação com um modelo denso de capacidade equivalente. O upcycling é uma abordagem que inicializa e treina um modelo MoE usando um modelo denso pré-treinado. Embora o upcycling resulte em ganhos de desempenho iniciais, o treinamento avança mais lentamente do que quando treinado do zero, levando a um desempenho subótimo a longo prazo. Propomos o Drop-Upcycling - um método que aborda efetivamente esse problema. O Drop-Upcycling combina duas abordagens aparentemente contraditórias: aproveitar o conhecimento de modelos densos pré-treinados enquanto reinicializa estatisticamente algumas partes dos pesos. Essa abordagem promove estrategicamente a especialização de especialistas, melhorando significativamente a eficiência do modelo MoE na aquisição de conhecimento. Experimentos extensivos em grande escala demonstram que o Drop-Upcycling supera significativamente os métodos anteriores de construção de MoE a longo prazo, especificamente ao treinar em centenas de bilhões de tokens ou mais. Como resultado, nosso modelo MoE com 5,9B de parâmetros ativos alcança desempenho comparável a um modelo denso de 13B na mesma família de modelos, enquanto requer aproximadamente 1/4 dos FLOPs de treinamento. Todos os recursos experimentais, incluindo código-fonte, dados de treinamento, checkpoints e logs do modelo, estão publicamente disponíveis para promover a reprodutibilidade e pesquisas futuras sobre MoE.
A comunicação eficaz no Controle de Tráfego Aéreo (ATC) é fundamental para manter a segurança da aviação, no entanto, os desafios apresentados pelo inglês com sotaque permanecem amplamente não abordados nos sistemas de Reconhecimento Automático de Fala (ASR). Modelos existentes enfrentam dificuldades com a precisão de transcrição para fala com sotaque do Sudeste Asiático (sotaque SEA), especialmente em ambientes ruidosos de ATC. Este estudo apresenta o desenvolvimento de modelos ASR ajustados especificamente para sotaques do Sudeste Asiático usando um conjunto de dados recém-criado. Nossa pesquisa alcança melhorias significativas, obtendo uma Taxa de Erro de Palavras (WER) de 0,0982 ou 9,82% na fala com sotaque SEA em ATC. Além disso, o artigo destaca a importância de conjuntos de dados específicos da região e treinamento focado em sotaques, oferecendo um caminho para implantar sistemas ASR em operações militares com recursos limitados. Os resultados enfatizam a necessidade de técnicas de treinamento robustas ao ruído e conjuntos de dados específicos da região para melhorar a precisão de transcrição para sotaques não ocidentais nas comunicações de ATC.
À medida que os modelos de IA são cada vez mais implementados em diversos cenários do mundo real, garantir sua segurança continua sendo um desafio crítico, porém pouco explorado. Embora tenham sido feitos esforços substanciais para avaliar e aprimorar a segurança da IA, a falta de um framework padronizado e de um conjunto abrangente de ferramentas representa obstáculos significativos para a pesquisa sistemática e a adoção prática. Para preencher essa lacuna, apresentamos o AISafetyLab, um framework unificado e um conjunto de ferramentas que integra metodologias representativas de ataque, defesa e avaliação para a segurança da IA. O AISafetyLab apresenta uma interface intuitiva que permite aos desenvolvedores aplicar diversas técnicas de forma contínua, mantendo um código bem estruturado e extensível para futuros avanços. Além disso, realizamos estudos empíricos no Vicuna, analisando diferentes estratégias de ataque e defesa para fornecer insights valiosos sobre sua eficácia comparativa. Para facilitar a pesquisa e o desenvolvimento contínuo na segurança da IA, o AISafetyLab está disponível publicamente em https://github.com/thu-coai/AISafetyLab, e estamos comprometidos com sua manutenção e aprimoramento contínuos.
Estabelecer a relação entre estruturas 3D e os estados de energia de sistemas moleculares tem se mostrado uma abordagem promissora para aprender representações moleculares em 3D. No entanto, os métodos existentes são limitados na modelagem dos estados de energia molecular a partir da mecânica clássica. Essa limitação resulta em uma omissão significativa dos efeitos da mecânica quântica, como estruturas de níveis de energia quantizados (discretos), que oferecem uma estimativa mais precisa da energia molecular e podem ser experimentalmente mensurados por meio de espectros de energia. Neste artigo, propomos utilizar os espectros de energia para aprimorar o pré-treinamento de representações moleculares em 3D (MolSpectra), incorporando assim o conhecimento da mecânica quântica nas representações moleculares. Especificamente, propomos o SpecFormer, um codificador de múltiplos espectros para codificar espectros moleculares por meio da reconstrução de patches mascarados. Ao alinhar ainda mais as saídas do codificador 3D e do codificador de espectro usando um objetivo contrastivo, aprimoramos a compreensão das moléculas pelo codificador 3D. Avaliações em benchmarks públicos revelam que nossas representações pré-treinadas superam os métodos existentes na previsão de propriedades moleculares e modelagem de dinâmicas.
As técnicas de edição de conhecimento surgiram como ferramentas essenciais para atualizar o conhecimento factual de grandes modelos de linguagem (LLMs) e modelos multimodais (LMMs), permitindo corrigir informações desatualizadas ou imprecisas sem a necessidade de um novo treinamento do zero. No entanto, os benchmarks existentes para edição de conhecimento multimodal focam principalmente no conhecimento ao nível de entidades representado como tripletos simples, o que não captura a complexidade das informações multimodais do mundo real. Para lidar com essa questão, apresentamos o MMKE-Bench, um abrangente Benchmark de Edição de Conhecimento MultiModal, projetado para avaliar a capacidade dos LMMs de editar conhecimento visual diverso em cenários do mundo real. O MMKE-Bench aborda essas limitações incorporando três tipos de tarefas de edição: edição de entidades visuais, edição semântica visual e edição específica do usuário. Além disso, o MMKE-Bench utiliza linguagem natural livre para representar e editar conhecimento, oferecendo um formato mais flexível e eficaz. O benchmark consiste em 2.940 peças de conhecimento e 8.363 imagens em 33 categorias amplas, com perguntas de avaliação geradas automaticamente e verificadas por humanos. Avaliamos cinco métodos de edição de conhecimento de ponta em três LMMs proeminentes, revelando que nenhum método se destaca em todos os critérios, e que as edições visuais e específicas do usuário são particularmente desafiadoras. O MMKE-Bench estabelece um novo padrão para avaliar a robustez das técnicas de edição de conhecimento multimodal, impulsionando o progresso nesse campo em rápida evolução.
Os Modelos de Linguagem de Grande Escala (LLMs) tornaram-se uma parte indispensável das tarefas de processamento de linguagem natural. No entanto, a amostragem autorregressiva tornou-se um gargalo de eficiência. A Decodificação Especulativa Multi-Rascunho (MDSD) é uma abordagem recente em que, ao gerar cada token, um pequeno modelo de rascunho gera vários rascunhos, e o LLM alvo os verifica em paralelo, garantindo que a saída final esteja de acordo com a distribuição do modelo alvo. As duas principais escolhas de design na MDSD são o método de amostragem de rascunho e o algoritmo de verificação. Para um método de amostragem de rascunho fixo, a taxa de aceitação ótima é uma solução para um problema de transporte ótimo, mas a complexidade desse problema torna difícil resolver a taxa de aceitação ótima e medir a diferença entre os algoritmos de verificação existentes e o limite superior teórico. Este artigo discute o dual do problema de transporte ótimo, fornecendo uma maneira de calcular eficientemente a taxa de aceitação ótima. Pela primeira vez, medimos o limite superior teórico da eficiência da MDSD para tamanhos de vocabulário na casa dos milhares e quantificamos a diferença entre os algoritmos de verificação existentes e esse limite. Também comparamos diferentes métodos de amostragem de rascunho com base em suas taxas de aceitação ótimas. Nossos resultados mostram que o método de amostragem de rascunho influencia fortemente a taxa de aceitação ótima, com a amostragem sem reposição superando a amostragem com reposição. Além disso, os algoritmos de verificação existentes não alcançam o limite superior teórico tanto para a amostragem sem reposição quanto para a amostragem com reposição. Nossas descobertas sugerem que métodos de amostragem de rascunho cuidadosamente projetados podem potencialmente melhorar a taxa de aceitação ótima e permitir o desenvolvimento de algoritmos de verificação que se aproximem do limite superior teórico.
Gerar resumos textuais precisos e concisos a partir de documentos multimodais é desafiador, especialmente ao lidar com conteúdo visualmente complexo como pôsteres científicos. Apresentamos o PosterSum, um novo benchmark para avançar no desenvolvimento de modelos visão-linguagem que possam compreender e resumir pôsteres científicos em resumos de artigos de pesquisa. Nosso conjunto de dados contém 16.305 pôsteres de conferências pareados com seus resumos correspondentes. Cada pôster é fornecido em formato de imagem e apresenta desafios diversos de compreensão visual, como layouts complexos, regiões de texto densas, tabelas e figuras. Avaliamos os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) de última geração no PosterSum e demonstramos que eles têm dificuldade em interpretar e resumir com precisão pôsteres científicos. Propomos Segmentar e Resumir, um método hierárquico que supera os MLLMs atuais em métricas automatizadas, alcançando um aumento de 3,14% no ROUGE-L. Isso servirá como ponto de partida para pesquisas futuras sobre sumarização de pôsteres.
A segmentação semântica fracamente supervisionada (WSSS) geralmente utiliza anotações semânticas limitadas para obter Mapas de Ativação de Classe (CAMs) iniciais. No entanto, devido ao acoplamento inadequado entre as respostas de ativação de classe e a informação semântica em um espaço de alta dimensão, o CAM está sujeito a coocorrência de objetos ou subativação, resultando em uma precisão de reconhecimento inferior. Para lidar com esse problema, propomos o DOEI, Otimização Dual da Informação de Incorporação, uma abordagem inovadora que reconstrói representações de incorporação por meio de matrizes de pesos de atenção conscientes da semântica para otimizar a capacidade de expressão da informação de incorporação. Especificamente, o DOEI amplifica tokens com alta confiança e suprime aqueles com baixa confiança durante a interação de classe com patch. Essa alinhamento das respostas de ativação com a informação semântica fortalece a propagação e desacoplamento de características-alvo, permitindo que as incorporações geradas representem com mais precisão as características-alvo em um espaço semântico de alto nível. Além disso, propomos um módulo de alinhamento de características híbridas no DOEI que combina valores RGB, características orientadas por incorporação e pesos de autoatenção para aumentar a confiabilidade dos tokens candidatos. Experimentos abrangentes mostram que o DOEI é um módulo eficaz plug-and-play que capacita modelos WSSS baseados em transformadores visuais de última geração a melhorar significativamente a qualidade dos CAMs e o desempenho de segmentação em benchmarks populares, incluindo PASCAL VOC (+3,6%, +1,5%, +1,2% mIoU) e MS COCO (+1,2%, +1,6% mIoU). O código estará disponível em https://github.com/AIGeeksGroup/DOEI.