Artigos de pesquisa em IA selecionados diariamente com traduções
Embora os grandes modelos de linguagem (LLMs) se destaquem em tarefas de geração, sua arquitetura apenas do decodificador frequentemente limita seu potencial como modelos de incorporação se nenhuma outra afinação de representação for aplicada. Isso contradiz a alegação de serem generalistas? Para responder a essa pergunta, examinamos mais de perto os LLMs de Mixture-of-Experts (MoE). Nosso estudo mostra que os roteadores de especialistas nos LLMs de MoE podem servir como modelos de incorporação prontos para uso com desempenho promissor em uma variedade de tarefas focadas em incorporação, sem a necessidade de qualquer afinação. Além disso, nossa análise extensiva mostra que os pesos de roteamento (RW) do MoE são complementares ao estado oculto (HS) dos LLMs, uma incorporação amplamente utilizada. Em comparação com HS, descobrimos que RW é mais robusto à escolha de prompts e foca em semântica de alto nível. Motivados pela análise, propomos o MoEE combinando RW e HS, o que alcança melhor desempenho do que usar cada um separadamente. Nossa exploração da combinação deles e da estratégia de prompts revela várias percepções inovadoras, por exemplo, uma soma ponderada das similaridades de RW e HS supera a similaridade em sua concatenação. Nossos experimentos são realizados em 6 tarefas de incorporação com 20 conjuntos de dados do Massive Text Embedding Benchmark (MTEB). Os resultados demonstram a melhoria significativa trazida pelo MoEE para a incorporação baseada em LLM sem mais afinações.
A adaptação de Modelos de Linguagem de Grande Escala médicos para idiomas locais pode reduzir as barreiras de acesso aos serviços de saúde, mas a escassez de dados continua a ser um desafio significativo, especialmente para idiomas com poucos recursos. Para lidar com isso, primeiro construímos um conjunto de dados médicos de alta qualidade e conduzimos análises para garantir sua qualidade. A fim de aproveitar a capacidade de generalização de Modelos de Linguagem de Grande Escala multilíngues para escalar eficientemente para idiomas com recursos limitados, exploramos o fluxo de informação interno dos LLMs de uma perspectiva multilíngue usando a modularidade Mixture of Experts (MoE). Tecnicamente, propomos um novo método de roteamento MoE que emprega especialistas específicos de idiomas e roteamento entre idiomas. Inspirado na teoria dos circuitos, nossa análise de roteamento revelou um mecanismo de fluxo de informação Spread Out in the End: enquanto as camadas iniciais concentram o fluxo de informação entre idiomas, as camadas posteriores exibem uma divergência específica do idioma. Essa percepção levou diretamente ao desenvolvimento da arquitetura Post-MoE, que aplica roteamento esparsa apenas nas camadas posteriores, mantendo densas as demais. Resultados experimentais demonstram que essa abordagem melhora a generalização de modelos multilíngues para outros idiomas, preservando a interpretabilidade. Por fim, para escalar eficientemente o modelo para 50 idiomas, introduzimos o conceito de especialistas em famílias de idiomas, baseando-se em conhecimentos linguísticos prévios, o que permite aumentar o número de idiomas sem adicionar parâmetros adicionais.
Ampliar a janela de contexto dos grandes modelos de linguagem (LLMs) tornou-se uma área de pesquisa crucial, especialmente para aplicações envolvendo textos extremamente longos. Neste trabalho, propomos um novo framework sem treinamento para processar textos longos, utilizando uma estratégia de dividir e conquistar para alcançar uma compreensão abrangente de documentos. O framework proposto LLMtimesMapReduce divide o documento inteiro em vários pedaços para que os LLMs possam ler e depois agrega as respostas intermediárias para produzir a saída final. O principal desafio para os frameworks de processamento de texto longo dividir e conquistar está no risco de perder informações essenciais de longo alcance ao dividir o documento, o que pode levar o modelo a produzir respostas incompletas ou incorretas com base nos textos segmentados. A informação de longo alcance interrompida pode ser classificada em duas categorias: dependência entre pedaços e conflito entre pedaços. Projetamos um protocolo de informação estruturada para lidar melhor com a dependência entre pedaços e um mecanismo de calibração de confiança no contexto para resolver conflitos entre pedaços. Resultados experimentais demonstram que o LLMtimesMapReduce pode superar os LLMs de contexto longo de código aberto e comerciais representativos, e é aplicável a vários modelos diferentes.
Embora a ampliação de modelos de linguagem grandes (LLMs) baseados em Transformers tenha demonstrado um desempenho promissor em várias tarefas, também introduz arquiteturas redundantes, apresentando desafios de eficiência para implementações do mundo real. Apesar do reconhecimento de alguma redundância nos LLMs, a variabilidade da redundância entre diferentes arquiteturas nos transformers, como camadas MLP e de Atenção, é pouco explorada. Neste trabalho, investigamos a redundância entre diferentes módulos dentro dos Transformers, incluindo Blocos, MLP e camadas de Atenção, utilizando uma métrica baseada em similaridade. Surpreendentemente, apesar do papel crítico das camadas de atenção em distinguir os transformers de outras arquiteturas, descobrimos que uma grande parte dessas camadas exibe uma similaridade excessivamente alta e pode ser podada sem degradar o desempenho. Por exemplo, o Llama-2-70B obteve uma aceleração de 48,4\% ao podar metade das camadas de atenção, com apenas uma queda de desempenho de 2,4\%. Além disso, ao rastrear checkpoints do modelo ao longo do processo de treinamento, observamos que a redundância nas camadas de atenção é inerente e consistente em todas as etapas de treinamento. Adicionalmente, propomos um método que elimina conjuntamente camadas de Atenção e MLP, permitindo-nos podar camadas adicionais de forma mais agressiva. Por exemplo, ao eliminar 31 camadas (Atenção + MLP), o Llama-2-13B ainda mantém 90\% do desempenho na tarefa MMLU. Nosso trabalho fornece insights valiosos para o design futuro de arquiteturas de rede. O código está disponível em: https://github.com/Shwai-He/LLM-Drop.
Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) frequentemente apresentam fenômenos de alucinação, mas as razões subjacentes ainda são pouco compreendidas. Neste artigo, apresentamos uma análise empírica e descobrimos que, embora os MLLMs gerem incorretamente os objetos na saída final, na verdade são capazes de reconhecer objetos visuais nas camadas anteriores. Especulamos que isso pode ser devido aos fortes conhecimentos prévios do modelo de linguagem suprimindo a informação visual, levando às alucinações. Motivados por isso, propomos um novo método de decodificação de correção dinâmica para MLLMs (DeCo), que seleciona adaptativamente as camadas anteriores apropriadas e integra proporcionalmente o conhecimento na camada final para ajustar os logits de saída. Observamos que o DeCo é independente do modelo e pode ser incorporado facilmente a várias estratégias de decodificação clássicas e aplicado a diferentes MLLMs. Avaliamos o DeCo em benchmarks amplamente utilizados, demonstrando que pode reduzir significativamente as taxas de alucinação em comparação com os baselines, destacando seu potencial para mitigar alucinações. O código está disponível em https://github.com/zjunlp/DeCo.
As técnicas de avaliação contemporâneas são inadequadas para sistemas agentes. Essas abordagens se concentram exclusivamente nos resultados finais - ignorando a natureza passo a passo dos sistemas agentes, ou exigem um trabalho manual excessivo. Para lidar com isso, introduzimos o framework Agente-como-Juiz, no qual sistemas agentes são utilizados para avaliar sistemas agentes. Isso é uma extensão orgânica do framework LLM-como-Juiz, incorporando características agentes que possibilitam feedback intermediário para todo o processo de resolução de tarefas. Aplicamos o Agente-como-Juiz à tarefa de geração de código. Para superar problemas com benchmarks existentes e fornecer uma plataforma de testes de prova de conceito para o Agente-como-Juiz, apresentamos o DevAI, um novo benchmark com 55 tarefas realistas de desenvolvimento de IA automatizado. Ele inclui ricas anotações manuais, como um total de 365 requisitos de usuário hierárquicos. Avaliamos três dos sistemas agentes populares usando o Agente-como-Juiz e descobrimos que ele supera significativamente o LLM-como-Juiz e é tão confiável quanto nossa linha de base de avaliação humana. No geral, acreditamos que o Agente-como-Juiz representa um avanço concreto para os sistemas agentes modernos - fornecendo sinais de recompensa ricos e confiáveis necessários para a auto melhoria dinâmica e escalável.
A eficácia dos modelos de geração de vídeo depende fortemente da qualidade de seus conjuntos de dados de treinamento. A maioria dos modelos anteriores de geração de vídeo é treinada em pequenos clipes de vídeo, enquanto recentemente tem havido um aumento de interesse em treinar modelos de geração de vídeo longo diretamente em vídeos mais extensos. No entanto, a falta de vídeos longos de alta qualidade impede o avanço da geração de vídeo longo. Para promover a pesquisa em geração de vídeo longo, desejamos um novo conjunto de dados com quatro características essenciais para o treinamento de modelos de geração de vídeo longo: (1) vídeos longos com pelo menos 10 segundos, (2) vídeos longos sem cortes, (3) grande movimento e conteúdos diversos, e (4) legendas temporalmente densas. Para alcançar isso, introduzimos um novo processo de seleção de vídeos longos de alta qualidade e geração de legendas temporalmente densas. Especificamente, definimos um conjunto de métricas para avaliar quantitativamente a qualidade do vídeo, incluindo cortes de cena, graus dinâmicos e qualidade em nível semântico, permitindo-nos filtrar vídeos longos de alta qualidade de uma grande quantidade de vídeos de origem. Posteriormente, desenvolvemos um processo hierárquico de legendagem de vídeo para anotar vídeos longos com legendas temporalmente densas. Com esse processo, curamos o primeiro conjunto de dados de vídeos longos, LVD-2M, composto por 2 milhões de vídeos longos, cada um com mais de 10 segundos e anotados com legendas temporalmente densas. Validamos ainda mais a eficácia do LVD-2M ajustando finamente os modelos de geração de vídeo para gerar vídeos longos com movimentos dinâmicos. Acreditamos que nosso trabalho contribuirá significativamente para futuras pesquisas em geração de vídeo longo.
Os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado melhorias massivas em habilidades de raciocínio e tomada de decisão e podem manter conversas naturais com os usuários. Recentemente, muitos conjuntos de dados de referência de uso de ferramentas foram propostos. No entanto, os conjuntos de dados existentes têm as seguintes limitações: (1) Cenários de avaliação insuficientes (por exemplo, cobrem apenas cenas de uso de ferramentas limitadas). (2) Custos extensivos de avaliação (por exemplo, custos da API GPT). Para lidar com essas limitações, neste trabalho, propomos um conjunto de dados de referência de uso de ferramentas em várias granularidades para grandes modelos de linguagem chamado MTU-Bench. Para a propriedade de "multi-granularidade", nosso MTU-Bench abrange cinco cenas de uso de ferramentas (ou seja, turno único e única ferramenta, turno único e múltiplas ferramentas, múltiplos turnos e única ferramenta, múltiplos turnos e múltiplas ferramentas, e tarefas fora da distribuição). Além disso, todas as métricas de avaliação do nosso MTU-Bench são baseadas nos resultados de previsão e na verdade fundamental sem usar quaisquer métricas de avaliação GPT ou humanas. Além disso, nosso MTU-Bench é coletado transformando conjuntos de dados existentes de alta qualidade para simular cenários de uso de ferramentas do mundo real, e também propomos um conjunto de dados de instruções chamado dados MTU-Instruct para aprimorar as habilidades de uso de ferramentas dos LLMs existentes. Resultados experimentais abrangentes demonstram a eficácia do nosso MTU-Bench. O código e os dados serão disponibilizados em https://github.com/MTU-Bench-Team/MTU-Bench.git.
Como um dos modelos generativos mais populares e procurados nos últimos anos, os modelos de difusão têm despertado o interesse de muitos pesquisadores e demonstrado consistentemente excelentes vantagens em várias tarefas generativas, como síntese de imagens, geração de vídeos, design de moléculas, renderização de cenas 3D e geração multimodal, baseando-se em seus densos princípios teóricos e práticas de aplicação confiáveis. O notável sucesso desses esforços recentes em modelos de difusão advém em grande parte de princípios de design progressivos e de uma arquitetura eficiente, metodologias de treinamento, inferência e implantação. No entanto, ainda não houve uma revisão abrangente e aprofundada para resumir esses princípios e práticas a fim de auxiliar na compreensão e aplicação rápidas dos modelos de difusão. Nesta pesquisa, fornecemos uma nova perspectiva orientada para a eficiência sobre esses esforços existentes, que se concentra principalmente nos princípios profundos e práticas eficientes em projetos de arquitetura, treinamento de modelos, inferência rápida e implantação confiável, para orientar futuras pesquisas teóricas, migração de algoritmos e aplicação de modelos para novos cenários de forma acessível aos leitores.
Grandes modelos de linguagem (LLMs) combinados com aprendizado de ferramentas têm obtido resultados impressionantes em aplicações do mundo real. Durante o aprendizado de ferramentas, os LLMs podem chamar várias ferramentas em ordens aninhadas, onde a chamada da ferramenta posterior pode receber a resposta da anterior como seus parâmetros de entrada. No entanto, a pesquisa atual sobre as capacidades de aprendizado de ferramentas aninhadas ainda é pouco explorada, uma vez que os benchmarks existentes carecem de instâncias de dados relevantes. Para abordar esse problema, apresentamos o NesTools para preencher a lacuna atual em avaliações abrangentes de aprendizado de ferramentas aninhadas. O NesTools compreende um novo método de geração automática de dados para construir chamadas de ferramentas aninhadas em larga escala com diferentes estruturas de aninhamento. Com revisão e refinamento manuais, o conjunto de dados é de alta qualidade e está intimamente alinhado com cenários do mundo real. Portanto, o NesTools pode servir como um novo benchmark para avaliar as habilidades de aprendizado de ferramentas aninhadas dos LLMs. Realizamos experimentos extensivos em 22 LLMs e fornecemos análises detalhadas com o NesTools, que mostram que os LLMs atuais ainda enfrentam dificuldades na tarefa complexa de aprendizado de ferramentas aninhadas.
Trabalhos existentes estabeleceram múltiplos benchmarks para destacar os riscos de segurança associados ao Code GenAI. Esses riscos são principalmente refletidos em duas áreas: o potencial de um modelo para gerar código inseguro (codificação insegura) e sua utilidade em ciberataques (utilidade em ciberataques). Embora esses benchmarks tenham avançado significativamente, ainda existem oportunidades para melhorias adicionais. Por exemplo, muitos benchmarks atuais tendem a focar mais na capacidade de um modelo fornecer sugestões de ataque do que em sua capacidade de gerar ataques executáveis. Além disso, a maioria dos benchmarks depende fortemente de métricas de avaliação estáticas, que podem não ser tão precisas quanto métricas dinâmicas como casos de teste bem-sucedidos. Por outro lado, benchmarks verificados por especialistas, embora ofereçam dados de alta qualidade, frequentemente operam em uma escala menor. Para abordar essas lacunas, desenvolvemos o SecCodePLT, uma plataforma unificada e abrangente de avaliação de riscos de Code GenAIs. Para código inseguro, introduzimos uma nova metodologia para criação de dados que combina especialistas com geração automática. Nossa metodologia garante a qualidade dos dados ao permitir a geração em larga escala. Também associamos amostras a casos de teste para realizar avaliação dinâmica relacionada ao código. Para utilidade em ciberataques, configuramos um ambiente real e construímos amostras para incentivar um modelo a gerar ataques reais, juntamente com métricas dinâmicas em nosso ambiente. Realizamos experimentos extensivos e demonstramos que o SecCodePLT supera o benchmark CyberSecEval estado-da-arte em relevância de segurança. Além disso, ele identifica melhor os riscos de segurança de modelos estado-da-arte na codificação insegura e na utilidade em ciberataques. Por fim, aplicamos o SecCodePLT ao agente de código estado-da-arte, Cursor, e, pela primeira vez, identificamos riscos de segurança não triviais neste avançado agente de codificação.
A ecocardiografia é a modalidade de imagem cardíaca mais amplamente utilizada, capturando dados de vídeo por ultrassom para avaliar a estrutura e função cardíacas. A inteligência artificial (IA) na ecocardiografia tem o potencial de otimizar tarefas manuais e melhorar a reprodutibilidade e precisão. No entanto, a maioria dos modelos de IA em ecocardiografia são sistemas de única visão e tarefa única que não sintetizam informações complementares de múltiplas visões capturadas durante um exame completo, resultando em desempenho e escopo de aplicação limitados. Para resolver esse problema, apresentamos o EchoPrime, um modelo de base visão-linguagem baseado em vídeo, multi-visão e informado por visão, treinado em mais de 12 milhões de pares vídeo-relatório. O EchoPrime utiliza aprendizado contrastivo para treinar um modelo de incorporação unificado para todas as visões padrão em um estudo ecocardiográfico abrangente, com representação de doenças e diagnósticos raros e comuns. Em seguida, o EchoPrime utiliza classificação de visão e um modelo de atenção anatômica informado por visão para ponderar interpretações específicas de vídeo que mapeiam com precisão a relação entre as visões ecocardiográficas e as estruturas anatômicas. Com interpretação aumentada por recuperação, o EchoPrime integra informações de todos os vídeos ecocardiográficos em um estudo abrangente e realiza uma interpretação clínica ecocardiográfica holística abrangente. Em conjuntos de dados de dois sistemas de saúde independentes, o EchoPrime alcança desempenho de ponta em 23 benchmarks diversos de forma e função cardíacas, superando o desempenho de abordagens específicas de tarefa e modelos de base anteriores. Após avaliação clínica rigorosa, o EchoPrime pode auxiliar os médicos na avaliação preliminar automatizada da ecocardiografia abrangente.
Apresentamos uma representação baseada em Gaussianas espaciais e angulares e um processo de triplo espalhamento, para síntese de iluminação e visualização inovadoras em tempo real e de alta qualidade a partir de imagens de entrada multi-visualização iluminadas por vários pontos. Para descrever aparências complexas, empregamos uma função de reflectância eficaz para cada Gaussiana espacial, composta por uma componente lambertiana e uma mistura de Gaussianas angulares. Para gerar auto-sombras, espalhamos todas as Gaussianas espaciais em direção à fonte de luz para obter valores de sombra, os quais são refinados por um pequeno perceptron de múltiplas camadas. Para compensar outros efeitos como a iluminação global, outro modelo é treinado para calcular e adicionar uma tupla RGB por Gaussiana espacial. A eficácia de nossa representação é demonstrada em 30 amostras com ampla variação em geometria (de sólida a fofa) e aparência (de translúcida a anisotrópica), utilizando diferentes formas de dados de entrada, incluindo imagens renderizadas de objetos sintéticos/reconstruídos, fotografias capturadas com uma câmera portátil e flash, ou de um lightstage profissional. Alcançamos um tempo de treinamento de 40-70 minutos e uma velocidade de renderização de 90 fps em uma única GPU comum. Nossos resultados comparam-se favoravelmente com técnicas de ponta em termos de qualidade/desempenho. Nosso código e dados estão disponíveis publicamente em https://GSrelight.github.io/.
Os avanços recentes em Visão Computacional (CV) e Processamento de Linguagem Natural (NLP) foram amplamente impulsionados pelo aumento do número de parâmetros de rede, apesar das teorias tradicionais sugerirem que redes maiores são propensas ao overfitting. Essas redes grandes evitam o overfitting integrando componentes que induzem um viés de simplicidade, orientando os modelos em direção a soluções simples e generalizáveis. No entanto, no Aprendizado por Reforço Profundo (RL), o projeto e a ampliação de redes têm sido menos explorados. Motivados por essa oportunidade, apresentamos o SimBa, uma arquitetura projetada para escalar os parâmetros no RL profundo ao injetar um viés de simplicidade. O SimBa é composto por três componentes: (i) uma camada de normalização de observações que padroniza as entradas com estatísticas em execução, (ii) um bloco residual feedforward para fornecer um caminho linear da entrada para a saída e (iii) uma normalização de camada para controlar as magnitudes das características. Ao escalar os parâmetros com o SimBa, a eficiência amostral de vários algoritmos de RL profundo - incluindo métodos off-policy, on-policy e não supervisionados - é consistentemente melhorada. Além disso, apenas integrando a arquitetura SimBa ao SAC, ela corresponde ou supera os métodos de RL profundo de última geração com alta eficiência computacional em DMC, MyoSuite e HumanoidBench. Esses resultados demonstram a ampla aplicabilidade e eficácia do SimBa em diversos algoritmos e ambientes de RL.
A crescente demanda por sistemas robóticos versáteis para operar em ambientes diversos e dinâmicos tem enfatizado a importância de uma política generalista, que aproveita um grande corpus de dados de múltiplas encarnações para facilitar uma adaptabilidade ampla e raciocínio de alto nível. No entanto, o generalista teria dificuldades com inferências ineficientes e treinamento dispendioso. A política especialista, por outro lado, é elaborada para dados de domínio específico e se destaca na precisão ao nível da tarefa com eficiência. No entanto, ela carece da capacidade de generalização para uma ampla gama de aplicações. Inspirados por essas observações, apresentamos o RoboDual, um sistema duplo sinérgico que complementa os méritos tanto da política generalista quanto da especialista. Um especialista baseado em transformador de difusão é concebido para sequências de ações em vários passos, requintadamente condicionado à compreensão da tarefa de alto nível e à saída de ação discretizada de um generalista baseado em visão-linguagem-ação (VLA). Comparado ao OpenVLA, o RoboDual alcança uma melhoria de 26,7% em um ambiente do mundo real e um ganho de 12% no CALVIN ao introduzir uma política especialista com meros 20 milhões de parâmetros treináveis. Ele mantém um desempenho sólido com apenas 5% dos dados de demonstração e possibilita uma frequência de controle 3,8 vezes maior na implantação no mundo real. O código será disponibilizado publicamente. Nossa página do projeto está hospedada em: https://opendrivelab.com/RoboDual/
Abordagens recentes tentam adaptar modelos poderosos de segmentação interativa, como SAM, para matização interativa e ajustar os modelos com base em conjuntos de dados sintéticos de matização. No entanto, os modelos treinados em dados sintéticos falham em generalizar para cenas complexas e com oclusões. Abordamos esse desafio propondo um novo conjunto de dados de matização com base no conjunto de dados COCO, denominado COCO-Matting. Especificamente, a construção do nosso COCO-Matting inclui fusão de acessórios e máscara para fosco, que seleciona imagens complexas do mundo real do COCO e converte máscaras de segmentação semântica em rótulos de matização. O COCO-Matting construído compreende uma extensa coleção de 38.251 foscos alfa em nível de instância humana em cenários naturais complexos. Além disso, os métodos de matização baseados em SAM existentes extraem características intermediárias e máscaras de um SAM congelado e apenas treinam um decodificador de matização leve por perdas de matização de ponta a ponta, que não exploram totalmente o potencial do SAM pré-treinado. Assim, propomos SEMat, que reformula a arquitetura da rede e os objetivos de treinamento. Para a arquitetura da rede, o transformador proposto alinhado a características aprende a extrair bordas e transparências detalhadas. O decodificador alinhado a foscos proposto visa segmentar objetos específicos de matização e converter máscaras grosseiras em foscos de alta precisão. Para os objetivos de treinamento, a regularização proposta e a perda de trimap visam manter a informação prévia do modelo pré-treinado e fazer com que os logits de matização extraídos do decodificador de máscara contenham informações semânticas baseadas em trimap. Experimentos extensivos em sete conjuntos de dados diversos demonstram o desempenho superior do nosso método, comprovando sua eficácia na matização interativa de imagens naturais. Disponibilizamos nosso código, modelos e conjunto de dados em código aberto em https://github.com/XiaRho/SEMat.
O Efeito de Reforço Mútuo (ERM) investiga a relação sinérgica entre classificações ao nível da palavra e ao nível do texto em tarefas de classificação de texto. Ele postula que o desempenho de ambos os níveis de classificação pode ser mutuamente aprimorado. No entanto, esse mecanismo não foi adequadamente demonstrado ou explicado em pesquisas anteriores. Para abordar essa lacuna, empregamos experimentos empíricos para observar e fundamentar a teoria do ERM. Nossos experimentos em 21 conjuntos de dados mistos de ERM revelaram a presença do ERM no modelo e seu impacto. Especificamente, realizamos experimentos de comparação usando ajuste fino. Os resultados das descobertas dos experimentos de comparação corroboram a existência do ERM. Além disso, estendemos a aplicação do ERM para aprendizado de prompt, utilizando informações ao nível da palavra como um verbalizador para reforçar a previsão do modelo de rótulos de classificação ao nível do texto. Em nosso experimento final, o escore F1 superou significativamente a linha de base em 18 dos 21 conjuntos de dados mistos de ERM, validando ainda mais a ideia de que as informações ao nível da palavra aprimoram a compreensão do modelo de linguagem do texto como um todo.
Recuperar e sintetizar informações de coleções multimodais em larga escala de forma eficiente tornou-se um desafio crítico. No entanto, os conjuntos de dados existentes para recuperação de vídeo sofrem de limitações de escopo, focando principalmente em corresponder consultas descritivas, porém vagas, com pequenas coleções de vídeos editados profissionalmente e centrados no inglês. Para abordar essa lacuna, apresentamos o MultiVENT 2.0, um benchmark de recuperação de vídeo centrado em eventos, em larga escala e multilíngue, que apresenta uma coleção com mais de 218.000 vídeos de notícias e 3.906 consultas direcionadas a eventos mundiais específicos. Essas consultas visam especificamente informações encontradas no conteúdo visual, áudio, texto incorporado e metadados de texto dos vídeos, exigindo que os sistemas aproveitem todas essas fontes para ter sucesso na tarefa. Resultados preliminares mostram que os modelos de visão-linguagem de ponta enfrentam dificuldades significativas nessa tarefa e, embora abordagens alternativas mostrem promessa, ainda são insuficientes para lidar adequadamente com esse problema. Essas descobertas destacam a necessidade de sistemas de recuperação multimodais mais robustos, pois a recuperação eficaz de vídeo é um passo crucial em direção a tarefas de compreensão e geração de conteúdo multimodal.