Artigos de pesquisa em IA selecionados diariamente com traduções
Avaliações recentes de Modelos de Linguagem de Grande Escala (LLMs) têm se concentrado em testar suas capacidades zero-shot/few-shot para tarefas básicas de processamento de linguagem natural e sua habilidade de traduzir instruções em APIs de ferramentas. No entanto, a avaliação de LLMs utilizando ferramentas complexas para concluir instruções multi-turn e multi-modais em um ambiente complexo e multi-modal ainda não foi investigada. Para abordar essa lacuna, introduzimos o benchmark PowerPoint Task Completion (PPTC) para avaliar a capacidade dos LLMs de criar e editar arquivos PPT com base em instruções do usuário. Ele contém 279 sessões multi-turn que abrangem diversos tópicos e centenas de instruções envolvendo operações multi-modais. Também propomos o Sistema de Avaliação PPTX-Match, que avalia se os LLMs concluem a instrução com base no arquivo de previsão, em vez da sequência de APIs rotulada, permitindo assim suportar diversas sequências de APIs geradas por LLMs. Medimos 3 LLMs fechados e 6 LLMs de código aberto. Os resultados mostram que o GPT-4 supera outros LLMs com 75,1% de precisão em testes de diálogo de turno único, mas enfrenta desafios ao concluir sessões inteiras, alcançando apenas 6% de precisão na sessão. Identificamos três principais causas de erro em nosso benchmark: acúmulo de erros na sessão multi-turn, processamento de modelos de PPT longos e percepção multi-modal. Esses fatores representam grandes desafios para futuros sistemas de LLMs e agentes. Disponibilizamos os dados, código e sistema de avaliação do PPTC em https://github.com/gydpku/PPTC.
Propomos o Fast Language-Audio Pre-training (FLAP), uma abordagem auto-supervisionada que aprende de forma eficiente e eficaz representações alinhadas de áudio e linguagem por meio de mascaramento, aprendizado contrastivo e reconstrução. Para eficiência, o FLAP descarta aleatoriamente tokens do espectrograma de áudio, focando apenas nos restantes para auto-supervisão. Através do aprendizado contrastivo intermodal, o FLAP aprende a alinhar representações de áudio e texto pareadas em um espaço latente compartilhado. Notavelmente, o FLAP aproveita múltiplas visões aumentadas via mascaramento para contraste intermodal e aprende a reconstruir a porção mascarada dos tokens de áudio. Além disso, o FLAP utiliza grandes modelos de linguagem (LLMs) para aumentar as entradas de texto, contribuindo para um desempenho aprimorado. Essas abordagens resultam em representações áudio-texto mais robustas e informativas, permitindo que o FLAP alcance desempenho state-of-the-art (SoTA) em tarefas de recuperação áudio-texto no AudioCaps (atingindo 53,0% R@1) e no Clotho (atingindo 25,5% R@1).
Apresentamos o EmerNeRF, uma abordagem simples, porém poderosa, para aprender representações espaço-temporais de cenas dinâmicas de direção. Baseado em campos neurais, o EmerNeRF captura simultaneamente a geometria da cena, aparência, movimento e semântica por meio de autoinicialização. O EmerNeRF depende de dois componentes principais: primeiro, ele estratifica as cenas em campos estáticos e dinâmicos. Essa decomposição emerge puramente da auto-supervisão, permitindo que nosso modelo aprenda a partir de fontes de dados gerais e não controladas. Segundo, o EmerNeRF parametriza um campo de fluxo induzido a partir do campo dinâmico e usa esse campo de fluxo para agregar ainda mais características de múltiplos quadros, ampliando a precisão de renderização de objetos dinâmicos. O acoplamento desses três campos (estático, dinâmico e de fluxo) permite que o EmerNeRF represente cenas altamente dinâmicas de forma autossuficiente, sem depender de anotações de objetos com verdade terrestre ou modelos pré-treinados para segmentação de objetos dinâmicos ou estimativa de fluxo óptico. Nosso método alcança desempenho de ponta em simulação de sensores, superando significativamente métodos anteriores na reconstrução de cenas estáticas (+2,93 PSNR) e dinâmicas (+3,70 PSNR). Além disso, para fortalecer a generalização semântica do EmerNeRF, elevamos características de modelos visuais fundamentais 2D para o espaço-tempo 4D e abordamos um viés posicional geral em Transformers modernos, aumentando significativamente o desempenho da percepção 3D (por exemplo, 37,50% de melhoria relativa na precisão de previsão de ocupação em média). Por fim, construímos um conjunto de dados diversificado e desafiador com 120 sequências para avaliar campos neurais em cenários extremos e altamente dinâmicos.