Artigos de pesquisa em IA selecionados diariamente com traduções
Aumentar o comprimento do contexto dos Modelos de Linguagem (LMs) ao melhorar a Incorporação de Posição Rotativa (RoPE) tornou-se uma tendência. Enquanto os trabalhos existentes abordam principalmente as limitações de RoPE dentro do mecanismo de atenção, este artigo fornece uma análise abrangente em quase todas as partes dos LMs, revelando seus efeitos adversos na generalização do comprimento para a atenção baseada em RoPE. Utilizando a teoria do Processamento de Sinal Discreto, mostramos que RoPE permite atenção periódica ao alcançar implicitamente a Transformada Discreta de Fourier Não-Uniforme. No entanto, essa periodicidade é prejudicada pelo dano espectral causado por: 1) camadas lineares e funções de ativação fora da atenção; 2) componentes de frequência insuficientemente treinados trazidos pela truncagem no domínio do tempo. Com base em nossas observações, propomos a Incorporação de Posição de Fourier (FoPE), que aprimora as propriedades de domínio de frequência da atenção para melhorar tanto sua extensão periódica quanto a generalização do comprimento. FoPE constrói Séries de Fourier e elimina os componentes de frequência destrutivos, aumentando a robustez do modelo contra o dano espectral. Experimentos em diversas escalas de modelo mostram que, em janelas de contexto variáveis, FoPE pode manter uma perplexidade mais estável e uma precisão mais consistente em uma tarefa de agulha no palheiro em comparação com RoPE e ALiBi. Diversas análises e ablações trazem mais suporte ao nosso método e modelagem teórica.
Um grafo de cena 3D representa um modelo de cena compacto, armazenando informações sobre os objetos e os relacionamentos semânticos entre eles, tornando seu uso promissor para tarefas robóticas. Ao interagir com um usuário, um agente inteligente incorporado deve ser capaz de responder a várias consultas sobre a cena formuladas em linguagem natural. Modelos de Linguagem de Grande Escala (LLMs) são soluções benéficas para interação usuário-robô devido às suas habilidades de compreensão e raciocínio em linguagem natural. Métodos recentes para criar representações aprendíveis de cenas 3D têm demonstrado o potencial de melhorar a qualidade das respostas dos LLMs ao se adaptarem ao mundo 3D. No entanto, os métodos existentes não utilizam explicitamente informações sobre os relacionamentos semânticos entre objetos, limitando-se a informações sobre suas coordenadas. Neste trabalho, propomos um método 3DGraphLLM para construir uma representação aprendível de um grafo de cena 3D. A representação aprendível é usada como entrada para os LLMs realizarem tarefas de visão-linguagem 3D. Em nossos experimentos nos populares conjuntos de dados ScanRefer, RIORefer, Multi3DRefer, ScanQA, Sqa3D e Scan2cap, demonstramos a vantagem desta abordagem sobre métodos de referência que não utilizam informações sobre os relacionamentos semânticos entre objetos. O código está publicamente disponível em https://github.com/CognitiveAISystems/3DGraphLLM.
Valores ausentes continuam sendo um desafio comum para dados de profundidade em uma ampla gama de aplicações, decorrentes de várias causas como aquisição de dados incompleta e alteração de perspectiva. Este trabalho preenche essa lacuna com o DepthLab, um modelo de preenchimento de profundidade baseado em difusão de imagens. Nosso modelo apresenta duas forças notáveis: (1) ele demonstra resiliência em regiões com falta de profundidade, fornecendo conclusão confiável tanto para áreas contínuas quanto para pontos isolados, e (2) preserva fielmente a consistência de escala com a profundidade conhecida condicionada ao preencher os valores ausentes. Com base nessas vantagens, nossa abordagem comprova seu valor em várias tarefas subsequentes, incluindo preenchimento de cena 3D, geração de cena 3D a partir de texto, reconstrução de visualização esparsa com DUST3R e preenchimento de profundidade LiDAR, superando as soluções atuais tanto em desempenho numérico quanto em qualidade visual. Nossa página do projeto com o código-fonte está disponível em https://johanan528.github.io/depthlab_web/.
Os modelos de geração de vídeo semelhantes ao Sora alcançaram um progresso notável com uma arquitetura Multi-Modal Diffusion Transformer (MM-DiT). No entanto, os modelos atuais de geração de vídeo predominantemente se concentram em uma única sugestão, lutando para gerar cenas coerentes com múltiplas sugestões sequenciais que melhor refletem cenários dinâmicos do mundo real. Enquanto alguns trabalhos pioneiros exploraram a geração de vídeo com múltiplas sugestões, eles enfrentam desafios significativos, incluindo requisitos rigorosos de dados de treinamento, fraco acompanhamento das sugestões e transições não naturais. Para abordar esses problemas, propomos o DiTCtrl, um método de geração de vídeo com múltiplas sugestões sem treinamento sob arquiteturas MM-DiT pela primeira vez. Nossa ideia principal é abordar a tarefa de geração de vídeo com múltiplas sugestões como uma edição de vídeo temporal com transições suaves. Para alcançar esse objetivo, primeiro analisamos o mecanismo de atenção do MM-DiT, descobrindo que a atenção total em 3D se comporta de forma semelhante aos blocos de atenção cruzada/própria nos modelos de difusão semelhantes ao UNet, permitindo um controle semântico preciso guiado por máscara entre diferentes sugestões com compartilhamento de atenção para a geração de vídeo com múltiplas sugestões. Com base em nosso projeto cuidadoso, o vídeo gerado pelo DiTCtrl alcança transições suaves e movimento consistente de objetos dadas múltiplas sugestões sequenciais sem treinamento adicional. Além disso, também apresentamos o MPVBench, um novo benchmark especialmente projetado para a geração de vídeo com múltiplas sugestões para avaliar o desempenho da geração com múltiplas sugestões. Experimentos extensivos demonstram que nosso método alcança um desempenho de ponta sem treinamento adicional.
Geradores de 3D a partir de texto ou imagem e scanners 3D agora podem produzir ativos 3D com formas e texturas de alta qualidade. Esses ativos geralmente consistem em uma representação única e fundida, como um campo neural implícito, uma mistura gaussiana ou uma malha, sem qualquer estrutura útil. No entanto, a maioria das aplicações e fluxos de trabalho criativos requer que os ativos sejam compostos por várias partes significativas que possam ser manipuladas independentemente. Para abordar essa lacuna, apresentamos o PartGen, uma abordagem inovadora que gera objetos 3D compostos por partes significativas a partir de texto, uma imagem ou um objeto 3D não estruturado. Primeiramente, dado múltiplas visualizações de um objeto 3D, geradas ou renderizadas, um modelo de difusão multi-visual extrai um conjunto de segmentações de partes plausíveis e consistentes com a visualização, dividindo o objeto em partes. Em seguida, um segundo modelo de difusão multi-visual leva cada parte separadamente, preenche as oclusões e utiliza essas visualizações completas para a reconstrução 3D alimentando-as em uma rede de reconstrução 3D. Esse processo de conclusão considera o contexto do objeto inteiro para garantir que as partes se integrem de forma coesa. O modelo de conclusão generativo pode compensar as informações ausentes devido às oclusões; em casos extremos, pode alucinar partes inteiramente invisíveis com base no ativo 3D de entrada. Avaliamos nosso método em ativos 3D gerados e reais e demonstramos que ele supera significativamente as bases de segmentação e extração de partes. Também apresentamos aplicações subsequentes, como edição de partes 3D.
Apesar dos avanços recentes em grandes modelos de linguagem, os modelos de código aberto frequentemente têm dificuldade em apresentar consistentemente bom desempenho em tarefas de raciocínio complexas. Métodos de conjunto existentes, seja aplicados nos níveis de token ou de saída, falham em lidar com esses desafios. Em resposta, apresentamos o Ensemble de Modelos de Linguagem com Busca de Árvore Monte Carlo (LE-MCTS), um novo framework para a combinação em nível de processo de modelos de linguagem. O LE-MCTS formula o raciocínio passo a passo com um conjunto de modelos de linguagem como um processo de decisão de Markov. Neste framework, os estados representam caminhos de raciocínio intermediários, enquanto as ações consistem em gerar o próximo passo de raciocínio usando um dos modelos de linguagem selecionados de um conjunto pré-definido. Guiado por um modelo de recompensa baseado em processo, o LE-MCTS realiza uma busca em árvore sobre os passos de raciocínio gerados por diferentes modelos de linguagem, identificando a cadeia de raciocínio mais precisa. Resultados experimentais em cinco benchmarks de raciocínio matemático demonstram que nossa abordagem supera tanto os algoritmos de decodificação de um único modelo de linguagem quanto os métodos de conjunto de modelos de linguagem. Notavelmente, o LE-MCTS melhora o desempenho em 3,6% e 4,3% nos conjuntos de dados MATH e MQA, respectivamente, destacando sua eficácia na resolução de problemas de raciocínio complexos.
O desafio ARC parece ser mais difícil do que o ARC Fácil para os LLMs modernos, principalmente devido a uma configuração de avaliação que impede a comparação direta das escolhas de resposta, em vez de uma complexidade inerente. Embora alguns pesquisadores tenham silenciosamente migrado para um esquema mais apropriado ao longo do último ano, as implicações dessa mudança ainda não foram amplamente reconhecidas. Destacamos essa mudança negligenciada, mostramos como práticas de avaliação semelhantes implicam falsamente em déficits de raciocínio em outros benchmarks e demonstramos que métodos mais justos reduzem drasticamente as lacunas de desempenho (por exemplo, no SIQA) e até mesmo produzem resultados super-humanos (OpenBookQA). Ao fazer isso, revelamos como a avaliação molda a dificuldade percebida e oferecemos diretrizes para garantir que avaliações de múltipla escolha reflitam com precisão as capacidades reais do modelo.
Os modelos Mixture-of-Experts (MoE) ativados de forma esparsa são amplamente adotados para aumentar a capacidade do modelo sem aumentar o orçamento computacional. No entanto, os roteadores TopK convencionais são treinados de forma descontínua e não diferenciável, limitando seu desempenho e escalabilidade. Para lidar com esse problema, propomos o ReMoE, uma arquitetura MoE totalmente diferenciável que oferece uma substituição simples e eficaz para o roteamento convencional TopK+Softmax, utilizando ReLU como roteador. Propomos ainda métodos para regular a dispersão do roteador enquanto equilibramos a carga entre os especialistas. A natureza contínua do ReMoE permite uma alocação dinâmica eficiente de computação entre tokens e camadas, além de exibir especialização de domínio. Nossos experimentos demonstram que o ReMoE supera consistentemente o MoE roteado por TopK convencional em vários tamanhos de modelo, contagens de especialistas e níveis de granularidade. Além disso, o ReMoE apresenta escalabilidade superior em relação ao número de especialistas, superando arquiteturas MoE tradicionais. A implementação baseada no Megatron-LM está disponível em https://github.com/thu-ml/ReMoE.
Os sistemas de Geração com Recuperação Aprimorada (RAG) tornaram-se fundamentais para alavancar vastos corpora a fim de gerar respostas informadas e contextualmente relevantes, reduzindo significativamente as alucinações em Modelos de Linguagem de Grande Escala. Apesar dos avanços significativos, esses sistemas enfrentam dificuldades em processar e recuperar informações de grandes conjuntos de dados de forma eficiente, mantendo uma compreensão abrangente do contexto. Este artigo apresenta o SKETCH, uma metodologia inovadora que aprimora o processo de recuperação do RAG integrando a recuperação de texto semântico com grafos de conhecimento, fundindo dados estruturados e não estruturados para uma compreensão mais holística. O SKETCH demonstra melhorias substanciais no desempenho de recuperação e mantém uma integridade de contexto superior em comparação com métodos tradicionais. Avaliado em quatro conjuntos de dados diversos: QuALITY, QASPER, NarrativeQA e Italian Cuisine, o SKETCH supera consistentemente abordagens de referência em métricas-chave do RAGAS, como relevância de resposta, fidelidade, precisão de contexto e recall de contexto. Notavelmente, no conjunto de dados Italian Cuisine, o SKETCH alcançou uma relevância de resposta de 0,94 e uma precisão de contexto de 0,99, representando o melhor desempenho em todas as métricas avaliadas. Esses resultados destacam a capacidade do SKETCH em fornecer respostas mais precisas e contextualmente relevantes, estabelecendo novos padrões para futuros sistemas de recuperação.
O progresso em IA é impulsionado em grande parte pela escala e qualidade dos dados de treinamento. Apesar disso, há um déficit de análise empírica que examina os atributos de conjuntos de dados bem estabelecidos além do texto. Neste trabalho, realizamos a maior e pioneira auditoria longitudinal em várias modalidades - texto popular, fala e conjuntos de dados de vídeo - desde as tendências detalhadas de origem e restrições de uso até sua representação geográfica e linguística. Nossa análise manual abrange quase 4000 conjuntos de dados públicos entre 1990-2024, abrangendo 608 idiomas, 798 fontes, 659 organizações e 67 países. Descobrimos que as aplicações de aprendizado de máquina multimodal têm recorrido esmagadoramente a plataformas da web, sintéticas e de mídia social, como o YouTube, para seus conjuntos de treinamento, superando todas as outras fontes desde 2019. Em segundo lugar, ao rastrear a cadeia de derivações de conjuntos de dados, descobrimos que, embora menos de 33% dos conjuntos de dados tenham licenças restritivas, mais de 80% do conteúdo de origem em conjuntos de texto, fala e vídeo amplamente utilizados possuem restrições não comerciais. Por fim, contrariamente ao aumento do número de idiomas e geografias representados em conjuntos de dados públicos de treinamento de IA, nossa auditoria demonstra que as medidas de representação geográfica e multilíngue relativas falharam em melhorar significativamente sua cobertura desde 2013. Acreditamos que a amplitude de nossa auditoria nos permite examinar empiricamente as tendências na origem de dados, restrições e centralidade ocidental em nível de ecossistema, e que a visibilidade dessas questões é essencial para o progresso em IA responsável. Como contribuição para melhorias contínuas na transparência de conjuntos de dados e uso responsável, disponibilizamos toda a nossa auditoria multimodal, permitindo que os profissionais rastreiem a procedência dos dados em texto, fala e vídeo.
A geração de Vídeo a partir de Texto-Imagem (TI2V) tem como objetivo gerar um vídeo a partir de uma imagem seguindo uma descrição de texto, também conhecida como animação de imagem guiada por texto. A maioria dos métodos existentes enfrenta dificuldades para gerar vídeos que se alinhem bem com as instruções de texto, especialmente quando o movimento é especificado. Para superar essa limitação, introduzimos o MotiF, uma abordagem simples, porém eficaz, que direciona o aprendizado do modelo para as regiões com mais movimento, melhorando assim o alinhamento de texto e a geração de movimento. Utilizamos fluxo óptico para gerar um mapa de calor de movimento e ponderamos a perda de acordo com a intensidade do movimento. Esse objetivo modificado resulta em melhorias significativas e complementa os métodos existentes que utilizam premissas de movimento como entradas do modelo. Além disso, devido à falta de um benchmark diversificado para avaliar a geração TI2V, propomos o TI2V Bench, um conjunto de dados composto por 320 pares de imagem-texto para uma avaliação robusta. Apresentamos um protocolo de avaliação humana que solicita aos anotadores que selecionem uma preferência geral entre dois vídeos, seguida de suas justificativas. Através de uma avaliação abrangente no TI2V Bench, o MotiF supera nove modelos de código aberto, alcançando uma preferência média de 72%. O TI2V Bench está disponível em https://wang-sj16.github.io/motif/.