Artigos de pesquisa em IA selecionados diariamente com traduções
Os modelos de linguagem baseados em difusão oferecem benefícios únicos em relação aos modelos autoregressivos devido ao seu potencial para geração paralelizada e controlabilidade. No entanto, eles ficam atrás na modelagem de verossimilhança e são limitados à geração de sequências de comprimento fixo. Neste trabalho, introduzimos uma classe de modelos de linguagem de difusão em blocos que interpola entre a difusão de ruído discreta e os modelos autoregressivos. A difusão em blocos supera limitações-chave de ambas as abordagens ao suportar geração de comprimento flexível e melhorar a eficiência de inferência com cache de KV e amostragem paralela de tokens. Propomos uma receita para construir modelos de difusão em blocos eficazes, que inclui um algoritmo de treinamento eficiente, estimadores de variância de gradiente e cronogramas de ruído baseados em dados para minimizar a variância. A difusão em blocos estabelece um novo estado da arte entre os modelos de difusão em benchmarks de modelagem de linguagem e permite a geração de sequências de comprimento arbitrário. Disponibilizamos o código, juntamente com os pesos do modelo e um post no blog na página do projeto: https://m-arriola.com/bd3lms/
O desenvolvimento de modelos de difusão de vídeo revela um desafio significativo: as demandas computacionais substanciais. Para mitigar esse desafio, observamos que o processo reverso da difusão exibe uma natureza intrínseca de redução de entropia. Dada a redundância inter-quadros na modalidade de vídeo, manter taxas de quadros completas em estágios de alta entropia é desnecessário. Com base nessa percepção, propomos o TPDiff, uma estrutura unificada para aprimorar a eficiência de treinamento e inferência. Ao dividir a difusão em vários estágios, nossa estrutura aumenta progressivamente a taxa de quadros ao longo do processo de difusão, com apenas o último estágio operando na taxa de quadros completa, otimizando assim a eficiência computacional. Para treinar o modelo de difusão multiestágio, introduzimos uma estrutura de treinamento dedicada: difusão por estágios. Ao resolver as equações diferenciais ordinárias (EDO) de fluxo de probabilidade particionadas da difusão sob dados e ruído alinhados, nossa estratégia de treinamento é aplicável a várias formas de difusão e aprimora ainda mais a eficiência do treinamento. Avaliações experimentais abrangentes validam a generalidade do nosso método, demonstrando uma redução de 50% no custo de treinamento e uma melhoria de 1,5x na eficiência de inferência.
Adquirir conhecimento externo e informações atualizadas de forma eficiente é essencial para o raciocínio eficaz e a geração de texto em modelos de linguagem de grande escala (LLMs). Abordagens de aumento de recuperação e treinamento de uso de ferramentas, onde um mecanismo de busca é tratado como uma ferramenta, carecem de flexibilidade complexa de recuperação em múltiplas interações ou exigem grandes quantidades de dados supervisionados. Solicitar LLMs avançados com capacidades de raciocínio durante a inferência para usar mecanismos de busca não é ideal, pois o LLM não aprende a interagir de forma ótima com o mecanismo de busca. Este artigo apresenta o Search-R1, uma extensão do modelo DeepSeek-R1, onde o LLM aprende — exclusivamente através de aprendizado por reforço (RL) — a gerar (múltiplas) consultas de busca de forma autônoma durante o raciocínio passo a passo com recuperação em tempo real. O Search-R1 otimiza as execuções do LLM com interações de busca em múltiplas etapas, aproveitando o mascaramento de tokens recuperados para um treinamento RL estável e uma função de recompensa simples baseada em resultados. Experimentos em sete conjuntos de dados de perguntas e respostas mostram que o Search-R1 melhora o desempenho em 26% (Qwen2.5-7B), 21% (Qwen2.5-3B) e 10% (LLaMA3.2-3B) em relação às linhas de base SOTA. Este artigo ainda fornece insights empíricos sobre métodos de otimização RL, escolhas de LLMs e dinâmicas de comprimento de resposta no raciocínio aumentado por recuperação. O código e os checkpoints do modelo estão disponíveis em https://github.com/PeterGriffinJin/Search-R1.
A geração condicional de movimento tem sido amplamente estudada na visão computacional, mas dois desafios críticos permanecem. Primeiro, embora métodos autoregressivos com máscara tenham recentemente superado abordagens baseadas em difusão, os modelos existentes de mascaramento carecem de um mecanismo para priorizar quadros dinâmicos e partes do corpo com base em condições dadas. Segundo, os métodos existentes para diferentes modalidades de condicionamento frequentemente falham em integrar múltiplas modalidades de forma eficaz, limitando o controle e a coerência no movimento gerado. Para abordar esses desafios, propomos o Motion Anything, um framework de geração de movimento multimodal que introduz uma abordagem de Modelagem de Máscara Baseada em Atenção, permitindo um controle refinado espacial e temporal sobre quadros-chave e ações. Nosso modelo codifica adaptativamente condições multimodais, incluindo texto e música, melhorando a controlabilidade. Além disso, introduzimos o Text-Music-Dance (TMD), um novo conjunto de dados de movimento composto por 2.153 pares de texto, música e dança, tornando-o duas vezes maior que o AIST++, preenchendo assim uma lacuna crítica na comunidade. Experimentos extensivos demonstram que o Motion Anything supera métodos state-of-the-art em múltiplos benchmarks, alcançando uma melhoria de 15% no FID no HumanML3D e mostrando ganhos consistentes de desempenho no AIST++ e no TMD. Veja nosso site do projeto em https://steve-zeyu-zhang.github.io/MotionAnything.
Apresentamos o Reangle-A-Video, um framework unificado para gerar vídeos multi-visão sincronizados a partir de um único vídeo de entrada. Diferente das abordagens convencionais que treinam modelos de difusão de vídeos multi-visão em grandes conjuntos de dados 4D, nosso método reformula a tarefa de geração de vídeos multi-visão como uma tradução de vídeo para vídeos, aproveitando priors de difusão de imagens e vídeos disponíveis publicamente. Em essência, o Reangle-A-Video opera em dois estágios. (1) Aprendizado de Movimento Multi-Visão: Um transformador de difusão de imagem para vídeo é ajustado de forma síncrona e auto-supervisionada para destilar movimento invariante à visão a partir de um conjunto de vídeos deformados. (2) Tradução Consistente de Imagem para Imagens Multi-Visão: O primeiro quadro do vídeo de entrada é deformado e preenchido em várias perspectivas de câmera sob uma orientação de consistência cruzada em tempo de inferência usando DUSt3R, gerando imagens iniciais consistentes em multi-visão. Experimentos extensivos em transporte de visão estática e controle dinâmico de câmera mostram que o Reangle-A-Video supera os métodos existentes, estabelecendo uma nova solução para geração de vídeos multi-visão. Disponibilizaremos publicamente nosso código e dados. Página do projeto: https://hyeonho99.github.io/reangle-a-video/
O aprendizado por reforço com recompensas de resultados verificáveis (RLVR) tem escalado efetivamente o raciocínio em cadeia de pensamento (CoT) em modelos de linguagem de grande escala (LLMs). No entanto, sua eficácia no treinamento de agentes de modelos visuais-linguísticos (VLMs) para raciocínio de ações direcionadas a objetivos em ambientes visuais é menos estabelecida. Este trabalho investiga esse problema por meio de extensos experimentos em jogos de cartas complexos, como o 24 pontos, e tarefas incorporadas do ALFWorld. Descobrimos que, quando as recompensas são baseadas apenas nos resultados das ações, o RL falha em incentivar o raciocínio CoT em VLMs, levando a um fenômeno que denominamos colapso do pensamento, caracterizado por uma rápida perda de diversidade nos pensamentos do agente, raciocínio irrelevante ao estado e incompleto, e subsequentes ações inválidas, resultando em recompensas negativas. Para combater o colapso do pensamento, destacamos a necessidade de orientação do processo e propomos um corretor automatizado que avalia e refina o raciocínio do agente a cada etapa do RL. Este framework simples e escalável de GTR (Reforço de Pensamento Guiado) treina raciocínio e ação simultaneamente sem a necessidade de rotulagem humana densa por etapa. Nossos experimentos demonstram que o GTR melhora significativamente o desempenho e a generalização do modelo LLaVA-7b em vários ambientes visuais, alcançando taxas de sucesso em tarefas 3 a 5 vezes maiores em comparação com modelos SoTA com tamanhos de modelo notavelmente menores.
A geração aumentada por recuperação (RAG) fornece aos LLMs documentos relevantes. Embora estudos anteriores tenham observado que a recuperação de muitos documentos pode degradar o desempenho, eles não isolaram como a quantidade de documentos afeta o desempenho enquanto controlavam o comprimento do contexto. Avaliamos vários modelos de linguagem em conjuntos de dados personalizados derivados de uma tarefa de QA multi-hop. Mantemos o comprimento do contexto e a posição das informações relevantes constantes enquanto variamos o número de documentos, e descobrimos que aumentar a contagem de documentos em configurações de RAG apresenta desafios significativos para os LLMs. Além disso, nossos resultados indicam que processar múltiplos documentos é um desafio separado de lidar com contextos longos. Também disponibilizamos os conjuntos de dados e o código: https://github.com/shaharl6000/MoreDocsSameLen.
O Score Distillation Sampling (SDS) surgiu como uma técnica eficaz para aproveitar priors de difusão 2D em tarefas como geração de texto para 3D. Embora poderoso, o SDS enfrenta dificuldades para alcançar um alinhamento refinado com a intenção do usuário. Para superar isso, introduzimos o RewardSDS, uma abordagem inovadora que pondera amostras de ruído com base em pontuações de alinhamento de um modelo de recompensa, produzindo uma perda SDS ponderada. Essa perda prioriza gradientes de amostras de ruído que resultam em saídas alinhadas e de alta recompensa. Nossa abordagem é amplamente aplicável e pode estender métodos baseados em SDS. Em particular, demonstramos sua aplicabilidade ao Variational Score Distillation (VSD) ao introduzir o RewardVSD. Avaliamos o RewardSDS e o RewardVSD em tarefas de geração de texto para imagem, edição 2D e geração de texto para 3D, mostrando melhorias significativas em relação ao SDS e ao VSD em um conjunto diversificado de métricas que medem a qualidade da geração e o alinhamento aos modelos de recompensa desejados, permitindo um desempenho de ponta. A página do projeto está disponível em https://itaychachy.github.io/reward-sds/.
Embora os grandes modelos de linguagem (LLMs) tenham alcançado desempenho notável em diversas tarefas, eles ainda estão sujeitos a erros. Um desafio fundamental é capacitá-los a se autocorrigir. Enquanto pesquisas anteriores dependiam de ferramentas externas ou grandes modelos proprietários, este trabalho explora a autocorreção em pequenos modelos de linguagem (SLMs) por meio de ajuste fino iterativo utilizando apenas dados autogerados. Apresentamos o algoritmo Self-Taught Self-Correction (STaSC), que incorpora múltiplas escolhas de design algorítmico. Resultados experimentais em uma tarefa de resposta a perguntas demonstram que o STaSC aprende efetivamente a autocorreção, levando a melhorias significativas de desempenho. Nossa análise ainda fornece insights sobre os mecanismos de autocorreção e o impacto de diferentes escolhas de design na dinâmica de aprendizado e no desempenho geral. Para apoiar pesquisas futuras, disponibilizamos nossa base de código amigável e modelos leves.
Modelos de linguagem de grande escala (LLMs) recentes têm demonstrado sucesso notável em seguir instruções de usuários, mas lidar com instruções que possuem múltiplas restrições continua sendo um desafio significativo. Neste trabalho, apresentamos o WildIFEval - um conjunto de dados em larga escala com 12 mil instruções reais de usuários, contendo condições diversas e com múltiplas restrições. Diferente de conjuntos de dados anteriores, nossa coleção abrange um amplo espectro lexical e temático de restrições, presentes em prompts naturais de usuários. Categorizamos essas restrições em oito classes de alto nível para capturar sua distribuição e dinâmica em cenários do mundo real. Utilizando o WildIFEval, realizamos experimentos extensivos para avaliar as capacidades de seguir instruções dos principais LLMs. Nossos resultados revelam que todos os modelos avaliados sofrem degradação de desempenho com o aumento do número de restrições. Assim, mostramos que todos os modelos têm um grande espaço para melhoria nessas tarefas. Além disso, observamos que o tipo específico de restrição desempenha um papel crítico no desempenho dos modelos. Disponibilizamos nosso conjunto de dados para promover pesquisas adicionais sobre a capacidade de seguir instruções em condições complexas e realistas.
As atividades diárias humanas podem ser narradas de forma concisa como sequências de eventos rotineiros (por exemplo, desligar um alarme) em fluxos de vídeo, formando um vocabulário de eventos. Motivados por isso, introduzimos o VLog, uma nova estrutura de compreensão de vídeo que define as narrações de vídeo como vocabulário, indo além dos vocabulários de subpalavras típicos nos modelos gerativos de vídeo-linguagem existentes. Construído sobre o modelo de linguagem leve GPT-2, o VLog apresenta três inovações principais: (i) Um modelo de recuperação generativa, combinando as capacidades de raciocínio complexo do modelo de linguagem com a busca de similaridade eficiente da recuperação contrastiva. (ii) Um vocabulário hierárquico derivado de narrações de vídeo em grande escala usando nosso algoritmo de codificação de pares de narração, permitindo a indexação eficiente de eventos específicos (por exemplo, cortar um tomate) ao identificar cenários mais amplos (por exemplo, cozinha) com pós-fixos expressivos (por exemplo, com a mão esquerda). (iii) Uma estratégia de atualização de vocabulário que aproveita modelos generativos para estender o vocabulário para novos eventos encontrados durante a inferência. Para validar nossa abordagem, introduzimos o VidCap-Eval, um conjunto de desenvolvimento que requer narrações concisas com relações de raciocínio (por exemplo, antes e depois). Experimentos no EgoSchema, COIN e HiREST demonstram ainda mais a eficácia do VLog, destacando sua capacidade de gerar narrações concisas, contextualmente precisas e eficientes, oferecendo uma nova perspectiva sobre a compreensão de vídeo. Os códigos estão disponíveis em https://github.com/showlab/VLog.
Os Modelos de Linguagem de Grande Escala (LLMs) demonstraram uma capacidade impressionante na geração de código e, especificamente, na implementação automática de requisitos descritos em linguagem natural. A eficácia dos LLMs geralmente aumenta com seu tamanho: quanto maior o número de parâmetros treináveis do LLM, melhor sua capacidade de implementar código. No entanto, quando se trata de implantar geradores de código baseados em LLMs, modelos maiores apresentam desafios significativos relacionados à sua pegada de memória (e, consequentemente, de carbono). Um trabalho anterior de Wei et al. propôs aproveitar técnicas de quantização para reduzir a pegada de memória dos geradores de código baseados em LLMs sem degradar substancialmente sua eficácia. Em resumo, eles estudaram LLMs com até 16 bilhões de parâmetros, quantizando sua precisão de ponto flutuante de 32 bits para inteiro de 8 bits, mostrando um impacto limitado no desempenho da geração de código. Dado o ritmo acelerado em que as capacidades dos LLMs e as técnicas de quantização estão evoluindo, neste trabalho apresentamos uma replicação diferenciada do trabalho de Wei et al., na qual consideramos (i) por um lado, LLMs mais recentes e maiores relacionados a código, com até 34 bilhões de parâmetros; (ii) os avanços mais recentes em técnicas de quantização de modelos, que permitem levar a compressão ao nível extremo de 2 bits por parâmetro do modelo; e (iii) diferentes tipos de conjuntos de dados de calibração para orientar o processo de quantização, incluindo aqueles específicos para código. Nossa avaliação empírica revela que a nova fronteira para a quantização de LLMs é a precisão de 4 bits, resultando em uma redução média de 70% na pegada de memória em comparação com o modelo original, sem observar qualquer diminuição significativa no desempenho. Além disso, quando a quantização se torna ainda mais extrema (3 e 2 bits), um conjunto de dados de calibração específico para código ajuda a limitar a perda de desempenho.
As habilidades de tradução imagem-a-imagem dos modelos de aprendizado generativo tiveram progressos significativos recentemente na estimativa de mapeamentos complexos (direcionados) entre distribuições de imagens. Embora tarefas baseadas em aparência, como preenchimento de imagens ou transferência de estilo, tenham sido extensivamente estudadas, propomos investigar o potencial dos modelos generativos no contexto de simulações físicas. Fornecendo um conjunto de dados de 300 mil pares de imagens e avaliações de linha de base para três diferentes tarefas de simulação física, propomos um benchmark para investigar as seguintes questões de pesquisa: i) os modelos generativos são capazes de aprender relações físicas complexas a partir de pares de imagens de entrada e saída? ii) quais acelerações podem ser alcançadas ao substituir simulações baseadas em equações diferenciais? Embora as avaliações de linha de base de diferentes modelos atuais mostrem o potencial para altas acelerações (ii), esses resultados também mostram fortes limitações em relação à correção física (i). Isso ressalta a necessidade de novos métodos para garantir a correção física. Dados, modelos de linha de base e código de avaliação estão disponíveis em http://www.physics-gen.org.
A compreensão eficiente de imagens de sensoriamento remoto de grande escala (RSIs) por meio de visão e linguagem é significativa, mas desafiadora. Os atuais Modelos de Grande Escala de Visão e Linguagem (LVLMs) geralmente empregam grades predefinidas limitadas para processar imagens, resultando em perda de informação ao lidar com RSIs de gigapixels. Por outro lado, o uso de grades ilimitadas aumenta significativamente os custos computacionais. Para preservar os detalhes da imagem enquanto reduz a complexidade computacional, propomos um método de poda de tokens guiado por texto com integração de Pirâmide de Imagem Dinâmica (DIP). Nosso método introduz: (i) um Módulo de Foco em Região (RFM) que aproveita a capacidade de localização de regiões consciente do texto para identificar tokens visuais críticos, e (ii) uma estratégia de seleção de blocos de imagem de grosseiro para refinado e poda de tokens visuais baseada em DIP, que é guiada pelas saídas do RFM e evita o processamento direto de toda a imagem grande. Além disso, os benchmarks existentes para avaliar a capacidade de percepção de LVLMs em grandes RSIs sofrem com diversidade limitada de perguntas e tamanhos de imagem restritos. Construímos um novo benchmark chamado LRS-VQA, que contém 7.333 pares de perguntas e respostas em 8 categorias, com comprimento de imagem de até 27.328 pixels. Nosso método supera as estratégias de alta resolução existentes em quatro conjuntos de dados usando os mesmos dados. Além disso, em comparação com os métodos existentes de redução de tokens, nossa abordagem demonstra maior eficiência em configurações de alta resolução. O conjunto de dados e o código estão disponíveis em https://github.com/VisionXLab/LRS-VQA.
Os Modelos de Ação de Grande Escala (LAMs) revolucionaram a automação inteligente, mas sua aplicação na área da saúde enfrenta desafios devido a preocupações com privacidade, latência e dependência de acesso à internet. Este relatório apresenta um assistente de saúde multiagente e em dispositivo que supera essas limitações. O sistema utiliza agentes menores e específicos para cada tarefa, otimizando recursos, garantindo escalabilidade e alto desempenho. Nossa proposta atua como uma solução completa para necessidades de saúde, com funcionalidades como agendamento de consultas, monitoramento de saúde, lembretes de medicamentos e relatórios diários de saúde. Alimentado pelo modelo Qwen Code Instruct 2.5 7B, os Agentes de Planejamento e Chamada alcançam uma pontuação média RougeL de 85,5 para planejamento e 96,5 para chamadas em nossas tarefas, mantendo-se leve para implantação em dispositivos. Essa abordagem inovadora combina os benefícios de sistemas em dispositivo com arquiteturas multiagente, abrindo caminho para soluções de saúde centradas no usuário.
Os Modelos de Difusão Latente (LDMs) são conhecidos por terem um processo de geração instável, onde até mesmo pequenas perturbações ou deslocamentos no ruído de entrada podem levar a saídas significativamente diferentes. Isso dificulta sua aplicabilidade em cenários que exigem resultados consistentes. Neste trabalho, redesenhamos os LDMs para melhorar a consistência, tornando-os invariantes a deslocamentos (shift-equivariant). Embora a introdução de operações de anti-aliasing possa melhorar parcialmente a invariância a deslocamentos, problemas significativos de aliasing e inconsistência persistem devido aos desafios únicos dos LDMs, incluindo 1) a amplificação de aliasing durante o treinamento do VAE e as múltiplas inferências da U-Net, e 2) os módulos de auto-atenção que, por natureza, carecem de invariância a deslocamentos. Para resolver esses problemas, redesenhamos os módulos de atenção para serem invariantes a deslocamentos e propomos uma função de perda de invariância que suprime efetivamente a largura de banda das frequências das características no domínio contínuo. O LDM resultante, livre de aliasing (AF-LDM), alcança uma forte invariância a deslocamentos e também é robusto a deformações irregulares. Experimentos extensivos demonstram que o AF-LDM produz resultados significativamente mais consistentes do que o LDM tradicional em diversas aplicações, incluindo edição de vídeo e tradução de imagem para imagem. O código está disponível em: https://github.com/SingleZombie/AFLDM.
A construção de modelos de linguagem grandes (LLMs) baseados em Transformers eficazes e eficientes tornou-se recentemente um foco de pesquisa, exigindo a maximização das capacidades linguísticas do modelo e a minimização dos custos de treinamento e implantação. Os esforços existentes descreveram principalmente relações complexas entre o desempenho do modelo, o tamanho dos parâmetros e o tamanho dos dados, além de buscarem a alocação ideal de computação para treinar LLMs. No entanto, eles negligenciam os impactos do comprimento do contexto e da configuração das cabeças de atenção (o número de cabeças de consulta e chave-valor na atenção de consulta agrupada) no treinamento e na inferência. Neste artigo, comparamos sistematicamente modelos com diferentes tamanhos de parâmetros, comprimentos de contexto e configurações de cabeças de atenção em termos de desempenho do modelo, custo computacional e custo de memória. Em seguida, estendemos os métodos de escalonamento existentes, que se baseiam apenas no tamanho dos parâmetros e na computação de treinamento, para orientar a construção de LLMs com custo ideal durante o treinamento e a inferência. Nossos estudos quantitativos de escalonamento mostram que, ao processar sequências suficientemente longas, um modelo maior com menos cabeças de atenção pode alcançar uma perda menor enquanto incorre em custos computacionais e de memória mais baixos. Nossas descobertas fornecem insights valiosos para o desenvolvimento de LLMs práticos, especialmente em cenários de processamento de contexto longo. Disponibilizaremos publicamente nosso código e dados.
Modelos de linguagem pré-treinados (PLMs) revolucionaram a pesquisa científica, mas sua aplicação na análise de células únicas ainda é limitada. Os PLMs de texto não conseguem processar dados de sequenciamento de RNA de célula única, enquanto os PLMs de células não têm a capacidade de lidar com texto livre, restringindo seu uso em tarefas multimodais. As tentativas existentes de unir essas modalidades frequentemente sofrem com perda de informação ou pré-treinamento inadequado em modalidades únicas, resultando em desempenho subótimo. Para enfrentar esses desafios, propomos o Single-Cell MultiModal Generative Pre-trained Transformer (scMMGPT), um PLM unificado para modelagem conjunta de células e texto. O scMMGPT integra de forma eficaz os PLMs de células e texto mais avançados, facilitando o compartilhamento de conhecimento entre modalidades para melhorar o desempenho. Para preencher a lacuna entre as modalidades de texto e célula, o scMMGPT utiliza projetores cruzados dedicados e passa por um extenso pré-treinamento em 27 milhões de células — o maior conjunto de dados para PLMs multimodais de célula-texto até o momento. Esse pré-treinamento em larga escala permite que o scMMGPT se destaque em tarefas conjuntas de célula-texto, alcançando uma melhoria relativa de 84% na discrepância textual para geração de descrição de células, 20,5% maior precisão na anotação de tipos celulares e 4% de melhoria na precisão k-NN para geração de pseudo-células condicionadas por texto, superando as abordagens basais.
A Geração Aumentada por Recuperação (RAG), embora sirva como um complemento viável para modelos de linguagem de grande escala (LLMs), frequentemente negligencia o aspecto crucial de segmentação de texto em seu pipeline. Este artigo inicialmente introduz um método de avaliação de dupla métrica, composto por Clareza de Limite e Aderência de Segmento, para permitir a quantificação direta da qualidade da segmentação. Utilizando esse método de avaliação, destacamos as limitações inerentes das abordagens tradicionais e semânticas de segmentação ao lidar com nuances contextuais complexas, corroborando assim a necessidade de integrar LLMs ao processo de segmentação. Para abordar o trade-off inerente entre eficiência computacional e precisão de segmentação em abordagens baseadas em LLMs, elaboramos o framework Granularidade-Aware Mixture-of-Chunkers (MoC), que consiste em um mecanismo de processamento em três estágios. Notavelmente, nosso objetivo é orientar o segmentador a gerar uma lista estruturada de expressões regulares de segmentação, que são subsequentemente empregadas para extrair segmentos do texto original. Experimentos extensivos demonstram que tanto nossas métricas propostas quanto o framework MoC resolvem efetivamente os desafios da tarefa de segmentação, revelando o núcleo da segmentação enquanto aprimoram o desempenho do sistema RAG.
O Video Question Answering (VQA) em vídeos longos apresenta o desafio fundamental de extrair informações relevantes e modelar dependências de longo alcance a partir de muitos quadros redundantes. O mecanismo de self-attention oferece uma solução geral para a modelagem de sequências, mas possui um custo proibitivo quando aplicado a um grande número de tokens espaço-temporais em vídeos longos. A maioria dos métodos anteriores depende de estratégias de compressão para reduzir o custo computacional, como diminuir o comprimento da entrada por meio de amostragem esparsa de quadros ou comprimir a sequência de saída passada para o modelo de linguagem de grande escala (LLM) por meio de pooling espaço-temporal. No entanto, essas abordagens ingênuas super-representam informações redundantes e frequentemente perdem eventos salientes ou padrões espaço-temporais de ocorrência rápida. Neste trabalho, introduzimos o BIMBA, um modelo de espaço de estados eficiente para lidar com vídeos de longa duração. Nosso modelo aproveita o algoritmo de varredura seletiva para aprender a selecionar efetivamente informações críticas de vídeos de alta dimensionalidade e transformá-las em uma sequência reduzida de tokens para processamento eficiente pelo LLM. Experimentos extensivos demonstram que o BIMBA alcança precisão de ponta em vários benchmarks de VQA de longa duração, incluindo PerceptionTest, NExT-QA, EgoSchema, VNBench, LongVideoBench e Video-MME. O código e os modelos estão publicamente disponíveis em https://sites.google.com/view/bimba-mllm.
O Random Sample Consensus (RANSAC) é uma abordagem fundamental para estimar modelos paramétricos de forma robusta a partir de dados ruidosos. Os métodos existentes de RANSAC baseados em aprendizado utilizam deep learning para aumentar a robustez do RANSAC contra outliers. No entanto, essas abordagens são treinadas e testadas em dados gerados pelos mesmos algoritmos, o que resulta em uma generalização limitada para dados fora da distribuição durante a inferência. Portanto, neste artigo, introduzimos um novo paradigma baseado em difusão que injeta progressivamente ruído em dados de ground-truth, simulando condições ruidosas para o treinamento do RANSAC baseado em aprendizado. Para aumentar a diversidade dos dados, incorporamos amostragem de Monte Carlo ao paradigma de difusão, aproximando diversas distribuições de dados ao introduzir diferentes tipos de aleatoriedade em múltiplos estágios. Avaliamos nossa abordagem no contexto de correspondência de características por meio de experimentos abrangentes nos conjuntos de dados ScanNet e MegaDepth. Os resultados experimentais demonstram que nosso mecanismo de difusão de Monte Carlo melhora significativamente a capacidade de generalização do RANSAC baseado em aprendizado. Também desenvolvemos extensos estudos de ablação que destacam a eficácia dos componentes-chave em nossa estrutura.
Campos de Força de Aprendizado de Máquina (MLFFs) são uma alternativa promissora às caras simulações moleculares quânticas ab initio. Dada a diversidade de espaços químicos de interesse e o custo de gerar novos dados, é importante entender como os MLFFs generalizam além de suas distribuições de treinamento. Para caracterizar e compreender melhor as mudanças de distribuição em MLFFs, realizamos experimentos diagnósticos em conjuntos de dados químicos, revelando mudanças comuns que representam desafios significativos, mesmo para modelos de base grandes treinados com dados extensos. Com base nessas observações, hipotetizamos que os métodos atuais de treinamento supervisionado regularizam inadequadamente os MLFFs, resultando em overfitting e aprendizado de representações pobres para sistemas fora da distribuição. Em seguida, propomos dois novos métodos como passos iniciais para mitigar as mudanças de distribuição em MLFFs. Nossos métodos focam em estratégias de refinamento em tempo de teste que incorrem em custo computacional mínimo e não utilizam rótulos de referência ab initio caros. A primeira estratégia, baseada na teoria espectral de grafos, modifica as arestas dos grafos de teste para alinhá-las com estruturas de grafos vistas durante o treinamento. Nossa segunda estratégia melhora as representações para sistemas fora da distribuição em tempo de teste ao dar passos de gradiente usando um objetivo auxiliar, como um prior físico de baixo custo. Nossas estratégias de refinamento em tempo de teste reduzem significativamente os erros em sistemas fora da distribuição, sugerindo que os MLFFs são capazes de e podem avançar na modelagem de espaços químicos diversos, mas não estão sendo efetivamente treinados para isso. Nossos experimentos estabelecem benchmarks claros para avaliar as capacidades de generalização da próxima geração de MLFFs. Nosso código está disponível em https://tkreiman.github.io/projects/mlff_distribution_shifts/.