Artigos de pesquisa em IA selecionados diariamente com traduções
A modelagem autoregressiva de contexto longo avançou significativamente a geração de linguagem, mas a geração de vídeo ainda enfrenta dificuldades para utilizar plenamente contextos temporais estendidos. Para investigar a modelagem de vídeo de contexto longo, introduzimos o Frame AutoRegressive (FAR), uma linha de base robusta para a modelagem autoregressiva de vídeo. Assim como os modelos de linguagem aprendem dependências causais entre tokens (ou seja, Token AR), o FAR modela dependências causais temporais entre quadros contínuos, alcançando melhor convergência do que o Token AR e os transformadores de difusão de vídeo. Com base no FAR, observamos que a modelagem visual de contexto longo enfrenta desafios devido à redundância visual. O RoPE existente carece de decaimento temporal eficaz para contextos remotos e não extrapola bem para sequências de vídeo longas. Além disso, o treinamento em vídeos longos é computacionalmente caro, pois os tokens visuais crescem muito mais rapidamente do que os tokens de linguagem. Para abordar esses problemas, propomos equilibrar a localidade e a dependência de longo alcance. Introduzimos o FlexRoPE, uma técnica de teste que adiciona decaimento temporal flexível ao RoPE, permitindo a extrapolação para contextos visuais 16 vezes mais longos. Além disso, propomos a modelagem de contexto de curto e longo prazo, onde uma janela de contexto de curto prazo de alta resolução garante consistência temporal de granularidade fina, enquanto uma janela de contexto de longo prazo ilimitada codifica informações de longo alcance usando menos tokens. Com essa abordagem, podemos treinar em sequências de vídeo longas com um comprimento de contexto de token gerenciável. Demonstramos que o FAR alcança desempenho de ponta tanto na geração de vídeos curtos quanto longos, fornecendo uma linha de base simples, porém eficaz, para a modelagem autoregressiva de vídeo.
A percepção de alta resolução de detalhes visuais é crucial para tarefas diárias. No entanto, o pré-treinamento de visão atual ainda é limitado a baixas resoluções (por exemplo, 378 x 378 pixels) devido ao custo quadrático de processar imagens maiores. Apresentamos o PS3, que escala o pré-treinamento de visão no estilo CLIP para resolução 4K com um custo quase constante. Em vez de aprendizagem contrastiva na representação global da imagem, o PS3 é pré-treinado processando seletivamente regiões locais e contrastando-as com legendas detalhadas locais, permitindo o aprendizado de representação de alta resolução com uma redução significativa do custo computacional. O PS3 pré-treinado é capaz tanto de codificar a imagem global em baixa resolução quanto de processar seletivamente regiões locais de alta resolução com base em sua saliência ou relevância para um prompt de texto. Ao aplicar o PS3 a um LLM multimodal (MLLM), o modelo resultante, denominado VILA-HD, melhora significativamente a percepção visual de alta resolução em comparação com baselines sem pré-treinamento de visão de alta resolução, como AnyRes e S^2, enquanto utiliza até 4,3 vezes menos tokens. O PS3 também desbloqueia propriedades de escalabilidade atraentes do VILA-HD, incluindo a escalonamento de resolução sem custo adicional e o aumento do tempo de computação para melhor desempenho. Em comparação com o estado da arte, o VILA-HD supera MLLMs anteriores, como NVILA e Qwen2-VL, em vários benchmarks e alcança melhor eficiência do que as abordagens mais recentes de poda de tokens. Por fim, descobrimos que os benchmarks atuais não exigem percepção de resolução 4K, o que nos motiva a propor o 4KPro, um novo benchmark de Q&A de imagem em resolução 4K, no qual o VILA-HD supera todos os MLLMs anteriores, incluindo uma melhoria de 14,5% em relação ao GPT-4o e uma melhoria de 3,2% com um aumento de velocidade de 2,96x em relação ao Qwen2-VL.
Propomos uma abordagem de escalonamento durante a inferência para modelos de fluxo pré-treinados. Recentemente, o escalonamento durante a inferência tem ganhado atenção significativa em LLMs e modelos de difusão, melhorando a qualidade das amostras ou alinhando melhor as saídas com as preferências do usuário ao aproveitar computação adicional. Para modelos de difusão, a amostragem de partículas permitiu um escalonamento mais eficiente devido à estocasticidade nas etapas intermediárias de remoção de ruído. Por outro lado, embora os modelos de fluxo tenham ganhado popularidade como uma alternativa aos modelos de difusão—oferecendo geração mais rápida e saídas de alta qualidade em modelos generativos de última geração para imagens e vídeos—métodos eficientes de escalonamento durante a inferência usados em modelos de difusão não podem ser aplicados diretamente devido ao seu processo generativo determinístico. Para permitir um escalonamento eficiente durante a inferência em modelos de fluxo, propomos três ideias principais: 1) Geração baseada em EDEs (Equações Diferenciais Estocásticas), permitindo a amostragem de partículas em modelos de fluxo, 2) Conversão de Interpolantes, ampliando o espaço de busca e aumentando a diversidade das amostras, e 3) Forçamento de Orçamento de Rollover (RBF), uma alocação adaptativa de recursos computacionais ao longo das etapas temporais para maximizar a utilização do orçamento. Nossos experimentos mostram que a geração baseada em EDEs, particularmente a geração baseada em interpolantes de preservação de variância (VP), melhora o desempenho dos métodos de amostragem de partículas para escalonamento durante a inferência em modelos de fluxo. Além disso, demonstramos que o RBF com EDE-VP alcança o melhor desempenho, superando todas as abordagens anteriores de escalonamento durante a inferência.
A alucinação de modelos multimodais de grande escala (LMMs), que fornecem respostas que parecem corretas, mas na verdade são incorretas, limita sua confiabilidade e aplicabilidade. Este artigo tem como objetivo estudar o problema de alucinação dos LMMs na modalidade de vídeo, que é dinâmica e mais desafiadora em comparação com modalidades estáticas como imagens e texto. A partir dessa motivação, primeiro apresentamos um benchmark abrangente denominado HAVEN para avaliar as alucinações dos LMMs em tarefas de compreensão de vídeo. Ele é construído sobre três dimensões, ou seja, causas de alucinação, aspectos de alucinação e formatos de perguntas, resultando em 6 mil perguntas. Em seguida, estudamos quantitativamente 7 fatores influentes sobre as alucinações, por exemplo, duração dos vídeos, tamanhos dos modelos e raciocínio dos modelos, por meio de experimentos com 16 LMMs no benchmark apresentado. Além disso, inspirados por modelos de pensamento recentes como o OpenAI o1, propomos um modelo de pensamento em vídeo para mitigar as alucinações dos LMMs por meio de ajuste fino supervisionado de raciocínio (SRFT) e otimização direta de preferência (TDPO) — onde o SRFT aprimora as capacidades de raciocínio, enquanto o TDPO reduz as alucinações no processo de pensamento. Experimentos e análises extensivos demonstram a eficácia. Notavelmente, ele melhora a linha de base em 7,65% em precisão na avaliação de alucinação e reduz a pontuação de viés em 4,5%. O código e os dados estão disponíveis publicamente em https://github.com/Hongcheng-Gao/HAVEN.
Modelos de Fundação Visual Pré-treinados (VFMs) fornecem representações visuais robustas para uma ampla gama de aplicações. Neste artigo, realizamos o pré-treinamento contínuo de VFMs predominantes de maneira multimodal, de forma que eles possam processar facilmente entradas visuais de tamanhos variados e produzir representações visuais mais alinhadas com representações linguísticas, independentemente de seu processo de pré-treinamento original. Para isso, introduzimos o CoMP, um pipeline de pré-treinamento multimodal cuidadosamente projetado. O CoMP utiliza uma Incorporação de Posição Rotacional Contínua para suportar o pré-treinamento contínuo em resolução nativa, e uma Função de Perda de Alinhamento entre características visuais e textuais por meio de protótipos linguísticos para alinhar representações multimodais. Através de um treinamento em três estágios, nossos VFMs alcançam melhorias notáveis não apenas na compreensão multimodal, mas também em outras tarefas subsequentes, como classificação e segmentação. Notavelmente, o CoMP-SigLIP alcança pontuações de 66,7 no ChartQA e 75,9 no DocVQA com um LLM de 0,5B, mantendo uma precisão de 87,4% no ImageNet-1K e um mIoU de 49,5 no ADE20K sob avaliação de chunk congelado.
Os recentes avanços em modelos de linguagem de grande escala (LLMs), como o OpenAI-o1 e o DeepSeek-R1, demonstraram a eficácia do escalonamento em tempo de teste, onde processos de raciocínio estendidos melhoram substancialmente o desempenho do modelo. Apesar disso, os modelos atuais são limitados por restrições no tratamento de textos longos e na eficiência do treinamento de aprendizado por reforço (RL). Para abordar essas questões, propomos uma abordagem simples, porém eficaz, de escalonamento em tempo de teste chamada Pensamento em Múltiplas Rodadas. Esse método refina iterativamente o raciocínio do modelo, utilizando respostas anteriores como prompts para rodadas subsequentes. Experimentos extensivos em vários modelos, incluindo QwQ-32B e DeepSeek-R1, mostram consistentemente melhorias de desempenho em diversos benchmarks, como AIME 2024, MATH-500, GPQA-diamond e LiveCodeBench. Por exemplo, a precisão do QwQ-32B melhorou de 80,3% (Rodada 1) para 82,1% (Rodada 2) no conjunto de dados AIME 2024, enquanto o DeepSeek-R1 mostrou um aumento semelhante de 79,7% para 82,0%. Esses resultados confirmam que o Pensamento em Múltiplas Rodadas é uma abordagem amplamente aplicável e direta para alcançar melhorias estáveis no desempenho do modelo, destacando seu potencial para desenvolvimentos futuros em técnicas de escalonamento em tempo de teste. O prompt-chave: {Prompt original da pergunta} A resposta anterior do assistente é: <resposta> {resposta da última rodada} </resposta>, e por favor, responda novamente.
Com o rápido avanço das tecnologias de Conteúdo Gerado por Inteligência Artificial (AIGC), as imagens sintéticas tornaram-se cada vez mais prevalentes no cotidiano, apresentando novos desafios para a avaliação e detecção de autenticidade. Apesar da eficácia dos métodos existentes na avaliação da autenticidade de imagens e na localização de falsificações, essas abordagens frequentemente carecem de interpretabilidade humana e não abordam completamente a crescente complexidade dos dados sintéticos. Para enfrentar esses desafios, apresentamos o FakeVLM, um modelo multimodal de grande escala especializado tanto para tarefas gerais de detecção de imagens sintéticas quanto para a detecção de DeepFakes. O FakeVLM não apenas se destaca na distinção entre imagens reais e falsas, mas também fornece explicações claras e em linguagem natural para os artefatos das imagens, aumentando a interpretabilidade. Além disso, apresentamos o FakeClue, um conjunto de dados abrangente contendo mais de 100.000 imagens em sete categorias, anotadas com pistas detalhadas de artefatos em linguagem natural. O FakeVLM demonstra desempenho comparável a modelos especializados, eliminando a necessidade de classificadores adicionais, tornando-o uma solução robusta para a detecção de dados sintéticos. Avaliações extensas em múltiplos conjuntos de dados confirmam a superioridade do FakeVLM tanto em tarefas de classificação de autenticidade quanto na explicação de artefatos, estabelecendo um novo padrão para a detecção de imagens sintéticas. O conjunto de dados e o código serão disponibilizados em: https://github.com/opendatalab/FakeVLM.
A Resposta a Perguntas em Documentos (Document Question Answering - DocQA) é uma tarefa bastante comum. Os métodos existentes que utilizam Modelos de Linguagem de Grande Escala (Large Language Models - LLMs) ou Modelos de Linguagem Visual de Grande Escala (Large Vision Language Models - LVLMs) e Geração Aumentada por Recuperação (Retrieval Augmented Generation - RAG) frequentemente priorizam informações de uma única modalidade, falhando em integrar efetivamente pistas textuais e visuais. Essas abordagens enfrentam dificuldades com raciocínio multi-modal complexo, limitando seu desempenho em documentos do mundo real. Apresentamos o MDocAgent (Um Framework Multi-Modal e Multi-Agente para Compreensão de Documentos), um novo framework RAG e multi-agente que aproveita tanto texto quanto imagem. Nosso sistema emprega cinco agentes especializados: um agente geral, um agente crítico, um agente de texto, um agente de imagem e um agente de resumo. Esses agentes realizam recuperação de contexto multi-modal, combinando suas percepções individuais para alcançar uma compreensão mais abrangente do conteúdo do documento. Essa abordagem colaborativa permite que o sistema sintetize informações tanto dos componentes textuais quanto visuais, resultando em uma precisão aprimorada na resposta a perguntas. Experimentos preliminares em cinco benchmarks, como MMLongBench e LongDocURL, demonstram a eficácia do nosso MDocAgent, alcançando uma melhoria média de 12,1% em comparação com o método state-of-the-art atual. Este trabalho contribui para o desenvolvimento de sistemas DocQA mais robustos e abrangentes, capazes de lidar com as complexidades de documentos do mundo real que contêm informações textuais e visuais ricas. Nossos dados e código estão disponíveis em https://github.com/aiming-lab/MDocAgent.
Os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado capacidades notáveis de raciocínio, exemplificadas pelo sucesso do OpenAI-o1 e do DeepSeek-R1. No entanto, integrar o raciocínio com processos de busca externa continua sendo um desafio, especialmente para perguntas complexas de múltiplos saltos que exigem várias etapas de recuperação. Propomos o ReSearch, uma nova estrutura que treina LLMs para Raciocinar com Busca por meio de aprendizado por reforço, sem utilizar dados supervisionados sobre etapas de raciocínio. Nossa abordagem trata as operações de busca como componentes integrais da cadeia de raciocínio, onde quando e como realizar buscas é guiado por pensamento baseado em texto, e os resultados da busca influenciam subsequentemente o raciocínio adicional. Treinamos o ReSearch nos modelos Qwen2.5-7B(-Instruct) e Qwen2.5-32B(-Instruct) e conduzimos extensos experimentos. Apesar de serem treinados em apenas um conjunto de dados, nossos modelos demonstram forte generalização em vários benchmarks. A análise revela que o ReSearch naturalmente elicita capacidades avançadas de raciocínio, como reflexão e autocorreção, durante o processo de aprendizado por reforço.
A Recuperação de Imagens Compostas (Composed Image Retrieval - CIR) é uma tarefa complexa que visa recuperar imagens com base em uma consulta multimodal. Os dados de treinamento típicos consistem em triplas contendo uma imagem de referência, uma descrição textual das modificações desejadas e a imagem alvo, que são caras e demoradas de adquirir. A escassez de conjuntos de dados CIR levou a abordagens zero-shot que utilizam triplas sintéticas ou aproveitam modelos de visão e linguagem (Vision-Language Models - VLMs) com pares de imagem-legenda obtidos da web. No entanto, esses métodos têm limitações significativas: as triplas sintéticas sofrem com escala limitada, falta de diversidade e textos de modificação não naturais, enquanto os pares de imagem-legenda dificultam o aprendizado de incorporação conjunta da consulta multimodal devido à ausência de dados de triplas. Além disso, as abordagens existentes lutam com textos de modificação complexos e sutis que exigem uma fusão e compreensão sofisticadas das modalidades de visão e linguagem. Apresentamos o CoLLM, uma estrutura abrangente que aborda efetivamente essas limitações. Nossa abordagem gera triplas em tempo real a partir de pares de imagem-legenda, permitindo treinamento supervisionado sem anotação manual. Aproveitamos Modelos de Linguagem de Grande Escala (Large Language Models - LLMs) para gerar incorporações conjuntas de imagens de referência e textos de modificação, facilitando uma fusão multimodal mais profunda. Adicionalmente, introduzimos o Multi-Text CIR (MTCIR), um conjunto de dados em larga escala composto por 3,4 milhões de amostras, e refinamos benchmarks CIR existentes (CIRR e Fashion-IQ) para melhorar a confiabilidade da avaliação. Resultados experimentais demonstram que o CoLLM alcança desempenho de ponta em múltiplos benchmarks e configurações CIR. O MTCIR produz resultados competitivos, com melhorias de desempenho de até 15%. Nossos benchmarks refinados fornecem métricas de avaliação mais confiáveis para modelos CIR, contribuindo para o avanço deste importante campo.
Neste artigo, propomos o LSRNA, uma nova estrutura para geração de imagens de alta resolução (superior a 1K) utilizando modelos de difusão, aproveitando a super-resolução diretamente no espaço latente. Os modelos de difusão existentes enfrentam dificuldades ao escalar além de suas resoluções de treinamento, frequentemente resultando em distorções estruturais ou repetição de conteúdo. Métodos baseados em referência abordam esses problemas ao ampliar uma referência de baixa resolução para guiar a geração de imagens de alta resolução. No entanto, eles enfrentam desafios significativos: a ampliação no espaço latente frequentemente causa desvio na variedade, o que degrada a qualidade da saída. Por outro lado, a ampliação no espaço RGB tende a produzir saídas excessivamente suavizadas. Para superar essas limitações, o LSRNA combina Super-Resolução no Espaço Latente (LSR) para alinhamento da variedade e Adição de Ruído por Região (RNA) para aprimorar detalhes de alta frequência. Nossos extensos experimentos demonstram que a integração do LSRNA supera os métodos baseados em referência mais avançados em várias resoluções e métricas, enquanto destaca o papel crucial da ampliação no espaço latente na preservação de detalhes e nitidez. O código está disponível em https://github.com/3587jjh/LSRNA.
A descoberta e coleta de conhecimento são tarefas intensivas em inteligência que tradicionalmente exigem um esforço humano significativo para garantir resultados de alta qualidade. Pesquisas recentes exploraram frameworks multiagente para automatizar a geração de artigos no estilo da Wikipedia, recuperando e sintetizando informações da internet. No entanto, esses métodos focam principalmente na geração apenas de texto, negligenciando a importância do conteúdo multimodal para aumentar a informatividade e o engajamento. Neste trabalho, apresentamos o WikiAutoGen, um sistema inovador para a geração automatizada de artigos no estilo da Wikipedia com conteúdo multimodal. Diferente de abordagens anteriores, o WikiAutoGen recupera e integra imagens relevantes junto ao texto, enriquecendo tanto a profundidade quanto o apelo visual do conteúdo gerado. Para melhorar ainda mais a precisão factual e a abrangência, propomos um mecanismo de autorreflexão multiperspectiva, que avalia criticamente o conteúdo recuperado sob diversos pontos de vista para aprimorar confiabilidade, amplitude e coerência, entre outros aspectos. Além disso, introduzimos o WikiSeek, um benchmark composto por artigos da Wikipedia com tópicos associados a representações textuais e baseadas em imagens, projetado para avaliar a geração de conhecimento multimodal em tópicos mais desafiadores. Resultados experimentais mostram que o WikiAutoGen supera métodos anteriores em 8%-29% em nosso benchmark WikiSeek, produzindo artigos no estilo da Wikipedia mais precisos, coerentes e visualmente enriquecidos. Mostramos alguns de nossos exemplos gerados em https://wikiautogen.github.io/.
Os modelos fundamentais atuais de geração de vídeo concentram-se principalmente em tarefas de texto para vídeo, oferecendo controle limitado para a criação de conteúdo de vídeo em nível granular. Embora abordagens baseadas em adaptadores (por exemplo, ControlNet) permitam controles adicionais com ajuste fino mínimo, elas enfrentam desafios ao integrar múltiplas condições, incluindo: conflitos de ramificação entre adaptadores treinados de forma independente, redundância de parâmetros que leva ao aumento do custo computacional e desempenho subótimo em comparação com o ajuste fino completo. Para abordar esses desafios, apresentamos o FullDiT, um modelo fundamental unificado para geração de vídeo que integra perfeitamente múltiplas condições por meio de mecanismos de atenção completa unificados. Ao fundir condições de múltiplas tarefas em uma representação de sequência unificada e aproveitar a capacidade de aprendizado de contexto longo da auto-atenção completa para capturar a dinâmica das condições, o FullDiT reduz a sobrecarga de parâmetros, evita conflitos de condições e demonstra escalabilidade e capacidade emergente. Introduzimos ainda o FullBench para avaliação de geração de vídeo em múltiplas tarefas. Experimentos demonstram que o FullDiT alcança resultados de última geração, destacando a eficácia da atenção completa na geração de vídeo complexa e multi-tarefa.
Criar um gêmeo digital físico de um objeto do mundo real tem um potencial imenso em robótica, criação de conteúdo e XR. Neste artigo, apresentamos o PhysTwin, uma nova estrutura que utiliza vídeos esparsos de objetos dinâmicos sob interação para produzir uma réplica virtual interativa em tempo real, fotorealista e fisicamente realista. Nossa abordagem centra-se em dois componentes principais: (1) uma representação informada por física que combina modelos de massa-mola para simulação física realista, modelos generativos de forma para geometria e splats gaussianos para renderização; e (2) uma nova estrutura de modelagem inversa baseada em otimização em múltiplos estágios que reconstrói a geometria completa, infere propriedades físicas densas e replica a aparência realista a partir de vídeos. Nosso método integra uma estrutura de física inversa com pistas de percepção visual, permitindo reconstrução de alta fidelidade mesmo a partir de visões parciais, ocluídas e limitadas. O PhysTwin suporta a modelagem de vários objetos deformáveis, incluindo cordas, bichos de pelúcia, tecidos e pacotes de entrega. Experimentos mostram que o PhysTwin supera métodos concorrentes em reconstrução, renderização, previsão futura e simulação sob novas interações. Além disso, demonstramos suas aplicações em simulação interativa em tempo real e planejamento de movimento robótico baseado em modelo.
A geração de vistas em 360 graus de alta qualidade de cabeças humanas a partir de imagens de visão única é essencial para viabilizar aplicações acessíveis de telepresença imersiva e a criação escalável de conteúdo personalizado. Embora os métodos mais avançados para a geração completa de cabeças estejam limitados à modelagem de cabeças humanas realistas, as abordagens mais recentes baseadas em difusão para síntese de cabeças omniscientes em estilo só conseguem produzir vistas frontais e lutam com a consistência de visão, impedindo sua conversão em modelos 3D verdadeiros para renderização a partir de ângulos arbitrários. Apresentamos uma nova abordagem que gera vistas de 360 graus totalmente consistentes, acomodando formas humanas, estilizadas e antropomórficas, incluindo acessórios como óculos e chapéus. Nosso método se baseia na estrutura DiffPortrait3D, incorporando um ControlNet personalizado para a geração de detalhes da parte posterior da cabeça e um módulo de aparência dupla para garantir consistência global entre frente e verso. Ao treinar em sequências contínuas de vistas e integrar uma imagem de referência traseira, nossa abordagem alcança uma síntese de vista robusta e localmente contínua. Nosso modelo pode ser usado para produzir campos de radiação neural (NeRFs) de alta qualidade para renderização em tempo real e de ponto de vista livre, superando métodos state-of-the-art em síntese de objetos e geração de cabeças em 360 graus para retratos de entrada muito desafiadores.
A geração de cenas com ativos 3D apresenta um desafio complexo, exigindo tanto compreensão semântica de alto nível quanto raciocínio geométrico de baixo nível. Embora os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) se destaquem em tarefas semânticas, sua aplicação na geração de cenas 3D é limitada pela sua falta de fundamentação em geometria 3D. Neste artigo, investigamos como melhor utilizar MLLMs em uma tarefa de posicionamento de objetos. Para isso, introduzimos um novo framework, o FirePlace, que aplica MLLMs existentes em (1) raciocínio geométrico 3D e extração de detalhes geométricos relevantes da cena 3D, (2) construção e resolução de restrições geométricas sobre a geometria de baixo nível extraída, e (3) poda para posicionamentos finais que estejam em conformidade com o senso comum. Ao combinar raciocínio geométrico com a compreensão do mundo real dos MLLMs, nosso método pode propor posicionamentos de objetos que satisfazem tanto as restrições geométricas quanto considerações semânticas de alto nível baseadas no senso comum. Nossos experimentos mostram que essas capacidades permitem que nosso método posicione objetos de forma mais eficaz em cenas complexas com geometria intrincada, superando a qualidade de trabalhos anteriores.
O fine-tuning permite que grandes modelos de linguagem (LLMs) se adaptem a domínios específicos, mas frequentemente compromete o alinhamento de segurança previamente estabelecido. Para mitigar a degradação da segurança do modelo durante o fine-tuning, introduzimos o LookAhead Tuning, que compreende dois métodos simples, de baixo recurso e eficazes, baseados em dados, que modificam os dados de treinamento ao pré-visualizar prefixos parciais de respostas. Ambos os métodos visam preservar os mecanismos de segurança inerentes ao modelo, minimizando perturbações nas distribuições iniciais de tokens. Experimentos abrangentes demonstram que o LookAhead Tuning mantém efetivamente a segurança do modelo sem sacrificar o desempenho robusto em tarefas subsequentes. Nossos resultados posicionam o LookAhead Tuning como uma solução confiável e eficiente para a adaptação segura e eficaz de LLMs. O código está disponível em https://github.com/zjunlp/LookAheadTuning.
O emparelhamento de fluxo no simplex contínuo surgiu como uma estratégia promissora para o design de sequências de DNA, mas enfrenta dificuldades para escalar para dimensões mais altas do simplex necessárias para a geração de peptídeos e proteínas. Introduzimos o Gumbel-Softmax Flow e Score Matching, um framework generativo no simplex baseado em um novo interpolante Gumbel-Softmax com uma temperatura dependente do tempo. Usando esse interpolante, apresentamos o Gumbel-Softmax Flow Matching ao derivar um campo de velocidade parametrizado que transporta de distribuições categóricas suaves para distribuições concentradas em um único vértice do simplex. Alternativamente, apresentamos o Gumbel-Softmax Score Matching, que aprende a regredir o gradiente da densidade de probabilidade. Nosso framework permite geração de alta qualidade e diversificada, escalando eficientemente para simplices de maior dimensão. Para permitir orientação sem treinamento, propomos o Straight-Through Guided Flows (STGFlow), um método de orientação baseado em classificadores que utiliza estimadores straight-through para direcionar o campo de velocidade incondicional em direção aos vértices ótimos do simplex. O STGFlow permite orientação eficiente no momento da inferência usando classificadores pré-treinados em sequências limpas e pode ser usado com qualquer método de fluxo discreto. Juntos, esses componentes formam um framework robusto para geração controlada de sequências de novo. Demonstramos desempenho de ponta no design condicional de promotores de DNA, geração de proteínas baseada apenas em sequências e design de peptídeos ligantes de alvos para o tratamento de doenças raras.
Os LLMs modernos enfrentam dificuldades com atualizações eficientes, pois cada nova versão de modelo pré-treinado exige a repetição de processos caros de alinhamento. Esse desafio também se aplica a modelos específicos de domínio ou idioma, onde o ajuste fino em dados especializados deve ser refeito para cada nova versão do modelo base. Neste artigo, exploramos a transferência de atualizações de ajuste fino entre versões de modelos. Especificamente, derivamos o vetor de diferença de uma versão de modelo de origem, que representa as alterações de peso decorrentes do ajuste fino, e o aplicamos ao modelo base de uma versão de destino diferente. Por meio de avaliações empíricas em várias versões de modelos de código aberto, mostramos que a transferência de vetores de diferença pode melhorar significativamente o modelo base de destino, muitas vezes alcançando desempenho comparável ao seu equivalente ajustado. Por exemplo, reutilizar as atualizações de ajuste fino do Llama 3.0 8B resulta em uma melhoria absoluta de precisão de 10,7% no GPQA em relação ao Llama 3.1 8B base sem treinamento adicional, superando o Llama 3.1 8B Instruct. Em um cenário de desenvolvimento de modelos multilíngues, mostramos que essa abordagem pode aumentar significativamente o desempenho em tarefas de idioma de destino sem retreinamento, alcançando uma melhoria absoluta de 4,7% e 15,5% no Global MMLU para o malgaxe e o turco, respectivamente, em comparação com o Llama 3.1 8B Instruct. Nossos experimentos controlados revelam que a transferência de ajuste fino é mais eficaz quando os modelos de origem e destino estão linearmente conectados no espaço de parâmetros. Além disso, demonstramos que a transferência de ajuste fino oferece um ponto de partida mais forte e computacionalmente eficiente para ajustes finos adicionais. Por fim, propomos uma abordagem iterativa de reciclagem seguida de ajuste fino para o desenvolvimento contínuo de modelos, que melhora tanto a eficiência quanto a eficácia. Nossas descobertas sugerem que a transferência de ajuste fino é uma estratégia viável para reduzir os custos de treinamento enquanto mantém o desempenho do modelo.
Apresentamos um método inovador para reconstruir avatares humanos 3D personalizados com animação realista a partir de apenas algumas imagens. Devido às grandes variações em formas corporais, poses e tipos de roupas, os métodos existentes geralmente exigem horas de otimização por sujeito durante a inferência, o que limita suas aplicações práticas. Em contraste, aprendemos um prior universal a partir de mais de mil humanos vestidos para alcançar geração instantânea em feedforward e generalização zero-shot. Especificamente, em vez de equipar o avatar com pesos de skinning compartilhados, inferimos conjuntamente a forma do avatar personalizado, os pesos de skinning e as deformações dependentes da pose, o que efetivamente melhora a fidelidade geométrica geral e reduz artefatos de deformação. Além disso, para normalizar as variações de pose e resolver a ambiguidade acoplada entre formas canônicas e pesos de skinning, projetamos um processo de canonização 3D para produzir condições iniciais alinhadas por pixel, o que ajuda a reconstruir detalhes geométricos refinados. Em seguida, propomos uma agregação de características multiframe para reduzir robustamente os artefatos introduzidos na canonização e fundir um avatar plausível que preserva identidades pessoais específicas. Por fim, treinamos o modelo em um framework end-to-end em um grande conjunto de dados de captura, que contém diversos sujeitos humanos emparelhados com varreduras 3D de alta qualidade. Experimentos extensivos mostram que nosso método gera reconstrução e animação mais autênticas do que os state-of-the-arts, e pode ser diretamente generalizado para entradas de fotos tiradas casualmente com telefones. A página do projeto e o código estão disponíveis em https://github.com/rongakowang/FRESA.
Modelos de Linguagem de Grande Escala (LLMs) com janelas de contexto longas permitem aplicações poderosas, mas vêm com o custo de alto consumo de memória para armazenar os estados de Chave e Valor (KV-Cache). Estudos recentes tentaram mesclar o KV-cache de múltiplas camadas em representações compartilhadas, mas essas abordagens ou exigem um pré-treinamento dispendioso ou dependem de suposições de alta similaridade de cosseno por token entre as camadas, o que geralmente não se sustenta na prática. Descobrimos que os vetores singulares dominantes estão notavelmente bem alinhados em múltiplas camadas do KV-Cache. Aproveitando essa percepção, propomos o xKV, um método simples de pós-treinamento que aplica a Decomposição em Valores Singulares (SVD) no KV-Cache de camadas agrupadas. O xKV consolida o KV-Cache de múltiplas camadas em um subespaço compartilhado de baixa dimensão, reduzindo significativamente o tamanho do KV-Cache. Por meio de avaliações extensas no benchmark de contexto longo RULER com LLMs amplamente utilizados (por exemplo, Llama-3.1 e Qwen2.5), o xKV alcança taxas de compressão até 6,8x maiores do que a técnica inter-camadas mais avançada, enquanto melhora a precisão em 2,7%. Além disso, o xKV é compatível com a emergente Atenção Latente Multi-Cabeça (MLA) (por exemplo, DeepSeek-Coder-V2), resultando em uma notável taxa de compressão de 3x em tarefas de codificação sem degradação de desempenho. Esses resultados destacam a forte capacidade e versatilidade do xKV em abordar gargalos de memória para inferência de LLMs de contexto longo. Nosso código está publicamente disponível em: https://github.com/abdelfattah-lab/xKV.
A detecção e rastreamento de múltiplos veículos aéreos não tripulados (VANTs) em vídeo de infravermelho térmico é intrinsecamente desafiadora devido ao baixo contraste, ruído ambiental e ao pequeno tamanho dos alvos. Este artigo apresenta uma abordagem direta para o rastreamento de múltiplos VANTs em vídeo de infravermelho térmico, aproveitando avanços recentes em detecção e rastreamento. Em vez de depender do YOLOv5 com o pipeline DeepSORT, propomos um framework de rastreamento baseado no YOLOv12 e BoT-SORT, aprimorado com estratégias personalizadas de treinamento e inferência. Avaliamos nossa abordagem seguindo as métricas do 4º Anti-UAV Challenge e demonstramos desempenho competitivo. Notavelmente, alcançamos resultados robustos sem utilizar técnicas de aumento de contraste ou fusão de informações temporais para enriquecer as características dos VANTs, destacando nossa abordagem como uma "Linha de Base Forte" para a tarefa de rastreamento de múltiplos VANTs. Fornecemos detalhes de implementação, análise experimental aprofundada e uma discussão sobre possíveis melhorias. O código está disponível em https://github.com/wish44165/YOLOv12-BoT-SORT-ReID.
A tomada de decisão incorporada é fundamental para agentes de IA que operam em ambientes do mundo real. Embora os Modelos de Linguagem Visual (VLMs) tenham avançado essa capacidade, eles ainda enfrentam dificuldades com decisões complexas, especialmente em situações centradas no ser humano que exigem raciocínio profundo sobre necessidades e valores humanos. Neste estudo, avaliamos sistematicamente VLMs de código aberto em tarefas multimodais de tomada de decisão centradas no ser humano. Descobrimos que modelos de linguagem (LLMs) que recebem apenas descrições textuais superam, de forma inesperada, seus equivalentes VLMs de escala semelhante que processam imagens reais, sugerindo que o alinhamento visual pode prejudicar as habilidades dos VLMs. Para enfrentar esse desafio, propomos uma nova abordagem de treinamento apenas com texto, utilizando dados textuais sintetizados. Esse método fortalece os componentes de linguagem dos VLMs e transfere as habilidades aprendidas para a inferência multimodal, eliminando a necessidade de dados caros de pares imagem-texto. Além disso, mostramos que os VLMs podem alcançar ganhos substanciais de desempenho por meio de autoaperfeiçoamento, utilizando dados de treinamento gerados por seus equivalentes LLMs, em vez de depender de modelos professores maiores, como o GPT-4. Nossas descobertas estabelecem uma abordagem mais eficiente e escalável para aprimorar as capacidades de tomada de decisão centrada no ser humano dos VLMs, abrindo novos caminhos para otimizar VLMs por meio de mecanismos de autoaperfeiçoamento.
Avanços nos modelos fundamentais de observação da Terra (EO) desbloquearam o potencial dos grandes dados de satélite para aprender representações genéricas do espaço, beneficiando uma ampla gama de aplicações downstream cruciais para o nosso planeta. No entanto, a maioria dos esforços existentes permanece limitada a sensores espectrais fixos, focando-se exclusivamente na superfície da Terra e negligenciando metadados valiosos além das imagens. Neste trabalho, damos um passo em direção aos modelos fundamentais de EO de próxima geração com três componentes principais: 1) Copernicus-Pretrain, um conjunto de dados de pré-treinamento em grande escala que integra 18,7 milhões de imagens alinhadas de todas as principais missões Sentinel do Copernicus, abrangendo desde a superfície da Terra até sua atmosfera; 2) Copernicus-FM, um modelo fundamental unificado capaz de processar qualquer modalidade de sensor espectral ou não espectral usando hiper-redes dinâmicas estendidas e codificação flexível de metadados; e 3) Copernicus-Bench, um benchmark de avaliação sistemática com 15 tarefas downstream hierárquicas, desde pré-processamento até aplicações especializadas para cada missão Sentinel. Nosso conjunto de dados, modelo e benchmark melhoram significativamente a escalabilidade, versatilidade e adaptabilidade multimodal dos modelos fundamentais de EO, ao mesmo tempo em que criam novas oportunidades para conectar a observação da Terra, o clima e a pesquisa meteorológica. Códigos, conjuntos de dados e modelos estão disponíveis em https://github.com/zhu-xlab/Copernicus-FM.
Compreender o comportamento humano requer a medição de ações comportamentais. Devido à sua complexidade, o comportamento é melhor mapeado em uma estrutura semântica rica, como a linguagem. O desenvolvimento recente de modelos de linguagem multimodal de grande escala (MLLMs) é um candidato promissor para uma ampla gama de tarefas de compreensão de ações. Neste trabalho, focamos em avaliar e, em seguida, melhorar os MLLMs para realizar o reconhecimento de ações. Reformulamos o EPIC-KITCHENS-100, um dos maiores e mais desafiadores conjuntos de dados de ações egocêntricas, para a forma de múltiplas questões e respostas em vídeo (EPIC-KITCHENS-100-MQA). Mostramos que, ao amostrar respostas incorretas difíceis como distratores, os principais MLLMs têm dificuldade em reconhecer as ações corretas. Propomos uma série de métodos que melhoram significativamente a capacidade dos MLLMs de realizar o reconhecimento de ações, alcançando o estado da arte tanto no conjunto de validação do EPIC-KITCHENS-100 quanto superando o GPT-4o em 21 pontos de precisão no EPIC-KITCHENS-100-MQA. Por fim, mostramos melhorias em outros benchmarks de vídeo relacionados a ações, como EgoSchema, PerceptionTest, LongVideoBench, VideoMME e MVBench, sugerindo que os MLLMs são um caminho promissor para tarefas complexas de ação. Códigos e modelos estão disponíveis em: https://github.com/AdaptiveMotorControlLab/LLaVAction.
Apresentamos o Any6D, uma estrutura livre de modelos para estimativa de pose 6D de objetos que requer apenas uma única imagem âncora RGB-D para estimar tanto a pose 6D quanto o tamanho de objetos desconhecidos em novas cenas. Diferente dos métodos existentes que dependem de modelos 3D texturizados ou múltiplos pontos de vista, o Any6D utiliza um processo conjunto de alinhamento de objetos para aprimorar o alinhamento 2D-3D e a estimativa de escala métrica, visando maior precisão na pose. Nossa abordagem integra uma estratégia de renderização e comparação para gerar e refinar hipóteses de pose, permitindo um desempenho robusto em cenários com oclusões, visões não sobrepostas, condições de iluminação diversas e grandes variações entre ambientes. Avaliamos nosso método em cinco conjuntos de dados desafiadores: REAL275, Toyota-Light, HO3D, YCBINEOAT e LM-O, demonstrando sua eficácia ao superar significativamente os métodos state-of-the-art na estimativa de pose de objetos desconhecidos. Página do projeto: https://taeyeop.com/any6d
Modelos visão-linguagem (VLMs) demonstram grande potencial para a compreensão de cenas 3D, mas são principalmente aplicados a espaços internos ou direção autônoma, focando em tarefas de baixo nível como segmentação. Este trabalho expande seu uso para ambientes em escala urbana, aproveitando reconstruções 3D a partir de imagens aéreas multiview. Propomos o OpenCity3D, uma abordagem que aborda tarefas de alto nível, como estimativa de densidade populacional, classificação da idade de edifícios, previsão de preços de propriedades, avaliação de taxas de criminalidade e avaliação de poluição sonora. Nossos resultados destacam as impressionantes capacidades zero-shot e few-shot do OpenCity3D, demonstrando adaptabilidade a novos contextos. Esta pesquisa estabelece um novo paradigma para análises urbanas orientadas por linguagem, permitindo aplicações em planejamento, políticas e monitoramento ambiental. Veja nossa página do projeto: opencity3d.github.io
Modelos de IA têm feito avanços significativos nos últimos anos em sua capacidade de descrever e responder a perguntas sobre imagens do mundo real. Eles também progrediram na capacidade de conversar com usuários em tempo real usando entrada de áudio. Isso levanta a questão: chegamos ao ponto em que modelos de IA, conectados a uma câmera e microfone, podem conversar com usuários em tempo real sobre cenas e eventos que estão se desenrolando ao vivo em frente à câmera? Esse tem sido um objetivo de longa data na IA e é um pré-requisito para que assistentes de IA do mundo real e robôs humanoides interajam com humanos em situações cotidianas. Neste trabalho, introduzimos um novo conjunto de dados e benchmark, o Qualcomm Interactive Video Dataset (IVD), que nos permite avaliar até que ponto os modelos existentes podem suportar essas habilidades e em que medida essas capacidades podem ser desenvolvidas por meio de ajuste fino. O conjunto de dados é baseado em uma configuração simples de perguntas e respostas, onde os usuários fazem perguntas que o sistema deve responder, em tempo real, com base na entrada da câmera e do áudio. Mostramos que os modelos existentes ficam muito aquém do desempenho humano nessa tarefa e identificamos as principais fontes dessa lacuna de desempenho. No entanto, também mostramos que, para muitas das habilidades perceptivas necessárias, o ajuste fino com esse tipo de dados pode reduzir significativamente essa lacuna.
O raciocínio espaço-temporal é essencial para a compreensão de ambientes do mundo real em diversos campos, como direção autônoma e análise esportiva. Avanços recentes melhoraram a capacidade de raciocínio espacial dos Modelos de Visão e Linguagem (VLMs) por meio da introdução de dados em grande escala, mas esses modelos ainda enfrentam dificuldades para analisar elementos cinemáticos, como distância percorrida e velocidade de objetos em movimento. Para preencher essa lacuna, construímos um conjunto de dados e um benchmark de raciocínio espaço-temporal envolvendo ajuste de instruções cinemáticas, denominados STKit e STKit-Bench. Eles consistem em vídeos do mundo real com anotações 3D, detalhando a dinâmica do movimento dos objetos: distância percorrida, velocidade, direção do movimento, comparações de distância entre objetos e direção relativa do movimento. Para escalar ainda mais a construção desses dados para vídeos sem rótulos 3D, propomos um pipeline automático para gerar pseudo-rótulos usando reconstrução 4D em escala do mundo real. Com nossos dados de ajuste de instruções cinemáticas para raciocínio espaço-temporal, apresentamos o ST-VLM, um VLM aprimorado para raciocínio espaço-temporal, que exibe desempenho excepcional no STKit-Bench. Além disso, mostramos que o ST-VLM generaliza de forma robusta em diversos domínios e tarefas, superando as linhas de base em outros benchmarks espaço-temporais (por exemplo, ActivityNet, TVQA+). Por fim, ao integrar o raciocínio espaço-temporal aprendido com habilidades existentes, o ST-VLM permite raciocínios complexos de múltiplos passos. Página do projeto: https://ikodoh.github.io/ST-VLM.
O uso de grandes modelos professores para orientar o treinamento de modelos estudantes menores tornou-se o paradigma predominante para um aprendizado eficiente e eficaz. No entanto, incompatibilidades de vocabulário entre modelos de linguagem professores e estudantes apresentam desafios significativos na modelagem de linguagem, resultando em sequências de tokens e distribuições de saída divergentes. Para superar essas limitações, propomos o **Modelo de Linguagem Orientado por Professor Agnóstico ao Vocabulário (VocAgnoLM)**, uma abordagem inovadora que preenche a lacuna causada pela incompatibilidade de vocabulário por meio de dois métodos principais: (1) **Alinhamento Léxico em Nível de Token**, que alinha sequências de tokens em vocabulários incompatíveis, e (2) **Perda Orientada pelo Professor**, que utiliza a perda do modelo professor para guiar o treinamento eficaz do estudante. Demonstramos sua eficácia na modelagem de linguagem com um modelo estudante de 1B usando diversos modelos professores de 7B com vocabulários diferentes. Notavelmente, com o **Qwen2.5-Math-Instruct**, um modelo professor que compartilha apenas cerca de 6% de seu vocabulário com o **TinyLlama**, o VocAgnoLM alcança uma melhoria de desempenho de 46% em comparação com o pré-treinamento contínuo ingênuo. Além disso, mostramos que o VocAgnoLM se beneficia consistentemente de modelos professores mais fortes, oferecendo uma solução robusta para incompatibilidades de vocabulário na modelagem de linguagem.
Embora a Convolução Dinâmica (DY-Conv) tenha demonstrado desempenho promissor ao permitir a seleção adaptativa de pesos por meio de múltiplos pesos paralelos combinados com um mecanismo de atenção, a resposta em frequência desses pesos tende a exibir alta similaridade, resultando em custos elevados de parâmetros, mas com adaptabilidade limitada. Neste trabalho, introduzimos a Convolução Dinâmica em Frequência (FDConv), uma abordagem inovadora que mitiga essas limitações ao aprender um orçamento fixo de parâmetros no domínio de Fourier. A FDConv divide esse orçamento em grupos baseados em frequência com índices de Fourier disjuntos, permitindo a construção de pesos diversos em frequência sem aumentar o custo de parâmetros. Para aprimorar ainda mais a adaptabilidade, propomos a Modulação Espacial do Kernel (KSM) e a Modulação de Banda de Frequência (FBM). A KSM ajusta dinamicamente a resposta em frequência de cada filtro no nível espacial, enquanto a FBM decompõe os pesos em bandas de frequência distintas no domínio da frequência e as modula dinamicamente com base no conteúdo local. Experimentos extensivos em detecção de objetos, segmentação e classificação validam a eficácia da FDConv. Demonstramos que, quando aplicada ao ResNet-50, a FDConv alcança desempenho superior com um aumento modesto de +3,6M parâmetros, superando métodos anteriores que exigem aumentos substanciais no orçamento de parâmetros (por exemplo, CondConv +90M, KW +76,5M). Além disso, a FDConv integra-se perfeitamente a uma variedade de arquiteturas, incluindo ConvNeXt e Swin-Transformer, oferecendo uma solução flexível e eficiente para tarefas modernas de visão. O código está disponível publicamente em https://github.com/Linwei-Chen/FDConv.
Propomos um método sem treinamento para segmentação semântica de vocabulário aberto utilizando Modelos de Visão e Linguagem (VLMs). Nossa abordagem aprimora as previsões iniciais por patch dos VLMs por meio de propagação de rótulos, que otimiza conjuntamente as previsões ao incorporar relações patch-a-patch. Como os VLMs são principalmente otimizados para alinhamento multimodal e não para similaridade intramodal, utilizamos um Modelo de Visão (VM) que demonstra capturar melhor essas relações. Resolvemos as limitações de resolução inerentes aos codificadores baseados em patch aplicando a propagação de rótulos em nível de pixel como uma etapa de refinamento, melhorando significativamente a precisão da segmentação próximo às fronteiras de classe. Nosso método, denominado LPOSS+, realiza inferência sobre a imagem inteira, evitando o processamento baseado em janelas e, assim, capturando interações contextuais em toda a imagem. O LPOSS+ alcança desempenho de ponta entre os métodos sem treinamento, em um conjunto diversificado de conjuntos de dados. Código: https://github.com/vladan-stojnic/LPOSS
Compreender as propriedades geométricas e semânticas da cena é crucial para a navegação autônoma e particularmente desafiador no caso de navegação de Veículos Aéreos Não Tripulados (VANTs). Essas informações podem ser obtidas estimando mapas de profundidade e segmentação semântica do ambiente circundante, e para seu uso prático na navegação autônoma, o procedimento deve ser realizado o mais próximo possível do tempo real. Neste artigo, utilizamos câmeras monoculares em robôs aéreos para prever mapas de profundidade e semânticos em ambientes não estruturados de baixa altitude. Propomos uma arquitetura conjunta de aprendizado profundo que pode realizar as duas tarefas com precisão e rapidez, e validamos sua eficácia nos conjuntos de dados de referência MidAir e Aeroscapes. Nossa arquitetura conjunta demonstra ser competitiva ou superior a outros métodos de arquitetura única e conjunta, enquanto executa sua tarefa rapidamente, prevendo 20,2 FPS em uma única GPU NVIDIA Quadro P5000, e possui uma baixa pegada de memória. Todos os códigos para treinamento e previsão podem ser encontrados neste link: https://github.com/Malga-Vision/Co-SemDepth