Artigos de pesquisa em IA selecionados diariamente com traduções
A Detecção de Texto Artificial (ATD) está se tornando cada vez mais importante com o avanço dos Modelos de Linguagem de Grande Escala (LLMs). Apesar de inúmeros esforços, nenhum algoritmo único apresenta desempenho consistente em diferentes tipos de texto não visto ou garante uma generalização eficaz para novos LLMs. A interpretabilidade desempenha um papel crucial no alcance desse objetivo. Neste estudo, aprimoramos a interpretabilidade da ATD utilizando Autoencoders Esparsos (SAE) para extrair características do fluxo residual do Gemma-2-2b. Identificamos características tanto interpretáveis quanto eficientes, analisando sua semântica e relevância por meio de estatísticas específicas do domínio e do modelo, uma abordagem de direcionamento e interpretação manual ou baseada em LLM. Nossos métodos oferecem insights valiosos sobre como os textos de vários modelos diferem do conteúdo escrito por humanos. Demonstramos que os LLMs modernos possuem um estilo de escrita distinto, especialmente em domínios com alta densidade de informação, mesmo que possam produzir saídas semelhantes às humanas com prompts personalizados.
Os Grandes Modelos de Linguagem (LLMs) alcançaram sucesso notável em diversas tarefas de processamento de linguagem natural, mas o alto custo computacional durante a inferência continua sendo um grande gargalo. Este artigo apresenta o Sparse Expert Activation Pruning (SEAP), um método de poda sem treinamento que retém seletivamente parâmetros relevantes para a tarefa, reduzindo a sobrecarga de inferência. Inspirado pelos padrões de agrupamento de estados ocultos e ativações em LLMs, o SEAP identifica padrões de ativação de especialistas específicos para a tarefa e poda o modelo, preservando o desempenho da tarefa e melhorando a eficiência computacional. Resultados experimentais demonstram que o SEAP reduz significativamente a sobrecarga computacional enquanto mantém uma precisão competitiva. Notavelmente, com 50% de poda, o SEAP supera tanto o WandA quanto o FLAP em mais de 20%, e com 20% de poda, ele apresenta apenas uma queda de 2,2% no desempenho em comparação com o modelo denso. Esses resultados destacam a escalabilidade e eficácia do SEAP, tornando-o uma abordagem promissora para otimizar LLMs em grande escala.
Apresentamos o MM-Eureka, um modelo de raciocínio multimodal que estende com sucesso o aprendizado por reforço baseado em regras em larga escala (RL) para o raciocínio multimodal. Embora o RL baseado em regras tenha demonstrado sucesso notável na melhoria das habilidades de raciocínio de LLMs em domínios textuais, sua aplicação em cenários multimodais permaneceu desafiadora. Nosso trabalho reproduz características-chave de sistemas de RL baseados em texto, como o DeepSeek-R1, no espaço multimodal, incluindo aumentos consistentes na recompensa de precisão e no comprimento das respostas, além do surgimento de comportamentos de reflexão. Demonstramos que tanto modelos ajustados por instrução quanto pré-treinados podem desenvolver capacidades robustas de raciocínio multimodal por meio de RL baseado em regras, sem a necessidade de ajuste fino supervisionado, mostrando eficiência superior no uso de dados em comparação com abordagens alternativas. Disponibilizamos nosso pipeline completo em código aberto para promover pesquisas adicionais nessa área. Liberamos todos os nossos códigos, modelos, dados, etc. em https://github.com/ModalMinds/MM-EUREKA.
O Diffusion Transformer demonstrou capacidade e escalabilidade impressionantes na geração de imagens e vídeos de alta qualidade. A busca contínua pela unificação de tarefas de geração e edição tem gerado avanços significativos no domínio da criação de conteúdo visual. No entanto, devido às demandas intrínsecas de consistência tanto nas dinâmicas temporais quanto espaciais, alcançar uma abordagem unificada para a síntese de vídeo permanece um desafio. Apresentamos o VACE, que permite aos usuários realizar tarefas de vídeo em uma estrutura All-in-one para Criação e Edição. Essas tarefas incluem geração de vídeo a partir de referência, edição de vídeo para vídeo e edição de vídeo com máscara. Especificamente, integramos de forma eficaz os requisitos de várias tarefas organizando as entradas de tarefas de vídeo, como edição, referência e máscara, em uma interface unificada denominada Unidade de Condição de Vídeo (VCU). Além disso, ao utilizar uma estrutura de Context Adapter, injetamos diferentes conceitos de tarefas no modelo por meio de representações formalizadas das dimensões temporais e espaciais, permitindo que ele lide com tarefas arbitrárias de síntese de vídeo de maneira flexível. Experimentos extensivos demonstram que o modelo unificado do VACE alcança desempenho equivalente a modelos específicos para tarefas em várias subtarefas. Simultaneamente, ele possibilita diversas aplicações por meio de combinações versáteis de tarefas. Página do projeto: https://ali-vilab.github.io/VACE-Page/.
Os frameworks existentes para geração de vídeos de longa duração carecem de planejamento automatizado, exigindo entrada manual para enredos, cenas, cinematografia e interações entre personagens, resultando em altos custos e ineficiências. Para enfrentar esses desafios, apresentamos o MovieAgent, uma geração automatizada de filmes por meio de planejamento de Cadeia de Pensamento (CoT) multiagente. O MovieAgent oferece duas vantagens principais: 1) Primeiramente, exploramos e definimos o paradigma de geração automatizada de filmes/vídeos longos. Dado um roteiro e um banco de personagens, nosso MovieAgent pode gerar vídeos de longa duração com múltiplas cenas e tomadas, apresentando uma narrativa coesa, enquanto garante consistência dos personagens, legendas sincronizadas e áudio estável ao longo do filme. 2) O MovieAgent introduz um processo de raciocínio hierárquico baseado em CoT para estruturar automaticamente cenas, configurações de câmera e cinematografia, reduzindo significativamente o esforço humano. Ao empregar múltiplos agentes de LLM para simular os papéis de diretor, roteirista, artista de storyboard e gerente de locação, o MovieAgent otimiza o pipeline de produção. Experimentos demonstram que o MovieAgent alcança novos resultados state-of-the-art em fidelidade ao roteiro, consistência de personagens e coerência narrativa. Nosso framework hierárquico dá um passo adiante e oferece novas perspectivas para a geração totalmente automatizada de filmes. O código e o site do projeto estão disponíveis em: https://github.com/showlab/MovieAgent e https://weijiawu.github.io/MovieAgent.
Modelos de linguagem multimodal de grande escala (MLLMs), construídos sobre torres de visão e modelos de linguagem pré-treinados em larga escala, têm demonstrado grandes capacidades em compreensão multimodal. No entanto, a maioria dos MLLMs existentes é treinada em tarefas de questionamento e resposta visual de turno único, o que não reflete com precisão as conversas humanas do mundo real. Neste artigo, introduzimos o MMDiag, um conjunto de dados de diálogo multimodal de múltiplos turnos. Este conjunto de dados é gerado de forma colaborativa por meio de regras cuidadosamente projetadas e com a assistência do GPT, apresentando fortes correlações entre perguntas, entre perguntas e imagens, e entre diferentes regiões da imagem; alinhando-se, assim, mais de perto com cenários do mundo real. O MMDiag serve como um forte benchmark para o aprendizado de diálogo multimodal de múltiplos turnos e traz mais desafios às capacidades de fundamentação e raciocínio dos MLLMs. Além disso, inspirados pelo processamento visual humano, apresentamos o DiagNote, um MLLM equipado com capacidades de fundamentação e raciocínio multimodal. O DiagNote consiste em dois módulos (Deliberate e Gaze) que interagem entre si para realizar, respectivamente, Chain-of-Thought e anotações ao longo de diálogos de múltiplos turnos. Demonstramos empiricamente as vantagens do DiagNote tanto na fundamentação quanto no processamento e raciocínio conjunto de informações visuais e linguísticas em relação aos MLLMs existentes.
O Aprendizado Federado (FL) é uma estrutura amplamente utilizada para treinar modelos de forma descentralizada, garantindo que o servidor central não tenha acesso direto aos dados dos clientes locais. No entanto, essa abordagem ainda pode falhar em preservar totalmente a privacidade dos dados, uma vez que os modelos dos clientes locais são expostos ao servidor central durante o processo de agregação. Esse problema se torna ainda mais crítico ao treinar modelos visão-linguagem (VLMs) com FL, pois os VLMs podem facilmente memorizar instâncias de dados de treinamento, tornando-os vulneráveis a ataques de inferência de associação (MIAs). Para enfrentar esse desafio, propomos a estrutura FedRand, que evita a divulgação do conjunto completo de parâmetros dos clientes. Nessa estrutura, cada cliente seleciona aleatoriamente subparâmetros de Adaptação de Baixa Ordem (LoRA) do servidor e mantém as contrapartes restantes dos pesos LoRA como parâmetros privados. Após o treinamento de ambos os parâmetros no conjunto de dados privado do cliente, apenas os parâmetros não privados do cliente são enviados de volta ao servidor para agregação. Essa abordagem mitiga o risco de exposição dos parâmetros VLM do lado do cliente, melhorando assim a privacidade dos dados. Validamos empiricamente que o FedRand aumenta a robustez contra MIAs em comparação com baselines relevantes, ao mesmo tempo em que alcança uma precisão comparável a métodos que comunicam todos os parâmetros LoRA em vários conjuntos de dados de referência.
Apesar do sucesso da destilação em modelos de linguagem de grande escala (LLMs), a maioria dos trabalhos anteriores aplica funções de perda idênticas tanto para dados gerados pelo professor quanto pelo aluno. Essas estratégias ignoram a sinergia entre formulações de perda e tipos de dados, resultando em um aumento de desempenho subótimo nos modelos do aluno. Para abordar isso, propomos o DistiLLM-2, uma abordagem contrastiva que aumenta simultaneamente a probabilidade das respostas do professor e diminui a das respostas do aluno, aproveitando essa sinergia. Nossos extensos experimentos mostram que o DistiLLM-2 não apenas constrói modelos de aluno de alto desempenho em uma ampla gama de tarefas, incluindo seguimento de instruções e geração de código, mas também suporta diversas aplicações, como alinhamento de preferências e extensões visão-linguagem. Esses resultados destacam o potencial de uma abordagem contrastiva para aumentar a eficácia da destilação de LLMs, alinhando efetivamente modelos de professor e aluno em diversos tipos de dados.
O DeepSeek-R1-Zero demonstrou com sucesso o surgimento de capacidades de raciocínio em LLMs (Large Language Models) exclusivamente por meio de Aprendizado por Reforço (Reinforcement Learning - RL). Inspirados por esse avanço, exploramos como o RL pode ser utilizado para aprimorar a capacidade de raciocínio de MLLMs (Multimodal Large Language Models). No entanto, o treinamento direto com RL enfrenta dificuldades para ativar capacidades complexas de raciocínio, como questionamento e reflexão em MLLMs, devido à ausência de dados substanciais e de alta qualidade para raciocínio multimodal. Para resolver esse problema, propomos o MLLM de raciocínio, Vision-R1, para melhorar a capacidade de raciocínio multimodal. Especificamente, primeiro construímos um conjunto de dados multimodal CoT (Chain-of-Thought) de alta qualidade sem anotações humanas, aproveitando um MLLM existente e o DeepSeek-R1 por meio de ponte de modalidades e filtragem de dados, obtendo um conjunto de dados multimodal CoT de 200K, chamado Vision-R1-cold. Ele serve como dados de inicialização a frio para o Vision-R1. Para mitigar os desafios de otimização causados pelo excesso de pensamento após a inicialização a frio, propomos a estratégia de Treinamento Progressivo de Supressão de Pensamento (Progressive Thinking Suppression Training - PTST) e empregamos a Otimização de Política Relativa em Grupo (Group Relative Policy Optimization - GRPO) com a função de recompensa de formatação rígida de resultados, refinando gradualmente a capacidade do modelo de aprender processos de raciocínio corretos e complexos em um conjunto de dados matemático multimodal de 10K. Experimentos abrangentes mostram que nosso modelo alcança uma melhoria média de ~6% em vários benchmarks de raciocínio matemático multimodal. O Vision-R1-7B alcança uma precisão de 73,5% no amplamente utilizado benchmark MathVista, ficando apenas 0,4% abaixo do modelo líder de raciocínio, OpenAI O1. Os conjuntos de dados e o código serão liberados em: https://github.com/Osilly/Vision-R1.
Avanços recentes em modelos de difusão baseados em Unet, como ControlNet e IP-Adapter, introduziram mecanismos eficazes de controle espacial e de sujeito. No entanto, a arquitetura DiT (Diffusion Transformer) ainda enfrenta desafios em relação ao controle eficiente e flexível. Para resolver esse problema, propomos o EasyControl, um novo framework projetado para unificar transformers de difusão guiados por condições com alta eficiência e flexibilidade. Nosso framework é construído sobre três inovações principais. Primeiro, introduzimos um Módulo LoRA de Injeção de Condição leve. Este módulo processa sinais condicionais de forma isolada, funcionando como uma solução plug-and-play. Ele evita a modificação dos pesos do modelo base, garantindo compatibilidade com modelos personalizados e permitindo a injeção flexível de diversas condições. Notavelmente, este módulo também suporta generalização robusta e harmoniosa de múltiplas condições em zero-shot, mesmo quando treinado apenas com dados de condição única. Segundo, propomos um Paradigma de Treinamento com Consciência de Posição. Essa abordagem padroniza as condições de entrada para resoluções fixas, permitindo a geração de imagens com proporções arbitrárias e resoluções flexíveis. Ao mesmo tempo, otimiza a eficiência computacional, tornando o framework mais prático para aplicações do mundo real. Terceiro, desenvolvemos um Mecanismo de Atenção Causal combinado com a técnica de KV Cache, adaptado para tarefas de geração condicional. Essa inovação reduz significativamente a latência da síntese de imagens, melhorando a eficiência geral do framework. Por meio de extensos experimentos, demonstramos que o EasyControl alcança desempenho excepcional em diversos cenários de aplicação. Essas inovações, em conjunto, tornam nosso framework altamente eficiente, flexível e adequado para uma ampla gama de tarefas.
A incorporação de conhecimento externo em modelos de linguagem de grande escala (LLMs) amplia sua utilidade em diversas aplicações, mas os métodos existentes apresentam compensações. A Geração Aumentada por Recuperação (RAG) busca evidências por meio de pesquisa de similaridade, mas informações-chave podem ficar fora dos resultados mais bem classificados. Modelos de contexto longo podem processar múltiplos documentos, mas são computacionalmente caros e limitados pelo tamanho da janela de contexto. Inspirados por estudantes que condensam material de estudo para provas de livro aberto, propomos a compressão de cache chave-valor (KV) consciente da tarefa, que comprime conhecimento externo em uma configuração zero-shot ou few-shot. Isso permite que os LLMs raciocinem de forma eficiente sobre uma representação compactada de todas as informações relevantes. Experimentos mostram que nossa abordagem supera tanto a RAG quanto métodos de compressão agnósticos à tarefa. No LongBench v2, ela melhora a precisão em até 7 pontos absolutos em relação à RAG com uma taxa de compressão de 30x, enquanto reduz a latência de inferência de 0,43s para 0,16s. Um conjunto de dados sintético destaca que a RAG desempenha bem quando evidências esparsas são suficientes, enquanto a compressão consciente da tarefa é superior para tarefas de conhecimento amplo.
O OpenAI o1 e o DeepSeek R1 alcançam ou até superam o desempenho de especialistas humanos em domínios complexos como matemática e ciências, com o aprendizado por reforço (RL) e o raciocínio desempenhando um papel crucial. Na condução autônoma, modelos recentes de ponta a ponta melhoraram significativamente o desempenho de planejamento, mas ainda enfrentam problemas de cauda longa devido à limitação do senso comum e das habilidades de raciocínio. Alguns estudos integram modelos de visão e linguagem (VLMs) na condução autônoma, mas geralmente dependem de modelos pré-treinados com ajuste fino supervisionado (SFT) simples em dados de condução, sem uma exploração adicional de estratégias de treinamento ou otimizações especificamente adaptadas para o planejamento. Neste artigo, propomos o AlphaDrive, um framework de RL e raciocínio para VLMs na condução autônoma. O AlphaDrive introduz quatro recompensas de RL baseadas em GRPO adaptadas para o planejamento e emprega uma estratégia de treinamento de raciocínio de planejamento em duas etapas que combina SFT com RL. Como resultado, o AlphaDrive melhora significativamente tanto o desempenho de planejamento quanto a eficiência de treinamento em comparação com o uso apenas de SFT ou sem raciocínio. Além disso, também estamos entusiasmados em descobrir que, após o treinamento de RL, o AlphaDrive exibe algumas capacidades emergentes de planejamento multimodal, o que é crucial para melhorar a segurança e a eficiência na condução. Até onde sabemos, o AlphaDrive é o primeiro a integrar RL baseado em GRPO com raciocínio de planejamento na condução autônoma. O código será liberado para facilitar pesquisas futuras.
A implementação de novas funcionalidades em bases de código em nível de repositório é uma aplicação crucial dos modelos de geração de código. No entanto, os benchmarks atuais carecem de uma estrutura de avaliação dedicada para essa capacidade. Para preencher essa lacuna, introduzimos o FEA-Bench, um benchmark projetado para avaliar a habilidade de modelos de linguagem de grande escala (LLMs) em realizar desenvolvimento incremental dentro de repositórios de código. Coletamos pull requests de 83 repositórios do GitHub e utilizamos filtragem baseada em regras e intenção para construir instâncias de tarefas focadas no desenvolvimento de novas funcionalidades. Cada instância de tarefa contendo alterações de código é emparelhada com arquivos de testes unitários relevantes para garantir que a solução possa ser verificada. A implementação de funcionalidades exige que os LLMs possuam simultaneamente capacidades de conclusão de código para novos componentes e habilidades de edição de código para outras partes relevantes no repositório, proporcionando um método de avaliação mais abrangente das capacidades de engenharia de software automatizada dos LLMs. Os resultados experimentais mostram que os LLMs têm um desempenho significativamente pior no FEA-Bench, destacando desafios consideráveis nesse tipo de desenvolvimento incremental de código em nível de repositório.
Os recentes avanços em modelos de linguagem de grande escala (LLMs, na sigla em inglês) têm aprimorado significativamente as capacidades de geração de texto, mas a avaliação de seu desempenho na escrita generativa continua sendo um desafio. Os benchmarks existentes concentram-se principalmente na geração de texto genérico ou em tarefas de escrita limitadas, falhando em capturar os diversos requisitos de conteúdos escritos de alta qualidade em vários domínios. Para preencher essa lacuna, apresentamos o WritingBench, um benchmark abrangente projetado para avaliar LLMs em 6 domínios principais de escrita e 100 subdomínios, abrangendo escrita criativa, persuasiva, informativa e técnica. Além disso, propomos um framework de avaliação dependente de consulta que capacita os LLMs a gerar dinamicamente critérios de avaliação específicos para cada instância. Esse framework é complementado por um modelo crítico ajustado para pontuação consciente dos critérios, permitindo avaliações em estilo, formato e extensão. A validade do framework é ainda demonstrada por sua capacidade de curadoria de dados, que permite que modelos com 7 bilhões de parâmetros se aproximem do desempenho de ponta (SOTA, na sigla em inglês). Disponibilizamos o benchmark em código aberto, juntamente com ferramentas de avaliação e componentes modulares do framework, para impulsionar o desenvolvimento de LLMs na escrita.
Os fluxos de trabalho agentes tradicionais dependem de prompts externos para gerenciar interações com ferramentas e o ambiente, o que limita a autonomia dos modelos de raciocínio. Propomos os Modelos de Agentes de Grande Escala (LAMs, na sigla em inglês), que internalizam a geração de Cadeias de Ação (CoA, na sigla em inglês), permitindo que o modelo decida de forma autônoma quando e como usar ferramentas externas. Nosso framework AutoCoA combina ajuste fino supervisionado (SFT, na sigla em inglês) e aprendizado por reforço (RL, na sigla em inglês), permitindo que o modelo alterne de forma contínua entre raciocínio e ação, ao mesmo tempo que gerencia eficientemente as interações com o ambiente. Os principais componentes incluem a ativação de ações em nível de etapa, a otimização de CoA em nível de trajetória e um modelo de mundo interno para reduzir os custos de interação com o ambiente real. Avaliações em tarefas de perguntas e respostas de domínio aberto demonstram que os modelos agentes treinados com AutoCoA superam significativamente os fluxos de trabalho baseados em ReAct na conclusão de tarefas, especialmente em tarefas que exigem raciocínio de longo prazo e ações em múltiplas etapas. O código e o conjunto de dados estão disponíveis em https://github.com/ADaM-BJTU/AutoCoA.
Os artigos de revisão desempenham um papel crucial na pesquisa científica, especialmente diante do rápido crescimento das publicações científicas. Recentemente, pesquisadores começaram a usar LLMs (Modelos de Linguagem de Grande Escala) para automatizar a geração de revisões visando maior eficiência. No entanto, a lacuna de qualidade entre as revisões geradas por LLMs e aquelas escritas por humanos permanece significativa, particularmente em termos de qualidade do esboço e precisão das citações. Para reduzir essas lacunas, apresentamos o SurveyForge, que primeiro gera o esboço analisando a estrutura lógica de esboços escritos por humanos e consultando artigos relacionados ao domínio recuperados. Em seguida, aproveitando artigos de alta qualidade recuperados da memória por nosso agente de navegação acadêmica, o SurveyForge pode gerar e refinar automaticamente o conteúdo do artigo gerado. Além disso, para alcançar uma avaliação abrangente, construímos o SurveyBench, que inclui 100 artigos de revisão escritos por humanos para comparação de taxa de vitória e avalia os artigos de revisão gerados por IA em três dimensões: referência, esboço e qualidade do conteúdo. Experimentos demonstram que o SurveyForge pode superar trabalhos anteriores, como o AutoSurvey.
Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado desempenho impressionante em benchmarks existentes de perguntas e respostas médicas. Esse alto desempenho torna cada vez mais difícil avaliar e diferenciar métodos avançados de forma significativa. Apresentamos o MedAgentsBench, um benchmark que se concentra em questões médicas desafiadoras que exigem raciocínio clínico em múltiplas etapas, formulação de diagnósticos e planejamento de tratamentos — cenários onde os modelos atuais ainda enfrentam dificuldades, apesar de seu forte desempenho em testes padrão. Baseando-se em sete conjuntos de dados médicos estabelecidos, nosso benchmark aborda três limitações principais nas avaliações existentes: (1) a prevalência de perguntas diretas, onde até mesmo modelos básicos alcançam alto desempenho, (2) protocolos de amostragem e avaliação inconsistentes entre os estudos, e (3) a falta de análise sistemática da interação entre desempenho, custo e tempo de inferência. Por meio de experimentos com vários modelos básicos e métodos de raciocínio, demonstramos que os modelos de pensamento mais recentes, DeepSeek R1 e OpenAI o3, exibem desempenho excepcional em tarefas complexas de raciocínio médico. Além disso, métodos avançados baseados em agentes de busca oferecem relações promissoras entre desempenho e custo em comparação com abordagens tradicionais. Nossa análise revela lacunas substanciais de desempenho entre famílias de modelos em questões complexas e identifica seleções ótimas de modelos para diferentes restrições computacionais. Nosso benchmark e estrutura de avaliação estão disponíveis publicamente em https://github.com/gersteinlab/medagents-benchmark.
Apresentamos o Alinhamento de Representação Autoregressiva (ARRA), uma nova estrutura de treinamento que desbloqueia a geração de texto-para-imagem globalmente coerente em LLMs autoregressivos sem alterações arquitetônicas. Diferente de trabalhos anteriores que exigem redesenhos arquitetônicos complexos, o ARRA alinha os estados ocultos de LLMs com representações visuais de modelos visuais fundamentais externos por meio de uma perda de alinhamento visual global e um token híbrido, <HYBNEXT>. Esse token impõe duplas restrições: previsão local do próximo token e destilação semântica global, permitindo que os LLMs aprendam implicitamente coerência espacial e contextual enquanto mantêm seu paradigma autoregressivo original. Experimentos extensivos validam a versatilidade plug-and-play do ARRA. Ao treinar a partir de LLMs apenas para geração de texto ou inicialização aleatória, o ARRA reduz o FID em 25,5% (MIMIC-CXR), 8,8% (DeepEyeNet) e 7,5% (ImageNet) para LLMs autoregressivos avançados como Chameleon e LlamaGen, tudo sem modificações na estrutura. Para adaptação de domínio, o ARRA alinha LLMs de propósito geral com modelos especializados (por exemplo, BioMedCLIP), alcançando uma redução de 18,6% no FID em comparação com o ajuste fino direto em imagens médicas (MIMIC-CXR). Ao demonstrar que o redesenho do objetivo de treinamento — não apenas a inovação arquitetônica — pode resolver desafios de coerência global multimodal, o ARRA oferece um paradigma complementar para avançar modelos autoregressivos. Códigos e modelos serão liberados para impulsionar a geração de imagens autoregressivas.
Modelos universais de incorporação multimodal desempenham um papel crucial em tarefas como recuperação intercalada de imagem-texto, RAG multimodal e agrupamento multimodal. No entanto, nossos resultados empíricos indicam que os modelos de incorporação baseados em LMM existentes, treinados com a função de perda InfoNCE padrão, exibem um alto grau de sobreposição na distribuição de similaridade entre pares positivos e negativos, tornando difícil distinguir efetivamente pares negativos desafiadores. Para lidar com esse problema, propomos uma estrutura simples, porém eficaz, que melhora dinamicamente o aprendizado de representação do modelo de incorporação para pares negativos com base em sua dificuldade discriminativa. Dentro dessa estrutura, treinamos uma série de modelos, denominados LLaVE, e os avaliamos no benchmark MMEB, que abrange 4 meta-tarefas e 36 conjuntos de dados. Os resultados experimentais mostram que o LLaVE estabelece bases mais sólidas, alcançando desempenho de última geração (SOTA) enquanto demonstra forte escalabilidade e eficiência. Especificamente, o LLaVE-2B supera os modelos SOTA anteriores de 7B, enquanto o LLaVE-7B alcança uma melhoria adicional de desempenho de 6,2 pontos. Embora o LLaVE seja treinado com dados de imagem-texto, ele pode generalizar para tarefas de recuperação de texto-vídeo de maneira zero-shot e alcançar um desempenho robusto, demonstrando seu notável potencial para transferência para outras tarefas de incorporação.
A personalização relacional de vídeos refere-se à criação de vídeos personalizados que retratam relações especificadas pelo usuário entre dois sujeitos, uma tarefa crucial para a compreensão de conteúdo visual do mundo real. Embora os métodos existentes possam personalizar aparências e movimentos dos sujeitos, eles ainda enfrentam dificuldades com a personalização relacional complexa de vídeos, onde a modelagem precisa de relações e a alta generalização entre categorias de sujeitos são essenciais. O principal desafio surge dos arranjos espaciais intrincados, variações de layout e dinâmicas temporais sutis inerentes às relações; consequentemente, os modelos atuais tendem a enfatizar excessivamente detalhes visuais irrelevantes em vez de capturar interações significativas. Para abordar esses desafios, propomos o DreamRelation, uma abordagem inovadora que personaliza relações por meio de um pequeno conjunto de vídeos exemplares, utilizando dois componentes-chave: Aprendizado de Desacoplamento Relacional e Aprimoramento de Dinâmicas Relacionais. Primeiro, no Aprendizado de Desacoplamento Relacional, separamos as relações das aparências dos sujeitos usando o trio LoRA de relações e uma estratégia de treinamento com máscaras híbridas, garantindo uma melhor generalização em diversas relações. Além disso, determinamos o design ideal do trio LoRA de relações ao analisar os papéis distintos das características de consulta, chave e valor no mecanismo de atenção do MM-DiT, tornando o DreamRelation o primeiro framework de geração de vídeos relacionais com componentes explicáveis. Segundo, no Aprimoramento de Dinâmicas Relacionais, introduzimos a perda contrastiva espaço-temporal relacional, que prioriza as dinâmicas relacionais enquanto minimiza a dependência de detalhes de aparência dos sujeitos. Experimentos extensivos demonstram que o DreamRelation supera os métodos state-of-the-art na personalização relacional de vídeos. O código e os modelos serão disponibilizados publicamente.
Embora os modelos de geração de imagens mascaradas e os modelos de difusão mascarada sejam projetados com motivações e objetivos diferentes, observamos que eles podem ser unificados em um único framework. Com base nessa percepção, exploramos cuidadosamente o espaço de design de treinamento e amostragem, identificando fatores-chave que contribuem tanto para o desempenho quanto para a eficiência. Com base nas melhorias observadas durante essa exploração, desenvolvemos nosso modelo, denominado eMIGM. Empiricamente, o eMIGM demonstra um forte desempenho na geração de imagens do ImageNet, conforme medido pela Distância de Inception de Fréchet (FID). Em particular, no ImageNet 256x256, com um número similar de avaliações de função (NFEs) e parâmetros do modelo, o eMIGM supera o seminal VAR. Além disso, à medida que o NFE e os parâmetros do modelo aumentam, o eMIGM alcança um desempenho comparável aos modelos de difusão contínua de última geração, exigindo menos de 40% do NFE. Adicionalmente, no ImageNet 512x512, com apenas cerca de 60% do NFE, o eMIGM supera os modelos de difusão contínua de última geração.
Métodos tradicionais para segmentação baseada em raciocínio dependem de ajuste fino supervisionado com rótulos categóricos e descrições simples, limitando sua generalização fora do domínio e carecendo de processos de raciocínio explícitos. Para abordar essas limitações, propomos o Seg-Zero, uma nova estrutura que demonstra notável generalização e deriva cadeias de raciocínio explícitas por meio de reforço cognitivo. O Seg-Zero introduz uma arquitetura desacoplada composta por um modelo de raciocínio e um modelo de segmentação. O modelo de raciocínio interpreta as intenções do usuário, gera cadeias de raciocínio explícitas e produz prompts posicionais, que são subsequentemente usados pelo modelo de segmentação para gerar máscaras precisas em nível de pixel. Projetamos um mecanismo de recompensa sofisticado que integra recompensas de formato e precisão para orientar efetivamente as direções de otimização. Treinado exclusivamente por meio de aprendizado por reforço com GRPO e sem dados explícitos de raciocínio, o Seg-Zero alcança robusta generalização zero-shot e exibe capacidades emergentes de raciocínio em tempo de teste. Experimentos mostram que o Seg-Zero-7B atinge um desempenho zero-shot de 57,5 no benchmark ReasonSeg, superando o LISA-7B anterior em 18%. Essa melhoria significativa destaca a capacidade do Seg-Zero de generalizar entre domínios enquanto apresenta um processo de raciocínio explícito. O código está disponível em https://github.com/dvlab-research/Seg-Zero.
Avanços recentes na percepção 2D-para-3D melhoraram significativamente a compreensão de cenas 3D a partir de imagens 2D. No entanto, os métodos existentes enfrentam desafios críticos, incluindo generalização limitada entre cenas, precisão de percepção subótima e velocidades de reconstrução lentas. Para abordar essas limitações, propomos o Perception-Efficient 3D Reconstruction (PE3R), uma nova estrutura projetada para aprimorar tanto a precisão quanto a eficiência. O PE3R emprega uma arquitetura feed-forward para permitir a reconstrução rápida de campos semânticos 3D. A estrutura demonstra generalização robusta zero-shot em diversas cenas e objetos, enquanto melhora significativamente a velocidade de reconstrução. Experimentos extensivos em segmentação de vocabulário aberto 2D-para-3D e reconstrução 3D validam a eficácia e versatilidade do PE3R. A estrutura alcança um aumento mínimo de 9 vezes na velocidade de reconstrução de campos semânticos 3D, juntamente com ganhos substanciais na precisão de percepção e reconstrução, estabelecendo novos padrões no campo. O código está disponível publicamente em: https://github.com/hujiecpp/PE3R.
A detecção e segmentação de objetos são amplamente utilizadas em aplicações de visão computacional, porém modelos convencionais como a série YOLO, embora eficientes e precisos, são limitados por categorias predefinidas, dificultando a adaptabilidade em cenários abertos. Métodos recentes de conjunto aberto utilizam prompts de texto, pistas visuais ou paradigmas sem prompt para superar isso, mas frequentemente comprometem o equilíbrio entre desempenho e eficiência devido a altas demandas computacionais ou complexidade de implantação. Neste trabalho, apresentamos o YOLOE, que integra detecção e segmentação em diversos mecanismos de prompt aberto dentro de um único modelo altamente eficiente, alcançando a capacidade de ver qualquer coisa em tempo real. Para prompts de texto, propomos a estratégia de Alinhamento de Região-Texto Re-parametrizável (RepRTA). Ela refina embeddings textuais pré-treinados por meio de uma rede auxiliar leve e re-parametrizável e melhora o alinhamento visual-textual com custo zero de inferência e transferência. Para prompts visuais, apresentamos o Codificador de Prompt Visual Ativado Semanticamente (SAVPE). Ele emprega ramos semânticos e de ativação desacoplados para trazer embeddings visuais aprimorados e maior precisão com complexidade mínima. Para cenários sem prompt, introduzimos a estratégia de Contraste de Região-Prompt Preguiçoso (LRPC). Ela utiliza um grande vocabulário interno e embeddings especializados para identificar todos os objetos, evitando a dependência de modelos de linguagem custosos. Experimentos extensivos mostram o desempenho excepcional do YOLOE em zero-shot e sua transferibilidade com alta eficiência de inferência e baixo custo de treinamento. Notavelmente, no LVIS, com 3 vezes menos custo de treinamento e 1,4 vezes mais velocidade de inferência, o YOLOE-v8-S supera o YOLO-Worldv2-S em 3,5 AP. Ao transferir para o COCO, o YOLOE-v8-L alcança ganhos de 0,6 AP^b e 0,4 AP^m em relação ao YOLOv8-L de conjunto fechado, com quase 4 vezes menos tempo de treinamento. Códigos e modelos estão disponíveis em https://github.com/THU-MIG/yoloe.
Os Modelos de Visão-Linguagem (VLMs) se destacam na integração de informações visuais e textuais para tarefas centradas em visão, mas sua capacidade de lidar com inconsistências entre modalidades é pouco explorada. Investigamos as preferências de modalidade dos VLMs quando confrontados com dados visuais e entradas textuais variadas em contextos centrados em visão. Ao introduzir variações textuais em quatro tarefas centradas em visão e avaliar dez Modelos de Visão-Linguagem (VLMs), descobrimos um fenômeno de "fé cega no texto": os VLMs confiam desproporcionalmente nos dados textuais em vez dos dados visuais quando surgem inconsistências, levando a quedas significativas de desempenho sob texto corrompido e levantando preocupações de segurança. Analisamos fatores que influenciam esse viés em relação ao texto, incluindo prompts de instrução, tamanho do modelo de linguagem, relevância do texto, ordem dos tokens e a interação entre a certeza visual e textual. Embora certos fatores, como o aumento do tamanho do modelo de linguagem, mitiguem levemente o viés em relação ao texto, outros, como a ordem dos tokens, podem exacerbá-lo devido a vieses posicionais herdados dos modelos de linguagem. Para abordar esse problema, exploramos o ajuste fino supervisionado com aumento de texto e demonstramos sua eficácia na redução do viés em relação ao texto. Além disso, fornecemos uma análise teórica sugerindo que o fenômeno de fé cega no texto pode decorrer de um desequilíbrio entre dados puramente textuais e multimodais durante o treinamento. Nossas descobertas destacam a necessidade de um treinamento equilibrado e de uma consideração cuidadosa das interações entre modalidades nos VLMs para aumentar sua robustez e confiabilidade no tratamento de inconsistências em dados multimodais.
Arquiteturas de Mistura de Agentes de Modelos de Linguagem de Grande Escala (MoA) alcançam desempenho de ponta em benchmarks proeminentes como o AlpacaEval 2.0 ao aproveitar a colaboração de múltiplos LLMs durante a inferência. Apesar desses sucessos, uma avaliação da segurança e confiabilidade do MoA está ausente. Apresentamos o primeiro estudo abrangente da robustez do MoA contra agentes LLM enganosos que deliberadamente fornecem respostas enganosas. Examinamos fatores como a propagação de informações enganosas, o tamanho do modelo e a disponibilidade de informações, e descobrimos vulnerabilidades críticas. No AlpacaEval 2.0, o popular modelo LLaMA 3.1-70B alcança uma Taxa de Vitória Controlada por Comprimento (LC WR) de 49,2% quando acoplado a um MoA de 3 camadas (6 agentes LLM). No entanto, demonstramos que a introdução de apenas um único agente enganoso cuidadosamente instruído no MoA pode reduzir o desempenho para 37,9%, efetivamente anulando todos os ganhos do MoA. No QuALITY, uma tarefa de compreensão de múltipla escolha, o impacto também é severo, com a precisão caindo impressionantes 48,5%. Inspirados em parte pelo processo histórico de votação do Doge de Veneza, projetado para minimizar influência e engano, propomos uma série de mecanismos de defesa não supervisionados que recuperam a maior parte do desempenho perdido.
Propomos o DiffCLIP, um novo modelo de visão e linguagem que estende o mecanismo de atenção diferencial para arquiteturas CLIP. A atenção diferencial foi originalmente desenvolvida para modelos de linguagem de grande escala, com o objetivo de ampliar o contexto relevante enquanto cancela informações ruidosas. Neste trabalho, integramos esse mecanismo na estrutura de codificador duplo (imagem e texto) do CLIP. Com um número mínimo de parâmetros adicionais, o DiffCLIP alcança desempenho superior em tarefas de compreensão de imagem e texto. Em benchmarks de classificação zero-shot, recuperação e robustez, o DiffCLIP supera consistentemente os modelos CLIP de referência. Notavelmente, esses ganhos são obtidos com sobrecarga computacional insignificante, demonstrando que a atenção diferencial pode aprimorar significativamente as representações multimodais sem sacrificar a eficiência. O código pode ser encontrado em https://github.com/hammoudhasan/DiffCLIP.
Exploramos uma nova estrutura de Reconhecimento de Fala Áudio-Visual (AVSR) de zero-shot, denominada Zero-AVSR, que permite o reconhecimento de fala em idiomas-alvo sem a necessidade de quaisquer dados de fala áudio-visual nesses idiomas. Especificamente, introduzimos o Romanizador de Fala Áudio-Visual (AV-Romanizer), que aprende representações de fala independentes de idioma ao prever texto em alfabeto romano. Em seguida, ao aproveitar as fortes capacidades de modelagem multilingue dos Modelos de Linguagem de Grande Escala (LLMs), propomos a conversão do texto romano previsto em grafemas específicos de cada idioma, formando a estrutura proposta de Zero-AVSR em Cascata. Indo um passo adiante, exploramos uma abordagem unificada de Zero-AVSR ao integrar diretamente as representações de fala áudio-visual codificadas pelo AV-Romanizer no LLM. Isso é alcançado por meio do ajuste fino do adaptador e do LLM utilizando nosso esquema proposto de aprendizado multitarefa. Para capturar o amplo espectro de diversidade fonética e linguística, também introduzimos um Corpus Romanizado Áudio-Visual Multilíngue (MARC) composto por 2.916 horas de dados de fala áudio-visual em 82 idiomas, juntamente com transcrições em grafemas específicos de cada idioma e em texto romano. Análises e experimentos extensivos confirmam que a estrutura proposta de Zero-AVSR tem o potencial de expandir o suporte a idiomas além daqueles vistos durante o treinamento do AV-Romanizer.
Os modelos de séries temporais enfrentam desafios significativos para escalar e lidar com conjuntos de dados grandes e complexos, semelhantes à escalabilidade alcançada pelos grandes modelos de linguagem (LLMs). As características únicas dos dados de séries temporais e as demandas computacionais da escalabilidade de modelos exigem abordagens inovadoras. Embora os pesquisadores tenham explorado várias arquiteturas, como Transformers, LSTMs e GRUs, para abordar esses desafios, propomos uma solução inovadora utilizando o RWKV-7, que incorpora meta-aprendizado em seu mecanismo de atualização de estado. Ao integrar os componentes de mistura temporal (time mix) e mistura de canais (channel mix) do RWKV-7 no modelo de séries temporais baseado em Transformer, o Timer, alcançamos uma melhoria substancial no desempenho de aproximadamente 1,13 a 43,3x e uma redução de 4,5x no tempo de treinamento com 1/23 dos parâmetros, tudo isso utilizando menos parâmetros. Nosso código e os pesos do modelo estão disponíveis publicamente para pesquisa e desenvolvimento adicional em https://github.com/Alic-Li/BlackGoose_Rimer.
Modelos de Espaço de Estados (SSMs) surgiram como alternativas eficientes aos Transformers, mitigando seu custo computacional quadrático. No entanto, a aplicação de métodos de Ajuste Fino Eficiente em Parâmetros (PEFT) aos SSMs permanece amplamente inexplorada. Em particular, métodos baseados em prompt, como Prompt Tuning e Prefix-Tuning, amplamente utilizados em Transformers, não apresentam bom desempenho em SSMs. Para abordar isso, propomos métodos baseados em estado como uma alternativa superior aos métodos baseados em prompt. Essa nova família de métodos surge naturalmente das características arquitetônicas dos SSMs. Métodos baseados em estado ajustam diretamente características relacionadas ao estado, em vez de depender de prompts externos. Além disso, introduzimos um novo método PEFT baseado em estado: State-offset Tuning. A cada passo de tempo, nosso método afeta diretamente o estado na etapa atual, levando a uma adaptação mais eficaz. Por meio de extensos experimentos em diversos conjuntos de dados, demonstramos a eficácia do nosso método. O código está disponível em https://github.com/furiosa-ai/ssm-state-tuning.
A crescente popularidade dos grandes modelos de linguagem não apenas levou ao uso generalizado, mas também trouxe diversos riscos, incluindo o potencial de disseminação sistemática de notícias falsas. Consequentemente, o desenvolvimento de sistemas de classificação, como o DetectGPT, tornou-se essencial. Esses detectores são vulneráveis a técnicas de evasão, conforme demonstrado em uma série de experimentos: mudanças sistemáticas na temperatura dos modelos generativos mostraram que os detectores baseados em aprendizado superficial são os menos confiáveis. O ajuste fino do modelo generativo por meio de aprendizado por reforço conseguiu contornar detectores baseados em BERT. Por fim, a reformulação do texto resultou em uma evasão superior a 90% de detectores zero-shot como o DetectGPT, embora os textos permanecessem altamente semelhantes aos originais. Uma comparação com trabalhos existentes destaca o melhor desempenho dos métodos apresentados. Possíveis implicações para a sociedade e pesquisas futuras são discutidas.
Embora a orientação sem classificador (CFG, do inglês Classifier-Free Guidance) seja essencial para modelos de difusão condicional, ela dobra o número de avaliações de funções neurais (NFEs, do inglês Neural Function Evaluations) por etapa de inferência. Para mitigar essa ineficiência, introduzimos a destilação de orientação por adaptadores (AGD, do inglês Adapter Guidance Distillation), uma abordagem inovadora que simula a CFG em uma única passagem direta. A AGD utiliza adaptadores leves para aproximar a CFG, efetivamente dobrando a velocidade de amostragem enquanto mantém ou até melhora a qualidade das amostras. Diferente de métodos anteriores de destilação de orientação que ajustam o modelo inteiro, a AGD mantém o modelo base congelado e treina apenas parâmetros adicionais mínimos (cerca de 2%), reduzindo significativamente a demanda de recursos na fase de destilação. Além disso, essa abordagem preserva os pesos originais do modelo e permite que os adaptadores sejam combinados de forma contínua com outros checkpoints derivados do mesmo modelo base. Também abordamos uma incompatibilidade crucial entre treinamento e inferência em métodos existentes de destilação de orientação, treinando em trajetórias guiadas por CFG em vez de trajetórias padrão de difusão. Por meio de experimentos extensivos, mostramos que a AGD alcança FID (Fréchet Inception Distance) comparável ou superior à CFG em múltiplas arquiteturas com apenas metade das NFEs. Notavelmente, nosso método permite a destilação de modelos grandes (cerca de 2,6 bilhões de parâmetros) em uma única GPU de consumo com 24 GB de VRAM, tornando-o mais acessível do que abordagens anteriores que exigem múltiplas GPUs de alto desempenho. Disponibilizaremos publicamente a implementação do nosso método.
Modelos de Texto para Imagem (T2I) são capazes de gerar criações artísticas e conteúdo visual de alta qualidade. No entanto, as pesquisas e padrões de avaliação existentes concentram-se predominantemente no realismo das imagens e em alinhamentos superficiais entre texto e imagem, carecendo de uma avaliação abrangente da compreensão semântica complexa e da integração de conhecimento do mundo na geração de imagens a partir de texto. Para enfrentar esse desafio, propomos o WISE, o primeiro benchmark especificamente projetado para Avaliação Semântica Informada por Conhecimento do Mundo. O WISE vai além do mapeamento simples de palavras para pixels, desafiando os modelos com 1000 prompts meticulosamente elaborados em 25 subdomínios de senso cultural comum, raciocínio espaço-temporal e ciências naturais. Para superar as limitações da métrica CLIP tradicional, introduzimos o WiScore, uma nova métrica quantitativa para avaliar o alinhamento entre conhecimento e imagem. Por meio de testes abrangentes em 20 modelos (10 modelos T2I dedicados e 10 modelos multimodais unificados) utilizando 1.000 prompts estruturados abrangendo 25 subdomínios, nossos resultados revelam limitações significativas na capacidade desses modelos de integrar e aplicar efetivamente o conhecimento do mundo durante a geração de imagens, destacando caminhos críticos para aprimorar a incorporação e aplicação de conhecimento em modelos T2I de próxima geração. Código e dados estão disponíveis em https://github.com/PKU-YuanGroup/WISE.
Resolver tarefas multimodais de nível especializado é um marco crucial para a inteligência geral. À medida que as capacidades dos modelos de linguagem multimodal de grande escala (MLLMs) continuam a melhorar, a avaliação dessa inteligência multimodal avançada torna-se necessária, porém desafiadora. Neste trabalho, apresentamos o ProBench, um benchmark de consultas abertas de usuários que exigem expertise profissional e raciocínio avançado. O ProBench consiste em 4.000 amostras de alta qualidade, submetidas de forma independente por profissionais com base em suas demandas diárias de produtividade. Ele abrange 10 áreas e 56 subáreas, incluindo ciências, artes, humanidades, programação, matemática e escrita criativa. Experimentalmente, avaliamos e comparamos 24 dos modelos mais recentes utilizando o MLLM-as-a-Judge. Nossos resultados revelam que, embora os melhores modelos de código aberto rivalizem com os proprietários, o ProBench apresenta desafios significativos em percepção visual, compreensão textual, conhecimento de domínio e raciocínio avançado, fornecendo assim direções valiosas para futuros esforços de pesquisa em IA multimodal.
A Generalização de Domínio visa desenvolver modelos que possam generalizar para distribuições de dados novas e não vistas. Neste trabalho, estudamos como as arquiteturas de modelos e os objetivos de pré-treinamento impactam a riqueza de características e propomos um método para aproveitá-los efetivamente para a generalização de domínio. Especificamente, dado um espaço de características pré-treinado, primeiro descobrimos estruturas latentes de domínio, denominadas pseudo-domínios, que capturam variações específicas do domínio de maneira não supervisionada. Em seguida, aumentamos os classificadores existentes com essas representações complementares de pseudo-domínios, tornando-os mais adequados para diversos domínios de teste não vistos. Analisamos como diferentes espaços de características de pré-treinamento diferem nas variâncias específicas do domínio que capturam. Nossos estudos empíricos revelam que as características dos modelos de difusão se destacam na separação de domínios na ausência de rótulos explícitos de domínio e capturam informações específicas do domínio de forma detalhada. Em 5 conjuntos de dados, mostramos que nossa estrutura muito simples melhora a generalização para domínios não vistos com um aumento máximo de precisão de teste de mais de 4% em comparação com a linha de base padrão de Minimização de Risco Empírico (ERM). Crucialmente, nosso método supera a maioria dos algoritmos que acessam rótulos de domínio durante o treinamento.
Modelos de linguagem pré-treinados (LLMs) que são posteriormente treinados com dados de imagem apresentam bom desempenho em tarefas de visão e linguagem. Embora a adição de imagens durante uma segunda fase de treinamento desbloqueie efetivamente essa capacidade, não está claro quanto ganho ou perda esse pipeline de duas etapas oferece em comparação com modelos de linguagem visual (VLMs) que integram imagens mais cedo no processo de treinamento. Para investigar isso, treinamos modelos que abrangem diversos conjuntos de dados, escalas, proporções de imagem-texto e quantidade de pré-treinamento realizada antes da introdução de tokens visuais. Em seguida, ajustamos finamente esses modelos e avaliamos seu desempenho em uma série de tarefas de visão e linguagem e tarefas exclusivamente textuais. Descobrimos que o pré-treinamento com uma mistura de dados de imagem e texto permite que os modelos tenham um desempenho melhor em tarefas de visão e linguagem, mantendo um forte desempenho em avaliações exclusivamente textuais. Em uma média de 6 tarefas diversas, observamos que, para um modelo de 1B, a introdução de tokens visuais a 80% do caminho do pré-treinamento resulta em uma melhoria média de 2% em comparação com a introdução de tokens visuais em um modelo totalmente pré-treinado.
Avanços recentes em modelos de difusão de texto para imagem permitem a geração de imagens fotorealistas, mas também trazem o risco de produzir conteúdo malicioso, como imagens NSFW. Para mitigar esse risco, métodos de remoção de conceitos são estudados para facilitar que o modelo desaprenda conceitos específicos. No entanto, os estudos atuais enfrentam dificuldades para apagar completamente conceitos maliciosos implicitamente embutidos em prompts (por exemplo, expressões metafóricas ou prompts adversariais) enquanto preservam a capacidade normal de geração do modelo. Para enfrentar esse desafio, nosso estudo propõe o TRCE, utilizando uma estratégia de remoção de conceitos em duas etapas para alcançar um equilíbrio eficaz entre a remoção confiável e a preservação do conhecimento. Primeiramente, o TRCE começa apagando a semântica maliciosa implicitamente embutida em prompts textuais. Ao identificar um objetivo de mapeamento crítico (ou seja, o embedding [EoT]), otimizamos as camadas de atenção cruzada para mapear prompts maliciosos para prompts contextualmente semelhantes, mas com conceitos seguros. Essa etapa impede que o modelo seja excessivamente influenciado por semânticas maliciosas durante o processo de remoção de ruído. Em seguida, considerando as propriedades determinísticas da trajetória de amostragem do modelo de difusão, o TRCE direciona ainda mais a previsão inicial de remoção de ruído para a direção segura e longe da direção insegura por meio de aprendizado contrastivo, evitando assim a geração de conteúdo malicioso. Por fim, realizamos avaliações abrangentes do TRCE em vários benchmarks de remoção de conceitos maliciosos, e os resultados demonstram sua eficácia em apagar conceitos maliciosos enquanto preserva melhor a capacidade original de geração do modelo. O código está disponível em: http://github.com/ddgoodgood/TRCE. ATENÇÃO: Este artigo inclui conteúdo gerado por modelos que pode conter material ofensivo.
Modelos de visão pré-treinados (PVMs) são fundamentais para a robótica moderna, mas sua configuração ideal ainda não é clara. Através de uma avaliação sistemática, descobrimos que, embora DINO e iBOT superem o MAE em tarefas de controle visuomotor e percepção, eles apresentam dificuldades quando treinados com dados não centrados em (um único) objeto (NOC) - uma limitação fortemente correlacionada com sua capacidade reduzida de aprender representações centradas em objetos. Esta investigação indica que a capacidade de formar representações centradas em objetos a partir de conjuntos de dados robóticos não centrados em objetos é a chave para o sucesso dos PVMs. Motivados por essa descoberta, projetamos o SlotMIM, um método que induz representações centradas em objetos ao introduzir um gargalo semântico para reduzir o número de protótipos, incentivando o surgimento de "objetividade", bem como a regularização de consistência entre visões para promover a invariância multivisão. Nossos experimentos abrangem pré-treinamento em dados centrados em objetos, centrados em cenas, obtidos da web e egocêntricos. Em todas as configurações, nossa abordagem aprende representações transferíveis e alcança melhorias significativas em relação a trabalhos anteriores em reconhecimento de imagens, compreensão de cenas e avaliações de aprendizado robótico. Quando escalonado com conjuntos de dados em escala de milhões, nosso método também demonstra eficiência e escalabilidade superiores. Nosso código e modelos estão disponíveis publicamente em https://github.com/CVMI-Lab/SlotMIM.
O Reconhecimento de Fala Áudio-Visual (AVSR) aproveita tanto as modalidades de áudio quanto visuais para aumentar a robustez do reconhecimento de fala, especialmente em ambientes ruidosos. Avanços recentes em Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado sua eficácia no reconhecimento de fala, incluindo o AVSR. No entanto, devido ao comprimento significativo das representações de fala, a integração direta com LLMs impõe custos computacionais substanciais. Abordagens anteriores lidam com isso comprimindo as representações de fala antes de alimentá-las nos LLMs. No entanto, taxas de compressão mais altas frequentemente levam à degradação do desempenho, exigindo um equilíbrio entre eficiência computacional e precisão de reconhecimento. Para enfrentar esse desafio, propomos o Llama-MTSK, o primeiro LLM Multimodal baseado em Matryoshka para AVSR, que permite a adaptação flexível da alocação de tokens áudio-visuais com base em restrições computacionais específicas, mantendo um alto desempenho. Nossa abordagem, inspirada no Aprendizado de Representação Matryoshka, codifica representações áudio-visuais em múltiplas granularidades dentro de um único modelo, eliminando a necessidade de treinar modelos separados para diferentes níveis de compressão. Além disso, para ajustar eficientemente o LLM, introduzimos três estratégias Matryoshka baseadas em LoRA, utilizando módulos LoRA globais e específicos de escala. Avaliações extensivas nos dois maiores conjuntos de dados de AVSR demonstram que o Llama-MTSK alcança resultados de ponta, igualando ou superando modelos treinados independentemente em níveis de compressão fixos.
A rápida expansão da internet móvel resultou em um aumento substancial de imagens geradas por usuários (UGC, na sigla em inglês), tornando a avaliação abrangente dessas imagens urgente e essencial. Recentemente, modelos de linguagem multimodal de grande escala (MLLMs) demonstraram grande potencial na avaliação da qualidade de imagens (IQA) e na avaliação estética de imagens (IAA). Apesar desse progresso, a pontuação eficaz da qualidade e estética de imagens UGC ainda enfrenta dois desafios principais: 1) Uma única pontuação é insuficiente para capturar a percepção humana hierárquica. 2) Como usar MLLMs para gerar pontuações numéricas, como escores médios de opinião (MOS), permanece uma questão em aberto. Para abordar esses desafios, introduzimos um novo conjunto de dados, denominado Realistic image Quality and Aesthetic (RealQA), que inclui 14.715 imagens UGC, cada uma anotada com 10 atributos detalhados. Esses atributos abrangem três níveis: baixo (por exemplo, clareza da imagem), médio (por exemplo, integridade do assunto) e alto (por exemplo, composição). Além disso, conduzimos uma série de investigações aprofundadas e abrangentes sobre como prever efetivamente pontuações numéricas usando MLLMs. Surpreendentemente, ao prever apenas dois dígitos significativos extras, o paradigma de próximo token pode alcançar desempenho de última geração (SOTA). Além disso, com a ajuda da cadeia de pensamento (CoT) combinada com os atributos detalhados aprendidos, o método proposto pode superar os métodos SOTA em cinco conjuntos de dados públicos para IQA e IAA, com superior interpretabilidade, e mostrar forte generalização zero-shot para avaliação da qualidade de vídeo (VQA). O código e o conjunto de dados serão disponibilizados.
Os métodos existentes de estimativa de pose 6D de objetos novos geralmente dependem de modelos CAD ou de visões de referência densas, que são ambos difíceis de adquirir. Utilizar apenas uma única visão de referência é mais escalável, mas desafiador devido a grandes discrepâncias de pose e informações geométricas e espaciais limitadas. Para abordar esses problemas, propomos um método de estimativa de pose 6D de objetos novos baseado em uma única referência (SinRef-6D). Nossa ideia principal é estabelecer iterativamente o alinhamento ponto a ponto no sistema de coordenadas da câmera com base em modelos de espaço de estados (SSMs). Especificamente, o alinhamento iterativo ponto a ponto no espaço da câmera pode lidar efetivamente com grandes discrepâncias de pose, enquanto nossos SSMs propostos para RGB e Pontos podem capturar dependências de longo alcance e informações espaciais a partir de uma única visão, oferecendo complexidade linear e capacidade superior de modelagem espacial. Uma vez pré-treinado em dados sintéticos, o SinRef-6D pode estimar a pose 6D de um objeto novo usando apenas uma única visão de referência, sem a necessidade de retreinamento ou de um modelo CAD. Experimentos extensivos em seis conjuntos de dados populares e cenas robóticas do mundo real demonstram que alcançamos desempenho equivalente aos métodos baseados em CAD e em visões de referência densas, apesar de operar no cenário mais desafiador de uma única referência. O código será disponibilizado em https://github.com/CNJianLiu/SinRef-6D.
Trabalhos recentes demonstraram que, quando treinados em escala, codificadores uni-modais de visão 2D e texto convergem para características aprendidas que compartilham propriedades estruturais notáveis, apesar de surgirem de representações diferentes. No entanto, o papel dos codificadores 3D em relação a outras modalidades permanece inexplorado. Além disso, os modelos de base 3D existentes que aproveitam grandes conjuntos de dados são tipicamente treinados com objetivos explícitos de alinhamento em relação a codificadores congelados de outras representações. Neste trabalho, investigamos a possibilidade de alinhamento a posteriori de representações obtidas de codificadores uni-modais 3D em comparação com espaços de características baseados em texto. Mostramos que o alinhamento ingênuo de características pós-treinamento de codificadores uni-modais de texto e 3D resulta em desempenho limitado. Em seguida, focamos na extração de subespaços dos espaços de características correspondentes e descobrimos que, ao projetar as representações aprendidas em subespaços de menor dimensão bem escolhidos, a qualidade do alinhamento se torna significativamente maior, levando a uma precisão aprimorada em tarefas de correspondência e recuperação. Nossa análise ainda lança luz sobre a natureza desses subespaços compartilhados, que separam aproximadamente entre representações de dados semânticos e geométricos. No geral, o nosso é o primeiro trabalho que ajuda a estabelecer uma linha de base para o alinhamento pós-treinamento de espaços de características uni-modais 3D e de texto, e ajuda a destacar tanto as propriedades compartilhadas quanto as únicas dos dados 3D em comparação com outras representações.
Para responder a consultas factuais de um-para-muitos (por exemplo, listar cidades de um país), um modelo de linguagem (LM) deve simultaneamente recuperar conhecimento e evitar repetir respostas anteriores. Como essas duas subtarefas são implementadas e integradas internamente? Em vários conjuntos de dados e modelos, identificamos um mecanismo de promover-depois-suprimir: o modelo primeiro recupera todas as respostas e, em seguida, suprime as que já foram geradas. Especificamente, os LMs usam tanto o sujeito quanto os tokens de respostas anteriores para realizar a recuperação de conhecimento, com a atenção propagando informações sobre o sujeito e os MLPs promovendo as respostas. Em seguida, a atenção se concentra e suprime os tokens de respostas anteriores, enquanto os MLPs amplificam o sinal de supressão. Nosso mecanismo é corroborado por evidências experimentais extensas: além de usar decodificação precoce e rastreamento causal, analisamos como os componentes usam diferentes tokens ao introduzir tanto o Token Lens, que decodifica atualizações de atenção agregadas de tokens especificados, quanto um método de knockout que analisa mudanças nas saídas dos MLPs após a remoção da atenção para tokens especificados. No geral, fornecemos novos insights sobre como os componentes internos dos LMs interagem com diferentes tokens de entrada para suportar a recuperação factual complexa. O código está disponível em https://github.com/Lorenayannnnn/how-lms-answer-one-to-many-factual-queries.
Neste artigo, apresentamos uma nova estrutura projetada para reconstruir movimentos humanos 3D de longa sequência em coordenadas mundiais a partir de vídeos capturados em ambientes reais com múltiplas transições de cena. Esses movimentos de longa sequência em ambientes reais são altamente valiosos para aplicações como geração e compreensão de movimentos, mas representam um grande desafio para serem recuperados devido às transições abruptas de cena, oclusões parciais e fundos dinâmicos presentes nesses vídeos. Os métodos existentes focam principalmente em vídeos de cena única, onde a continuidade é mantida dentro de uma única visão de câmera, ou simplificam o alinhamento multi-cena apenas no espaço da câmera. Neste trabalho, abordamos esses desafios integrando uma estimativa aprimorada da pose da câmera com a Recuperação de Movimento Humano (HMR), incorporando um detector de transição de cena e um módulo robusto de alinhamento para garantir a continuidade precisa da pose e orientação entre as cenas. Ao utilizar um integrador de movimento personalizado, mitigamos efetivamente o problema de deslizamento dos pés e garantimos a consistência temporal na pose humana. Avaliações extensivas em nosso conjunto de dados multi-cena criado a partir de conjuntos de dados públicos de humanos 3D demonstram a robustez do nosso método na reconstrução de movimentos humanos realistas em coordenadas mundiais.
Alinhar grandes modelos de linguagem (LLMs) com as preferências humanas é crucial para a implantação no mundo real, mas métodos existentes como RLHF enfrentam desafios computacionais e de estabilidade. Enquanto o DPO estabelece um paradigma offline com um único hiperparâmetro beta, métodos subsequentes como o SimPO reintroduzem complexidade através de parâmetros duais (beta, gama). Propomos o {Otimização de Preferência Baseada em ReLU (RePO)}, um algoritmo simplificado que elimina o beta por meio de dois avanços: (1) mantendo as margens sem referência do SimPO, mas removendo o beta através de análise de gradiente, e (2) adotando uma função de perda max-margin baseada em ReLU que filtra naturalmente pares triviais. Teoricamente, o RePO é caracterizado como o caso limite do SimPO (beta tendendo ao infinito), onde a ponderação logística colapsa para um limiar binário, formando um envelope convexo da perda 0-1. Resultados empíricos no AlpacaEval 2 e Arena-Hard mostram que o RePO supera o DPO e o SimPO em vários modelos base, exigindo apenas um hiperparâmetro para ajuste.
Modelos de Linguagem Multimodais de Grande Escala (MLLMs) demonstram capacidades robustas de zero-shot em diversas tarefas de visão e linguagem após o treinamento em conjuntos de dados de mega escala. No entanto, tarefas de predição densa, como segmentação semântica e detecção de pontos-chave, apresentam desafios significativos para MLLMs quando representadas apenas como saídas de texto. Simultaneamente, os MLLMs atuais que utilizam embeddings latentes para decodificação de tarefas visuais geralmente demonstram adaptabilidade limitada tanto para aprendizado multitarefa quanto para cenários de multi granularidade. Neste trabalho, apresentamos o REF-VLM, uma estrutura de ponta a ponta para treinamento unificado de várias tarefas de decodificação visual. Para abordar cenários complexos de decodificação visual, introduzimos o Paradigma de Referência Baseado em Tripletas (TRP), que desacopla explicitamente três dimensões críticas em tarefas de decodificação visual por meio de uma estrutura de tripla: conceitos, tipos de decodificação e alvos. O TRP emprega delimitadores simbólicos para reforçar o aprendizado de representação estruturada, melhorando a capacidade de análise e interpretabilidade das saídas do modelo. Além disso, construímos o Conjunto de Dados de Seguimento de Instruções de Tarefas Visuais (VTInstruct), um conjunto de dados multitarefa de grande escala contendo mais de 100 milhões de amostras de diálogo multimodal em 25 tipos de tarefas. Além de entradas e saídas de texto, o VT-Instruct incorpora vários prompts visuais, como ponto, caixa, rabisco e máscara, e gera saídas compostas por texto e unidades visuais, como caixa, ponto-chave, profundidade e máscara. A combinação de diferentes prompts visuais e unidades visuais gera uma ampla variedade de tipos de tarefas, expandindo significativamente a aplicabilidade do REF-VLM. Experimentos qualitativos e quantitativos demonstram que nosso REF-VLM supera outros MLLMs em uma variedade de benchmarks padrão. O código, conjunto de dados e demonstração estão disponíveis em https://github.com/MacavityT/REF-VLM.
Combinar LLMs especialistas pré-treinados existentes é uma abordagem promissora para enfrentar tarefas em grande escala e diversas de forma escalável. No entanto, a seleção de especialistas no nível da tarefa muitas vezes é muito grosseira, já que tarefas heterogêneas podem exigir diferentes expertises para cada instância. Para permitir a mistura adaptativa no nível da instância de especialistas LLMs pré-treinados, propomos o Symbolic-MoE, um framework Mixture-of-Experts simbólico, baseado em texto e livre de gradientes. O Symbolic-MoE adota uma abordagem refinada de seleção, enfatizando habilidades, como álgebra em matemática ou biologia molecular em raciocínio biomédico. Propomos uma estratégia de recrutamento baseada em habilidades que seleciona dinamicamente o conjunto mais relevante de LLMs especialistas para diversas tarefas de raciocínio com base em seus pontos fortes. Cada especialista selecionado gera seu próprio raciocínio, resultando em k saídas de k especialistas, que são então sintetizadas em uma resposta final de alta qualidade por um agregador escolhido com base em sua capacidade de integrar saídas de raciocínio diversas. Mostramos que a seleção de especialistas no nível da instância do Symbolic-MoE melhora o desempenho de forma significativa, mas — quando implementada de forma ingênua — pode introduzir uma alta sobrecarga computacional devido à necessidade de carregar e descarregar modelos constantemente. Para resolver isso, implementamos uma estratégia de inferência em lote que agrupa instâncias com base em seus especialistas atribuídos, carregando cada modelo apenas uma vez. Isso nos permite integrar 16 modelos especialistas em 1 GPU com um custo de tempo comparável ou melhor que abordagens multiagentes anteriores usando 4 GPUs. Por meio de avaliações extensas em diversos benchmarks (MMLU-Pro, GPQA, AIME e MedMCQA), demonstramos que o Symbolic-MoE supera LLMs robustos como o GPT4o-mini, bem como abordagens multiagentes, com uma melhoria média absoluta de 8,15% em relação à melhor baseline multiagente. Além disso, o Symbolic-MoE elimina a necessidade de discussões multirodadas caras, superando baselines de discussão com menos computação.
Apresentamos o PhiloBERTA, um modelo transformador multilíngue que mede relações semânticas entre léxicos do grego antigo e do latim. Por meio da análise de pares de termos selecionados de textos clássicos, utilizamos embeddings contextuais e métricas de similaridade angular para identificar alinhamentos semânticos precisos. Nossos resultados mostram que pares etimologicamente relacionados demonstram escores de similaridade significativamente mais altos, especialmente para conceitos filosóficos abstratos como epist\=em\=e (scientia) e dikaiosyn\=e (iustitia). A análise estatística revela padrões consistentes nessas relações (p = 0,012), com pares etimologicamente relacionados exibindo uma preservação semântica notavelmente estável em comparação com pares de controle. Essas descobertas estabelecem um framework quantitativo para examinar como os conceitos filosóficos se moveram entre as tradições grega e latina, oferecendo novos métodos para a pesquisa filológica clássica.
A preensão robótica em cenas com objetos transparentes e especulares apresenta grandes desafios para métodos que dependem de informações precisas de profundidade. Neste artigo, introduzimos o NeuGrasp, um método de reconstrução de superfície neural que aproveita prioridades de fundo para detecção de preensão independente de material. O NeuGrasp integra transformadores e volumes de prioridade global para agregar características de múltiplas visões com codificação espacial, permitindo uma reconstrução robusta da superfície em condições de visualização estreitas e esparsas. Ao focar em objetos em primeiro plano através do aprimoramento de características residuais e refinando a percepção espacial com um volume de prioridade de ocupação, o NeuGrasp se destaca no manuseio de objetos com superfícies transparentes e especulares. Experimentos extensivos em cenários simulados e do mundo real mostram que o NeuGrasp supera os métodos state-of-the-art em preensão, mantendo uma qualidade de reconstrução comparável. Mais detalhes estão disponíveis em https://neugrasp.github.io/.
Embora os modelos generativos baseados em pontuação sejam o modelo preferido em diversos domínios, há ferramentas limitadas disponíveis para controlar o comportamento durante a inferência de maneira fundamentada, por exemplo, para compor múltiplos modelos pré-treinados. Os métodos existentes de orientação sem classificador utilizam uma heurística simples para misturar pontuações condicionais e incondicionais, amostrando aproximadamente de distribuições condicionais. No entanto, tais métodos não aproximam as distribuições intermediárias, exigindo etapas adicionais de "correção". Neste trabalho, fornecemos um método eficiente e fundamentado para amostrar de uma sequência de distribuições recozidas, com média geométrica ou produto, derivadas de modelos baseados em pontuação pré-treinados. Derivamos um esquema de simulação ponderada que chamamos de Corretores de Feynman-Kac (FKCs), baseado na célebre fórmula de Feynman-Kac, ao considerar cuidadosamente os termos nas equações diferenciais parciais (EDPs) apropriadas. Para simular essas EDPs, propomos algoritmos de reamostragem Sequential Monte Carlo (SMC) que aproveitam o dimensionamento durante a inferência para melhorar a qualidade da amostragem. Demonstramos empiricamente a utilidade de nossos métodos ao propor amostragem amortizada via recozimento de temperatura durante a inferência, melhorando a geração de moléculas multiobjetivo usando modelos pré-treinados e aprimorando a orientação sem classificador para geração de texto em imagem. Nosso código está disponível em https://github.com/martaskrt/fkc-diffusion.