Artigos de pesquisa em IA selecionados diariamente com traduções
A Modelagem de Imagem Mascarada (MIM) com Quantização Vetorial (VQ) tem alcançado grande sucesso tanto no pré-treinamento auto-supervisionado quanto na geração de imagens. No entanto, a maioria dos métodos existentes enfrenta dificuldades para equilibrar a qualidade de geração versus o aprendizado de representação e a eficiência em um espaço latente compartilhado. Para superar os limites desse paradigma, propomos o MergeVQ, que incorpora técnicas de fusão de tokens em modelos generativos baseados em VQ para preencher a lacuna entre a geração de imagens e o aprendizado de representação visual em uma arquitetura unificada. Durante o pré-treinamento, o MergeVQ desacopla a semântica top-k do espaço latente com o módulo de fusão de tokens após os blocos de auto-atenção no codificador, permitindo a Quantização Livre de Consulta (LFQ) e o alinhamento global, e recupera os detalhes refinados por meio de atenção cruzada no decodificador para reconstrução. Para a geração na segunda etapa, introduzimos o MergeAR, que realiza a compressão do Cache KV para previsão eficiente em ordem raster. Experimentos extensivos no ImageNet comprovam que o MergeVQ, como modelo generativo AR, alcança desempenho competitivo tanto em tarefas de aprendizado de representação visual quanto na geração de imagens, mantendo uma eficiência de tokens e velocidade de inferência favoráveis. O código e o modelo estarão disponíveis em https://apexgen-x.github.io/MergeVQ.
Os recentes avanços na síntese de imagens e vídeos abriram novas possibilidades promissoras em jogos generativos. Uma aplicação particularmente intrigante é a transformação de personagens de filmes de anime em entidades interativas e jogáveis. Isso permite que os jogadores se imersem no dinâmico mundo do anime como seus personagens favoritos, simulando a vida por meio de instruções de linguagem. Tais jogos são definidos como jogos infinitos, pois eliminam limites predeterminados e regras de jogo fixas, onde os jogadores podem interagir com o mundo do jogo por meio de linguagem aberta e experimentar enredos e ambientes em constante evolução. Recentemente, uma abordagem pioneira para simulação de vida infinita em anime emprega modelos de linguagem de grande escala (LLMs) para traduzir diálogos de texto em múltiplas etapas em instruções de linguagem para geração de imagens. No entanto, ela negligencia o contexto visual histórico, levando a uma jogabilidade inconsistente. Além disso, gera apenas imagens estáticas, falhando em incorporar a dinâmica necessária para uma experiência de jogo envolvente. Neste trabalho, propomos o AnimeGamer, que é construído sobre Modelos de Linguagem Multimodal de Grande Escala (MLLMs) para gerar cada estado do jogo, incluindo cenas de animação dinâmica que retratam movimentos de personagens e atualizações de estados de personagens, conforme ilustrado na Figura 1. Introduzimos novas representações multimodais conscientes de ação para representar cenas de animação, que podem ser decodificadas em clipes de vídeo de alta qualidade usando um modelo de difusão de vídeo. Ao tomar representações históricas de cenas de animação como contexto e prever representações subsequentes, o AnimeGamer pode gerar jogos com consistência contextual e dinâmica satisfatória. Avaliações extensas usando métricas automatizadas e avaliações humanas demonstram que o AnimeGamer supera os métodos existentes em vários aspectos da experiência de jogo. Códigos e checkpoints estão disponíveis em https://github.com/TencentARC/AnimeGamer.
Embora métodos recentes de animação humana baseada em imagens alcancem sínteses realistas de movimentos corporais e faciais, lacunas críticas permanecem em termos de controlabilidade holística de granularidade fina, adaptabilidade em múltiplas escalas e coerência temporal de longo prazo, o que resulta em menor expressividade e robustez. Propomos um framework baseado em transformadores de difusão (DiT), o DreamActor-M1, com orientação híbrida para superar essas limitações. Para orientação de movimento, nossos sinais de controle híbridos que integram representações faciais implícitas, esferas de cabeça 3D e esqueletos corporais 3D alcançam controle robusto de expressões faciais e movimentos corporais, ao mesmo tempo que produzem animações expressivas e que preservam a identidade. Para adaptação de escala, a fim de lidar com diversas poses corporais e escalas de imagem que variam de retratos a visões de corpo inteiro, empregamos uma estratégia de treinamento progressivo utilizando dados com resoluções e escalas variadas. Para orientação de aparência, integramos padrões de movimento de quadros sequenciais com referências visuais complementares, garantindo coerência temporal de longo prazo para regiões não vistas durante movimentos complexos. Experimentos demonstram que nosso método supera os trabalhos mais avançados, entregando resultados expressivos para geração de retratos, parte superior do corpo e corpo inteiro com consistência robusta de longo prazo. Página do Projeto: https://grisoon.github.io/DreamActor-M1/.
Crescente atenção tem sido direcionada para melhorar as capacidades de raciocínio dos modelos de linguagem multimodal de grande escala (MLLMs). Como pilar fundamental para agentes de IA que operam no mundo físico, a inteligência visual-espacial baseada em vídeo (VSI) surge como uma das habilidades de raciocínio mais cruciais dos MLLMs. Este trabalho realiza um estudo pioneiro e aprofundado sobre a melhoria do raciocínio visual-espacial dos MLLMs por meio de treinamento semelhante ao R1-Zero. Tecnicamente, primeiro identificamos que as capacidades de raciocínio visual-espacial dos modelos Qwen2-VL de pequeno a médio porte não podem ser ativadas por meio de prompts de Chain of Thought (CoT). Em seguida, incorporamos o treinamento GRPO para aprimorar o raciocínio visual-espacial, utilizando o conjunto de dados VSI-100k cuidadosamente curado, seguindo o DeepSeek-R1-Zero. Durante a investigação, identificamos a necessidade de manter a penalidade KL (mesmo com um valor pequeno) no GRPO. Com apenas 120 horas de GPU, nosso modelo vsGRPO-2B, ajustado a partir do Qwen2-VL-2B, supera o modelo base em 12,1% e ultrapassa o GPT-4o. Além disso, nosso modelo vsGRPO-7B, ajustado a partir do Qwen2-VL-7B, alcança desempenho comparável ao do melhor modelo de código aberto, o LLaVA-NeXT-Video-72B. Adicionalmente, comparamos o vsGRPO com ajustes finos supervisionados e otimizações de preferência direta, observando uma forte superioridade de desempenho. O código e o conjunto de dados estarão disponíveis em breve.
O DeepSeek-R1-Zero demonstrou que o aprendizado por reforço (RL) em larga escala pode aprimorar diretamente as capacidades de raciocínio dos LLMs (Large Language Models) sem a necessidade de ajuste fino supervisionado. Neste trabalho, examinamos criticamente o treinamento semelhante ao R1-Zero, analisando seus dois componentes principais: modelos base e RL. Investigamos uma ampla gama de modelos base, incluindo o DeepSeek-V3-Base, para entender como as características do pré-treinamento influenciam o desempenho do RL. Nossa análise revela que o DeepSeek-V3-Base já exibe o "momento Aha", enquanto os modelos base Qwen2.5 demonstram fortes capacidades de raciocínio mesmo sem o uso de templates de prompt, sugerindo possíveis vieses no pré-treinamento. Além disso, identificamos um viés de otimização no Group Relative Policy Optimization (GRPO), que aumenta artificialmente o comprimento das respostas (especialmente para saídas incorretas) durante o treinamento. Para resolver isso, introduzimos o Dr. GRPO, um método de otimização sem viés que melhora a eficiência de tokens enquanto mantém o desempenho de raciocínio. Aproveitando essas descobertas, apresentamos uma receita minimalista do R1-Zero que alcança 43,3% de precisão no AIME 2024 com um modelo base de 7B, estabelecendo um novo estado da arte. Nosso código está disponível em https://github.com/sail-sg/understand-r1-zero.
A escrita acadêmica requer tanto a geração de texto coerente quanto a citação precisa de literatura relevante. Embora os sistemas recentes de Geração Aumentada por Recuperação (RAG, do inglês Retrieval-Augmented Generation) tenham melhorado significativamente a precisão factual na geração de texto de propósito geral, sua capacidade de apoiar adequadamente a escrita acadêmica profissional ainda é limitada. Neste trabalho, apresentamos o ScholarCopilot, uma estrutura unificada projetada para aprimorar os modelos de linguagem de grande escala existentes na geração de artigos acadêmicos profissionais com citações precisas e contextualmente relevantes. O ScholarCopilot determina dinamicamente quando recuperar referências acadêmicas gerando um token de recuperação [RET] e, em seguida, utiliza sua representação para buscar citações relevantes em um banco de dados. As referências recuperadas são alimentadas no modelo para aumentar o processo de geração. Otimizamos conjuntamente as tarefas de geração e citação em uma única estrutura para aumentar a eficiência. Treinado em 500 mil artigos do arXiv, nosso modelo alcança uma precisão de recuperação top-1 de 40,1% em nosso conjunto de dados de avaliação, superando baselines como E5-Mistral-7B-Instruct (15,0%) e BM25 (9,8%). Em um conjunto de dados de 1.000 amostras de escrita acadêmica, o ScholarCopilot obtém uma pontuação de 16,2/25 em qualidade de geração (medida em relevância, coerência, rigor acadêmico, completude e inovação), superando modelos com 10 vezes mais parâmetros, como o Qwen-2.5-72B-Instruct (15,8/25). Estudos com humanos também confirmam o desempenho superior do ScholarCopilot em recall de citações, eficiência de escrita e experiência geral do usuário, validando a eficácia de nossa abordagem.
Modelos de difusão de vídeo (VDMs) avançaram significativamente nos últimos anos, possibilitando a geração de vídeos altamente realistas e atraindo a atenção da comunidade por seu potencial como simuladores de mundo. No entanto, apesar de suas capacidades, os VDMs frequentemente falham em produzir vídeos fisicamente plausíveis devido a uma falta inerente de compreensão da física, resultando em dinâmicas e sequências de eventos incorretas. Para abordar essa limitação, propomos uma nova estrutura de geração de imagem para vídeo em dois estágios que incorpora explicitamente a física. No primeiro estágio, empregamos um Modelo de Linguagem Visual (VLM) como um planejador de movimento de granularidade grossa, integrando raciocínio em cadeia de pensamento e consciente da física para prever trajetórias/mudanças de movimento aproximadas que se assemelham à dinâmica física do mundo real, garantindo a consistência interquadros. No segundo estágio, usamos as trajetórias/mudanças de movimento previstas para guiar a geração de vídeo de um VDM. Como as trajetórias/mudanças de movimento previstas são aproximadas, ruído é adicionado durante a inferência para proporcionar liberdade ao VDM na geração de movimentos com detalhes mais refinados. Resultados experimentais extensivos demonstram que nossa estrutura pode produzir movimento fisicamente plausível, e avaliações comparativas destacam a notável superioridade de nossa abordagem sobre os métodos existentes. Mais resultados em vídeo estão disponíveis em nossa Página do Projeto: https://madaoer.github.io/projects/physically_plausible_video_generation.
Recuperar cenas 3D a partir de visões esparsas é uma tarefa desafiadora devido ao seu problema inerentemente mal posto. Métodos convencionais desenvolveram soluções especializadas (por exemplo, regularização geométrica ou modelos determinísticos de avanço direto) para mitigar o problema. No entanto, eles ainda sofrem com a degradação de desempenho devido à sobreposição mínima entre as visões de entrada com informações visuais insuficientes. Felizmente, modelos recentes de geração de vídeo mostram potencial para abordar esse desafio, pois são capazes de gerar clipes de vídeo com estruturas 3D plausíveis. Impulsionados por grandes modelos de difusão de vídeo pré-treinados, algumas pesquisas pioneiras começaram a explorar o potencial do conhecimento prévio de geração de vídeo e criar cenas 3D a partir de visões esparsas. Apesar de melhorias impressionantes, eles são limitados pelo tempo de inferência lento e pela falta de restrições 3D, levando a ineficiências e artefatos de reconstrução que não se alinham com a estrutura geométrica do mundo real. Neste artigo, propomos o VideoScene para destilar o modelo de difusão de vídeo e gerar cenas 3D em uma única etapa, visando construir uma ferramenta eficiente e eficaz para preencher a lacuna entre vídeo e 3D. Especificamente, projetamos uma estratégia de destilação de fluxo de salto 3D para pular informações redundantes que consomem tempo e treinamos uma rede de política de remoção de ruído dinâmica para determinar adaptativamente o passo de tempo ideal durante a inferência. Experimentos extensivos demonstram que nosso VideoScene alcança resultados de geração de cenas 3D mais rápidos e superiores do que os modelos anteriores de difusão de vídeo, destacando seu potencial como uma ferramenta eficiente para futuras aplicações de vídeo para 3D. Página do Projeto: https://hanyang-21.github.io/VideoScene
Apresentamos o PaperBench, um benchmark que avalia a capacidade de agentes de IA em replicar pesquisas de ponta em IA. Os agentes devem replicar 20 artigos selecionados como Spotlight e Oral da ICML 2024 do zero, incluindo a compreensão das contribuições dos artigos, o desenvolvimento de uma base de código e a execução bem-sucedida dos experimentos. Para uma avaliação objetiva, desenvolvemos rubricas que decompõem hierarquicamente cada tarefa de replicação em sub-tarefas menores com critérios de avaliação claros. No total, o PaperBench contém 8.316 tarefas individualmente avaliáveis. As rubricas são co-desenvolvidas com os autores de cada artigo da ICML para garantir precisão e realismo. Para permitir uma avaliação escalável, também desenvolvemos um avaliador baseado em LLM (Large Language Model) para classificar automaticamente as tentativas de replicação com base nas rubricas, e avaliamos o desempenho desse avaliador criando um benchmark separado para avaliadores. Avaliamos vários modelos de ponta no PaperBench, constatando que o agente com melhor desempenho testado, o Claude 3.5 Sonnet (Nova) com suporte de código aberto, alcança uma pontuação média de replicação de 21,0%. Por fim, recrutamos doutorandos de destaque em ML para tentar replicar um subconjunto do PaperBench, constatando que os modelos ainda não superam a linha de base humana. Disponibilizamos nosso código em https://github.com/openai/preparedness para facilitar pesquisas futuras sobre a compreensão das capacidades de engenharia de IA de agentes de IA.
Apresentamos o Articulated Kinematics Distillation (AKD), um framework para gerar animações de personagens de alta fidelidade ao combinar as vantagens da animação baseada em esqueleto e modelos generativos modernos. O AKD utiliza uma representação baseada em esqueleto para ativos 3D com rigging, reduzindo drasticamente os Graus de Liberdade (DoFs) ao focar no controle em nível de articulações, o que permite uma síntese de movimento eficiente e consistente. Por meio do Score Distillation Sampling (SDS) com modelos de difusão de vídeo pré-treinados, o AKD destila movimentos complexos e articulados enquanto mantém a integridade estrutural, superando os desafios enfrentados por campos de deformação neural 4D na preservação da consistência de forma. Essa abordagem é naturalmente compatível com simulações baseadas em física, garantindo interações fisicamente plausíveis. Experimentos mostram que o AKD alcança uma consistência 3D e qualidade de movimento superiores em comparação com trabalhos existentes na geração de texto para 4D. Página do projeto: https://research.nvidia.com/labs/dir/akd/
Apresentamos o ILLUME+, que aproveita a tokenização visual dual e um decodificador de difusão para melhorar tanto a compreensão semântica profunda quanto a geração de imagens de alta fidelidade. Modelos unificados existentes têm enfrentado dificuldades para lidar simultaneamente com as três capacidades fundamentais em um modelo unificado: compreensão, geração e edição. Modelos como Chameleon e EMU3 utilizam VQGAN para discretização de imagens, mas, devido à falta de interação semântica profunda, ficam atrás de modelos especializados como LLaVA em tarefas de compreensão visual. Para mitigar isso, LaViT e ILLUME empregam codificadores semânticos para tokenização, mas enfrentam desafios na edição de imagens devido à preservação inadequada de texturas. Enquanto isso, a série Janus desacopla a representação de entrada e saída de imagens, limitando suas habilidades para lidar de forma contínua com a compreensão e geração intercalada de texto e imagem. Em contraste, o ILLUME+ introduz um tokenizador visual dual unificado, DualViTok, que preserva tanto texturas refinadas quanto semânticas alinhadas ao texto, ao mesmo tempo que habilita uma estratégia de representação de imagem de grosseira para refinada para compreensão e geração multimodal. Além disso, empregamos um modelo de difusão como detokenizador de imagem para melhorar a qualidade de geração e permitir super-resolução eficiente. O ILLUME+ segue um esquema de entrada contínua e saída discreta dentro do MLLM unificado e adota um procedimento de treinamento progressivo que suporta resolução dinâmica em todo o tokenizador visual, MLLM e decodificador de difusão. Esse design permite edição e geração de imagens contextualmente flexíveis e eficientes em diversas tarefas. O ILLUME+ (3B) exibe desempenho competitivo em comparação com MLLMs unificados existentes e modelos especializados em benchmarks de compreensão, geração e edição multimodal. Com seu forte desempenho, o ILLUME+ fornece uma base escalável e versátil para futuras aplicações multimodais. Página do Projeto: https://illume-unified-mllm.github.io/.
A geração de imagens humanas de alta qualidade por meio de métodos de texto-para-imagem (T2I) é uma tarefa significativa, porém desafiadora. Diferente da geração de imagens em geral, a síntese de imagens humanas deve atender a critérios rigorosos relacionados à pose, anatomia e alinhamento com prompts textuais, tornando particularmente difícil alcançar resultados realistas. Avanços recentes na geração T2I baseada em modelos de difusão têm mostrado promessas, mas desafios permanecem em atender preferências específicas para imagens humanas. Neste artigo, introduzimos uma abordagem inovadora projetada especificamente para a geração de imagens humanas utilizando Otimização de Preferência Direta (DPO). Especificamente, apresentamos um método eficiente para a construção de um conjunto de dados DPO especializado para treinar modelos de geração de imagens humanas sem a necessidade de feedback humano custoso. Também propomos uma função de perda modificada que aprimora o processo de treinamento DPO, minimizando artefatos e melhorando a fidelidade da imagem. Nosso método demonstra sua versatilidade e eficácia na geração de imagens humanas, incluindo a geração personalizada de texto-para-imagem. Por meio de avaliações abrangentes, mostramos que nossa abordagem avança significativamente o estado da arte na geração de imagens humanas, alcançando resultados superiores em termos de anatomias naturais, poses e alinhamento texto-imagem.
Os Modelos de Visão-Linguagem (VLMs) ampliam as capacidades dos Modelos de Linguagem de Grande Escala (LLMs) ao incorporar informações visuais, mas ainda permanecem vulneráveis a ataques de jailbreak, especialmente ao processar imagens ruidosas ou corrompidas. Embora os VLMs existentes adotem medidas de segurança durante o treinamento para mitigar tais ataques, as vulnerabilidades associadas a entradas visuais aumentadas com ruído são negligenciadas. Neste trabalho, identificamos que a ausência de treinamento aumentado com ruído causa lacunas críticas de segurança: muitos VLMs são suscetíveis até mesmo a perturbações simples, como ruído gaussiano. Para enfrentar esse desafio, propomos o Robust-VLGuard, um conjunto de dados de segurança multimodal com pares imagem-texto alinhados/desalinhados, combinado com um ajuste fino aumentado com ruído que reduz as taxas de sucesso de ataques enquanto preserva a funcionalidade do VLM. Para ataques de perturbação visual baseados em otimização mais robustos, propomos o DiffPure-VLM, que aproveita modelos de difusão para converter perturbações adversariais em ruído semelhante ao gaussiano, que pode ser defendido por VLMs com ajuste fino de segurança aumentado com ruído. Os resultados experimentais demonstram que a propriedade de mudança de distribuição do modelo de difusão se alinha bem com nossos VLMs ajustados, mitigando significativamente perturbações adversariais em várias intensidades. O conjunto de dados e o código estão disponíveis em https://github.com/JarvisUSTC/DiffPure-RobustVLM.
Embora os modelos recentes de texto-para-fala (TTS) zero-shot tenham melhorado significativamente a qualidade e a expressividade da fala, os sistemas convencionais ainda enfrentam problemas relacionados à modelagem do alinhamento fala-texto: 1) modelos sem modelagem explícita de alinhamento fala-texto exibem menor robustez, especialmente para frases complexas em aplicações práticas; 2) modelos baseados em alinhamentos predefinidos sofrem com restrições de naturalidade devido a alinhamentos forçados. Este artigo apresenta o MegaTTS 3, um sistema TTS que incorpora um algoritmo inovador de alinhamento esparso que orienta o transformer de difusão latente (DiT). Especificamente, fornecemos limites de alinhamento esparso ao MegaTTS 3 para reduzir a dificuldade de alinhamento sem limitar o espaço de busca, alcançando assim alta naturalidade. Além disso, empregamos uma estratégia de orientação livre de classificador multicondicional para ajustar a intensidade do sotaque e adotamos a técnica de fluxo retificado por partes para acelerar o processo de geração. Experimentos demonstram que o MegaTTS 3 alcança a qualidade de fala zero-shot TTS mais avançada e oferece controle altamente flexível sobre a intensidade do sotaque. Notavelmente, nosso sistema pode gerar fala de alta qualidade com um minuto de duração usando apenas 8 passos de amostragem. Amostras de áudio estão disponíveis em https://sditdemo.github.io/sditdemo/.
Modelos visão-linguagem (VLMs) são propensos a alucinações de objetos, onde eles indicam erroneamente a presença de certos objetos em uma imagem. Os benchmarks existentes quantificam alucinações usando conjuntos de dados rotulados relativamente pequenos. No entanto, essa abordagem é i) insuficiente para avaliar alucinações que surgem em configurações de mundo aberto, onde VLMs são amplamente utilizados, e ii) inadequada para detectar erros sistemáticos em VLMs. Propomos o DASH (Detecção e Avaliação de Alucinações Sistemáticas), um pipeline automático e em larga escala projetado para identificar alucinações sistemáticas de VLMs em imagens do mundo real em um cenário de mundo aberto. Um componente-chave é o DASH-OPT para recuperação baseada em imagens, onde otimizamos sobre a "variedade de imagens naturais" para gerar imagens que enganam o VLM. A saída do DASH consiste em clusters de imagens reais e semanticamente semelhantes para as quais o VLM alucina um objeto. Aplicamos o DASH ao PaliGemma e a dois modelos LLaVA-NeXT em 380 classes de objetos e, no total, encontramos mais de 19k clusters com 950k imagens. Estudamos a transferência das alucinações sistemáticas identificadas para outros VLMs e mostramos que o ajuste fino do PaliGemma com as imagens específicas do modelo obtidas com o DASH mitiga as alucinações de objetos. O código e os dados estão disponíveis em https://YanNeu.github.io/DASH.
Os designs de redes de visão, incluindo Redes Neurais Convolucionais e Transformers de Visão, avançaram significativamente o campo da visão computacional. No entanto, seus cálculos complexos apresentam desafios para implantações práticas, especialmente em aplicações em tempo real. Para enfrentar esse problema, os pesquisadores exploraram diversos designs de redes leves e eficientes. Contudo, os modelos leves existentes utilizam predominantemente mecanismos de autoatenção e convoluções para a mistura de tokens. Essa dependência traz limitações em eficácia e eficiência nos processos de percepção e agregação das redes leves, dificultando o equilíbrio entre desempenho e eficiência sob orçamentos computacionais limitados. Neste artigo, inspiramo-nos na capacidade dinâmica de visão heteroescala inerente ao eficiente sistema de visão humana e propomos uma estratégia "Ver Grande, Focar no Pequeno" para o design de redes de visão leves. Introduzimos a convolução LS (Large-Small), que combina percepção de kernel grande e agregação de kernel pequeno. Ela pode capturar eficientemente uma ampla gama de informações perceptuais e alcançar uma agregação precisa de características para representações visuais dinâmicas e complexas, permitindo assim um processamento proficiente de informações visuais. Com base na convolução LS, apresentamos a LSNet, uma nova família de modelos leves. Experimentos extensivos demonstram que a LSNet alcança desempenho e eficiência superiores em comparação com as redes leves existentes em diversas tarefas de visão. Códigos e modelos estão disponíveis em https://github.com/jameslahm/lsnet.
Os Modelos de Espaço de Estados (SSMs) estão surgindo como uma alternativa atraente aos Transformers devido ao uso consistente de memória e ao alto desempenho. No entanto, escalar SSMs em serviços de nuvem ou dispositivos com recursos limitados é desafiador devido aos requisitos de armazenamento e poder computacional. Para superar isso, a quantização de SSMs com formatos de dados de baixa largura de bits pode reduzir o tamanho do modelo e se beneficiar da aceleração de hardware. Como os SSMs são propensos a erros induzidos pela quantização, esforços recentes têm se concentrado em otimizar um modelo ou largura de bits específica para eficiência sem sacrificar o desempenho. No entanto, configurações distintas de largura de bits são essenciais para diferentes cenários, como W4A8 para aumentar a velocidade de decodificação em grandes lotes, e W4A16 para melhorar a velocidade de geração em aplicações de prompt curto para um único usuário. Para isso, apresentamos o Quamba2, compatível com W8A8, W4A8 e W4A16 para as arquiteturas Mamba1 e Mamba2, atendendo à crescente demanda de implantação de SSMs em várias plataformas. Com base na preservação da ordem dos canais e na persistência da ativação dos SSMs, propomos uma abordagem offline para quantizar as entradas de uma recorrência linear em 8 bits, ordenando e agrupando a entrada x, combinada com uma quantização por grupo de estados para os parâmetros dependentes da entrada B e C. Para garantir a invariância computacional na saída do SSM, reorganizamos os pesos offline de acordo com a sequência de agrupamento. Os experimentos mostram que o Quamba2-8B supera vários métodos de quantização de SSMs de última geração e oferece acelerações de 1,3 vezes e 3 vezes nas etapas de pré-preenchimento e geração, respectivamente, enquanto proporciona uma redução de memória de 4 vezes com apenas uma queda média de precisão de 1,6%. A avaliação no MMLU demonstra a generalizabilidade e robustez do nosso framework. O código e os modelos quantizados serão disponibilizados em: https://github.com/enyac-group/Quamba.
Modelos de linguagem de grande escala demonstram capacidades de raciocínio notáveis, mas frequentemente produzem respostas não confiáveis ou incorretas. Os métodos de verificação existentes são tipicamente específicos para cada modelo ou restritos a domínios, exigindo recursos computacionais significativos e carecendo de escalabilidade em diversas tarefas de raciocínio. Para abordar essas limitações, propomos o VerifiAgent, um agente de verificação unificado que integra dois níveis de verificação: meta-verificação, que avalia a completude e consistência nas respostas do modelo, e verificação adaptativa baseada em ferramentas, onde o VerifiAgent seleciona autonomamente as ferramentas de verificação apropriadas com base no tipo de raciocínio, incluindo raciocínio matemático, lógico ou de senso comum. Essa abordagem adaptativa garante eficiência e robustez em diferentes cenários de verificação. Resultados experimentais mostram que o VerifiAgent supera métodos de verificação de linha de base (por exemplo, verificador dedutivo, verificador reverso) em todas as tarefas de raciocínio. Além disso, ele pode aprimorar ainda mais a precisão do raciocínio ao aproveitar o feedback dos resultados da verificação. O VerifiAgent também pode ser aplicado efetivamente ao escalonamento de inferência, alcançando melhores resultados com menos amostras geradas e custos reduzidos em comparação com os modelos de recompensa de processo existentes no domínio do raciocínio matemático. O código está disponível em https://github.com/Jiuzhouh/VerifiAgent.
Diversos métodos de salto de camadas foram propostos para acelerar a geração de tokens em modelos de linguagem de grande escala (LLMs). No entanto, eles negligenciaram uma questão fundamental: Como as demandas computacionais variam ao longo da geração de diferentes tokens? Neste trabalho, apresentamos o FlexiDepth, um método que ajusta dinamicamente o número de camadas do Transformer utilizadas na geração de texto. Ao incorporar um roteador e um adaptador plug-in, o FlexiDepth permite o salto adaptativo de camadas em LLMs sem modificar seus parâmetros originais. A introdução do FlexiDepth ao modelo Llama-3-8B resultou no salto de 8 camadas de um total de 32, mantendo ao mesmo tempo o desempenho integral de 100% nos benchmarks. Os resultados experimentais com o FlexiDepth demonstram que as demandas computacionais em LLMs variam significativamente com base no tipo de token. Especificamente, a geração de tokens repetitivos ou frases fixas requer menos camadas, enquanto a produção de tokens que envolvem computação ou alta incerteza exige mais camadas. Curiosamente, esse padrão de alocação adaptativa está alinhado com a intuição humana. Para avançar a pesquisa nessa área, disponibilizamos o código-fonte do FlexiDepth e um conjunto de dados que documenta os padrões de alocação de camadas do FlexiDepth para exploração futura.
Apresentamos um modelo de difusão de vídeo consciente do alvo que gera vídeos a partir de uma imagem de entrada na qual um ator interage com um alvo especificado enquanto realiza uma ação desejada. O alvo é definido por uma máscara de segmentação e a ação desejada é descrita por meio de um prompt de texto. Diferente dos modelos existentes de difusão imagem-para-vídeo controláveis que frequentemente dependem de pistas estruturais ou de movimento densas para guiar os movimentos do ator em direção ao alvo, nosso modelo consciente do alvo requer apenas uma máscara simples para indicar o alvo, aproveitando as capacidades de generalização de modelos pré-treinados para produzir ações plausíveis. Isso torna nosso método particularmente eficaz para cenários de interação humano-objeto (HOI), onde fornecer orientações precisas de ação é desafiador, e ainda permite o uso de modelos de difusão de vídeo para planejamento de ações de alto nível em aplicações como robótica. Construímos nosso modelo consciente do alvo estendendo um modelo de linha de base para incorporar a máscara do alvo como uma entrada adicional. Para reforçar a consciência do alvo, introduzimos um token especial que codifica a informação espacial do alvo dentro do prompt de texto. Em seguida, ajustamos o modelo com nosso conjunto de dados curado usando uma nova função de perda de atenção cruzada que alinha os mapas de atenção cruzada associados a esse token com a máscara do alvo de entrada. Para melhorar ainda mais o desempenho, aplicamos seletivamente essa perda aos blocos de transformadores e regiões de atenção semanticamente mais relevantes. Resultados experimentais mostram que nosso modelo consciente do alvo supera as soluções existentes na geração de vídeos onde os atores interagem com precisão com os alvos especificados. Demonstramos ainda sua eficácia em duas aplicações subsequentes: criação de conteúdo de vídeo e síntese de movimento 3D HOI zero-shot.
Pesquisas anteriores sobre detecção de dados fora da distribuição (OoDD, do inglês Out-of-Distribution Detection) concentraram-se principalmente em modelos de modalidade única. Recentemente, com o advento de modelos de visão e linguagem pré-treinados em grande escala, como o CLIP, surgiram métodos de OoDD que utilizam representações multimodais por meio de estratégias de aprendizado zero-shot e prompt learning. No entanto, esses métodos geralmente envolvem o congelamento dos pesos pré-treinados ou apenas o ajuste parcial deles, o que pode ser subótimo para conjuntos de dados downstream. Neste artigo, destacamos que o ajuste fino multimodal (MMFT, do inglês Multi-Modal Fine-Tuning) pode alcançar um desempenho notável em OoDD. Apesar de alguns trabalhos recentes demonstrarem o impacto de métodos de ajuste fino para OoDD, ainda há um potencial significativo para melhoria de desempenho. Investigamos a limitação de métodos de ajuste fino ingênuos, examinando por que eles não conseguem aproveitar totalmente o conhecimento pré-treinado. Nossa análise empírica sugere que esse problema pode decorrer da lacuna modal entre os embeddings de dados dentro da distribuição (ID, do inglês In-Distribution). Para abordar isso, propomos um objetivo de treinamento que melhora o alinhamento multimodal ao regularizar as distâncias entre os embeddings de imagem e texto dos dados ID. Esse ajuste ajuda a utilizar melhor as informações textuais pré-treinadas, alinhando semânticas semelhantes de diferentes modalidades (ou seja, texto e imagem) mais de perto no espaço de representação hiperesférico. Demonstramos teoricamente que a regularização proposta corresponde à estimativa de máxima verossimilhança de um modelo baseado em energia em uma hiperesfera. Utilizando conjuntos de dados de benchmark OoD do ImageNet-1k, mostramos que nosso método, combinado com abordagens OoDD pós-hoc que aproveitam o conhecimento pré-treinado (por exemplo, NegLabel), supera significativamente os métodos existentes, alcançando desempenho state-of-the-art em OoDD e liderando em precisão ID.
Modelos de linguagem de grande escala (LLMs) têm o potencial de transformar a medicina, mas cenários clínicos do mundo real contêm informações irrelevantes que podem prejudicar o desempenho. O surgimento de tecnologias assistivas, como a ditação ambiente, que gera automaticamente rascunhos de notas a partir de encontros com pacientes em tempo real, tem o potencial de introduzir ruídos adicionais, tornando crucial avaliar a capacidade dos LLMs de filtrar dados relevantes. Para investigar isso, desenvolvemos o MedDistractQA, um benchmark que utiliza questões no estilo do USMLE incorporadas com distrações simuladas do mundo real. Nossos resultados mostram que declarações distrativas (palavras polissêmicas com significados clínicos usadas em contextos não clínicos ou referências a condições de saúde não relacionadas) podem reduzir a precisão dos LLMs em até 17,9%. Soluções comumente propostas para melhorar o desempenho do modelo, como geração aumentada por recuperação (RAG) e ajuste fino médico, não alteraram esse efeito e, em alguns casos, introduziram seus próprios fatores de confusão e degradaram ainda mais o desempenho. Nossos achados sugerem que os LLMs carecem nativamente dos mecanismos lógicos necessários para distinguir informações clínicas relevantes das irrelevantes, o que representa desafios para aplicações no mundo real. O MedDistractQA e nossos resultados destacam a necessidade de estratégias robustas de mitigação para aumentar a resiliência dos LLMs a informações irrelevantes.