Artigos de pesquisa em IA selecionados diariamente com traduções
O Sudeste Asiático (SEA) é uma região de extraordinária diversidade linguística e cultural, mas ainda é significativamente subrepresentada em pesquisas de visão e linguagem (VL). Isso frequentemente resulta em modelos de inteligência artificial (IA) que não conseguem capturar as nuances culturais do SEA. Para preencher essa lacuna, apresentamos o SEA-VL, uma iniciativa de código aberto dedicada ao desenvolvimento de dados de alta qualidade e culturalmente relevantes para idiomas do SEA. Ao envolver colaboradores de países do SEA, o SEA-VL visa garantir maior relevância cultural e diversidade, promovendo uma maior inclusão de idiomas subrepresentados em pesquisas de VL. Além do crowdsourcing, nossa iniciativa avança um passo além na exploração da coleta automática de imagens culturalmente relevantes por meio de crawling e geração de imagens. Primeiro, descobrimos que o crawling de imagens atinge aproximadamente ~85% de relevância cultural, sendo mais eficiente em termos de custo e tempo do que o crowdsourcing. Segundo, apesar dos avanços significativos em modelos de visão generativos, as imagens sintéticas ainda não são confiáveis para refletir com precisão as culturas do SEA. As imagens geradas frequentemente falham em refletir as tradições e contextos culturais sutis da região. Coletivamente, reunimos 1,28 milhão de imagens culturalmente relevantes do SEA, mais de 50 vezes maior do que outros conjuntos de dados existentes. Por meio do SEA-VL, buscamos reduzir a lacuna de representação no SEA, promovendo o desenvolvimento de sistemas de IA mais inclusivos que representem autenticamente as diversas culturas do Sudeste Asiático.
Aprimorar o raciocínio em Modelos Multimodais de Grande Escala (LMMs) enfrenta desafios únicos decorrentes da complexa interação entre percepção visual e raciocínio lógico, especialmente em arquiteturas compactas de 3 bilhões de parâmetros, onde as restrições arquitetônicas limitam a capacidade de raciocínio e o alinhamento de modalidades. Embora o aprendizado por reforço baseado em regras (RL) se destaque em domínios exclusivamente textuais, sua extensão multimodal enfrenta duas barreiras críticas: (1) limitações de dados devido a respostas ambíguas e escassez de exemplos complexos de raciocínio, e (2) degradação do raciocínio fundamental induzida pelo pré-treinamento multimodal. Para abordar esses desafios, propomos o \method, uma estrutura de duas etapas que adapta o RL baseado em regras para o raciocínio multimodal por meio do Aprimoramento do Raciocínio Fundamental (FRE), seguido pelo Treinamento de Generalização Multimodal (MGT). A etapa FRE primeiro fortalece as habilidades de raciocínio utilizando dados exclusivamente textuais com RL baseado em regras, e então a etapa MGT generaliza essas capacidades de raciocínio para domínios multimodais. Experimentos no Qwen2.5-VL-Instruct-3B demonstram que o \method alcança melhorias médias de 4,83% e 4,5% em relação às linhas de base em benchmarks multimodais e exclusivamente textuais, respectivamente, com um ganho de 3,63% em tarefas complexas de Jogo de Futebol. Esses resultados validam que o aprimoramento do raciocínio baseado em texto permite uma generalização multimodal eficaz, oferecendo um paradigma eficiente em termos de dados que contorna a necessidade de dados de treinamento multimodal de alta qualidade e custo elevado.
Abordamos a tarefa de geração de música de longa duração—especificamente o desafiador problema de letra-para-música—introduzindo YuE, uma família de modelos de base abertos baseados na arquitetura LLaMA2. Especificamente, YuE escala para trilhões de tokens e gera até cinco minutos de música, mantendo alinhamento lírico, estrutura musical coerente e melodias vocais envolventes com acompanhamento apropriado. Isso é alcançado através de (1) previsão de próximo token desacoplada por faixa para superar sinais de mistura densa, (2) condicionamento progressivo estrutural para alinhamento lírico de contexto longo, e (3) uma receita de pré-treinamento multitarefa e multifásica para convergência e generalização. Além disso, redesenhamos a técnica de aprendizado em contexto para geração de música, permitindo transferência de estilo versátil (por exemplo, converter city pop japonês em um rap em inglês, preservando o acompanhamento original) e geração bidirecional. Por meio de avaliação extensiva, demonstramos que YuE iguala ou até supera alguns dos sistemas proprietários em musicalidade e agilidade vocal. Adicionalmente, o ajuste fino do YuE permite controles adicionais e suporte aprimorado para idiomas de nicho. Além disso, além da geração, mostramos que as representações aprendidas pelo YuE podem ter um bom desempenho em tarefas de compreensão musical, onde os resultados do YuE igualam ou superam métodos state-of-the-art no benchmark MARBLE. Palavras-chave: letra-para-música, geração de música, longa duração, modelo de base, geração musical.
Treinar modelos para utilizar efetivamente o poder computacional durante o teste é crucial para melhorar o desempenho de raciocínio dos LLMs (Large Language Models). Os métodos atuais fazem isso principalmente por meio de ajuste fino em traços de busca ou executando RL (Reinforcement Learning) com recompensa de resultado 0/1, mas essas abordagens utilizam eficientemente o poder computacional durante o teste? Elas continuariam a escalar conforme o orçamento melhora? Neste artigo, tentamos responder a essas perguntas. Formalizamos o problema de otimizar o poder computacional durante o teste como um problema de meta-reinforcement learning (RL), o que fornece uma perspectiva fundamentada sobre como gastar esse poder computacional. Essa perspectiva nos permite ver o fluxo longo de saída do LLM como consistindo de vários episódios executados durante o teste e nos leva a usar uma noção de arrependimento cumulativo sobre os tokens de saída como uma forma de medir a eficácia do poder computacional durante o teste. Assim como os algoritmos de RL podem equilibrar melhor a exploração e a exploração durante o treinamento, minimizar o arrependimento cumulativo também forneceria o melhor equilíbrio entre exploração e exploração no fluxo de tokens. Embora mostremos que os modelos de última geração não minimizam o arrependimento, é possível fazê-lo maximizando um bônus de recompensa densa em conjunto com o RL de recompensa de resultado 0/1. Esse bônus é o "progresso" feito por cada bloco subsequente no fluxo de saída, quantificado pela mudança na probabilidade de sucesso eventual. Usando essas ideias, desenvolvemos o Meta Reinforcement Fine-Tuning, ou MRT, uma nova classe de métodos de ajuste fino para otimizar o poder computacional durante o teste. O MRT resulta em um ganho relativo de 2-3x no desempenho e um ganho de aproximadamente 1,5x na eficiência de tokens para raciocínio matemático em comparação com o RL de recompensa de resultado.
Neste relatório, apresentamos o Gemini Embedding, um modelo de embedding de última geração que aproveita o poder do Gemini, o modelo de linguagem mais avançado da Google. Aproveitando as capacidades inerentes de compreensão multilingue e de código do Gemini, o Gemini Embedding produz embeddings altamente generalizáveis para textos que abrangem inúmeros idiomas e modalidades textuais. As representações geradas pelo Gemini Embedding podem ser pré-computadas e aplicadas a uma variedade de tarefas subsequentes, incluindo classificação, similaridade, agrupamento, ordenação e recuperação. Avaliado no Massive Multilingual Text Embedding Benchmark (MMTEB), que inclui mais de cem tarefas em mais de 250 idiomas, o Gemini Embedding supera substancialmente os modelos de última geração anteriores, demonstrando melhorias consideráveis na qualidade dos embeddings. Ao alcançar desempenho de última geração nos benchmarks multilingues, em inglês e de código do MMTEB, nosso modelo unificado demonstra fortes capacidades em uma ampla seleção de tarefas e supera modelos especializados em domínios específicos.
O rápido avanço dos modelos de difusão catalisou progressos notáveis no campo da geração de imagens. No entanto, modelos prevalentes como Flux, SD3.5 e Midjourney ainda enfrentam problemas como viés do modelo, capacidades limitadas de renderização de texto e compreensão insuficiente das nuances culturais chinesas. Para abordar essas limitações, apresentamos o Seedream 2.0, um modelo de base nativo bilíngue chinês-inglês para geração de imagens que se destaca em diversas dimensões, gerenciando habilmente prompts de texto em chinês e inglês, suportando geração de imagens e renderização de texto bilíngues. Desenvolvemos um sistema de dados poderoso que facilita a integração de conhecimento e um sistema de legendas que equilibra a precisão e a riqueza na descrição de imagens. Particularmente, o Seedream é integrado com um grande modelo de linguagem bilíngue autodesenvolvido como codificador de texto, permitindo que ele aprenda conhecimento nativo diretamente de dados massivos. Isso permite que ele gere imagens de alta fidelidade com nuances culturais precisas e expressões estéticas descritas em chinês ou inglês. Além disso, o Glyph-Aligned ByT5 é aplicado para renderização flexível de texto em nível de caractere, enquanto um Scaled ROPE generaliza bem para resoluções não treinadas. Otimizações pós-treinamento em múltiplas fases, incluindo iterações de SFT e RLHF, melhoram ainda mais a capacidade geral. Através de experimentação extensiva, demonstramos que o Seedream 2.0 alcança desempenho de ponta em múltiplos aspectos, incluindo seguimento de prompts, estética, renderização de texto e correção estrutural. Além disso, o Seedream 2.0 foi otimizado através de múltiplas iterações de RLHF para alinhar de perto sua saída com as preferências humanas, conforme revelado por seu excelente score ELO. Adicionalmente, ele pode ser facilmente adaptado para um modelo de edição de imagens baseado em instruções, como o SeedEdit, com forte capacidade de edição que equilibra o seguimento de instruções e a consistência da imagem.
Apresentamos o MagicInfinite, uma nova estrutura de Transformador de Difusão (DiT) que supera as limitações tradicionais da animação de retratos, entregando resultados de alta fidelidade em diversos tipos de personagens - humanos realistas, figuras de corpo inteiro e personagens de anime estilizados. Ele suporta diversas poses faciais, incluindo visões de costas, e anima um ou vários personagens com máscaras de entrada para designação precisa do falante em cenas com múltiplos personagens. Nossa abordagem aborda desafios-chave com três inovações: (1) mecanismos de atenção completa 3D com uma estratégia de redução de ruído de janela deslizante, permitindo a geração infinita de vídeos com coerência temporal e qualidade visual em diversos estilos de personagens; (2) um esquema de aprendizado curricular em duas etapas, integrando áudio para sincronização labial, texto para dinâmicas expressivas e imagens de referência para preservação de identidade, permitindo controle multimodal flexível em sequências longas; e (3) máscaras específicas por região com funções de perda adaptativas para equilibrar o controle textual global e a orientação de áudio local, suportando animações específicas por falante. A eficiência é aprimorada por meio de nossas técnicas inovadoras de destilação unificada de passos e cfg, alcançando um aumento de 20x na velocidade de inferência em relação ao modelo base: gerando um vídeo de 10 segundos em 540x540p em 10 segundos ou 720x720p em 30 segundos em 8 GPUs H100, sem perda de qualidade. As avaliações em nosso novo benchmark demonstram a superioridade do MagicInfinite na sincronização áudio-labial, preservação de identidade e naturalidade do movimento em diversos cenários. Ele está disponível publicamente em https://www.hedra.com/, com exemplos em https://magicinfinite.github.io/.
Como dois indivíduos diferem ao realizar a mesma ação? Neste trabalho, introduzimos o Video Action Differencing (VidDiff), a nova tarefa de identificar diferenças sutis entre vídeos da mesma ação, que tem muitas aplicações, como coaching e aprendizado de habilidades. Para permitir o desenvolvimento desta nova tarefa, primeiro criamos o VidDiffBench, um conjunto de dados de referência contendo 549 pares de vídeos, com anotações humanas de 4.469 diferenças de ação em nível granular e 2.075 timestamps de localização indicando onde essas diferenças ocorrem. Nossos experimentos demonstram que o VidDiffBench representa um desafio significativo para modelos multimodais de última geração (LMMs), como GPT-4o e Qwen2-VL. Ao analisar os casos de falha dos LMMs no VidDiffBench, destacamos dois desafios principais para esta tarefa: localizar sub-ações relevantes em dois vídeos e comparação granular de frames. Para superar esses desafios, propomos o método VidDiff, um fluxo de trabalho agentivo que divide a tarefa em três etapas: proposta de diferença de ação, localização de keyframes e diferenciação de frames, cada etapa utilizando modelos de base especializados. Para incentivar pesquisas futuras nesta nova tarefa, disponibilizamos o benchmark em https://huggingface.co/datasets/jmhb/VidDiffBench e o código em http://jmhb0.github.io/viddiff.
Modelos multimodais unificados (UMMs) surgiram como um paradigma poderoso na pesquisa fundamental em visão computacional, demonstrando potencial significativo tanto na compreensão quanto na geração de imagens. No entanto, as pesquisas existentes no domínio facial concentram-se principalmente na compreensão de atributos faciais de forma ampla, com capacidade limitada para lidar com atributos faciais de granularidade fina e sem abordar capacidades de geração. Para superar essas limitações, propomos o UniF^2ace, o primeiro UMM projetado especificamente para compreensão e geração facial de granularidade fina. Em geral, treinamos o UniF^2ace em um conjunto de dados especializado e autoconstruído, utilizando duas técnicas de difusão mutuamente benéficas e uma arquitetura de mistura de especialistas de dois níveis. Especificamente, primeiro construímos um grande conjunto de dados faciais, o UniF^2ace-130K, que contém 130 mil pares de imagem-texto com um milhão de pares de perguntas e respostas que abrangem uma ampla gama de atributos faciais. Em segundo lugar, estabelecemos uma conexão teórica entre a correspondência de pontuação de difusão discreta e modelos generativos mascarados, otimizando simultaneamente os limites inferiores de evidência, o que melhora significativamente a capacidade do modelo de sintetizar detalhes faciais. Por fim, introduzimos uma mistura de especialistas tanto em nível de token quanto em nível de sequência, permitindo um aprendizado eficiente de representações de granularidade fina para tarefas de compreensão e geração. Experimentos extensivos no UniF^2ace-130K demonstram que o UniF^2ace supera os UMMs e modelos generativos existentes, alcançando desempenho superior em tarefas de compreensão e geração.
Embora os MLLMs (Modelos Multimodais de Linguagem) tenham demonstrado capacidades adequadas de compreensão de imagens, eles ainda enfrentam dificuldades com a compreensão em nível de pixel, o que limita suas aplicações práticas. As tarefas de avaliação atuais, como VQA (Visual Question Answering) e ancoragem visual, permanecem muito amplas para avaliar com precisão a compreensão detalhada em nível de pixel. Embora a segmentação seja fundamental para a compreensão em nível de pixel, os métodos existentes frequentemente exigem que os MLLMs gerem tokens implícitos, decodificados por meio de decodificadores de pixel externos. Essa abordagem perturba o espaço de saída de texto do MLLM, potencialmente comprometendo as capacidades linguísticas e reduzindo a flexibilidade e extensibilidade, ao mesmo tempo em que falha em refletir a compreensão intrínseca do modelo em nível de pixel. Assim, introduzimos a Tarefa de Anotação de Máscara Humanóide (HLMAT), um novo paradigma no qual os MLLMs imitam anotadores humanos usando ferramentas de segmentação interativa. Modelando a segmentação como um Processo de Decisão de Markov de múltiplos passos, o HLMAT permite que os MLLMs gerem iterativamente pontos de clique baseados em texto, alcançando máscaras de alta qualidade sem alterações arquitetônicas ou tokens implícitos. Por meio dessa configuração, desenvolvemos o SegAgent, um modelo ajustado em trajetórias de anotação humanóide, que alcança desempenho comparável aos métodos state-of-the-art (SOTA) e suporta tarefas adicionais como refinamento de máscara e filtragem de anotações. O HLMAT fornece um protocolo para avaliar a compreensão detalhada em nível de pixel em MLLMs e introduz uma tarefa de tomada de decisão de múltiplos passos centrada na visão, que facilita a exploração das habilidades de raciocínio visual dos MLLMs. Nossas adaptações do método de melhoria de política StaR e da busca em árvore guiada por PRM aprimoram ainda mais a robustez do modelo em tarefas complexas de segmentação, estabelecendo uma base para avanços futuros na percepção visual detalhada e na tomada de decisão de múltiplos passos para MLLMs.
Embora os avanços recentes em modelos de difusão de texto para vídeo permitam a geração de vídeos curtos de alta qualidade a partir de um único prompt, a geração de vídeos longos do mundo real em uma única passagem continua desafiadora devido à limitação de dados e aos altos custos computacionais. Para abordar isso, vários trabalhos propõem abordagens sem ajuste, ou seja, estendendo modelos existentes para a geração de vídeos longos, especificamente usando múltiplos prompts para permitir mudanças de conteúdo dinâmicas e controladas. No entanto, esses métodos focam principalmente em garantir transições suaves entre quadros adjacentes, frequentemente levando a desvios de conteúdo e uma perda gradual de coerência semântica em sequências mais longas. Para resolver esse problema, propomos o Synchronized Coupled Sampling (SynCoS), uma nova estrutura de inferência que sincroniza caminhos de remoção de ruído em todo o vídeo, garantindo consistência de longo alcance tanto entre quadros adjacentes quanto distantes. Nossa abordagem combina duas estratégias complementares de amostragem: amostragem reversa e baseada em otimização, que garantem transições locais suaves e impõem coerência global, respectivamente. No entanto, alternar diretamente entre essas amostragens desalinha trajetórias de remoção de ruído, perturbando a orientação do prompt e introduzindo mudanças de conteúdo não intencionais, já que operam de forma independente. Para resolver isso, o SynCoS as sincroniza por meio de um passo de tempo fundamentado e um ruído de base fixo, garantindo uma amostragem totalmente acoplada com caminhos de remoção de ruído alinhados. Experimentos extensivos mostram que o SynCoS melhora significativamente a geração de vídeos longos com múltiplos eventos, alcançando transições mais suaves e coerência de longo alcance superior, superando abordagens anteriores tanto quantitativa quanto qualitativamente.
O uso de computação durante o teste está surgindo como um novo paradigma para aprimorar as capacidades de raciocínio multi-etapas complexas dos modelos de linguagem, como demonstrado pelo sucesso do o1 e o3 da OpenAI, bem como do R1 da DeepSeek. Em comparação com o raciocínio explícito durante a computação no teste, o raciocínio implícito é mais eficiente em termos de inferência, exigindo menos tokens gerados. No entanto, por que a capacidade avançada de raciocínio não emerge no estilo de raciocínio implícito? Neste trabalho, treinamos o GPT-2 do zero em um conjunto de dados curado de raciocínio matemático multi-etapas e realizamos experimentos analíticos para investigar como os modelos de linguagem realizam raciocínio implícito em tarefas multi-etapas. Nossas descobertas revelam: 1) Os modelos de linguagem podem realizar raciocínio passo a passo e alcançar alta precisão tanto em testes dentro do domínio quanto fora dele por meio de raciocínio implícito. No entanto, essa capacidade só emerge quando treinada em dados de padrão fixo. 2) Por outro lado, as habilidades de raciocínio implícito que emergem do treinamento em dados de padrão não fixo tendem a se ajustar excessivamente a um padrão específico e falham em generalizar. Notavelmente, essa limitação também é observada em modelos de linguagem grandes de última geração. Essas descobertas sugerem que os modelos de linguagem adquirem raciocínio implícito por meio de aprendizado por atalhos, permitindo um desempenho forte em tarefas com padrões semelhantes, mas carecendo de generalização.
Os avanços recentes na geração de texto para imagem têm se baseado principalmente em conjuntos de dados extensos e arquiteturas com grande quantidade de parâmetros. Esses requisitos limitam severamente a acessibilidade para pesquisadores e profissionais que não possuem recursos computacionais substanciais. Neste artigo, apresentamos o \model, um paradigma de treinamento eficiente para modelos de geração de imagens que utiliza a técnica de destilação de conhecimento (KD, do inglês Knowledge Distillation) e a Otimização Direta de Preferências (DPO, do inglês Direct Preference Optimization). Inspirados pelo sucesso das técnicas de KD de dados amplamente adotadas em Modelos de Linguagem Multimodais de Grande Escala (MLLMs, do inglês Multi-Modal Large Language Models), o LightGen destila conhecimento de modelos state-of-the-art (SOTA) de texto para imagem em uma arquitetura compacta de Autoregressão Mascarada (MAR, do inglês Masked Autoregressive) com apenas 0,7 bilhão de parâmetros. Utilizando um conjunto de dados sintético compacto de apenas 2 milhões de imagens de alta qualidade geradas a partir de legendas variadas, demonstramos que a diversidade dos dados supera significativamente o volume de dados na determinação do desempenho do modelo. Essa estratégia reduz drasticamente as demandas computacionais e diminui o tempo de pré-treinamento de potencialmente milhares de dias de GPU para meros 88 dias de GPU. Além disso, para abordar as deficiências inerentes aos dados sintéticos, particularmente detalhes de alta frequência pobres e imprecisões espaciais, integramos a técnica DPO que refina a fidelidade da imagem e a precisão posicional. Experimentos abrangentes confirmam que o LightGen alcança uma qualidade de geração de imagem comparável aos modelos SOTA, enquanto reduz significativamente os recursos computacionais e amplia a acessibilidade para ambientes com recursos limitados. O código está disponível em https://github.com/XianfengWu01/LightGen.
Os recentes avanços em modelos unificados de compreensão multimodal e geração visual (ou geração multimodal) têm sido limitados por sua complexidade computacional quadrática e dependência de grandes volumes de dados de treinamento. Apresentamos o OmniMamba, o primeiro modelo de geração multimodal baseado em arquitetura linear que gera tanto texto quanto imagens por meio de um paradigma unificado de previsão do próximo token. O modelo aproveita totalmente a alta eficiência computacional e de memória do Mamba-2, estendendo suas capacidades da geração de texto para a geração multimodal. Para abordar a ineficiência de dados dos modelos unificados existentes, propomos duas inovações principais: (1) vocabulários desacoplados para orientar a geração específica de cada modalidade, e (2) LoRA específico para tarefas, visando uma adaptação eficiente em termos de parâmetros. Além disso, introduzimos uma estratégia de treinamento em duas etapas desacopladas para mitigar o desequilíbrio de dados entre as duas tarefas. Equipado com essas técnicas, o OmniMamba alcança desempenho competitivo com o JanusFlow, superando o Show-o em diversos benchmarks, apesar de ter sido treinado com apenas 2 milhões de pares de imagem-texto, o que é 1.000 vezes menor do que o Show-o. Notavelmente, o OmniMamba se destaca com uma eficiência de inferência excepcional, alcançando uma aceleração de até 119,2 vezes e uma redução de 63% na memória GPU para geração de sequências longas em comparação com modelos baseados em Transformers. O código e os modelos estão disponíveis em https://github.com/hustvl/OmniMamba.
Recuperadores que seguem instruções têm sido amplamente adotados juntamente com LLMs em aplicações do mundo real, mas poucos trabalhos investigaram os riscos de segurança relacionados ao aumento de suas capacidades de busca. Estudamos empiricamente a capacidade desses recuperadores de atender a consultas maliciosas, tanto quando usados diretamente quanto em uma configuração baseada em geração aumentada por recuperação. Concretamente, investigamos seis recuperadores líderes, incluindo NV-Embed e LLM2Vec, e descobrimos que, diante de solicitações maliciosas, a maioria dos recuperadores consegue (para >50% das consultas) selecionar passagens relevantes e prejudiciais. Por exemplo, o LLM2Vec seleciona corretamente passagens para 61,35% de nossas consultas maliciosas. Além disso, revelamos um risco emergente com recuperadores que seguem instruções, onde informações altamente relevantes e prejudiciais podem ser trazidas à tona explorando suas capacidades de seguir instruções. Por fim, mostramos que mesmo LLMs alinhados com segurança, como o Llama3, podem atender a solicitações maliciosas quando fornecidas com passagens recuperadas prejudiciais no contexto. Em resumo, nossas descobertas destacam os riscos de uso malicioso associados ao aumento da capacidade dos recuperadores.
A localização de código -- identificar precisamente onde em uma base de código as alterações precisam ser feitas -- é uma tarefa fundamental, porém desafiadora, na manutenção de software. As abordagens existentes lutam para navegar eficientemente por bases de código complexas ao identificar seções de código relevantes. O desafio reside em fazer a ponte entre descrições de problemas em linguagem natural e os elementos de código apropriados, frequentemente exigindo raciocínio através de estruturas hierárquicas e múltiplas dependências. Apresentamos o LocAgent, um framework que aborda a localização de código por meio de representação baseada em grafos. Ao analisar bases de código em grafos heterogêneos direcionados, o LocAgent cria uma representação leve que captura estruturas de código (arquivos, classes, funções) e suas dependências (importações, invocações, herança), permitindo que agentes de LLM pesquisem e localizem entidades relevantes de forma eficaz através de poderoso raciocínio multi-hop. Resultados experimentais em benchmarks do mundo real demonstram que nossa abordagem melhora significativamente a precisão na localização de código. Notavelmente, nosso método com o modelo ajustado Qwen-2.5-Coder-Instruct-32B alcança resultados comparáveis aos modelos proprietários de última geração (SOTA) a um custo drasticamente reduzido (aproximadamente 86% de redução), atingindo até 92,7% de precisão na localização em nível de arquivo, enquanto melhora as taxas de sucesso na resolução de problemas do GitHub em 12% para múltiplas tentativas (Pass@10). Nosso código está disponível em https://github.com/gersteinlab/LocAgent.
A interação humana com o mundo externo envolve fundamentalmente a troca de memória pessoal, seja com outros indivíduos, sites, aplicativos ou, no futuro, agentes de IA. Uma parte significativa dessa interação é redundante, exigindo que os usuários forneçam repetidamente as mesmas informações em diferentes contextos. Soluções existentes, como credenciais armazenadas no navegador, mecanismos de preenchimento automático e sistemas de autenticação unificada, visam mitigar essa redundância atuando como intermediários que armazenam e recuperam dados comumente usados pelos usuários. O advento dos modelos de linguagem de grande escala (LLMs) apresenta uma oportunidade para redefinir o gerenciamento de memória por meio de um paradigma nativo de IA: SECOND ME. O SECOND ME atua como um sistema inteligente e persistente de descarga de memória que retém, organiza e utiliza dinamicamente conhecimentos específicos do usuário. Ao servir como intermediário nas interações do usuário, ele pode gerar respostas contextualizadas de forma autônoma, preencher informações necessárias e facilitar a comunicação contínua com sistemas externos, reduzindo significativamente a carga cognitiva e o atrito na interação. Diferente das soluções tradicionais de armazenamento de memória, o SECOND ME vai além da retenção estática de dados ao aproveitar a parametrização de memória baseada em LLMs. Isso permite organização estruturada, raciocínio contextual e recuperação adaptativa de conhecimento, facilitando uma abordagem mais sistemática e inteligente para o gerenciamento de memória. À medida que agentes pessoais impulsionados por IA, como o SECOND ME, se tornam cada vez mais integrados aos ecossistemas digitais, o SECOND ME representa um passo crítico para aprimorar a interação humano-mundo com sistemas de memória persistentes, contextualmente conscientes e auto-otimizáveis. Disponibilizamos o sistema de implantação totalmente localizável como código aberto no GitHub: https://github.com/Mindverse/Second-Me.
Apresentamos uma nova estrutura de tokenização visual que incorpora uma estrutura semelhante à PCA (Análise de Componentes Principais) comprovável no espaço latente de tokens. Enquanto os tokenizadores visuais existentes priorizam principalmente a fidelidade de reconstrução, eles frequentemente negligenciam as propriedades estruturais do espaço latente — um fator crítico tanto para a interpretabilidade quanto para tarefas subsequentes. Nosso método gera uma sequência causal de tokens unidimensional para imagens, onde cada token sucessivo contribui com informações não sobrepostas e com uma variância explicada decrescente garantida matematicamente, análoga à análise de componentes principais. Essa restrição estrutural garante que o tokenizador extraia primeiro as características visuais mais salientes, com cada token subsequente adicionando informações complementares, porém decrescentes. Além disso, identificamos e resolvemos um efeito de acoplamento espectro-semântico que causa o emaranhamento indesejado de conteúdo semântico de alto nível e detalhes espectrais de baixo nível nos tokens, utilizando um decodificador de difusão. Experimentos demonstram que nossa abordagem alcança desempenho de reconstrução de ponta e permite melhor interpretabilidade, alinhando-se com o sistema visual humano. Além disso, modelos auto-regressivos treinados em nossas sequências de tokens alcançam desempenho comparável aos métodos atuais de ponta, enquanto exigem menos tokens para treinamento e inferência.
À medida que os modelos fundamentais multimodais começam a ser implantados experimentalmente em carros autônomos, uma questão razoável que nos perguntamos é o quão semelhantes a humanos esses sistemas respondem em certas situações de direção — especialmente aquelas que estão fora da distribuição de treinamento? Para estudar isso, criamos o conjunto de dados Robusto-1, que utiliza vídeos de câmeras de painel do Peru, um país com um dos piores (e mais agressivos) motoristas do mundo, um alto índice de tráfego e uma alta proporção de objetos de rua bizarros em comparação com os não bizarros, que provavelmente nunca foram vistos durante o treinamento. Em particular, para testar preliminarmente, em um nível cognitivo, o quão bem os Modelos de Linguagem Visual Fundamentais (VLMs) se comparam aos humanos na direção, nos afastamos de caixas delimitadoras, mapas de segmentação, mapas de ocupação ou estimativas de trajetória para focar na Resposta a Perguntas Visuais Multimodais (VQA), comparando tanto humanos quanto máquinas por meio de um método popular em neurociência de sistemas conhecido como Análise de Similaridade Representacional (RSA). Dependendo do tipo de perguntas que fazemos e das respostas que esses sistemas fornecem, mostraremos em quais casos os VLMs e os humanos convergem ou divergem, permitindo-nos investigar seu alinhamento cognitivo. Descobrimos que o grau de alinhamento varia significativamente dependendo do tipo de perguntas feitas a cada tipo de sistema (humanos vs. VLMs), destacando uma lacuna em seu alinhamento.
Neste artigo, apresentamos o CineBrain, o primeiro conjunto de dados em larga escala que apresenta gravações simultâneas de EEG e fMRI durante a estimulação audiovisual dinâmica. Reconhecendo os pontos fortes complementares da alta resolução temporal do EEG e da cobertura espacial profunda do fMRI, o CineBrain fornece aproximadamente seis horas de conteúdo narrativo da popular série de televização The Big Bang Theory para cada um dos seis participantes. Com base nesse conjunto de dados único, propomos o CineSync, uma estrutura inovadora de decodificação multimodal que integra um Codificador de Fusão Multimodal com um Decodificador de Latente Neural baseado em difusão. Nossa abordagem efetivamente funde sinais de EEG e fMRI, melhorando significativamente a qualidade da reconstrução de estímulos audiovisuais complexos. Para facilitar uma avaliação rigorosa, introduzimos o Cine-Benchmark, um protocolo abrangente de avaliação que analisa as reconstruções em dimensões semânticas e perceptivas. Os resultados experimentais demonstram que o CineSync alcança um desempenho de reconstrução de vídeo de ponta e destacam nosso sucesso inicial em combinar fMRI e EEG para reconstruir tanto estímulos de vídeo quanto de áudio. Página do Projeto: https://jianxgao.github.io/CineBrain.
Modelos de grande escala de visão e linguagem (LVLMs) têm demonstrado conquistas notáveis, mas a geração de respostas não factuais ainda é prevalente em tarefas de questionamento factual (QA). Os benchmarks multimodais atuais para questionamento factual concentram-se principalmente na comparação das saídas dos modelos com respostas verdadeiras, oferecendo insights limitados sobre o desempenho de módulos específicos de cada modalidade. Para preencher essa lacuna, introduzimos o VisualSimpleQA, um benchmark multimodal de questionamento factual com duas características principais. Primeiro, ele permite uma avaliação simplificada e desacoplada dos LVLMs nas modalidades visual e linguística. Segundo, incorpora critérios de dificuldade bem definidos para orientar a anotação humana e facilita a extração de um subconjunto desafiador, o VisualSimpleQA-hard. Experimentos com 15 LVLMs mostram que até mesmo modelos de última geração, como o GPT-4o, alcançam apenas 60%+ de precisão em questionamento factual multimodal no VisualSimpleQA e 30%+ no VisualSimpleQA-hard. Além disso, a avaliação desacoplada entre esses modelos destaca oportunidades significativas de melhoria tanto nos módulos visuais quanto nos linguísticos. O conjunto de dados está disponível em https://huggingface.co/datasets/WYLing/VisualSimpleQA.
Os benchmarks são essenciais para avaliação consistente e reprodutibilidade. A integração da Inteligência Artificial na Engenharia de Software (IA4SE) deu origem a inúmeros benchmarks para tarefas como geração de código e correção de bugs. No entanto, esse crescimento apresenta desafios: (1) conhecimento disperso sobre benchmarks entre tarefas, (2) dificuldade em selecionar benchmarks relevantes, (3) ausência de um padrão uniforme para o desenvolvimento de benchmarks e (4) limitações dos benchmarks existentes. Neste artigo, revisamos 173 estudos e identificamos 204 benchmarks de IA4SE. Classificamos esses benchmarks, analisamos suas limitações e expomos lacunas nas práticas. Com base em nossa revisão, criamos o BenchScout, uma ferramenta de busca semântica para encontrar benchmarks relevantes, utilizando agrupamento automatizado dos contextos dos estudos associados. Realizamos um estudo com 22 participantes para avaliar a usabilidade, eficácia e intuitividade do BenchScout, que resultou em pontuações médias de 4,5, 4,0 e 4,1 em uma escala de 5. Para avançar os padrões de benchmarking, propomos o BenchFrame, um método unificado para melhorar a qualidade dos benchmarks. Como estudo de caso, aplicamos o BenchFrame ao benchmark HumanEval e abordamos suas principais limitações. Isso resultou no HumanEvalNext, que apresenta (1) erros corrigidos, (2) conversão de linguagem aprimorada, (3) cobertura de testes expandida e (4) dificuldade aumentada. Em seguida, avaliamos dez modelos de linguagem de código state-of-the-art no HumanEval, HumanEvalPlus e HumanEvalNext. No HumanEvalNext, os modelos apresentaram uma redução de 31,22% e 19,94% na pontuação pass@1 em comparação com o HumanEval e o HumanEvalPlus, respectivamente.
Neurônios em grandes modelos de linguagem frequentemente exibem polissemia, codificando simultaneamente múltiplos conceitos não relacionados e obscurecendo a interpretabilidade. Em vez de depender de métodos pós-hoc, apresentamos o MoE-X, um modelo de linguagem baseado em Mixture-of-Experts (MoE) projetado para ser intrinsecamente interpretável. Nossa abordagem é motivada pela observação de que, em modelos de linguagem, redes mais amplas com ativações esparsas têm maior probabilidade de capturar fatores interpretáveis. No entanto, treinar diretamente redes esparsas tão grandes é computacionalmente proibitivo. Arquiteturas MoE oferecem uma alternativa escalável ao ativar apenas um subconjunto de especialistas para qualquer entrada, alinhando-se naturalmente com os objetivos de interpretabilidade. No MoE-X, estabelecemos essa conexão ao reescrever a camada MoE como um MLP esparso e grande equivalente. Essa abordagem permite escalar eficientemente o tamanho oculto enquanto mantém a esparsidade. Para aprimorar ainda mais a interpretabilidade, impomos ativação esparsa dentro de cada especialista e redesenhamos o mecanismo de roteamento para priorizar especialistas com a maior esparsidade de ativação. Esses projetos garantem que apenas as características mais salientes sejam roteadas e processadas pelos especialistas. Avaliamos o MoE-X em tarefas de xadrez e linguagem natural, mostrando que ele alcança desempenho comparável a modelos densos enquanto melhora significativamente a interpretabilidade. O MoE-X alcança uma perplexidade melhor que o GPT-2, com interpretabilidade superando até mesmo abordagens baseadas em autoencoders esparsos (SAE).
A geração conjunta de áudio e vídeo (AV) ainda representa um desafio significativo na IA generativa, principalmente devido a três requisitos críticos: qualidade das amostras geradas, sincronização multimodal perfeita e coerência temporal, com faixas de áudio que correspondam aos dados visuais e vice-versa, e duração ilimitada do vídeo. Neste artigo, apresentamos , uma nova arquitetura baseada em transformers que aborda todos os principais desafios da geração AV. Exploramos três módulos distintos de interação entre modalidades, com nosso módulo leve de fusão temporal emergindo como a abordagem mais eficaz e computacionalmente eficiente para alinhar as modalidades de áudio e visual. Nossos resultados experimentais demonstram que supera os modelos state-of-the-art existentes em tarefas de geração multimodal AV. Nosso código e checkpoints estão disponíveis em https://github.com/ErgastiAlex/R-FLAV.
Apesar dos avanços recentes na interpolação de movimento baseada em aprendizado, uma limitação fundamental tem sido negligenciada: a necessidade de conjuntos de dados específicos para cada personagem. Neste trabalho, introduzimos o AnyMoLe, um método inovador que aborda essa limitação ao aproveitar modelos de difusão de vídeo para gerar quadros intermediários de movimento para personagens arbitrários sem dados externos. Nossa abordagem emprega um processo de geração de quadros em duas etapas para aprimorar a compreensão contextual. Além disso, para reduzir a lacuna de domínio entre animações de personagens do mundo real e renderizadas, introduzimos o ICAdapt, uma técnica de ajuste fino para modelos de difusão de vídeo. Adicionalmente, propomos uma técnica de otimização de "imitação de movimento-vídeo", permitindo a geração contínua de movimento para personagens com estruturas articulares arbitrárias utilizando recursos 2D e 3D. O AnyMoLe reduz significativamente a dependência de dados enquanto gera transições suaves e realistas, tornando-o aplicável a uma ampla gama de tarefas de interpolação de movimento.
Estudos anteriores estabeleceram que modelos de linguagem manifestam vieses estereotipados. Estratégias existentes de mitigação de viés, como retreinar um modelo com dados contrafactuais, projeção de representação e prompting, frequentemente falham em eliminar o viés de forma eficiente ou alterar diretamente as representações internas tendenciosas dos modelos. Para abordar essas questões, propomos o BiasEdit, um método eficiente de edição de modelos para remover vieses estereotipados de modelos de linguagem por meio de redes leves que atuam como editores para gerar atualizações de parâmetros. O BiasEdit emprega uma função de perda de mitigação de viés que orienta as redes editoras a realizar edições locais em parâmetros parciais de um modelo de linguagem para mitigar o viés, enquanto preserva as habilidades de modelagem de linguagem durante a edição por meio de uma função de perda de retenção. Experimentos no StereoSet e no Crows-Pairs demonstram a eficácia, eficiência e robustez do BiasEdit na eliminação de viés em comparação com baselines tangenciais de mitigação de viés, com pouco ou nenhum impacto nas capacidades gerais dos modelos de linguagem. Além disso, realizamos rastreamento de viés para investigar o viés em vários módulos e explorar os impactos da edição de viés em diferentes componentes dos modelos de linguagem.
Os seres humanos são, sem dúvida, os participantes mais importantes na visão computacional, e a capacidade de detectar qualquer indivíduo com base em uma descrição em linguagem natural — uma tarefa que definimos como referência a qualquer pessoa — possui um valor prático substancial. No entanto, observamos que os modelos existentes geralmente falham em alcançar usabilidade no mundo real, e os benchmarks atuais são limitados por seu foco em referências um-para-um, o que dificulta o progresso nessa área. Neste trabalho, revisitamos essa tarefa a partir de três perspectivas críticas: definição da tarefa, design de conjunto de dados e arquitetura do modelo. Primeiro, identificamos cinco aspectos das entidades referenciáveis e três características distintas dessa tarefa. Em seguida, apresentamos o HumanRef, um novo conjunto de dados projetado para enfrentar esses desafios e refletir melhor as aplicações do mundo real. Do ponto de vista do design do modelo, integramos um modelo de linguagem multimodal de grande escala com um framework de detecção de objetos, construindo um modelo robusto de referência chamado RexSeek. Os resultados experimentais revelam que os modelos state-of-the-art, que se saem bem em benchmarks comumente usados, como RefCOCO/+/g, têm dificuldades com o HumanRef devido à sua incapacidade de detectar múltiplos indivíduos. Em contraste, o RexSeek não apenas se destaca na referência a humanos, mas também generaliza efetivamente para a referência a objetos comuns, tornando-o amplamente aplicável em diversas tarefas de percepção. O código está disponível em https://github.com/IDEA-Research/RexSeek.
Modelos de difusão e Flow Matching geram amostras de alta qualidade, mas são lentos na inferência, e sua destilação em modelos de poucos passos frequentemente resulta em instabilidade e necessidade de extenso ajuste. Para resolver esses trade-offs, propomos o Inductive Moment Matching (IMM), uma nova classe de modelos generativos para amostragem em um ou poucos passos com um procedimento de treinamento em estágio único. Diferente da destilação, o IMM não requer inicialização por pré-treinamento e otimização de duas redes; e, ao contrário dos Consistency Models, o IMM garante convergência em nível de distribuição e permanece estável sob diversos hiperparâmetros e arquiteturas de modelo padrão. O IMM supera modelos de difusão no ImageNet-256x256 com FID de 1,99 usando apenas 8 passos de inferência e alcança um FID de 1,98 em 2 passos no CIFAR-10, estabelecendo um novo estado da arte para modelos treinados do zero.
Estudos anteriores descobriram que modelos de recuperação baseados em PLM (Modelos de Linguagem Pré-treinados) exibem uma preferência por conteúdo gerado por LLM (Modelos de Linguagem de Grande Escala), atribuindo pontuações de relevância mais altas a esses documentos, mesmo quando sua qualidade semântica é comparável à de textos escritos por humanos. Esse fenômeno, conhecido como viés de origem, ameaça o desenvolvimento sustentável do ecossistema de acesso à informação. No entanto, as causas subjacentes ao viés de origem permanecem inexploradas. Neste artigo, explicamos o processo de recuperação de informação com um gráfico causal e descobrimos que os recuperadores baseados em PLM aprendem características de perplexidade para estimar a relevância, causando o viés de origem ao classificar documentos com baixa perplexidade mais alto. A análise teórica revela ainda que o fenômeno decorre da correlação positiva entre os gradientes das funções de perda na tarefa de modelagem de linguagem e na tarefa de recuperação. Com base na análise, propomos um método de desvio no momento da inferência inspirado na causalidade, chamado Diagnóstico e Correção Causal (CDC, na sigla em inglês). O CDC primeiro diagnostica o efeito do viés da perplexidade e, em seguida, separa o efeito do viés da pontuação geral de relevância estimada. Os resultados experimentais em três domínios demonstram a eficácia superior do CDC na redução de viés, enfatizando a validade do nosso framework explicativo proposto. Os códigos-fonte estão disponíveis em https://github.com/WhyDwelledOnAi/Perplexity-Trap.
Os modelos de difusão alcançaram sucesso notável em diversos domínios. No entanto, sua velocidade lenta de geração continua sendo um desafio crítico. Os métodos existentes de aceleração, embora visem reduzir o número de etapas, frequentemente comprometem a qualidade das amostras, a controlabilidade ou introduzem complexidades no treinamento. Portanto, propomos o RayFlow, uma nova estrutura de difusão que aborda essas limitações. Diferente de métodos anteriores, o RayFlow guia cada amostra ao longo de um caminho único em direção a uma distribuição alvo específica da instância. Esse método minimiza as etapas de amostragem enquanto preserva a diversidade e a estabilidade da geração. Além disso, introduzimos o Time Sampler, uma técnica de amostragem por importância para aumentar a eficiência do treinamento, concentrando-se em intervalos de tempo cruciais. Experimentos extensivos demonstram a superioridade do RayFlow na geração de imagens de alta qualidade com velocidade aprimorada, controle e eficiência de treinamento em comparação com técnicas de aceleração existentes.
O campo de tradução automática neural (NMT) mudou com o advento dos grandes modelos de linguagem (LLMs). Grande parte da ênfase recente no processamento de linguagem natural (NLP) tem sido na modelagem de tradução automática e muitos outros problemas usando um único decodificador Transformer pré-treinado, enquanto as arquiteturas codificador-decodificador, que eram o padrão nos modelos NMT anteriores, receberam relativamente menos atenção. Neste artigo, exploramos modelos de tradução que são universais, eficientes e fáceis de otimizar, unindo o mundo dos LLMs com o mundo do NMT. Aplicamos LLMs à codificação NMT e mantemos o decodificador NMT inalterado. Também desenvolvemos métodos para adaptar LLMs a funcionar melhor com o decodificador NMT. Além disso, construímos um novo conjunto de dados envolvendo múltiplas tarefas para avaliar o quão bem o sistema de tradução automática generaliza em várias tarefas. As avaliações nos conjuntos de dados WMT e nos nossos mostram que os resultados usando nosso método igualam ou superam uma variedade de baselines em termos de qualidade de tradução, mas alcançam acelerações de inferência de 2,4 a 6,5 vezes e uma redução de 75% na pegada de memória do cache KV. Ele também demonstra uma forte generalização em uma variedade de tarefas relacionadas à tradução.
Os avanços recentes na compreensão de vídeos longos geralmente mitigam a redundância visual por meio da poda de tokens visuais baseada na distribuição de atenção. No entanto, embora os métodos existentes empreguem a poda pós-hoc de tokens de baixa resposta nas camadas do decodificador, eles negligenciam a correlação semântica no nível de entrada entre os tokens visuais e as instruções (consulta). Neste artigo, propomos o QuoTA, um módulo ante-hoc sem necessidade de treinamento que estende os modelos grandes de vídeo-linguagem (LVLMs) existentes para a atribuição de tokens visuais com base na avaliação da importância em nível de quadro orientada pela consulta. A seleção de tokens orientada pela consulta é crucial, pois alinha o processamento visual com os requisitos específicos da tarefa, otimizando a utilização do orçamento de tokens enquanto preserva o conteúdo semanticamente relevante. Especificamente, (i) o QuoTA aloca estrategicamente pontuações de importância em nível de quadro com base na relevância da consulta, permitindo a atribuição única de tokens visuais antes das interações multimodais nas camadas do decodificador, (ii) desacoplamos a consulta por meio do raciocínio Chain-of-Thoughts para facilitar uma pontuação de importância de quadro mais precisa baseada em LVLM, e (iii) o QuoTA oferece uma funcionalidade plug-and-play que se estende aos LVLMs existentes. Resultados experimentais extensivos demonstram que a implementação do QuoTA com o LLaVA-Video-7B resulta em uma melhoria média de desempenho de 3,2% em seis benchmarks (incluindo Video-MME e MLVU) enquanto opera dentro de um orçamento idêntico de tokens visuais em relação à linha de base. Os códigos estão disponíveis em https://github.com/MAC-AutoML/QuoTA.
Por mais simples que pareça, mover um objeto para outro local dentro de uma imagem é, na verdade, uma tarefa desafiadora de edição de imagens que requer reharmonização da iluminação, ajuste da pose com base na perspectiva, preenchimento preciso de regiões ocluídas e garantia de sincronização coerente de sombras e reflexos, mantendo a identidade do objeto. Neste artigo, apresentamos o ObjectMover, um modelo generativo capaz de realizar o movimento de objetos em cenas altamente desafiadoras. Nossa principal percepção é que modelamos essa tarefa como um problema de sequência para sequência e ajustamos finamente um modelo de geração de vídeo para aproveitar seu conhecimento de geração consistente de objetos entre os quadros de vídeo. Mostramos que, com essa abordagem, nosso modelo é capaz de se adaptar a cenários complexos do mundo real, lidando com harmonização extrema de iluminação e movimento de efeitos de objetos. Como dados em larga escala para movimento de objetos não estão disponíveis, construímos um pipeline de geração de dados usando um motor de jogo moderno para sintetizar pares de dados de alta qualidade. Além disso, propomos uma estratégia de aprendizado multitarefa que permite o treinamento em dados de vídeo do mundo real para melhorar a generalização do modelo. Por meio de extensos experimentos, demonstramos que o ObjectMover alcança resultados excepcionais e se adapta bem a cenários do mundo real.
A Mistura de Especialistas (MoE, do inglês Mixture of Experts) é uma arquitetura eficaz para escalar modelos de linguagem de grande porte ao aproveitar a ativação esparsa de especialistas, otimizando o equilíbrio entre desempenho e eficiência. No entanto, sob o paralelismo de especialistas, o MoE sofre com ineficiências de inferência devido à atribuição desequilibrada de tokens para especialistas, onde alguns especialistas ficam sobrecarregados enquanto outros permanecem subutilizados. Esse desequilíbrio leva a uma má utilização de recursos e a um aumento da latência, uma vez que o especialista mais sobrecarregado determina o atraso geral, um fenômeno que definimos como o \textit{Efeito Straggler}. Para mitigar isso, propomos a Inferência Consciente da Capacidade, que inclui duas técnicas principais: (1) o \textit{Descarte de Tokens Consciente da Capacidade}, que descarta tokens sobrecarregados para regular a latência máxima do MoE, e (2) o \textit{Redirecionamento de Tokens Consciente da Capacidade}, que realoca tokens excedentes para especialistas subutilizados, equilibrando a distribuição de tokens. Essas técnicas, em conjunto, otimizam a utilização tanto de especialistas com alta carga quanto com baixa carga, resultando em um pipeline de inferência do MoE mais eficiente. Experimentos extensivos demonstram a eficácia de nossos métodos, mostrando melhorias significativas na eficiência de inferência, como um aumento médio de desempenho de 0,2\% e uma aceleração de inferência de 1,94 vezes no Mixtral-8x7B-Instruct.
Modelos de recuperação densa são comumente utilizados em aplicações de Recuperação de Informação (RI), como Geração Aumentada por Recuperação (RAG). Como frequentemente servem como o primeiro passo nesses sistemas, sua robustez é crucial para evitar falhas. Neste trabalho, ao reaproveitar um conjunto de dados de extração de relações (por exemplo, Re-DocRED), projetamos experimentos controlados para quantificar o impacto de vieses heurísticos, como a preferência por documentos mais curtos, em recuperadores como Dragon+ e Contriever. Nossas descobertas revelam vulnerabilidades significativas: os recuperadores frequentemente dependem de padrões superficiais, como priorizar excessivamente o início dos documentos, documentos mais curtos, entidades repetidas e correspondências literais. Além disso, eles tendem a ignorar se o documento contém a resposta à consulta, demonstrando uma falta de compreensão semântica profunda. Notavelmente, quando múltiplos vieses se combinam, os modelos exibem uma degradação catastrófica de desempenho, selecionando o documento que contém a resposta em menos de 3% dos casos em detrimento de um documento enviesado sem a resposta. Adicionalmente, mostramos que esses vieses têm consequências diretas para aplicações subsequentes como RAG, onde documentos preferidos pela recuperação podem enganar LLMs, resultando em uma queda de 34% no desempenho em comparação com não fornecer nenhum documento.
A inteligência é uma característica crucial para que as espécies encontrem soluções dentro de um número limitado de tentativas de erro e acerto. Com base nessa ideia, introduzimos o Survival Game como uma estrutura para avaliar a inteligência com base no número de tentativas fracassadas em um processo de erro e acerto. Menos falhas indicam maior inteligência. Quando a expectativa e a variância das contagens de falhas são ambas finitas, isso sinaliza a capacidade de encontrar consistentemente soluções para novos desafios, o que definimos como o Nível Autônomo de inteligência. Usando o Survival Game, avaliamos de forma abrangente os sistemas de IA existentes. Nossos resultados mostram que, embora os sistemas de IA alcancem o Nível Autônomo em tarefas simples, eles ainda estão longe disso em tarefas mais complexas, como visão, busca, recomendação e linguagem. Embora a escalabilidade das tecnologias atuais de IA possa ajudar, isso viria a um custo astronômico. Projeções sugerem que alcançar o Nível Autônomo para tarefas gerais exigiria 10^{26} parâmetros. Para colocar isso em perspectiva, carregar um modelo tão massivo exigiria tantos GPUs H100 que seu valor total seria 10^{7} vezes o valor de mercado da Apple Inc. Mesmo com a Lei de Moore, suportar tal escala de parâmetros levaria 70 anos. Esse custo impressionante destaca a complexidade das tarefas humanas e as inadequações das tecnologias atuais de IA. Para investigar ainda mais esse fenômeno, realizamos uma análise teórica do Survival Game e seus resultados experimentais. Nossas descobertas sugerem que as tarefas humanas possuem uma propriedade de criticidade. Como resultado, o Nível Autônomo requer um profundo entendimento dos mecanismos subjacentes da tarefa. No entanto, os sistemas de IA atuais não compreendem totalmente esses mecanismos e, em vez disso, dependem de uma imitação superficial, dificultando que alcancem um nível autônomo. Acreditamos que o Survival Game pode não apenas orientar o desenvolvimento futuro da IA, mas também oferecer insights profundos sobre a inteligência humana.
Saídas alucinadas de modelos de linguagem representam riscos no domínio médico, especialmente para audiências leigas que tomam decisões relacionadas à saúde. Os métodos existentes de avaliação de factualidade, como os baseados em implicação e em perguntas e respostas (QA), enfrentam dificuldades na geração de resumos em linguagem simples (PLS) devido ao fenômeno de explicação elaborativa, que introduz conteúdo externo (por exemplo, definições, contexto, exemplos) ausente do documento original para melhorar a compreensão. Para abordar esse problema, introduzimos o PlainQAFact, um framework treinado em um conjunto de dados anotado manualmente e de granularidade fina, o PlainFact, para avaliar a factualidade tanto de frases simplificadas da fonte quanto de frases com explicações elaborativas. O PlainQAFact primeiro classifica o tipo de factualidade e, em seguida, avalia a factualidade usando um método de pontuação baseado em QA aumentado por recuperação de informações. Nossa abordagem é leve e computacionalmente eficiente. Resultados empíricos mostram que as métricas de factualidade existentes falham em avaliar efetivamente a factualidade em PLS, especialmente para explicações elaborativas, enquanto o PlainQAFact alcança desempenho de ponta. Analisamos ainda sua eficácia em diferentes fontes de conhecimento externo, estratégias de extração de respostas, medidas de sobreposição e níveis de granularidade de documentos, refinando sua avaliação geral de factualidade.
As preocupações com a privacidade em torno do número crescente de câmeras estão aumentando na era digital atual. Embora os métodos de anonimização existentes sejam capazes de obscurecer informações de identidade, eles frequentemente têm dificuldade em preservar a utilidade das imagens. Neste trabalho, introduzimos um método livre de treinamento para anonimização de rostos que preserva atributos-chave não relacionados à identidade. Nossa abordagem utiliza um modelo de difusão texto-imagem pré-treinado sem a necessidade de otimização ou treinamento. Ela começa invertendo a imagem de entrada para recuperar seu ruído inicial. O ruído é então desnaturado por meio de um processo de difusão condicionado à identidade, onde embeddings de identidade modificados garantem que o rosto anonimizado seja distinto da identidade original. Nossa abordagem também suporta anonimização localizada, dando aos usuários controle sobre quais regiões faciais são anonimizadas ou mantidas intactas. Avaliações abrangentes em comparação com métodos state-of-the-art mostram que nossa abordagem se destaca em anonimização, preservação de atributos e qualidade de imagem. Sua flexibilidade, robustez e praticidade a tornam bem adequada para aplicações do mundo real. O código e os dados podem ser encontrados em https://github.com/hanweikung/nullface.
Nos últimos anos, observamos avanços significativos em modelos de base por meio de pré-treinamento generativo, porém a inovação algorítmica nesse espaço tem estagnado principalmente em torno de modelos autoregressivos para sinais discretos e modelos de difusão para sinais contínuos. Essa estagnação cria um gargalo que nos impede de desbloquear totalmente o potencial de dados multimodais ricos, o que, por sua vez, limita o progresso na inteligência multimodal. Argumentamos que uma perspectiva centrada na inferência, que prioriza a eficiência de escala durante o tempo de inferência em relação ao comprimento da sequência e etapas de refinamento, pode inspirar novos algoritmos de pré-treinamento generativo. Usando o Inductive Moment Matching (IMM) como exemplo concreto, demonstramos como abordar as limitações no processo de inferência dos modelos de difusão por meio de modificações direcionadas resulta em um algoritmo estável e de estágio único, que alcança qualidade superior de amostras com uma eficiência de inferência mais de uma ordem de magnitude maior.
Os modelos Visão-Linguagem-Ação (VLA) visam prever ações robóticas com base em observações visuais e instruções em linguagem natural. As abordagens existentes exigem o ajuste fino de modelos pré-treinados de visão e linguagem (VLMs), pois as características visuais e linguísticas são alimentadas de forma independente em políticas subsequentes, degradando os alinhamentos semânticos pré-treinados. Propomos o OTTER, uma nova arquitetura VLA que aproveita esses alinhamentos existentes por meio de extração explícita de características visuais conscientes do texto. Em vez de processar todas as características visuais, o OTTER seleciona e passa apenas as características visuais relevantes para a tarefa que estão semanticamente alinhadas com a instrução em linguagem para o transformador de política. Isso permite que o OTTER mantenha os codificadores de visão e linguagem pré-treinados congelados. Assim, o OTTER preserva e utiliza o rico entendimento semântico aprendido em pré-treinamentos em larga escala, permitindo fortes capacidades de generalização zero-shot. Em experimentos de simulação e no mundo real, o OTTER supera significativamente os modelos VLA existentes, demonstrando uma forte generalização zero-shot para novos objetos e ambientes. Vídeo, código, checkpoints e conjunto de dados: https://ottervla.github.io/.