Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o LongLive, uma estrutura autoregressiva (AR) em nível de quadro para geração de vídeos longos em tempo real e interativa. A geração de vídeos longos apresenta desafios tanto em eficiência quanto em qualidade. Modelos de Difusão e Difusão-Forçada podem produzir vídeos de alta qualidade, mas sofrem com baixa eficiência devido à atenção bidirecional. Modelos AR com atenção causal suportam cache de KV para inferência mais rápida, mas frequentemente degradam em qualidade em vídeos longos devido a desafios de memória durante o treinamento de vídeos longos. Além disso, além da geração baseada em prompts estáticos, capacidades interativas, como entradas de prompts em fluxo contínuo, são críticas para a criação de conteúdo dinâmico, permitindo que os usuários guiem narrativas em tempo real. Esse requisito interativo aumenta significativamente a complexidade, especialmente na garantia de consistência visual e coerência semântica durante as transições de prompts. Para enfrentar esses desafios, o LongLive adota um design AR causal em nível de quadro que integra um mecanismo de recache de KV que atualiza estados em cache com novos prompts para transições suaves e aderentes; ajuste longo em fluxo contínuo para permitir o treinamento de vídeos longos e alinhar treinamento e inferência (treinar-longo-testar-longo); e atenção de janela curta combinada com um sumidouro de atenção em nível de quadro, abreviado como sumidouro de quadro, preservando a consistência de longo alcance enquanto permite geração mais rápida. Com esses principais designs, o LongLive ajusta finamente um modelo de clipe curto de 1,3 bilhão de parâmetros para geração de minutos em apenas 32 dias de GPU. Na inferência, o LongLive mantém 20,7 FPS em um único NVIDIA H100, alcançando forte desempenho no VBench tanto em vídeos curtos quanto longos. O LongLive suporta vídeos de até 240 segundos em uma única GPU H100. O LongLive ainda suporta inferência quantizada em INT8 com apenas perda marginal de qualidade.
Treinar agentes de LLM em ambientes de múltiplos turnos com recompensas esparsas, onde completar uma única tarefa requer 30+ turnos de interação dentro de um episódio, apresenta um desafio fundamental para o aprendizado por reforço. Identificamos um modo de falha crítico exclusivo desse cenário: a falha em cascata de exploração-exploração. Essa cascata começa com a convergência prematura da política em estágios iniciais, onde o feedback esparso faz com que os agentes se comprometam com estratégias falhas e de baixa entropia. Posteriormente, os agentes entram em colapso da política em estágios avançados, onde a regularização convencional de entropia se torna contraproducente, promovendo uma exploração caótica que desestabiliza o treinamento. Propomos a Otimização de Política com Regularização de Entropia (EPO), uma estrutura geral que quebra esse ciclo de falha por meio de três mecanismos sinérgicos: (1) adoção de regularização de entropia em cenários de múltiplos turnos para melhorar a exploração, (2) um regularizador de suavização de entropia que limita a entropia da política dentro de médias históricas para evitar flutuações abruptas, e (3) ponderação adaptativa baseada em fases que equilibra exploração e exploração ao longo do treinamento. Nossa análise justifica que a EPO garante uma diminuição monotônica da variância da entropia enquanto mantém a convergência. A EPO alcança uma melhoria de desempenho de até 152% no ScienceWorld e até 19,8% no ALFWorld. Nosso trabalho demonstra que cenários de múltiplos turnos com recompensas esparsas exigem um controle de entropia fundamentalmente diferente do RL tradicional, com amplas implicações para o treinamento de agentes LLM.
Apresentamos o MinerU2.5, um modelo de visão e linguagem de 1,2 bilhão de parâmetros para análise de documentos que alcança precisão de reconhecimento de última geração enquanto mantém uma eficiência computacional excepcional. Nossa abordagem emprega uma estratégia de análise em dois estágios, do geral ao específico, que desacopla a análise de layout global do reconhecimento de conteúdo local. No primeiro estágio, o modelo realiza uma análise de layout eficiente em imagens reduzidas para identificar elementos estruturais, evitando a sobrecarga computacional de processar entradas de alta resolução. No segundo estágio, guiado pelo layout global, ele realiza o reconhecimento de conteúdo direcionado em recortes em resolução nativa extraídos da imagem original, preservando detalhes refinados em textos densos, fórmulas complexas e tabelas. Para apoiar essa estratégia, desenvolvemos um mecanismo de dados abrangente que gera corpora de treinamento diversos e em larga escala para pré-treinamento e ajuste fino. Por fim, o MinerU2.5 demonstra uma forte capacidade de análise de documentos, alcançando desempenho de última geração em múltiplos benchmarks, superando tanto modelos de propósito geral quanto modelos específicos de domínio em várias tarefas de reconhecimento, enquanto mantém uma sobrecarga computacional significativamente menor.
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) fortalece o raciocínio de LLMs, mas o treinamento frequentemente oscila entre {colapso de entropia} e {explosão de entropia}. Rastreamos ambos os riscos até a linha de base média usada no RL sem valor (por exemplo, GRPO e DAPO), que penaliza indevidamente amostras com vantagem negativa na presença de outliers de recompensa. Propomos a {Estimativa de Vantagem por Quantil} (QAE), substituindo a média por uma linha de base de K-quantil agrupada. O QAE induz um gate de dois regimes no nível de resposta: em consultas difíceis (p <= 1 - K), ele reforça sucessos raros, enquanto em consultas fáceis (p > 1 - K), ele visa falhas remanescentes. Sob atualizações de softmax de primeira ordem, provamos {segurança de entropia bilateral}, fornecendo limites inferiores e superiores para a mudança de entropia em um passo, que contêm a explosão e previnem o colapso. Empiricamente, essa modificação mínima estabiliza a entropia, esparsifica a atribuição de crédito (com K ajustado, aproximadamente 80% das respostas recebem vantagem zero) e resulta em ganhos sustentados de pass@1 no Qwen3-8B/14B-Base em AIME 2024/2025 e AMC 2023. Esses resultados identificam o {design da linha de base} — em vez de heurísticas no nível de token — como o mecanismo primário para escalar o RLVR.
Apresentamos um framework de raciocínio variacional para modelos de linguagem que trata traços de pensamento como variáveis latentes e os otimiza por meio de inferência variacional. Partindo do limite inferior de evidência (ELBO), estendemo-lo para um objetivo de múltiplos traços para limites mais apertados e propomos uma formulação de KL direta que estabiliza o treinamento da posterior variacional. Além disso, mostramos que o ajuste fino por amostragem de rejeição e o RL com recompensa binária, incluindo GRPO, podem ser interpretados como objetivos locais de KL direta, onde uma ponderação implícita pela precisão do modelo surge naturalmente da derivação e revela um viés previamente não notado em direção a perguntas mais fáceis. Validamos empiricamente nosso método nas famílias de modelos Qwen 2.5 e Qwen 3 em uma ampla gama de tarefas de raciocínio. No geral, nosso trabalho oferece uma perspectiva probabilística fundamentada que unifica a inferência variacional com métodos de estilo RL e produz objetivos estáveis para melhorar a capacidade de raciocínio de modelos de linguagem. Nosso código está disponível em https://github.com/sail-sg/variational-reasoning.
Os LLMs (Modelos de Linguagem de Grande Escala) são frequentemente treinados com Aprendizado por Reforço (RL) a partir de feedback humano ou de IA, mas tais métodos geralmente comprimem feedbacks detalhados em recompensas escalares, descartando grande parte de sua riqueza e induzindo desequilíbrios de escala. Propomos tratar o feedback verbal como um sinal de condicionamento. Inspirados pelos priors de linguagem na geração de texto para imagem, que permitem saídas inovadoras a partir de prompts não vistos, introduzimos a política condicionada ao feedback (FCP). A FCP aprende diretamente de pares resposta-feedback, aproximando a posterior condicionada ao feedback por meio de treinamento de máxima verossimilhança em dados offline. Desenvolvemos ainda uma etapa de bootstrapping online, onde a política gera sob condições positivas e recebe novos feedbacks para se aprimorar. Isso reformula o aprendizado orientado por feedback como geração condicional em vez de otimização de recompensa, oferecendo uma maneira mais expressiva para os LLMs aprenderem diretamente com feedback verbal. Nosso código está disponível em https://github.com/sail-sg/feedback-conditional-policy.
A revisão por pares serve como pilar da pesquisa acadêmica, mas na maioria das conferências de IA, a qualidade das revisões está se deteriorando à medida que o número de submissões explode. Para detectar de forma confiável revisões de baixa qualidade, definimos pontos de revisão mal informados como "fraquezas" em uma revisão que contêm premissas incorretas ou "perguntas" que já podem ser respondidas pelo artigo. Verificamos que 15,2% das fraquezas e 26,4% das perguntas são mal informadas e introduzimos o ReviewScore, que indica se um ponto de revisão é mal informado. Para avaliar a factualidade de cada premissa das fraquezas, propomos um mecanismo automatizado que reconstrói todas as premissas explícitas e implícitas de uma fraqueza. Construímos um conjunto de dados ReviewScore anotado por especialistas humanos para verificar a capacidade dos LLMs de automatizar a avaliação do ReviewScore. Em seguida, medimos a concordância entre humanos e modelos no ReviewScore usando oito LLMs atuais de última geração e verificamos concordâncias moderadas. Também comprovamos que avaliar a factualidade no nível da premissa apresenta concordâncias significativamente maiores do que avaliar a factualidade no nível da fraqueza. Uma análise detalhada das discordâncias apoia ainda mais o potencial de uma avaliação totalmente automatizada do ReviewScore.
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) é uma estrutura poderosa para aprimorar as habilidades de raciocínio de Modelos de Linguagem de Grande Escala (LLMs). No entanto, métodos atuais como o GRPO dependem apenas de problemas em que as respostas do modelo para a mesma entrada diferem em correção, ignorando aqueles em que todas as respostas recebem a mesma recompensa — os chamados prompts de variância zero. Neste trabalho, argumentamos que esses prompts não são inúteis, mas podem, de fato, fornecer feedback significativo para a otimização de políticas. Para isso, introduzimos o Aprendizado por Reforço com Prompts de Variância Zero (RL-ZVP), um algoritmo inovador que extrai sinais de aprendizado de prompts de variância zero. O RL-ZVP recompensa diretamente a correção e penaliza erros mesmo sem respostas contrastantes, modulando o feedback com características em nível de token para preservar sinais informativos e detalhados. Em seis benchmarks de raciocínio matemático, o RL-ZVP alcança melhorias significativas de até 8,61 pontos em precisão e 7,77 pontos em taxa de acerto em relação ao GRPO, superando consistentemente outras abordagens que filtram prompts de variância zero. Esses resultados destacam o potencial inexplorado de aprender com prompts de variância zero no RLVR.
Apresentamos o LLaVA-OneVision-1.5, uma nova família de Modelos Multimodais de Grande Escala (LMMs) que alcançam desempenho de ponta com custos computacionais e financeiros significativamente reduzidos. Diferente dos trabalhos existentes, o LLaVA-OneVision-1.5 oferece uma estrutura aberta, eficiente e reproduzível para a construção de modelos de visão e linguagem de alta qualidade totalmente do zero. O lançamento do LLaVA-OneVision-1.5 compreende três componentes principais: (1) Conjuntos de Dados Cuidadosamente Curatados em Grande Escala: Construímos um conjunto de dados de pré-treinamento balanceado por conceitos de 85M, o LLaVA-OneVision-1.5-Mid-Training, e um conjunto de dados de instruções meticulosamente curado de 26M, o LLaVA-OneVision-1.5-Instruct, que juntos abrangem 64B tokens multimodais comprimidos. (2) Estrutura de Treinamento Eficiente: Desenvolvemos uma estrutura de treinamento eficiente completa de ponta a ponta, aproveitando uma estratégia de empacotamento de dados paralelo offline para facilitar o treinamento do LLaVA-OneVision-1.5 dentro de um orçamento de $16.000. (3) Desempenho de Ponta: Resultados experimentais demonstram que o LLaVA-OneVision-1.5 produz um desempenho excepcionalmente competitivo em uma ampla gama de tarefas subsequentes. Especificamente, o LLaVA-OneVision-1.5-8B supera o Qwen2.5-VL-7B em 18 de 27 benchmarks, e o LLaVA-OneVision-1.5-4B supera o Qwen2.5-VL-3B em todos os 27 benchmarks. Antecipamos o lançamento do LLaVA-OneVision-1.5-RL em breve e encorajamos a comunidade a aguardar mais atualizações.
Grandes modelos de linguagem (LLMs) estão evoluindo de sistemas conversacionais para raciocinadores robustos em tarefas como matemática olímpica e programação competitiva. Embora o aumento de parâmetros e a computação em tempo de teste tenham impulsionado o progresso, um gargalo crucial é a falta de problemas de treinamento de alta qualidade: conjuntos de dados curados por humanos são caros e limitados, enquanto os corpora sintéticos existentes são frequentemente muito fáceis ou restritos. O PromptCoT 1.0 mostrou que a injeção de racionalidades na síntese de prompts aumenta a dificuldade dos problemas. Com base nisso, apresentamos o PromptCoT 2.0, uma estrutura escalável que substitui heurísticas manuais por um loop de maximização de expectativas (EM), onde as racionalidades são refinadas iterativamente para guiar a construção de prompts. Isso produz problemas que são mais difíceis e diversos do que os corpora anteriores. Os prompts sintéticos suportam dois regimes de pós-treinamento: (1) Auto-Jogo, onde modelos fortes melhoram autonomamente por meio de feedback verificável sem a necessidade de professores mais fortes; e (2) Ajuste Fino Supervisionado (SFT), onde modelos mais fracos aprendem a partir de traços destilados por professores. Experimentos extensivos demonstram a eficácia dessa abordagem. No auto-jogo, a aplicação do PromptCoT 2.0 ao Qwen3-30B-A3B-Thinking-2507 estabelece novos recordes de ponta na escala de 30B, com +4,4, +4,8 e +5,3 no AIME 24/25 e HMMT 25, +6,1 e +5,0 no LiveCodeBench v5/v6, e +35 Elo no Codeforces. No SFT, o treinamento do Qwen2.5-7B-Instruct exclusivamente com prompts sintéticos aumenta a precisão para 73,1 (AIME 24), 65,6 (AIME 25) e 53,4 (LiveCodeBench v5), superando modelos treinados com dados humanos ou híbridos. Análises confirmam ainda que o PromptCoT 2.0 produz problemas fundamentalmente mais difíceis e distintivos em termos de distribuição. Esses resultados estabelecem a síntese de prompts como um novo eixo para escalar o raciocínio e posicionam o PromptCoT 2.0 como uma base escalável para futuros modelos de código aberto. A implementação está disponível em https://github.com/inclusionAI/PromptCoT.
A geração de legendas para imagens é uma tarefa fundamental que conecta os domínios visual e linguístico, desempenhando um papel crítico no pré-treinamento de Grandes Modelos de Visão e Linguagem (LVLMs, na sigla em inglês). Os modelos de geração de legendas mais avançados atualmente são tipicamente treinados com Ajuste Fino Supervisionado (SFT, na sigla em inglês), um paradigma que depende de dados caros e não escaláveis, anotados por humanos ou modelos proprietários. Essa abordagem frequentemente resulta em modelos que memorizam respostas específicas de referência, limitando sua generalidade e capacidade de gerar descrições diversas e criativas. Para superar as limitações do SFT, propomos a aplicação do paradigma de Aprendizado por Reforço com Recompensas Verificáveis (RLVR, na sigla em inglês) à tarefa aberta de geração de legendas para imagens. Um desafio primário, no entanto, é projetar uma função de recompensa objetiva para a natureza inerentemente subjetiva do que constitui uma "boa" legenda. Introduzimos o Aprendizado por Reforço para Legendagem (CapRL, na sigla em inglês), uma estrutura de treinamento inovadora que redefine a qualidade da legenda por meio de sua utilidade: uma legenda de alta qualidade deve permitir que um modelo de linguagem não visual responda com precisão a perguntas sobre a imagem correspondente. O CapRL emprega um pipeline de duas etapas desacopladas, onde um LVLM gera uma legenda, e a recompensa objetiva é derivada da precisão de um LLM separado, sem acesso visual, ao responder a perguntas de múltipla escolha com base apenas nessa legenda. Como o primeiro estudo a aplicar RLVR à tarefa subjetiva de geração de legendas para imagens, demonstramos que o CapRL melhora significativamente múltiplos cenários. O pré-treinamento no conjunto de dados CapRL-5M, anotado pelo CapRL-3B, resulta em ganhos substanciais em 12 benchmarks. Além disso, dentro da Estrutura Prism para avaliação da qualidade de legendas, o CapRL alcança desempenho comparável ao Qwen2.5-VL-72B, enquanto supera a linha de base por uma margem média de 8,4%. O código está disponível aqui: https://github.com/InternLM/CapRL.
A capacidade dos robôs de interpretar instruções humanas e executar tarefas de manipulação exige a disponibilidade de cenas de mesa relevantes para o treinamento. No entanto, os métodos tradicionais para criar essas cenas dependem de designs de layout manuais demorados ou de layouts puramente aleatórios, que são limitados em termos de plausibilidade ou alinhamento com as tarefas. Neste artigo, formulamos uma nova tarefa, nomeadamente a geração de cenas de mesa orientadas por tarefas, que apresenta desafios significativos devido à grande lacuna entre as instruções de tarefa de alto nível e as cenas de mesa. Para apoiar a pesquisa sobre uma tarefa tão desafiadora, introduzimos o MesaTask-10K, um conjunto de dados em larga escala composto por aproximadamente 10.700 cenas de mesa sintéticas com layouts manualmente elaborados que garantem layouts realistas e relações intrincadas entre objetos. Para preencher a lacuna entre tarefas e cenas, propomos uma Cadeia de Raciocínio Espacial que decompõe o processo de geração em inferência de objetos, raciocínio de inter-relação espacial e construção de grafo de cena para o layout 3D final. Apresentamos o MesaTask, um framework baseado em LLM que utiliza essa cadeia de raciocínio e é aprimorado com algoritmos DPO para gerar cenas de mesa fisicamente plausíveis que se alinham bem com as descrições de tarefas fornecidas. Experimentos exaustivos demonstram o desempenho superior do MesaTask em comparação com as linhas de base na geração de cenas de mesa conformes às tarefas com layouts realistas. A página do projeto está em https://mesatask.github.io/
O aprendizado por reforço (RL) é o paradigma dominante para aprimorar as capacidades de uso estratégico de ferramentas de LLMs em tarefas de agentes de longo horizonte e recompensas esparsas, mas enfrenta um desafio fundamental de equilíbrio entre exploração e exploração. Estudos existentes estimulam a exploração através da lente da entropia da política, mas essa maximização mecânica da entropia é propensa à instabilidade no treinamento de RL devido à mudança de distribuição em múltiplos turnos. Neste artigo, visamos o equilíbrio progressivo entre exploração e exploração sob a orientação das próprias experiências do agente, sem sucumbir ao colapso da entropia ou à divergência descontrolada. Propomos o SPEAR, uma receita de aprendizado por autoimitação (SIL) baseada em currículo para treinar LLMs agentivos. Ele estende o framework SIL tradicional, onde um buffer de replay armazena trajetórias promissoras geradas pelo próprio agente para atualização off-policy, ao direcionar gradualmente a evolução da política dentro de uma faixa bem equilibrada de entropia ao longo dos estágios. Especificamente, nossa abordagem incorpora um currículo para gerenciar o processo de exploração, utilizando recompensas intrínsecas para promover a exploração em nível de habilidade e facilitar a exploração em nível de ação através do SIL. Inicialmente, a recompensa auxiliar por chamada de ferramenta desempenha um papel crítico na acumulação de habilidades de uso de ferramentas, permitindo uma ampla exposição às distribuições desconhecidas do feedback do ambiente com uma tendência crescente de entropia. À medida que o treinamento avança, a autoimitação é fortalecida para explorar padrões bem-sucedidos existentes a partir de experiências reproduzidas, acelerando a iteração de soluções sem crescimento descontrolado da entropia. Para estabilizar ainda mais o treinamento, recalibramos as vantagens das experiências no buffer de replay para abordar o possível desvio da política. Regularizações, como o corte de tokens com alta covariância entre probabilidade e vantagem, são introduzidas no controle de entropia em nível de trajetória para conter a superconfiança.
O fine-tuning, um método fundamental para adaptar grandes modelos de linguagem, há muito tempo é considerado ineficaz para a edição de modelos. Aqui, desafiamos essa crença, argumentando que o fracasso relatado não surge de uma limitação inerente ao próprio fine-tuning, mas da adaptação dele à natureza sequencial da tarefa de edição, um pipeline de aprofundamento único que otimiza cada amostra até a convergência antes de prosseguir. Embora intuitivo, esse pipeline de aprofundamento, combinado com atualizações por amostra, superotimiza cada edição e induz interferência entre as edições. Nossos experimentos controlados revelam que simplesmente restaurar o fine-tuning ao pipeline padrão de ampliação (ou seja, baseado em épocas) com otimização em mini-lotes melhora substancialmente sua eficácia para a edição de modelos. Além disso, o fine-tuning na edição também sofre com locais de parâmetros de ajuste subótimos herdados de métodos anteriores. Por meio de uma análise sistemática dos locais de ajuste, derivamos o LocFT-BF, um método de edição localizado simples e eficaz construído sobre o framework de fine-tuning restaurado. Experimentos extensos em diversos LLMs e conjuntos de dados demonstram que o LocFT-BF supera os métodos state-of-the-art por grandes margens. Notavelmente, até onde sabemos, é o primeiro a sustentar 100 mil edições e modelos com 72 bilhões de parâmetros, 10 vezes além da prática anterior, sem sacrificar capacidades gerais. Ao esclarecer um equívoco de longa data e introduzir uma estratégia de ajuste localizado fundamentada, elevamos o fine-tuning de uma linha de base subestimada a um método líder para edição de modelos, estabelecendo uma base sólida para pesquisas futuras.
Agentes autônomos têm alcançado progressos notáveis recentemente em diversos domínios, mas a maioria das avaliações se concentra em tarefas de curto prazo e totalmente observáveis. Em contraste, muitas tarefas críticas do mundo real, como o desenvolvimento de software em larga escala, investimentos comerciais e descobertas científicas, ocorrem em cenários de longo prazo e parcialmente observáveis, onde o sucesso depende de raciocínio sustentado, planejamento, gerenciamento de memória e uso de ferramentas. Os benchmarks existentes raramente capturam esses desafios de longo prazo, deixando uma lacuna na avaliação sistemática. Para preencher essa lacuna, apresentamos o UltraHorizon, um novo benchmark que mede as capacidades fundamentais essenciais para desafios complexos do mundo real. Utilizamos a exploração como uma tarefa unificadora em três ambientes distintos para validar essas competências essenciais. Os agentes são projetados para tarefas de descoberta de longo prazo, onde devem descobrir iterativamente regras ocultas por meio de raciocínio sustentado, planejamento, gerenciamento de memória e ferramentas, e interação com os ambientes. Na configuração de maior escala, as trajetórias têm em média mais de 200 mil tokens e mais de 400 chamadas de ferramentas, enquanto nas configurações padrão ainda excedem 35 mil tokens e envolvem mais de 60 chamadas de ferramentas em média. Nossos experimentos extensivos revelam que os agentes baseados em LLM têm desempenho consistentemente inferior nessas configurações, enquanto os participantes humanos alcançam pontuações mais altas, destacando uma lacuna persistente nas habilidades de longo prazo dos agentes. Também observamos que o simples aumento de escala falha em nossa tarefa. Para ilustrar melhor a falha dos agentes, realizamos uma análise detalhada das trajetórias coletadas. Identificamos oito tipos de erros e os atribuímos a duas causas principais: bloqueio em contexto e lacunas fundamentais nas capacidades funcionais. https://github.com/StarDewXXX/UltraHorizon{Nosso código estará disponível aqui.}
Apresentamos o See, Point, Fly (SPF), uma estrutura de navegação aérea visão-e-linguagem (AVLN) sem necessidade de treinamento, construída sobre modelos visão-linguagem (VLMs). O SPF é capaz de navegar até qualquer objetivo com base em qualquer tipo de instrução de forma livre em qualquer tipo de ambiente. Em contraste com as abordagens existentes baseadas em VLMs que tratam a previsão de ações como uma tarefa de geração de texto, nossa principal percepção é considerar a previsão de ações para AVLN como uma tarefa de ancoragem espacial 2D. O SPF utiliza VLMs para decompor instruções linguísticas vagas em anotações iterativas de waypoints 2D na imagem de entrada. Juntamente com a distância de viagem prevista, o SPF transforma os waypoints 2D previstos em vetores de deslocamento 3D como comandos de ação para UAVs. Além disso, o SPF também ajusta adaptativamente a distância de viagem para facilitar uma navegação mais eficiente. Notavelmente, o SPF realiza a navegação de forma de controle em malha fechada, permitindo que UAVs sigam alvos dinâmicos em ambientes dinâmicos. O SPF estabelece um novo estado da arte no benchmark de simulação DRL, superando o melhor método anterior por uma margem absoluta de 63%. Em extensas avaliações no mundo real, o SPF supera fortes baselines por uma grande margem. Também realizamos estudos abrangentes de ablação para destacar a eficácia de nossas escolhas de design. Por fim, o SPF mostra uma generalização notável para diferentes VLMs. Página do projeto: https://spf-web.pages.dev
Propomos uma abordagem inovadora para desvincular características visuais e semânticas dos backbones de modelos de difusão pré-treinados, permitindo correspondência visual de maneira análoga à bem-estabelecida correspondência semântica. Embora seja conhecido que os backbones dos modelos de difusão codificam características semanticamente ricas, eles também devem conter características visuais para suportar suas capacidades de síntese de imagens. No entanto, isolar essas características visuais é desafiador devido à ausência de conjuntos de dados anotados. Para resolver isso, introduzimos um pipeline automatizado que constrói pares de imagens com correspondências semânticas e visuais anotadas com base em conjuntos de dados existentes de geração de imagens orientada por sujeitos, e projetamos uma arquitetura contrastiva para separar os dois tipos de características. Aproveitando as representações desvinculadas, propomos uma nova métrica, Visual Semantic Matching (VSM), que quantifica inconsistências visuais na geração de imagens orientada por sujeitos. Resultados empíricos mostram que nossa abordagem supera métricas baseadas em características globais, como CLIP, DINO e modelos visão-linguagem, na quantificação de inconsistências visuais, além de permitir a localização espacial de regiões inconsistentes. Até onde sabemos, este é o primeiro método que suporta tanto a quantificação quanto a localização de inconsistências na geração orientada por sujeitos, oferecendo uma ferramenta valiosa para avançar essa tarefa. Página do Projeto: https://abdo-eldesokey.github.io/mind-the-glitch/
As capacidades crescentes dos modelos de linguagem de grande escala e sistemas multimodais têm despertado interesse em assistentes de IA com foco em voz, mas os benchmarks existentes são inadequados para avaliar a gama completa das capacidades desses sistemas. Apresentamos o VoiceAssistant-Eval, um benchmark abrangente projetado para avaliar assistentes de IA em escuta, fala e visualização. O VoiceAssistant-Eval compreende 10.497 exemplos cuidadosamente selecionados, abrangendo 13 categorias de tarefas. Essas tarefas incluem sons naturais, música e diálogos falados para escuta; diálogos multiturno, imitação de papéis e vários cenários para fala; e imagens altamente heterogêneas para visualização. Para demonstrar sua utilidade, avaliamos 21 modelos de código aberto e o GPT-4o-Audio, medindo a qualidade do conteúdo e da fala das respostas, bem como sua consistência. Os resultados revelam três descobertas principais: (1) modelos proprietários não superam universalmente os modelos de código aberto; (2) a maioria dos modelos se destaca em tarefas de fala, mas apresenta deficiências na compreensão de áudio; e (3) modelos menores bem projetados podem rivalizar com modelos muito maiores. Notavelmente, o Step-Audio-2-mini (7B), de tamanho médio, alcança mais que o dobro da precisão de escuta do LLaMA-Omni2-32B-Bilingual. No entanto, desafios permanecem: entradas multimodais (áudio mais visual) e tarefas de imitação de voz em papéis são difíceis para os modelos atuais, e lacunas significativas persistem em robustez e alinhamento de segurança. O VoiceAssistant-Eval identifica essas lacunas e estabelece uma estrutura rigorosa para avaliar e orientar o desenvolvimento da próxima geração de assistentes de IA. O código e os dados serão disponibilizados em https://mathllm.github.io/VoiceAssistantEval/.
A restauração universal de imagens (UIR, na sigla em inglês) visa recuperar imagens degradadas por misturas desconhecidas, preservando a semântica — condições nas quais restauradores discriminativos e priors de difusão baseados em UNet frequentemente suavizam excessivamente, alucinam ou desviam. Apresentamos o LucidFlux, um framework de UIR sem legendas que adapta um grande transformador de difusão (Flux.1) sem o uso de legendas de imagem. O LucidFlux introduz um condicionador leve de ramificação dupla que injeta sinais da entrada degradada e de um proxy levemente restaurado para ancorar a geometria e suprimir artefatos, respectivamente. Em seguida, um esquema de modulação adaptativo em relação ao timestep e à camada é projetado para direcionar essas pistas através da hierarquia do backbone, a fim de produzir atualizações de granularidade grossa a fina e contextualmente conscientes que protegem a estrutura global enquanto recuperam a textura. Além disso, para evitar a latência e a instabilidade de prompts de texto ou legendas de MLLM, aplicamos o alinhamento semântico sem legendas por meio de recursos SigLIP extraídos do proxy. Um pipeline de curadoria escalável filtra ainda mais dados em grande escala para supervisão rica em estrutura. Em benchmarks sintéticos e do mundo real, o LucidFlux supera consistentemente baselines de código aberto e comerciais robustos, e estudos de ablação verificam a necessidade de cada componente. O LucidFlux demonstra que, para grandes DiTs, quando, onde e o que condicionar — em vez de adicionar parâmetros ou depender de prompts de texto — é a alavanca governante para a restauração universal de imagens robusta e sem legendas no mundo real.
A compressão pós-treinamento de modelos de linguagem de grande escala (LLMs) depende amplamente da aproximação de pesos de baixo posto, que representa cada coluna de uma matriz de pesos em um subespaço compartilhado de baixa dimensão. Embora essa seja uma estratégia computacionalmente eficiente, a restrição estrutural imposta é rígida e pode levar a uma queda perceptível na precisão do modelo. Neste trabalho, propomos o CoSpaDi (Compressão via Aprendizado de Dicionário Esparso), uma nova estrutura de compressão sem treinamento que substitui a decomposição de baixo posto por uma fatoração esparsa estruturada mais flexível, na qual cada matriz de pesos é representada com um dicionário denso e uma matriz de coeficientes esparsa por colunas. Essa formulação permite uma representação de união de subespaços: diferentes colunas da matriz de pesos original são aproximadas em subespaços distintos, abrangidos por átomos de dicionário selecionados de forma adaptativa, oferecendo maior expressividade do que uma única base invariante. Crucialmente, o CoSpaDi aproveita um pequeno conjunto de dados de calibração para otimizar a fatoração, de modo que as ativações de saída das camadas de projeção comprimidas correspondam de perto às das originais, minimizando assim o erro de reconstrução funcional em vez de apenas a aproximação de pesos. Essa estratégia consciente dos dados preserva melhor a fidelidade do modelo sem qualquer ajuste fino sob taxas de compressão razoáveis. Além disso, a esparsidade estruturada resultante permite uma multiplicação eficiente de matrizes esparsas-densas e é compatível com a quantização pós-treinamento para ganhos adicionais de memória e latência. Avaliamos o CoSpaDi em vários modelos Llama e Qwen sob configurações por camada e por grupo em taxas de compressão de 20-50%, demonstrando superioridade consistente em relação aos métodos de baixo posto conscientes dos dados mais avançados, tanto em precisão quanto em perplexidade. Nossos resultados estabelecem o aprendizado de dicionário esparso estruturado como uma alternativa poderosa às abordagens convencionais de baixo posto para a implantação eficiente de LLMs.
Sistemas de agentes alimentados por modelos de linguagem de grande escala (LLMs) têm demonstrado desempenho impressionante em tarefas de geração de código em nível de repositório. No entanto, para tarefas como a geração de bases de código para websites, que dependem fortemente de efeitos visuais e feedback de interação do usuário, os agentes de código atuais dependem apenas de execuções simples de código para feedback e verificação. Essa abordagem não consegue capturar a qualidade real do código gerado. Neste artigo, propomos o WebGen-Agent, um novo agente de geração de websites que utiliza feedback visual abrangente e multi-nível para gerar e refinar iterativamente a base de código do website. Descrições e sugestões textuais detalhadas e expressivas sobre as capturas de tela e testes de GUI dos websites são geradas por um modelo de linguagem visual (VLM), juntamente com pontuações que quantificam sua qualidade. As pontuações das capturas de tela e do agente de GUI são ainda integradas com um mecanismo de retrocesso e seleção do melhor, aprimorando o desempenho do agente. Utilizando as pontuações visuais precisas inerentes ao fluxo de trabalho do WebGen-Agent, introduzimos ainda o Step-GRPO com Feedback de Captura de Tela e Agente de GUI para melhorar a capacidade dos LLMs de atuarem como o motor de raciocínio do WebGen-Agent. Ao usar as pontuações de captura de tela e do agente de GUI em cada etapa como recompensa no Step-GRPO, fornecemos um sinal de supervisão de processo denso e confiável, que efetivamente melhora a capacidade de geração de websites do modelo. No conjunto de dados WebGen-Bench, o WebGen-Agent aumenta a precisão do Claude-3.5-Sonnet de 26,4% para 51,9% e sua pontuação de aparência de 3,0 para 3,9, superando o sistema de agente estado da arte anterior. Além disso, nossa abordagem de treinamento Step-GRPO aumenta a precisão do Qwen2.5-Coder-7B-Instruct de 38,9% para 45,4% e eleva a pontuação de aparência de 3,4 para 3,7.
A Geração Aumentada por Recuperação (RAG) e a RAG Baseada em Grafos tornaram-se paradigmas importantes para aprimorar Modelos de Linguagem de Grande Escala (LLMs) com conhecimento externo. No entanto, as abordagens existentes enfrentam uma troca fundamental. Enquanto os métodos baseados em grafos são inerentemente dependentes de estruturas de grafos de alta qualidade, eles enfrentam restrições práticas significativas: grafos de conhecimento construídos manualmente são proibitivamente caros para escalar, enquanto grafos extraídos automaticamente de corpora são limitados pelo desempenho dos extratores de LLM subjacentes, especialmente ao usar modelos menores e implantados localmente. Este artigo apresenta o Think-on-Graph 3.0 (ToG-3), uma nova estrutura que introduz o mecanismo de Evolução e Recuperação de Contexto Multi-Agente (MACER) para superar essas limitações. Nossa inovação central é a construção e refinamento dinâmico de um índice de grafo heterogêneo Chunk-Triplets-Community, que pioneiramente incorpora um mecanismo de dupla evolução de Consulta Evolutiva e Sub-Grafo Evolutivo para recuperação precisa de evidências. Essa abordagem aborda uma limitação crítica dos métodos anteriores de RAG Baseada em Grafos, que normalmente constroem um índice de grafo estático em uma única passagem sem se adaptar à consulta real. Um sistema multi-agente, composto por agentes Construtor, Recuperador, Refletor e Respondedor, colabora em um processo iterativo de recuperação de evidências, geração de respostas, reflexão de suficiência e, crucialmente, evolução da consulta e do subgrafo. Esse sistema multi-agente de dupla evolução permite que o ToG-3 construa adaptativamente um índice de grafo direcionado durante o raciocínio, mitigando as desvantagens inerentes da construção estática e única de grafos e permitindo um raciocínio profundo e preciso mesmo com LLMs leves. Experimentos extensivos demonstram que o ToG-3 supera as linhas de base comparadas em benchmarks de raciocínio profundo e amplo, e estudos de ablação confirmam a eficácia dos componentes da estrutura MACER.
O ajuste fino por reforço (RFT) frequentemente sofre com a superotimização de recompensas, onde um modelo de política manipula os sinais de recompensa para alcançar pontuações altas enquanto produz resultados de baixa qualidade. Nossa análise teórica mostra que a chave está na má especificação da recompensa na cauda de alta recompensa: a incapacidade de distinguir de forma confiável respostas Excelentes de respostas meramente Boas. Isso nos motiva a focar na região de alta recompensa. No entanto, tais exemplos da cauda são escassos no modelo de linguagem de base (LLM). Embora exemplos fora da política (por exemplo, de modelos mais fortes ou reescritas) sejam mais fáceis de obter, o treinamento ingênuo neles resulta em uma recompensa mal especificada para a política que buscamos alinhar. Para resolver isso, estudamos recompensas baseadas em rubricas. Por design, as rubricas podem aproveitar exemplos fora da política enquanto permanecem insensíveis a seus artefatos. Para elicitar rubricas que capturem a cauda de alta recompensa, destacamos a importância de distinguir entre respostas excelentes e diversas, e introduzimos um fluxo de trabalho para implementar essa ideia. Demonstramos empiricamente que recompensas baseadas em rubricas mitigam substancialmente a superotimização de recompensas e proporcionam melhorias eficazes no pós-treinamento de LLMs. Nosso código pode ser acessado em https://github.com/Jun-Kai-Zhang/rubrics.git.
Modelos de Linguagem de Grande Escala (LLMs) e Modelos de Visão-Linguagem de Grande Escala (LVLMs) recentes têm utilizado cada vez mais o Aprendizado por Reforço (RL) para pós-pré-treinamento, como o RL com Recompensas Verificáveis (RLVR) para tarefas objetivas e o RL a partir de Feedback Humano (RLHF) para tarefas subjetivas. No entanto, o RLHF incorre em custos elevados e potencial desalinhamento entre recompensa e política devido à dependência de preferências humanas, enquanto o RLVR ainda desperdiça supervisão ao descartar rollouts e sinais de correção após cada atualização. Para enfrentar esses desafios, introduzimos o Framework de Coevolução Sinérgica de Política e Recompensa (SPARK), um método eficiente, on-policy e estável que se baseia no RLVR. Em vez de descartar rollouts e dados de correção, o SPARK recicla essas informações valiosas para treinar simultaneamente o próprio modelo como um modelo de recompensa generativo. Esse treinamento auxiliar utiliza uma mistura de objetivos, como pontuação de recompensa pontual, comparação pareada e avaliação condicionada a respostas de reflexão adicional, para ensinar o modelo a avaliar e melhorar suas próprias respostas. Nosso processo elimina a necessidade de um modelo de recompensa separado e de dados custosos de preferência humana. O SPARK cria um ciclo de feedback positivo de coevolução: a precisão aprimorada da recompensa gera melhores gradientes de política, que por sua vez produzem rollouts de maior qualidade que refinam ainda mais o modelo de recompensa. Nosso framework unificado suporta escalonamento em tempo de teste via autorreflexão sem a necessidade de modelos de recompensa externos e seus custos associados. Demonstramos que o SPARK alcança ganhos significativos de desempenho em múltiplos modelos LLM e LVLM, bem como em benchmarks de raciocínio, modelos de recompensa e benchmarks gerais. Por exemplo, o SPARK-VL-7B alcança um ganho médio de 9,7% em 7 benchmarks de raciocínio, 12,1% em 2 benchmarks de recompensa e 1,5% em 8 benchmarks gerais em relação às linhas de base, demonstrando robustez e ampla generalização.
Modelos de linguagem de grande escala, treinados em extensos corpora, unificam com sucesso diversas tarefas linguísticas dentro de um único framework generativo. Inspirados por isso, trabalhos recentes como o Large Vision Model (LVM) estendem esse paradigma para a visão, organizando tarefas em sentenças visuais sequenciais, onde prompts visuais servem como contexto para guiar as saídas. No entanto, tal modelagem requer pré-treinamento específico para cada tarefa em diferentes modalidades e fontes, o que é custoso e limita a escalabilidade para tarefas não vistas. Dado que modelos pré-treinados de geração de vídeo capturam inerentemente dependências de sequências temporais, exploramos uma alternativa mais unificada e escalável: um modelo pré-treinado de geração de vídeo pode se adaptar a diversas tarefas de imagem e vídeo? Para responder a isso, propomos o UniVid, um framework que ajusta um transformer de difusão de vídeo para lidar com várias tarefas visuais sem modificações específicas para cada tarefa. As tarefas são representadas como sentenças visuais, onde a sequência de contexto define tanto a tarefa quanto a modalidade de saída esperada. Avaliamos a generalização do UniVid a partir de duas perspectivas: (1) inferência cruzada de modalidades com contextos compostos por imagens e vídeos, indo além do cenário unimodal do LVM; (2) tarefas cruzadas de fontes, de dados naturais para anotados, sem pré-treinamento multi-fonte. Apesar de ser treinado apenas em dados de vídeo naturais, o UniVid generaliza bem em ambos os cenários. Notavelmente, tarefas de compreensão e geração podem ser facilmente alternadas simplesmente invertendo a ordem da sentença visual nesse paradigma. Esses achados destacam o potencial de modelos pré-treinados de geração de vídeo para servir como uma base escalável e unificada para modelagem visual. Nosso código será liberado em https://github.com/CUC-MIPG/UniVid.
A estimativa de layout e a detecção de objetos 3D são duas tarefas fundamentais na compreensão de cenas internas. Quando combinadas, elas permitem a criação de uma representação espacial compacta, mas semanticamente rica de uma cena. As abordagens existentes geralmente dependem de entrada de nuvem de pontos, o que representa uma grande limitação, já que a maioria das câmeras de consumo não possui sensores de profundidade, e dados visuais continuam sendo muito mais comuns. Nós abordamos essa questão com o TUN3D, o primeiro método que lida com a estimativa de layout e a detecção de objetos 3D em varreduras reais, utilizando imagens multi-visão como entrada, e não requer poses de câmera de verdade ou supervisão de profundidade. Nossa abordagem é baseada em uma estrutura leve de convolução esparsa e emprega duas cabeças dedicadas: uma para detecção de objetos 3D e outra para estimativa de layout, aproveitando uma nova e eficiente representação paramétrica de paredes. Experimentos extensivos mostram que o TUN3D alcança desempenho de ponta em três benchmarks desafiadores de compreensão de cenas: (i) utilizando nuvens de pontos de verdade, (ii) utilizando imagens com poses, e (iii) utilizando imagens sem poses. Enquanto desempenha de forma equivalente a métodos especializados de detecção de objetos 3D, o TUN3D avança significativamente na estimativa de layout, estabelecendo um novo padrão na compreensão holística de cenas internas. O código está disponível em https://github.com/col14m/tun3d.
Os seres humanos desenvolvem uma compreensão da física intuitiva por meio da interação ativa com o mundo. Essa abordagem contrasta fortemente com os modelos de vídeo atuais, como o Sora, que dependem de observação passiva e, portanto, lutam para compreender a causalidade física. Essa observação leva à nossa hipótese central: a intuição física autêntica do modelo de mundo deve ser fundamentada em interações extensas e causalmente ricas com o mundo real. Para testar essa hipótese, apresentamos o WoW, um modelo generativo de mundo com 14 bilhões de parâmetros, treinado em 2 milhões de trajetórias de interação robótica. Nossos resultados revelam que a compreensão da física pelo modelo é uma distribuição probabilística de resultados plausíveis, levando a instabilidades estocásticas e alucinações físicas. Além disso, demonstramos que essa capacidade emergente pode ser ativamente restringida em direção ao realismo físico pelo SOPHIA, onde agentes de modelo de visão e linguagem avaliam a saída gerada pelo DiT e orientam seu refinamento por meio da evolução iterativa das instruções de linguagem. Adicionalmente, um Modelo de Dinâmica Inversa co-treinado traduz esses planos refinados em ações robóticas executáveis, fechando assim o ciclo da imaginação à ação. Estabelecemos o WoWBench, um novo benchmark focado na consistência física e raciocínio causal em vídeo, onde o WoW alcança desempenho de ponta tanto em avaliações humanas quanto autônomas, demonstrando forte capacidade em causalidade física, dinâmica de colisão e permanência de objetos. Nosso trabalho fornece evidências sistemáticas de que a interação em larga escala com o mundo real é um pilar fundamental para o desenvolvimento da intuição física em IA. Modelos, dados e benchmarks serão disponibilizados como código aberto.
Beneficiando-se da simplicidade e eficácia do Dense O2O e do MAL, o DEIM tornou-se o principal framework de treinamento para DETRs em tempo real, superando significativamente a série YOLO. Neste trabalho, estendemos o DEIM com recursos do DINOv3, resultando no DEIMv2. O DEIMv2 abrange oito tamanhos de modelo, de X a Atto, cobrindo implantações em GPU, borda e dispositivos móveis. Para as variantes X, L, M e S, adotamos backbones pré-treinados ou destilados do DINOv3 e introduzimos um Adaptador de Ajuste Espacial (STA), que converte eficientemente a saída de escala única do DINOv3 em recursos multiescala e complementa a semântica robusta com detalhes refinados para melhorar a detecção. Para modelos ultraleves (Nano, Pico, Femto e Atto), empregamos o HGNetv2 com poda de profundidade e largura para atender a orçamentos de recursos rigorosos. Juntamente com um decodificador simplificado e um Dense O2O aprimorado, esse design unificado permite que o DEIMv2 alcance um equilíbrio superior entre desempenho e custo em diversos cenários, estabelecendo novos resultados state-of-the-art. Notavelmente, nosso maior modelo, o DEIMv2-X, alcança 57,8 AP com apenas 50,3 milhões de parâmetros, superando modelos anteriores em escala X que exigem mais de 60 milhões de parâmetros para apenas 56,5 AP. No lado compacto, o DEIMv2-S é o primeiro modelo com menos de 10 milhões de parâmetros (9,71 milhões) a ultrapassar a marca de 50 AP no COCO, atingindo 50,9 AP. Até mesmo o ultraleve DEIMv2-Pico, com apenas 1,5 milhão de parâmetros, entrega 38,5 AP, equiparando-se ao YOLOv10-Nano (2,3 milhões) com cerca de 50% menos parâmetros. Nosso código e modelos pré-treinados estão disponíveis em https://github.com/Intellindust-AI-Lab/DEIMv2.
Agentes de Interface Gráfica do Usuário (GUI) visam automatizar uma ampla gama de tarefas humanas ao emular a interação do usuário. Apesar dos rápidos avanços, as abordagens atuais são limitadas por vários desafios críticos: gargalo de dados no treinamento de ponta a ponta, alto custo da detecção tardia de erros e risco de orientações contraditórias. Inspirados pelo ciclo cognitivo humano de Pensamento, Alinhamento e Reflexão, apresentamos o D-Artemis — um novo framework deliberativo neste artigo. O D-Artemis utiliza um mecanismo de recuperação de dicas específicas para aplicativos, em nível granular, para informar seu processo de tomada de decisão. Ele também emprega uma etapa proativa de Alinhamento Pré-execução, onde o módulo de Verificação de Consistência Pensamento-Ação (TAC) e o Agente de Correção de Ação (ACA) trabalham em conjunto para mitigar o risco de falhas na execução. Um Agente de Reflexão de Status (SRA) pós-execução completa o ciclo cognitivo, permitindo o aprendizado estratégico com base na experiência. Crucialmente, o D-Artemis amplia as capacidades dos modelos de linguagem multimodal de grande escala (MLLMs) de propósito geral para tarefas de GUI sem a necessidade de treinamento em conjuntos de dados complexos de trajetórias, demonstrando forte generalização. O D-Artemis estabelece novos resultados de estado da arte (SOTA) em ambos os principais benchmarks, alcançando uma taxa de sucesso de 75,8% no AndroidWorld e 96,8% no ScreenSpot-V2. Estudos abrangentes de ablação demonstram ainda a contribuição significativa de cada componente para o framework.
Apresentamos o X-Streamer, uma estrutura de modelagem multimodal do mundo humano de ponta a ponta para a construção de agentes humanos digitais capazes de interações infinitas em texto, fala e vídeo dentro de uma única arquitetura unificada. A partir de um único retrato, o X-Streamer permite chamadas de vídeo em tempo real e de duração aberta, impulsionadas por entradas multimodais em fluxo contínuo. Em seu núcleo está uma arquitetura dual-transformer Thinker-Actor que unifica a compreensão e geração multimodal, transformando um retrato estático em interações audiovisuais persistentes e inteligentes. O módulo Thinker percebe e raciocina sobre as entradas do usuário em fluxo, enquanto seus estados ocultos são traduzidos pelo Actor em fluxos multimodais sincronizados em tempo real. Concretamente, o Thinker aproveita um modelo grande pré-treinado de linguagem e fala, enquanto o Actor emprega um modelo de difusão autoregressivo por blocos que atende de forma cruzada aos estados ocultos do Thinker para produzir respostas multimodais alinhadas no tempo, com tokens discretos intercalados de texto e áudio e latentes contínuos de vídeo. Para garantir estabilidade em horizontes longos, projetamos atenções inter e intra-bloco com embeddings posicionais multimodais alinhados no tempo para alinhamento fino entre modalidades e retenção de contexto, reforçados ainda por forçamento de difusão por blocos e referência global de identidade. O X-Streamer opera em tempo real em duas GPUs A100, sustentando experiências de chat de vídeo consistentes por horas a partir de retratos arbitrários e abrindo caminho para a modelagem unificada do mundo de humanos digitais interativos.
O processamento eficiente de imagens de alta resolução é crucial para aplicações práticas de visão e linguagem. No entanto, os modelos de Grande Visão e Linguagem (LVLMs) existentes incorrem em um custo computacional substancial devido ao grande número de tokens visuais. Com o advento dos modelos de "pensar com imagens", o raciocínio agora se estende além do texto para o domínio visual. Essa capacidade motiva nosso pipeline de raciocínio em duas etapas "do grosseiro ao refinado": primeiro, uma imagem reduzida é analisada para identificar regiões relevantes à tarefa; em seguida, apenas essas regiões são recortadas em resolução total e processadas em uma etapa subsequente de raciocínio. Essa abordagem reduz o custo computacional enquanto preserva detalhes visuais refinados onde necessário. Um grande desafio reside em inferir quais regiões são verdadeiramente relevantes para uma determinada consulta. Métodos relacionados recentes frequentemente falham na primeira etapa após a redução da imagem de entrada, devido ao raciocínio baseado em percepção, onde informações visuais claras são necessárias para um raciocínio eficaz. Para resolver esse problema, propomos o ERGO (Raciocínio Eficiente e Observação Guiada), que realiza percepção impulsionada por raciocínio, aproveitando o contexto multimodal para determinar onde focar. Nosso modelo pode considerar a incerteza perceptual, expandindo a região recortada para cobrir áreas visualmente ambíguas ao responder perguntas. Para isso, desenvolvemos componentes de recompensa simples, mas eficazes, em um framework de aprendizado por reforço para percepção do grosseiro ao refinado. Em vários conjuntos de dados, nossa abordagem oferece maior precisão do que o modelo original e métodos competitivos, com maior eficiência. Por exemplo, o ERGO supera o Qwen2.5-VL-7B no benchmark V* por 4,7 pontos, usando apenas 23% dos tokens visuais, alcançando uma aceleração de inferência de 3x. O código e os modelos podem ser encontrados em: https://github.com/nota-github/ERGO.
A edição de imagens guiada por texto com modelos de difusão alcançou qualidade notável, mas sofre com latência proibitiva, dificultando aplicações no mundo real. Apresentamos o FlashEdit, uma nova estrutura projetada para permitir edição de imagens em alta fidelidade e em tempo real. Sua eficiência decorre de três inovações principais: (1) um pipeline de Inversão e Edição em Uma Etapa (OSIE) que contorna processos iterativos custosos; (2) uma técnica de Escudo de Fundo (BG-Shield) que garante a preservação do fundo ao modificar seletivamente características apenas na região de edição; e (3) um mecanismo de Atenção Espacial Esparsificada Cruzada (SSCA) que assegura edições precisas e localizadas ao suprimir vazamentos semânticos para o fundo. Experimentos extensivos demonstram que o FlashEdit mantém consistência superior do fundo e integridade estrutural, enquanto realiza edições em menos de 0,2 segundos, o que representa uma aceleração de mais de 150 vezes em comparação com métodos anteriores de múltiplas etapas. Nosso código estará disponível publicamente em https://github.com/JunyiWuCode/FlashEdit.
A maioria das abordagens existentes para segmentação referencial alcança um desempenho forte apenas por meio de ajuste fino ou pela composição de múltiplos modelos pré-treinados, frequentemente ao custo de treinamento adicional e modificações arquiteturais. Enquanto isso, modelos generativos de difusão em larga escala codificam informações semânticas ricas, tornando-os atraentes como extratores de características de propósito geral. Neste trabalho, introduzimos um novo método que explora diretamente as características, especificamente os escores de atenção, de transformadores de difusão para tarefas subsequentes, sem exigir modificações arquiteturais nem treinamento adicional. Para avaliar sistematicamente essas características, estendemos benchmarks com tarefas de fundamentação visão-linguagem abrangendo tanto imagens quanto vídeos. Nossa principal percepção é que as palavras de parada atuam como ímãs de atenção: elas acumulam atenção excedente e podem ser filtradas para reduzir ruído. Além disso, identificamos sumidouros globais de atenção (GAS) que emergem em camadas mais profundas e mostramos que eles podem ser suprimidos com segurança ou redirecionados para tokens auxiliares, resultando em mapas de fundamentação mais nítidos e precisos. Propomos ainda uma estratégia de redistribuição de atenção, na qual palavras de parada anexadas particionam ativações de fundo em clusters menores, gerando mapas de calor mais nítidos e localizados. Com base nessas descobertas, desenvolvemos o RefAM, uma estrutura simples de fundamentação sem treinamento que combina mapas de atenção cruzada, manipulação de GAS e redistribuição. Em benchmarks de segmentação referencial de imagem e vídeo em zero-shot, nossa abordagem supera consistentemente métodos anteriores, estabelecendo um novo estado da arte sem ajuste fino ou componentes adicionais.
O Aprendizado por Reforço com Feedback Humano (RLHF) e o Aprendizado por Reforço com Recompensas Verificáveis (RLVR) são os principais paradigmas de RL utilizados no pós-treinamento de LLMs, cada um oferecendo vantagens distintas. No entanto, o RLHF enfrenta desafios de interpretabilidade e manipulação de recompensas, pois depende de julgamentos humanos que geralmente carecem de critérios explícitos, enquanto o RLVR é limitado em escopo devido ao seu foco em verificadores baseados em correção. Propomos o Aprendizado por Reforço com Feedback Binário Flexível (RLBFF), que combina a versatilidade das preferências orientadas por humanos com a precisão da verificação baseada em regras, permitindo que modelos de recompensa capturem aspectos sutis da qualidade da resposta além da mera correção. O RLBFF extrai princípios que podem ser respondidos de forma binária (por exemplo, precisão da informação: sim, ou legibilidade do código: não) a partir de feedback em linguagem natural. Esses princípios podem então ser usados para fundamentar o treinamento do Modelo de Recompensa como uma tarefa de implicação (a resposta satisfaz ou não satisfaz um princípio arbitrário). Mostramos que Modelos de Recompensa treinados dessa maneira podem superar modelos Bradley-Terry quando comparados em termos de dados e alcançar desempenho superior no RM-Bench (86,2%) e no JudgeBench (81,4%, #1 no ranking em 24 de setembro de 2025). Além disso, os usuários podem especificar princípios de interesse no momento da inferência para personalizar o foco dos nossos modelos de recompensa, em contraste com os modelos Bradley-Terry. Por fim, apresentamos uma receita totalmente de código aberto (incluindo dados) para alinhar o Qwen3-32B usando RLBFF e nosso Modelo de Recompensa, para igualar ou superar o desempenho do o3-mini e do DeepSeek R1 em benchmarks gerais de alinhamento como MT-Bench, WildBench e Arena Hard v2 (com menos de 5% do custo de inferência).
O desenvolvimento de sistemas de IA que operam eficazmente em diversos idiomas, mantendo-se culturalmente contextualizados, é um desafio de longa data, especialmente em cenários de baixos recursos. Os dados sintéticos oferecem uma abordagem promissora, mas sua eficácia em contextos multilíngues e multiculturais ainda é pouco explorada. Investigamos a criação e o impacto de conjuntos de dados sintéticos e culturalmente contextualizados para idiomas indianos por meio de uma estratégia de geração ascendente (bottom-up), que utiliza modelos de linguagem grandes (LLMs) de código aberto (>= 235 bilhões de parâmetros) para ancorar a geração de dados em conteúdos específicos da Wikipédia em cada idioma. Essa abordagem complementa o paradigma dominante de tradução de conjuntos de dados sintéticos de idiomas de altos recursos, como o inglês. Apresentamos o Updesh, um conjunto de dados sintéticos de alta qualidade e grande escala para tarefas de instrução, composto por 9,5 milhões de pontos de dados em 13 idiomas indianos, abrangendo diversas tarefas de raciocínio e geração, com ênfase em capacidades de contexto longo, interações multiturno e alinhamento com contextos culturais indianos. Uma avaliação abrangente, incorporando métricas automatizadas e anotações humanas em 10 mil avaliações, indica que os dados gerados são de alta qualidade, embora a avaliação humana destaque áreas para melhorias adicionais. Além disso, realizamos avaliações subsequentes ao ajustar modelos em nosso conjunto de dados e medir o desempenho em 15 conjuntos de dados multilíngues diversos. Modelos treinados com o Updesh alcançam ganhos significativos consistentemente em tarefas generativas e mantêm-se competitivos em tarefas de compreensão de linguagem natural (NLU) de múltipla escolha. Notavelmente, os aprimoramentos relativos são mais pronunciados em idiomas de baixos e médios recursos, reduzindo a lacuna em relação aos idiomas de altos recursos. Esses achados fornecem evidências empíricas de que a IA multilíngue eficaz requer estratégias multifacetadas de curadoria e geração de dados que incorporem metodologias contextualmente conscientes e culturalmente fundamentadas.
O Design Assistido por Computador (CAD) é um componente fundamental da prototipagem industrial, onde os modelos são definidos não por coordenadas brutas, mas por sequências de construção, como esboços e extrusões. Essa estrutura sequencial permite tanto a inicialização eficiente de protótipos quanto a edição subsequente. A prototipagem de CAD guiada por texto, que unifica a geração de Texto para CAD e a edição de CAD, tem o potencial de simplificar todo o pipeline de design. No entanto, trabalhos anteriores não exploraram esse cenário, em grande parte porque os tokenizadores padrão de modelos de linguagem de grande escala (LLM) decompõem sequências de CAD em partes de palavras de linguagem natural, falhando em capturar a semântica de CAD em nível primitivo e impedindo que módulos de atenção modelem a estrutura geométrica. Nós conjecturamos que uma estratégia de tokenização multimodal, alinhada com a natureza primitiva e estrutural do CAD, pode fornecer representações mais eficazes. Para isso, propomos o CAD-Tokenizer, um framework que representa dados de CAD com tokens específicos de modalidade usando um VQ-VAE baseado em sequência com pooling em nível primitivo e decodificação restrita. Esse design produz representações compactas e conscientes de primitivas que se alinham com a natureza estrutural do CAD. Aplicado à prototipagem de CAD guiada por texto unificada, o CAD-Tokenizer melhora significativamente o seguimento de instruções e a qualidade de geração, alcançando melhor desempenho quantitativo e qualitativo em comparação com LLMs de propósito geral e baselines específicas para a tarefa.
O reconhecimento preciso de textos em documentos históricos pode avançar significativamente o estudo e a preservação do patrimônio cultural. No entanto, os modelos visão-linguagem (VLMs) existentes são projetados para textos modernos e padronizados, não estando equipados para ler a diversidade de idiomas e escritas, layouts irregulares e degradações frequentes encontradas em materiais históricos. Este artigo apresenta o CHURRO, um VLM de 3 bilhões de parâmetros e pesos abertos, especializado no reconhecimento de textos históricos. O modelo é treinado no CHURRO-DS, o maior conjunto de dados de reconhecimento de textos históricos até o momento. O CHURRO-DS unifica 155 corpora históricos, compreendendo 99.491 páginas, abrangendo 22 séculos de herança textual em 46 agrupamentos linguísticos, incluindo variantes históricas e línguas extintas. Avaliamos vários VLMs de pesos abertos e fechados, além de sistemas de reconhecimento óptico de caracteres (OCR), no CHURRO-DS e descobrimos que o CHURRO supera todos os outros VLMs. No conjunto de testes do CHURRO-DS, o CHURRO alcança 82,3% (impresso) e 70,1% (manuscrito) de similaridade normalizada de Levenshtein, superando o segundo melhor modelo, o Gemini 2.5 Pro, em 1,4% e 6,5%, respectivamente, enquanto é 15,5 vezes mais econômico. Ao liberar o modelo e o conjunto de dados, nosso objetivo é permitir pesquisas impulsionadas pela comunidade para melhorar a legibilidade de textos históricos e acelerar o avanço acadêmico.
Modelos de linguagem multimodal de grande escala (MLLMs) têm demonstrado capacidades notáveis em alinhar entradas visuais com saídas de linguagem natural. No entanto, o grau em que os tokens gerados dependem de modalidades visuais permanece pouco compreendido, limitando a interpretabilidade e a confiabilidade. Neste trabalho, apresentamos o EAGLE, uma estrutura leve de caixa-preta para explicar a geração autoregressiva de tokens em MLLMs. O EAGLE atribui quaisquer tokens selecionados a regiões perceptuais compactas, enquanto quantifica a influência relativa de prioridades de linguagem e evidências perceptuais. A estrutura introduz uma função objetivo que unifica suficiência (pontuação de insight) e indispensabilidade (pontuação de necessidade), otimizada por meio de busca gulosa sobre regiões de imagem esparsificadas para atribuição fiel e eficiente. Além da atribuição espacial, o EAGLE realiza uma análise consciente da modalidade que desembaraça em que tokens se baseiam, fornecendo interpretabilidade refinada das decisões do modelo. Experimentos extensos em MLLMs de código aberto mostram que o EAGLE supera consistentemente os métodos existentes em fidelidade, localização e diagnóstico de alucinação, enquanto requer substancialmente menos memória GPU. Esses resultados destacam sua eficácia e praticidade para avançar a interpretabilidade dos MLLMs. O código está disponível em https://github.com/RuoyuChen10/EAGLE.
Embora os modelos de difusão tenham alcançado progressos notáveis na geração de imagens, suas saídas ainda podem parecer irreais e carecer de detalhes refinados, especialmente ao utilizar um número reduzido de avaliações de funções neurais (NFEs) ou escalas de orientação mais baixas. Para abordar essa questão, propomos uma nova técnica de amostragem baseada em momento, denominada amostragem guiada por histórico (HiGS), que melhora a qualidade e a eficiência da amostragem de difusão ao integrar previsões recentes do modelo em cada etapa de inferência. Especificamente, o HiGS aproveita a diferença entre a previsão atual e uma média ponderada das previsões passadas para direcionar o processo de amostragem em direção a saídas mais realistas, com melhores detalhes e estrutura. Nossa abordagem introduz praticamente nenhum cálculo adicional e se integra perfeitamente aos frameworks de difusão existentes, não exigindo treinamento extra nem ajuste fino. Experimentos extensivos mostram que o HiGS melhora consistentemente a qualidade da imagem em diversos modelos e arquiteturas, sob diferentes orçamentos de amostragem e escalas de orientação. Além disso, utilizando um modelo SiT pré-treinado, o HiGS alcança um novo estado da arte com um FID de 1,61 para geração não orientada de ImageNet em 256x256 com apenas 30 etapas de amostragem (em vez das 250 padrão). Assim, apresentamos o HiGS como um aprimoramento plug-and-play para a amostragem de difusão padrão, permitindo geração mais rápida com maior fidelidade.
Os sistemas predominantes de recuperação de texto-para-vídeo adotam principalmente modelos de incorporação para extração de características e calculam similaridades de cosseno para classificação. No entanto, esse design apresenta duas limitações. Pares de dados texto-vídeo de baixa qualidade podem comprometer a recuperação, mas são difíceis de identificar e examinar. A similaridade de cosseno por si só não fornece explicação para os resultados de classificação, limitando a interpretabilidade. Perguntamos: podemos interpretar os resultados de classificação para avaliar os modelos de recuperação e examinar os dados texto-vídeo? Este trabalho propõe o X-CoT, uma estrutura de recuperação explicável baseada no raciocínio CoT de LLM, em vez da classificação de similaridade baseada em modelos de incorporação. Primeiro, expandimos os benchmarks existentes com anotações adicionais de vídeo para apoiar a compreensão semântica e reduzir o viés dos dados. Também elaboramos um CoT de recuperação composto por etapas de comparação par a par, gerando raciocínios detalhados e classificação completa. O X-CoT melhora empiricamente o desempenho da recuperação e produz racionais detalhados. Ele também facilita a análise do comportamento do modelo e da qualidade dos dados. O código e os dados estão disponíveis em: https://github.com/PrasannaPulakurthi/X-CoT.
Embora os modelos baseados em Transformers tenham demonstrado um desempenho notável na modelagem de linguagem, suas altas complexidades resultam em custos elevados ao processar contextos longos. Em contraste, redes neurais recorrentes (RNNs), como modelos de atenção linear e modelos de espaço de estados, ganharam popularidade devido às suas complexidades constantes por token. No entanto, esses modelos recorrentes enfrentam dificuldades em tarefas que exigem a recuperação precisa de informações contextuais de contextos longos, pois todas as informações contextuais são comprimidas em um estado recorrente de tamanho constante. Trabalhos anteriores mostraram que a capacidade de recuperação está positivamente correlacionada com o tamanho do estado recorrente, mas o treinamento direto de RNNs com estados recorrentes maiores resulta em custos elevados de treinamento. Neste artigo, apresentamos o StateX, um pipeline de treinamento para expandir eficientemente os estados de RNNs pré-treinados por meio de pós-treinamento. Para duas classes populares de RNNs, atenção linear e modelos de espaço de estados, projetamos modificações arquitetônicas de pós-treinamento para aumentar o tamanho do estado sem aumento ou com aumento insignificante no número de parâmetros do modelo. Experimentos em modelos com até 1,3 bilhão de parâmetros demonstram que o StateX melhora eficientemente a capacidade de recuperação e aprendizado em contexto das RNNs sem incorrer em altos custos de pós-treinamento ou comprometer outras capacidades.
Transformadores autoregressivos (AR) surgiram como um paradigma poderoso para geração visual, em grande parte devido à sua escalabilidade, eficiência computacional e arquitetura unificada para linguagem e visão. Entre eles, a Geração Visual Autoregressiva de Predição de Próxima Escala (VAR) demonstrou recentemente um desempenho notável, superando até mesmo modelos baseados em difusão. Neste trabalho, revisitamos o VAR e revelamos uma percepção teórica: quando equipado com uma máscara de atenção markoviana, o VAR é matematicamente equivalente a uma difusão discreta. Denominamos essa reinterpretação como Refinamento Visual Escalável com Difusão Discreta (SRDD), estabelecendo uma ponte fundamentada entre transformadores AR e modelos de difusão. Aproveitando essa nova perspectiva, mostramos como é possível importar diretamente as vantagens da difusão, como refinamento iterativo, e reduzir ineficiências arquitetônicas no VAR, resultando em convergência mais rápida, custo de inferência reduzido e reconstrução zero-shot aprimorada. Em diversos conjuntos de dados, demonstramos que a perspectiva baseada em difusão do VAR leva a ganhos consistentes em eficiência e geração.
A localização de objetos 3D com base em uma sequência de medições de câmera é essencial para tarefas de vigilância críticas para a segurança, como o monitoramento de incêndios florestais baseado em drones. A localização de objetos detectados por uma câmera pode normalmente ser resolvida com estimativa densa de profundidade ou reconstrução 3D da cena. No entanto, no contexto de objetos distantes ou tarefas limitadas pela quantidade de recursos computacionais disponíveis, nenhuma dessas soluções é viável. Neste artigo, mostramos que a tarefa pode ser resolvida usando filtros de partículas tanto para cenários com um único alvo quanto para múltiplos alvos. O método foi estudado usando uma simulação 3D e uma sequência de segmentação de imagens baseada em drones com estimativas de pose da câmera baseadas no sistema global de navegação por satélite (GNSS). Os resultados mostraram que um filtro de partículas pode ser usado para resolver tarefas práticas de localização com base nas poses da câmera e segmentos de imagem nessas situações em que outras soluções falham. O filtro de partículas é independente do método de detecção, tornando-o flexível para novas tarefas. O estudo também demonstra que o monitoramento de incêndios florestais baseado em drones pode ser conduzido usando o método proposto em conjunto com um modelo de segmentação de imagens pré-existente.
A chamada de funções é uma capacidade fundamental dos modelos de linguagem de grande escala, essencial para agentes de IA. Benchmarks existentes, como o Berkeley Function Calling Leaderboard (BFCL), tau^2-Bench (arXiv:2506.07982) e ACEBench (arXiv:2501.12851), avaliam a correção dos argumentos, mas não testam a adesão a instruções de formato embutidas nas descrições dos parâmetros, como a inclusão de valores entre aspas duplas ou o uso de formatos de data ISO. Apresentamos o IFEval-FC, um benchmark inspirado no IFEval (arXiv:2311.07911) que avalia o seguimento preciso de instruções na chamada de funções. O IFEval-FC codifica formatos verificáveis diretamente nas descrições do esquema JSON, por exemplo, especificando que um valor não deve conter pontuação. Ele inclui 750 casos de teste, cada um consistindo de uma função com um formato embutido para um de seus parâmetros de entrada e uma consulta de usuário correspondente. A avaliação é totalmente algorítmica, garantindo objetividade, reprodutibilidade e escalabilidade. Nossos resultados mostram que até mesmo os modelos proprietários mais avançados, incluindo GPT-5 e Claude 4.1 Opus, frequentemente falham em seguir regras básicas de formatação, destacando uma limitação prática para sistemas de agentes no mundo real. O código completo e os dados estão disponíveis publicamente em https://github.com/Skripkon/IFEval-FC.