Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o DeepSeek-V3.2, um modelo que harmoniza alta eficiência computacional com desempenho superior em raciocínio e capacidades de agente. Os principais avanços técnicos do DeepSeek-V3.2 são os seguintes: (1) DeepSeek Sparse Attention (DSA): Introduzimos a DSA, um mecanismo de atenção eficiente que reduz substancialmente a complexidade computacional, preservando o desempenho do modelo em cenários de contexto longo. (2) Framework Escalável de Aprendizagem por Reforço: Através da implementação de um protocolo robusto de aprendizagem por reforço e da escalabilidade computacional pós-treinamento, o DeepSeek-V3.2 apresenta desempenho comparável ao GPT-5. Notavelmente, nossa variante de alto desempenho, DeepSeek-V3.2-Speciale, supera o GPT-5 e exibe proficiência em raciocínio equivalente ao Gemini-3.0-Pro, alcançando desempenho de medalha de ouro tanto na Olimpíada Internacional de Matemática (IMO) de 2025 quanto na Olimpíada Internacional de Informática (IOI). (3) Pipeline de Síntese de Tarefas de Agente em Larga Escala: Para integrar o raciocínio em cenários de uso de ferramentas, desenvolvemos um novo pipeline de síntese que gera dados de treinamento de forma sistemática e em escala. Esta metodologia facilita o treinamento pós-treinamento de agentes escalável, resultando em melhorias substanciais na generalização e na robustez de seguimento de instruções em ambientes complexos e interativos.
Os grandes modelos de linguagem são generalistas poderosos, mas resolver problemas profundos e complexos como os do Exame Final da Humanidade (HLE) permanece um desafio conceptual e computacionalmente dispendioso. Demonstramos que pequenos orquestradores que gerem outros modelos e uma variedade de ferramentas podem tanto elevar o limite superior da inteligência como melhorar a eficiência na resolução de tarefas agentivas difíceis. Apresentamos o ToolOrchestra, um método para treinar pequenos orquestradores que coordenam ferramentas inteligentes. O ToolOrchestra utiliza explicitamente aprendizagem por reforço com recompensas conscientes do resultado, da eficiência e das preferências do utilizador. Usando o ToolOrchestra, produzimos o Orchestrator, um modelo de 8B que alcança maior precisão a um custo inferior do que os agentes anteriores de uso de ferramentas, alinhando-se simultaneamente com as preferências do utilizador sobre quais ferramentas devem ser usadas para uma determinada consulta. No HLE, o Orchestrator alcança uma pontuação de 37,1%, superando o GPT-5 (35,1%) enquanto é 2,5 vezes mais eficiente. No tau2-Bench e no FRAMES, o Orchestrator supera o GPT-5 por uma ampla margem, utilizando apenas cerca de 30% do custo. Uma análise extensiva mostra que o Orchestrator alcança o melhor compromisso entre desempenho e custo em múltiplas métricas e generaliza robustamente para ferramentas não vistas. Estes resultados demonstram que compor diversas ferramentas com um modelo de orquestração leve é simultaneamente mais eficiente e mais eficaz do que os métodos existentes, abrindo caminho para sistemas práticos e escaláveis de raciocínio aumentado por ferramentas.
Os grandes modelos de linguagem (LLMs) evoluíram rapidamente de geradores de texto para solucionadores de problemas poderosos. No entanto, muitas tarefas abertas exigem pensamento crítico, integração de múltiplas fontes e resultados verificáveis, indo além do *prompting* único ou da geração aumentada por recuperação padrão. Recentemente, numerosos estudos exploraram a Pesquisa Profunda (PP), que visa combinar as capacidades de raciocínio dos LLMs com ferramentas externas, como motores de busca, capacitando assim os LLMs a atuarem como agentes de pesquisa capazes de completar tarefas complexas e de natureza aberta. Este estudo apresenta uma visão geral abrangente e sistemática dos sistemas de pesquisa profunda, incluindo um roteiro claro, componentes fundamentais, técnicas de implementação prática, desafios importantes e direções futuras. Especificamente, nossas principais contribuições são as seguintes: (i) formalizamos um roteiro de três estágios e distinguimos a pesquisa profunda de paradigmas relacionados; (ii) introduzimos quatro componentes-chave: planeamento de consultas, aquisição de informação, gestão de memória e geração de respostas, cada um emparelhado com subtaxonomias de granularidade fina; (iii) resumimos técnicas de otimização, incluindo *prompting*, afinação supervisionada e aprendizagem por reforço agentiva; e (iv) consolidamos critérios de avaliação e desafios em aberto, visando orientar e facilitar o desenvolvimento futuro. À medida que o campo da pesquisa profunda continua a evoluir rapidamente, comprometemo-nos a atualizar continuamente este estudo para refletir os progressos mais recentes nesta área.
As técnicas atuais de geração de vídeo se destacam na produção de clipes únicos, mas lutam para criar vídeos narrativos com múltiplos planos, que exigem arranjo flexível de cenas, narrativa coerente e controlabilidade além dos prompts de texto. Para enfrentar esses desafios, propomos o MultiShotMaster, uma estrutura para geração de vídeos com múltiplos planos altamente controlável. Estendemos um modelo pré-treinado de plano único integrando duas novas variantes de RoPE. Primeiro, introduzimos o RoPE Narrativo de Múltiplos Planos, que aplica um deslocamento de fase explícito nas transições de cena, permitindo um arranjo flexível de planos enquanto preserva a ordem narrativa temporal. Segundo, projetamos o RoPE Consciente da Posição Espaço-Temporal para incorporar tokens de referência e sinais de ancoragem, permitindo a injeção de referência ancorada espaço-temporalmente. Adicionalmente, para superar a escassez de dados, estabelecemos um pipeline automatizado de anotação para extrair vídeos de múltiplos planos, legendas, sinais de ancoragem entre planos e imagens de referência. Nossa estrutura aproveita as propriedades arquitetônicas intrínsecas para suportar a geração de vídeos multi-plano, apresentando consistência inter-planos dirigida por texto, sujeitos personalizados com controle de movimento e cenários personalizados dirigidos por fundo. Tanto a contagem de planos quanto a duração são flexivelmente configuráveis. Experimentos extensivos demonstram o desempenho superior e a controlabilidade excepcional de nossa estrutura.
A auto-evolução da IA tem sido há muito vislumbrada como um caminho para a superinteligência, na qual os modelos adquirem, refinam e internalizam conhecimentos de forma autónoma a partir das suas próprias experiências de aprendizagem. No entanto, na prática, os sistemas de auto-evolução não guiados frequentemente estagnam rapidamente ou até degradam-se à medida que o treinamento progride. Estas falhas surgem de problemas como a deriva de conceitos, o colapso da diversidade e a má evolução, à medida que os modelos reforçam os seus próprios vieses e convergem para comportamentos de baixa entropia. Para permitir que os modelos evoluam de forma estável e controlável, minimizando a dependência da supervisão humana, introduzimos o R-Few, uma estrutura guiada de Desafiador-Resolvedor (Self-Play) que incorpora uma supervisão humana leve através de fundamentação contextual e treino misto. Em cada iteração, o Desafiador amostra um pequeno conjunto de exemplos anotados por humanos para orientar a geração sintética de questões, enquanto o Resolvedor treina conjuntamente com exemplos humanos e sintéticos sob um currículo dinâmico baseado na dificuldade. Em benchmarks de matemática e raciocínio geral, o R-Few alcança melhorias consistentes e iterativas. Por exemplo, o Qwen3-8B-Base melhora +3,0 pontos em relação ao R-Zero em tarefas matemáticas e atinge um desempenho equivalente ao General-Reasoner, apesar deste último ter sido treinado com 20 vezes mais dados humanos. Estudos de ablação confirmam as contribuições complementares do treino fundamentado do desafiador e do treino curricular do resolvedor, e uma análise mais aprofundada mostra que o R-Few mitiga a deriva, produzindo dinâmicas coevolutivas mais estáveis e controláveis.
Apesar dos recentes avanços em sistemas agentes multimodais, as abordagens existentes frequentemente tratam a manipulação de imagens e a pesquisa na web como capacidades dissociadas, dependem fortemente de aprendizagem por reforço dispendiosa e carecem de planeamento fundamentado em traços de execução de ferramentas reais. Para superar estas limitações, apresentamos o Skywork-R1V4, um modelo agente multimodal de 30B (A3B) de parâmetros que unifica o planeamento multimodal, a manipulação ativa de imagens ("pensar com imagens"), a pesquisa multimodal profunda e, de forma mais crítica, o raciocínio intercalado que alterna dinamicamente entre operações visuais e a recuperação de conhecimento externo. Treinado exclusivamente através de *fine-tuning* supervisionado em menos de 30.000 trajetórias de alta qualidade e consistentes entre planeamento e execução, e validado através de filtragem de consistência passo a passo, o Skywork-R1V4 alcança resultados de última geração em *benchmarks* de perceção e pesquisa multimodal: atinge 66,1 no MMSearch e 67,2 no FVQA, superando o Gemini 2.5 Flash em todas as 11 métricas. O Skywork-R1V4 exibe um raciocínio emergente de longo horizonte no tempo de inferência, orquestrando com sucesso mais de 10 chamadas a ferramentas para resolver tarefas complexas e multi-etapa. Os nossos resultados demonstram que uma inteligência multimodal agente sofisticada pode ser alcançada apenas através de aprendizagem supervisionada criteriosamente selecionada, sem qualquer dependência de aprendizagem por reforço.
Apresentamos o MG-Nav (Navegação Guiada por Memória), uma estrutura de dupla escala para navegação visual *zero-shot* que unifica o planeamento global guiado por memória com o controlo local aprimorado por geometria. O seu núcleo é o Grafo de Memória Espacial Esparsa (SMG), uma memória compacta e centrada em regiões onde cada nó agrega semântica de *keyframes* multi-visão e de objetos, capturando tanto a aparência quanto a estrutura espacial, preservando a diversidade de pontos de vista. No nível global, o agente é localizado no SMG e um caminho de nós condicionado ao objetivo é planeado através de uma recuperação híbrida de imagem para instância, produzindo uma sequência de *waypoints* alcançáveis para orientação de longo horizonte. No nível local, uma política de base de navegação executa esses *waypoints* no modo de objetivo pontual com controlo consciente de obstáculos, e muda para o modo de objetivo visual (*image-goal*) ao navegar do nó final para o alvo visual. Para melhorar ainda mais o alinhamento de ponto de vista e o reconhecimento do objetivo, introduzimos o VGGT-adapter, um módulo geométrico leve construído sobre o modelo VGGT pré-treinado, que alinha as características da observação e do objetivo num espaço compartilhado e consciente da 3D. O MG-Nav opera o planeamento global e o controlo local em frequências diferentes, utilizando relocalização periódica para corrigir erros. Experiências nos benchmarks HM3D Instance-Image-Goal e MP3D Image-Goal demonstram que o MG-Nav atinge um desempenho *zero-shot* de última geração e mantém-se robusto sob rearranjos dinâmicos e condições de cena não vistas.
Este artigo apresenta o DualCamCtrl, um novo modelo de difusão de ponta a ponta para geração de vídeo controlado por câmera. Trabalhos recentes avançaram neste campo representando poses de câmera como condições baseadas em raios, no entanto, frequentemente carecem de compreensão suficiente da cena e de consciência geométrica. O DualCamCtrl visa especificamente esta limitação ao introduzir uma estrutura de ramo duplo que gera mutuamente sequências RGB e de profundidade consistentes com a câmera. Para harmonizar estas duas modalidades, propomos ainda o mecanismo de Alinhamento Mútuo Guiado por Semântica (SIGMA), que realiza a fusão RGB-profundidade de uma forma guiada por semântica e mutuamente reforçada. Estes projetos permitem coletivamente ao DualCamCtrl separar melhor a modelagem de aparência e geometria, gerando vídeos que aderem mais fielmente às trajetórias de câmera especificadas. Adicionalmente, analisamos e revelamos a influência distinta da profundidade e das poses da câmera através dos estágios de remoção de ruído e demonstramos ainda que os estágios iniciais e finais desempenham papéis complementares na formação da estrutura global e no refinamento de detalhes locais. Experimentos extensivos demonstram que o DualCamCtrl alcança uma geração de vídeo controlado por câmera mais consistente, com uma redução de mais de 40% nos erros de movimento da câmera em comparação com métodos anteriores. Nossa página do projeto: https://soyouthinkyoucantell.github.io/dualcamctrl-page/
A obtenção de sistemas de condução totalmente autónomos requer a aprendizagem de decisões racionais numa vasta gama de cenários, incluindo situações críticas para a segurança e fora da distribuição de dados de treino. No entanto, estes casos estão sub-representados no corpus do mundo real recolhido por especialistas humanos. Para colmatar a falta de diversidade de dados, introduzimos uma nova e escalável estrutura de simulação capaz de sintetizar um número massivo de estados não observados a partir de registos de condução existentes. A nossa pipeline utiliza técnicas avançadas de *neural rendering* com um ambiente reativo para gerar observações de alta fidelidade de múltiplas perspetivas, controladas pela trajetória do ego veículo perturbada. Além disso, desenvolvemos um mecanismo de geração de trajetórias pseudo-especialistas para estes novos estados simulados, de modo a fornecer supervisão para a ação. Com base nos dados sintetizados, verificamos que uma simples estratégia de co-treinamento com amostras do mundo real e simuladas pode levar a melhorias significativas na robustez e generalização de vários métodos de planeamento em *benchmarks* desafiadores do mundo real, até +6,8 EPDMS no navhard e +2,9 no navtest. Mais importante ainda, tal melhoria da política escala suavemente apenas com o aumento de dados de simulação, mesmo sem a incorporação de dados adicionais do mundo real. Revelamos ainda várias descobertas cruciais sobre este sistema de aprendizagem sim-real, que designamos por SimScale, incluindo o desenho dos pseudo-especialistas e as propriedades de escalabilidade para diferentes arquiteturas de políticas. Os nossos dados de simulação e código serão disponibilizados.
Os LLMs e Agentes alcançaram progressos impressionantes na geração de código, raciocínio matemático e descoberta científica. No entanto, os benchmarks existentes avaliam principalmente a correção, negligenciando a diversidade de métodos por trás das soluções. A verdadeira inovação depende não apenas da produção de respostas corretas, mas também da originalidade da abordagem. Apresentamos o InnoGym, o primeiro benchmark e framework concebido para avaliar sistematicamente o potencial de inovação de agentes de IA. O InnoGym introduz duas métricas complementares: o ganho de desempenho, que mede a melhoria em relação às soluções mais conhecidas, e a novidade, que captura diferenças metodológicas em relação a abordagens anteriores. O benchmark inclui 18 tarefas criteriosamente selecionadas de domínios científicos e de engenharia do mundo real, cada uma padronizada através de filtragem de recursos, validação do avaliador e recolha de soluções. Além disso, fornecemos o iGym, um ambiente de execução unificado para avaliações reproduzíveis e de longo horizonte. Experiências extensivas mostram que, embora alguns agentes produzam abordagens inovadoras, a sua falta de robustez limita os ganhos de desempenho. Estes resultados destacam uma lacuna fundamental entre criatividade e eficácia, sublinhando a necessidade de benchmarks que avaliem ambas.
A modelagem no espaço latente tem sido o padrão para Transformadores de Difusão (DiTs). No entanto, esta abordagem depende de um pipeline de dois estágios no qual o autoencoder pré-treinado introduz uma reconstrução com perdas, levando ao acúmulo de erros e dificultando a otimização conjunta. Para resolver essas questões, propomos o PixelDiT, um modelo de estágio único e de ponta a ponta que elimina a necessidade do autoencoder e aprende o processo de difusão diretamente no espaço de pixels. O PixelDiT adota uma arquitetura totalmente baseada em transformers, moldada por um design de nível duplo: um DiT em nível de *patch* que captura a semântica global e um DiT em nível de pixel que refina os detalhes de textura, permitindo o treinamento eficiente de um modelo de difusão no espaço de pixels enquanto preserva detalhes finos. Nossa análise revela que a modelagem eficaz de *tokens* em nível de pixel é essencial para o sucesso da difusão em pixels. O PixelDiT alcança um FID de 1,61 no ImageNet 256x256, superando os modelos generativos de pixels existentes por uma grande margem. Estendemos ainda mais o PixelDiT para a geração de texto para imagem e o pré-treinamos na resolução 1024x1024 no espaço de pixels. Ele alcança 0,74 no GenEval e 83,5 no DPG-bench, aproximando-se dos melhores modelos de difusão latente.
Embora os agentes de IA baseados em LLMs/VLMs tenham avançado rapidamente em matemática, codificação e uso de computadores, suas aplicações em ambientes físicos e sociais complexos permanecem desafiadoras. Construir agentes que possam sobreviver e prosperar no mundo real (por exemplo, ganhando renda de forma autônoma ou administrando um negócio) requer interação, raciocínio, treinamento e avaliação em grande escala em diversos cenários corporificados. No entanto, os simuladores de mundo existentes para tal desenvolvimento são insuficientes: eles frequentemente dependem de ambientes limitados e artesanais, simulam regras sociais e físicas simplificadas semelhantes a jogos e carecem de suporte nativo para agentes LLM/VLM. Apresentamos o SimWorld, um novo simulador construído na Unreal Engine 5, projetado para desenvolver e avaliar agentes LLM/VLM em ambientes ricos e realistas. O SimWorld oferece três capacidades principais: (1) simulação de mundo realista e aberta, incluindo dinâmicas físicas e sociais precisas e geração procedural de ambientes orientada por linguagem; (2) uma interface rica para agentes LLM/VLM, com entradas multimodais do mundo e ações de vocabulário aberto em diferentes níveis de abstração; e (3) cenários diversos e extensíveis de raciocínio físico e social que são facilmente personalizáveis pelos usuários. Demonstramos o SimWorld implantando agentes LLM de ponta (por exemplo, GPT-4o, Gemini-2.5-Flash, Claude-3.5 e DeepSeek-Prover-V2) em tarefas de entrega multiagente de longo prazo envolvendo cooperação e competição estratégicas. Os resultados revelam padrões e limitações de raciocínio distintos entre os modelos. Disponibilizamos o SimWorld como código aberto e esperamos que ele se torne uma plataforma fundamental para o avanço da inteligência de agentes no mundo real em todas as disciplinas: https://simworld.org.
Os modelos de difusão alcançaram sucesso notável na geração de imagens, mas sua implantação continua limitada pelo alto custo computacional e pela necessidade de numerosas etapas de inferência. Esforços anteriores para destilação com menos etapas tentaram pular passos redundantes treinando modelos estudantis compactos, mas frequentemente sofrem com altos custos de retreinamento e generalização degradada. Neste trabalho, adotamos uma perspectiva diferente: aceleramos de forma inteligente, não uniforme, aplicando acelerações menores aos estágios semânticos iniciais e maiores às fases redundantes posteriores. Instanciamos essa estratégia consciente das fases com dois especialistas que se dedicam às fases de eliminação de ruído lentas e rápidas. Surpreendentemente, em vez de investir um esforço massivo no retreinamento de modelos estudantis, descobrimos que simplesmente equipar o modelo base com adaptadores LoRA leves alcança tanto uma aceleração eficiente quanto uma forte generalização. Referimo-nos a esses dois adaptadores como Slow-LoRA e Fast-LoRA. Através de extensivos experimentos, nosso método alcança até 5× de aceleração sobre o modelo base, mantendo qualidade visual comparável em diversos benchmarks. Notavelmente, os especialistas LoRA são treinados com apenas 1 amostra em um único V100 dentro de uma hora, mas os modelos resultantes generalizam fortemente em prompts não vistos.
Os recentes avanços em modelos de linguagem grandes para vídeo demonstraram fortes capacidades na compreensão de clipes curtos. No entanto, dimensioná-los para vídeos com duração de horas ou dias permanece um grande desafio devido à capacidade limitada de contexto e à perda de detalhes visuais críticos durante a abstração. Os métodos existentes aumentados por memória mitigam isso aproveitando resumos textuais de segmentos de vídeo, mas dependem fortemente de texto e falham em utilizar evidências visuais ao raciocinar sobre cenas complexas. Além disso, a recuperação a partir de escalas temporais fixas limita ainda mais sua flexibilidade na captura de eventos que abrangem durações variáveis. Para resolver isso, introduzimos o WorldMM, um novo agente de memória multimodal que constrói e recupera de múltiplas memórias complementares, abrangendo representações textuais e visuais. O WorldMM compreende três tipos de memória: a memória episódica indexa eventos factuais em múltiplas escalas temporais, a memória semântica atualiza continuamente conhecimento conceitual de alto nível, e a memória visual preserva informações detalhadas sobre as cenas. Durante a inferência, um agente de recuperação adaptativa seleciona iterativamente a fonte de memória mais relevante e aproveita múltiplas granularidades temporais com base na consulta, continuando até determinar que informações suficientes foram reunidas. O WorldMM supera significativamente as bases de referência existentes em cinco benchmarks de questionamento e resposta em vídeos longos, alcançando um ganho médio de desempenho de 8,4% sobre os métodos state-of-the-art anteriores, demonstrando sua eficácia no raciocínio com vídeos longos.
A quantização para baixa largura de bits é uma abordagem padrão para a implantação de grandes modelos de linguagem. No entanto, alguns pesos e ativações extremos ampliam a faixa dinâmica e reduzem a resolução efetiva do quantizador. Uma abordagem comum de mitigação é aplicar algumas transformadas ortogonais fixas, como matrizes de Hadamard, antes da quantização, o que normalmente reduz a faixa dinâmica. No entanto, essas transformadas ignoram as estatísticas dos dados, e sua otimalidade atualmente não é compreendida. Neste trabalho, derivamos, pela primeira vez, transformadas lineares ótimas de forma fechada, em blocos, para quantização conjunta de pesos e ativações, usando quantizadores padrão livres de dados para formatos numéricos comuns. Especificamente, fornecemos derivações das transformadas adaptativas (conscientes dos dados) ótimas para quantizadores de bloco com escala AbsMax e arredondamento para o mais próximo (RTN), para formatos inteiros e de ponto flutuante. A construção resultante, que chamamos de WUSH, combina uma estrutura base Hadamard com um componente dependente de dados baseado em momentos de segunda ordem, resultando em uma transformada não ortogonal que é comprovadamente ótima sob suposições brandas e permanece estruturada para uma implementação eficiente. Resultados experimentais preliminares mostram que nossa abordagem melhora consistentemente a transformada de Hadamard para formatos comuns.
Apesar dos avanços na geração de áudio a partir de vídeo, a área concentra-se predominantemente na produção de áudio mono, carecendo de imersão espacial. As abordagens binaurais existentes permanecem limitadas por um pipeline de duas etapas que primeiro gera áudio mono e depois realiza a espacialização, frequentemente resultando em acumulação de erros e inconsistências espaço-temporais. Para superar esta limitação, introduzimos a tarefa de geração de áudio espacial binaural de forma integral (end-to-end) diretamente a partir de vídeo silencioso. Para suportar esta tarefa, apresentamos o conjunto de dados BiAudio, composto por aproximadamente 97 mil pares de vídeo-áudio binaural abrangendo diversas cenas do mundo real e trajetórias de rotação de câmera, construído através de um pipeline semiautomatizado. Adicionalmente, propomos o ViSAudio, um framework integral que emprega correspondência de fluxo condicional (conditional flow matching) com uma arquitetura de geração de áudio de ramificação dupla, na qual dois ramos dedicados modelam os fluxos latentes de áudio. Integrado com um módulo condicional de espaço-tempo, ele equilibra a consistência entre os canais enquanto preserva características espaciais distintivas, garantindo um alinhamento espaço-temporal preciso entre o áudio e o vídeo de entrada. Experimentos abrangentes demonstram que o ViSAudio supera os métodos state-of-the-art existentes tanto em métricas objetivas quanto em avaliações subjetivas, gerando áudio binaural de alta qualidade com imersão espacial que se adapta eficazmente a mudanças de ponto de vista, movimento da fonte sonora e diversos ambientes acústicos. Site do projeto: https://kszpxxzmc.github.io/ViSAudio-project.
Os modelos visão-linguagem-ação (VLA) demonstraram capacidades notáveis na manipulação robótica, mas o seu desempenho é sensível ao comprimento do bloco de ação utilizado durante o treino, designado por horizonte. O nosso estudo empírico revela um compromisso inerente: horizontes mais longos proporcionam uma melhor perspetiva global, mas degradam a precisão de granularidade fina, enquanto horizontes mais curtos aperfeiçoam o controlo local, mas têm dificuldades em tarefas de longo prazo, o que implica que a escolha fixa de um único horizonte é subótima. Para mitigar este compromisso, propomos uma estratégia de mistura de horizontes (MoH). A MoH reorganiza o bloco de ação em vários segmentos com diferentes horizontes, processa-os em paralelo com um transformador de ação partilhado e funde os resultados com um portão linear leve. Apresenta três benefícios atrativos. 1) A MoH explora conjuntamente, num único modelo, a perspetiva de longo prazo e a precisão de curto prazo, melhorando o desempenho e a generalização para tarefas complexas. 2) A MoH é plug-and-play para módulos de ação com atenção completa, com sobrecarga mínima no treino ou inferência. 3) A MoH permite inferência dinâmica com horizontes adaptativos, que seleciona ações estáveis através de consenso entre horizontes, alcançando uma taxa de processamento 2,5 vezes superior às linhas de base, mantendo um desempenho superior. Experiências extensivas com políticas baseadas em fluxo π_0, π_{0,5} e a política de regressão de um passo π_{reg} demonstram que a MoH produz ganhos consistentes e significativos tanto em simulações como em tarefas do mundo real. Notablemente, num contexto de tarefas mistas, π_{0,5} com MoH atinge um novo estado da arte com uma taxa de sucesso média de 99% no LIBERO após apenas 30k iterações de treino. Página do projeto: https://github.com/Timsty1/MixtureOfHorizons
O aprendizado por reforço (RL) enfrenta uma tensão persistente: políticas estáveis para otimizar são frequentemente demasiado simples para representar as distribuições de ação multimodais necessárias para controle complexo. Políticas Gaussianas fornecem verossimilhanças tratáveis e gradientes suaves, mas sua forma unimodal limita a expressividade. Por outro lado, políticas generativas baseadas em difusão ou *flow matching* podem modelar comportamentos multimodais ricos; no entanto, no RL online, elas são frequentemente instáveis devido a verossimilhanças intratáveis e gradientes ruidosos que se propagam através de cadeias de amostragem profundas. Nós abordamos esta tensão com um princípio estrutural chave: desacoplar a otimização da geração. Com base nesta intuição, introduzimos o GoRL (*Generative Online Reinforcement Learning*), uma estrutura que otimiza uma política latente tratável enquanto utiliza um decodificador generativo condicional para sintetizar ações. Um cronograma de atualização em duas escalas de tempo permite que a política latente aprenda de forma estável, enquanto o decodificador aumenta progressivamente a expressividade, sem exigir verossimilhanças de ação tratáveis. Em uma variedade de tarefas de controle contínuo, o GoRL supera consistentemente tanto as políticas Gaussianas quanto os *baselines* recentes de políticas generativas. Notavelmente, na tarefa HopperStand, ele atinge um retorno normalizado acima de 870, mais de 3 vezes o do *baseline* mais forte. Estes resultados demonstram que separar a otimização da geração fornece um caminho prático para políticas que são ao mesmo tempo estáveis e altamente expressivas.
Sistemas generativos recentes de áudio e vídeo sugerem que o acoplamento de modalidades beneficia não apenas a sincronia áudio-vídeo, mas também a própria modalidade de vídeo. Colocamos uma questão fundamental: O treinamento conjunto de eliminação de ruído áudio-vídeo melhora a geração de vídeo, mesmo quando nos importamos apenas com a qualidade do vídeo? Para estudar isso, introduzimos uma arquitetura eficiente em parâmetros Audio-Video Full DiT (AVFullDiT) que aproveita módulos pré-treinados de texto-para-vídeo (T2V) e texto-para-áudio (T2A) para eliminação de ruído conjunta. Treinamos (i) um modelo T2AV com AVFullDiT e (ii) uma contraparte apenas T2V sob configurações idênticas. Nossos resultados fornecem a primeira evidência sistemática de que a eliminação de ruído conjunta áudio-vídeo pode oferecer mais do que sincronia. Observamos melhorias consistentes em subconjuntos desafiadores que apresentam movimentos de contato de objetos grandes. Nossa hipótese é que prever áudio atua como um sinal privilegiado, incentivando o modelo a internalizar relações causais entre eventos visuais e suas consequências acústicas (por exemplo, os tempos de colisão impactam o som), o que, por sua vez, regulariza a dinâmica do vídeo. Nossas descobertas sugerem que o co-treinamento cross-modal é uma abordagem promissora para desenvolver modelos de mundo mais fortes e fisicamente fundamentados. O código e o conjunto de dados serão disponibilizados publicamente.
Neste artigo, propomos o CUDA-L2, um sistema que combina modelos de linguagem de grande escala (LLMs) e aprendizado por reforço (RL) para otimizar automaticamente kernels CUDA de Multiplicação de Matrizes Gerais em Precisão Half (HGEMM). Utilizando a velocidade de execução CUDA como recompensa do RL, o CUDA-L2 otimiza automaticamente kernels HGEMM em 1.000 configurações. O CUDA-L2 supera sistematicamente os principais benchmarks de multiplicação de matrizes até o momento, desde o amplamente utilizado {\it torch.matmul} até as bibliotecas de código fechado state-of-the-art da Nvidia, ou seja, {\it cuBLAS} e {\it cuBLASLt}. No modo offline, onde os kernels são executados consecutivamente sem intervalos de tempo, o CUDA-L2 apresenta um ganho médio de +22,0% em relação ao {\it torch.matmul}; +19,2% em relação ao {\it cuBLAS} usando a configuração de layout ideal (normal-normal NN e transposto-normal TN); +16,8% em relação ao {\it cuBLASLt-heuristic}, que consulta a biblioteca {\it cuBLASLt} e seleciona o algoritmo com base na sugestão heurística; e +11,4% em relação ao modelo mais competitivo, {\it cuBLASLt-AutoTuning}, que seleciona o algoritmo mais rápido entre até 100 candidatos das sugestões do {\it cuBLASLt}. No modo servidor, onde os kernels são executados em intervalos aleatórios simulando inferência em tempo real, os ganhos de velocidade aumentam ainda mais para +28,7%, +26,0%, +22,4% e +15,9% para {\it torch.matmul}, {\it cuBLAS}, {\it cuBLASLt-heuristic} e {\it cuBLASLt-AutoTuning}, respectivamente. O CUDA-L2 demonstra que mesmo kernels críticos para o desempenho e altamente otimizados, como o HGEMM, podem ser aprimorados por meio da automação com RL guiado por LLMs, explorando sistematicamente espaços de configuração em escalas impraticáveis para humanos. O projeto e o código estão disponíveis em github.com/deepreinforce-ai/CUDA-L2.
O raciocínio analógico está no centro da cognição humana, servindo como uma base importante para diversas atividades intelectuais. Embora trabalhos anteriores tenham demonstrado que os LLMs podem representar padrões de tarefas e conceitos superficiais, ainda não está claro se esses modelos podem codificar conceitos relacionais de alto nível e aplicá-los a novas situações por meio de comparações estruturadas. Neste trabalho, exploramos este aspeto fundamental usando analogias proporcionais e narrativas, e identificamos três descobertas principais. Primeiro, os LLMs codificam eficazmente as relações subjacentes entre entidades análogas; tanto a informação atributiva quanto a relacional propagam-se pelas camadas médias e superiores nos casos corretos, enquanto as falhas de raciocínio refletem a falta de informação relacional nessas camadas. Segundo, ao contrário dos humanos, os LLMs frequentemente lutam não apenas quando a informação relacional está ausente, mas também ao tentar aplicá-la a novas entidades. Nesses casos, a correção estratégica das representações ocultas em posições críticas de tokens pode facilitar a transferência de informação até certo ponto. Por fim, o raciocínio analógico bem-sucedido nos LLMs é marcado por um forte alinhamento estrutural entre situações análogas, enquanto as falhas frequentemente refletem um alinhamento degradado ou deslocado. No geral, nossas descobertas revelam que os LLMs exibem capacidades emergentes, mas limitadas, na codificação e aplicação de conceitos relacionais de alto nível, destacando tanto paralelos quanto lacunas com a cognição humana.
Propomos o MagicQuill V2, um sistema inovador que introduz um paradigma de composição em camadas para a edição generativa de imagens, preenchendo a lacuna entre o poder semântico dos modelos de difusão e o controle granular dos softwares gráficos tradicionais. Embora os transformadores de difusão se destaquem na geração holística, seu uso de *prompts* únicos e monolíticos não consegue separar as distintas intenções do usuário relativas a conteúdo, posição e aparência. Para superar isso, nosso método desconstrói a intenção criativa em uma pilha de pistas visuais controláveis: uma camada de conteúdo para o *o quê* criar, uma camada espacial para *onde* posicioná-lo, uma camada estrutural para *como* ele é formado e uma camada de cores para sua paleta. Nossas contribuições técnicas incluem um *pipeline* especializado de geração de dados para integração de conteúdo consciente do contexto, um módulo de controle unificado para processar todas as pistas visuais e um ramo espacial ajustado para edição local precisa, incluindo remoção de objetos. Experimentos extensivos validam que esta abordagem em camadas resolve efetivamente a lacuna de intenção do usuário, concedendo aos criadores controle direto e intuitivo sobre o processo generativo.
A reconhecção de tabelas (TR) tem como objetivo transformar imagens de tabelas em representações semi-estruturadas, como HTML ou Markdown. Sendo um componente central da análise de documentos, a TR sempre dependeu da aprendizagem supervisionada, com esforços recentes dominados pelo ajuste fino de modelos visão-linguagem (VLMs) usando dados rotulados. Embora os VLMs tenham elevado a TR a um novo patamar, avançar ainda mais o desempenho exige dados rotulados em larga escala, que são dispendiosos de obter. Consequentemente, embora os modelos proprietários tenham continuamente expandido os limites de desempenho, os modelos de código aberto, frequentemente treinados com recursos limitados e, na prática, a única opção viável para muitos devido a regulamentações de privacidade, ainda ficam muito aquém. Para colmatar esta lacuna, introduzimos a TRivia, um método de ajuste fino auto-supervisionado que permite a VLMs pré-treinados aprenderem TR diretamente a partir de imagens de tabelas não rotuladas do mundo real. Baseando-se no Group Relative Policy Optimization, a TRivia identifica automaticamente amostras não rotuladas que mais eficazmente facilitam a aprendizagem e elimina a necessidade de anotações humanas através de um mecanismo de recompensa baseado em perguntas e respostas. Um módulo guiado por atenção gera perguntas diversificadas para cada imagem de tabela, e a capacidade de interpretar os resultados do reconhecimento e respondê-las corretamente fornece *feedback* para otimizar o modelo de TR. Este processo em ciclo fechado permite que o modelo de TR aprenda autonomamente a reconhecer, estruturar e raciocinar sobre tabelas sem dados rotulados. Aproveitando este *pipeline*, apresentamos o TRivia-3B, um modelo de TR de código aberto, compacto e de última geração que supera os sistemas existentes (por exemplo, Gemini 2.5 Pro, MinerU2.5) em três *benchmarks* populares. O modelo e o código estão disponíveis em: https://github.com/opendatalab/TRivia
Os modelos Visão-Linguagem-Ação (VLA) treinados com correspondência de fluxo (flow matching) demonstraram capacidades impressionantes em tarefas de manipulação robótica. No entanto, o seu desempenho degrada-se frequentemente sob mudança de distribuição e em tarefas complexas de múltiplos passos, sugerindo que as representações aprendidas podem não capturar robustamente a semântica relevante para a tarefa. Apresentamos o DiG-Flow, uma estrutura fundamentada que aumenta a robustez dos VLA através de regularização geométrica. A nossa perceção fundamental é que a discrepância distribucional entre os *embeddings* de observação e de ação fornece um sinal geométrico significativo: um custo de transporte mais baixo indica representações compatíveis, enquanto um custo mais elevado sugere um potencial desalinhamento. O DiG-Flow calcula uma medida de discrepância entre as distribuições empíricas dos *embeddings* de observação e de ação, mapeia-a para um peso de modulação através de uma função monótona e aplica atualizações residuais aos *embeddings* de observação antes da correspondência de fluxo. Crucialmente, esta intervenção opera ao nível da representação sem modificar o caminho de correspondência de fluxo ou o campo vetorial alvo. Fornecemos garantias teóricas mostrando que o treino guiado por discrepância diminui comprovadamente o objetivo de treino, e que o refinamento de inferência guiada converge com contração. Empiricamente, o DiG-Flow integra-se nas arquiteturas VLA existentes com sobrecarga negligenciável e melhora consistentemente o desempenho, com ganhos particularmente pronunciados em tarefas complexas de múltiplos passos e sob dados de treino limitados.
Os avanços recentes na geração de vídeos têm permitido a síntese de vídeos com forte consistência temporal e qualidade visual impressionante, marcando um passo crucial em direção a modelos de base para visão. Para avaliar esses modelos de geração de vídeo, os benchmarks existentes concentram-se principalmente em fatores relacionados à percepção e compreensão visual, como estética visual, aderência a instruções e coerência temporal. No entanto, as capacidades de raciocínio baseado em regras dos modelos de geração de vídeo permanecem amplamente inexploradas. Embora estudos recentes tenham realizado explorações preliminares sobre se os modelos de vídeo podem servir como aprendizes de "zero-shot", eles ainda carecem de uma decomposição refinada das capacidades de raciocínio e de um protocolo abrangente de avaliação. Para preencher essa lacuna, apresentamos o RULER-Bench, um benchmark projetado para avaliar a capacidade de raciocínio dos modelos de geração de vídeo sob a perspectiva de regras cognitivas. Construído sobre dois paradigmas fundamentais - texto-para-vídeo e imagem-para-vídeo - o RULER-Bench abrange 40 tarefas representativas abrangendo seis categorias de regras, com 622 instâncias anotadas de alta qualidade. Para a avaliação de cada vídeo gerado, construímos uma lista de verificação cobrindo quatro métricas e utilizamos o GPT-3 para atribuir pontuações a cada questão, alcançando 85% de alinhamento com os julgamentos humanos. Experimentos extensivos mostram que o modelo estado da arte alcança apenas 48,87% na métrica de coerência de regras, destacando um espaço significativo para melhoria na capacidade de raciocínio dos modelos de vídeo de próxima geração. Esperamos que os insights obtidos com o RULER-Bench facilitem o desenvolvimento adicional da geração de vídeos com consciência do raciocínio, avançando os modelos de geração de vídeo em direção à inteligência de base para visão.
Os modelos Visão-Linguagem-Ação (VLA) baseados em Modelos de Visão-Linguagem (VLM) pré-treinados mostram grande potencial, mas sua praticidade é limitada pelo grande número de parâmetros. Para mitigar este problema, a utilização de um VLM leve foi explorada, mas isso compromete o raciocínio espaço-temporal. Embora alguns métodos sugiram que a incorporação de entradas 3D adicionais possa ajudar, eles geralmente dependem de VLMs grandes para fundir entradas 3D e 2D e ainda carecem de compreensão temporal. Portanto, propomos o SwiftVLA, uma arquitetura que aprimora um modelo compacto com compreensão 4D, preservando a eficiência de projeto. Especificamente, nossa abordagem apresenta um transformador de geometria visual 4D pré-treinado com um cache temporal que extrai características 4D de imagens 2D. Em seguida, para melhorar a capacidade do VLM de explorar tanto imagens 2D quanto características 4D, introduzimos os Tokens de Fusão, um conjunto de tokens treináveis treinados com um objetivo de previsão futura para gerar representações unificadas para a geração de ações. Finalmente, introduzimos uma estratégia de mascarar-e-reconstruir que mascara as entradas 4D para o VLM e treina o VLA para reconstruí-las, permitindo que o VLM aprenda representações 4D eficazes e permitindo que o ramo 4D seja descartado durante a inferência com perda mínima de desempenho. Experimentos em ambientes reais e simulados mostram que o SwiftVLA supera os modelos de referência leves e rivaliza com VLAs até 7 vezes maiores, alcançando desempenho comparável em dispositivos de borda enquanto é 18 vezes mais rápido e reduz a pegada de memória em 12 vezes.
Com os rápidos avanços de modelos multimodais poderosos, como GPT-4o, Nano Banana e Seedream 4.0 em Edição de Imagens, a lacuna de desempenho entre modelos de código fechado e de código aberto está a aumentar, principalmente devido à escassez de dados de treino em larga escala e de alta qualidade, e à falta de benchmarks abrangentes capazes de diagnosticar fraquezas dos modelos em diversos comportamentos de edição. Os métodos existentes de construção de dados enfrentam um compromisso entre escala e qualidade: as anotações humanas são de alta qualidade, mas não são escaláveis, enquanto os pipelines automatizados sofrem com propagação de erros e ruído. Para resolver isto, introduzimos um pipeline de dados leve que substitui múltiplas cadeias de ferramentas por um modelo de fim-para-fim e uma fase unificada de pós-verificação. Para um controlo de qualidade escalável, treinamos um modelo especialista de dupla tarefa de 7B, o Qwen-Verify, para deteção eficiente de falhas e recaptioning de instruções. Este pipeline produz o UnicEdit-10M, um conjunto de dados à escala de 10 milhões de exemplos, abrangendo diversas tarefas de edição básicas e complexas. Também propomos o UnicBench, um benchmark geral que se estende para além das edições básicas para avaliar explicitamente o raciocínio espacial e orientado por conhecimento. Para permitir um diagnóstico granular, introduzimos novas métricas, incluindo Consistência de Não-edição e Precisão de Raciocínio. A nossa análise de modelos principais no UnicBench revela as suas limitações e fornece direções claras para investigação futura.
A geração de vídeos com duração de minutos é um passo crítico para o desenvolvimento de modelos de mundo, fornecendo uma base para cenas estendidas realistas e simuladores de IA avançados. O emergente paradigma semi-autorregressivo (difusão em blocos) integra os pontos fortes dos modelos de difusão e autorregressivos, permitindo a geração de vídeos de comprimento arbitrário e melhorando a eficiência da inferência através de cache KV e amostragem paralela. No entanto, ele ainda enfrenta dois desafios persistentes: (i) o acúmulo de erro de longo horizonte induzido pelo cache KV, e (ii) a falta de benchmarks granulares para vídeos longos e métricas conscientes da coerência. Para superar essas limitações, propomos o BlockVid, uma nova estrutura de difusão em blocos equipada com cache KV esparso semântico, uma estratégia de treinamento eficaz chamada Block Forcing, e agendamento e embaralhamento de ruído dedicados por segmentos para reduzir a propagação de erros e melhorar a consistência temporal. Introduzimos ainda o LV-Bench, um benchmark granular para vídeos com duração de minutos, completo com novas métricas que avaliam a coerência de longo alcance. Extensos experimentos no VBench e no LV-Bench demonstram que o BlockVid supera consistentemente os métodos existentes na geração de vídeos de minutos de alta qualidade e coerentes. Em particular, ele alcança uma melhoria de 22,2% no VDE Subject e de 19,4% no VDE Clarity no LV-Bench em relação às abordagens state-of-the-art. Site do projeto: https://ziplab.co/BlockVid. Inferix (Código): https://github.com/alibaba-damo-academy/Inferix.
Nós estudamos como diferentes projetos de Cadeia de Pensamento (CoT) afetam a aquisição da capacidade de raciocínio visual generalizável em modelos de visão e linguagem (VLMs). Embora dados de CoT, especialmente CoT longos ou visuais, como "pensar com imagem", tenham sido amplamente utilizados para supervisionar o raciocínio intermediário, permanece incerto por que projetos específicos de CoT ajudam e quais deles realmente apoiam o raciocínio generalizável. Para avaliar isso sistematicamente, focamos em um benchmark controlado de resolução de labirintos onde as regras de raciocínio são totalmente visuais, a dificuldade pode ser ajustada pelo tamanho da grade, e todos os passos intermediários podem ser gerados automaticamente. Utilizando o Qwen2.5-VL-7B sob um pipeline padrão de SFT-para-RL, comparamos três formatos representativos de CoT: CoT em Linguagem, CoT com Aterramento (com trajetórias de coordenadas espaciais) e CoT Visual (com manipulações de imagem). Nossos experimentos revelam que CoT visuais e mais longos aceleram principalmente a convergência, mas não elevam o limite máximo de desempenho final; CoT concisos contendo apenas etapas essenciais de aterramento superam traços mais longos; e, surpreendentemente, o CoT que retém apenas os resultados mínimos de aterramento generaliza melhor através de diferentes tamanhos de labirinto. Validamos ainda mais essas percepções em outras tarefas centradas na visão. Essas descobertas destacam um efeito "menos é mais" e fornecem orientação prática para a construção de conjuntos de dados de SFT mais generalizáveis para o raciocínio visual.
Investigamos se os modelos generativos de vídeo podem exibir inteligência visuoespacial, uma capacidade central da cognição humana, usando apenas dados visuais. Para tanto, apresentamos o Video4Spatial, um framework que demonstra que modelos de difusão de vídeo condicionados exclusivamente no contexto cênico baseado em vídeo podem executar tarefas espaciais complexas. Validamos em duas tarefas: navegação em cena - seguir instruções de pose de câmera mantendo consistência com a geometria 3D da cena, e ancoragem de objetos - que requer localização semântica, seguimento de instruções e planejamento. Ambas as tarefas utilizam entradas exclusivamente visuais, sem modalidades auxiliares como profundidade ou poses. Com escolhas de design simples porém eficazes no framework e na curadoria de dados, o Video4Spatial demonstra forte compreensão espacial a partir do contexto de vídeo: ele planeja navegação e ancora objetos-alvo de forma ponta a ponta, segue instruções de pose de câmera mantendo consistência espacial, e generaliza para contextos longos e ambientes fora do domínio. Em conjunto, esses resultados avançam os modelos generativos de vídeo em direção ao raciocínio visuoespacial geral.
Apresentamos o Ovis-Image, um modelo de texto para imagem de 7B especialmente otimizado para renderização de texto de alta qualidade, projetado para operar com eficiência sob restrições computacionais rigorosas. Construído sobre a nossa estrutura anterior Ovis-U1, o Ovis-Image integra um decodificador visual baseado em difusão com a mais robusta backbone multimodal Ovis 2.5, aproveitando um pipeline de treinamento centrado em texto que combina pré-treinamento em larga escala com refinamentos pós-treinamento cuidadosamente adaptados. Apesar de sua arquitetura compacta, o Ovis-Image alcança um desempenho de renderização de texto equivalente a modelos abertos significativamente maiores, como o Qwen-Image, e aproxima-se de sistemas proprietários como Seedream e GPT4o. Crucialmente, o modelo mantém-se implantável em uma única GPU high-end com memória moderada, reduzindo a lacuna entre a renderização de texto de nível de ponta e a implantação prática. Nossos resultados indicam que combinar uma backbone multimodal forte com uma receita de treinamento cuidadosamente projetada e focada em texto é suficiente para alcançar uma renderização de texto bilíngue confiável sem recorrer a modelos superdimensionados ou proprietários.
A Inteligência Artificial Física visa desenvolver modelos capazes de perceber e prever dinâmicas do mundo real; no entanto, a extensão em que os atuais modelos de linguagem grandes multimodais e modelos generativos de vídeo sustentam essas habilidades é insuficientemente compreendida. Apresentamos o Physical AI Bench (PAI-Bench), um benchmark unificado e abrangente que avalia capacidades de percepção e previsão em geração de vídeo, geração condicional de vídeo e compreensão de vídeo, compreendendo 2.808 casos do mundo real com métricas alinhadas à tarefa, projetadas para capturar plausibilidade física e raciocínio específico de domínio. Nosso estudo fornece uma avaliação sistemática de modelos recentes e mostra que os modelos generativos de vídeo, apesar de alta fidelidade visual, frequentemente lutam para manter dinâmicas fisicamente coerentes, enquanto os modelos de linguagem grandes multimodais exibem desempenho limitado em previsão e interpretação causal. Essas observações sugerem que os sistemas atuais ainda estão em estágio inicial no atendimento às demandas perceptivas e preditivas da Inteligência Artificial Física. Em resumo, o PAI-Bench estabelece uma base realista para avaliar a Inteligência Artificial Física e destaca lacunas-chave que sistemas futuros devem abordar.
Com o rápido desenvolvimento dos Grandes Modelos de Linguagem Visual, o foco das tarefas de agentes de Interface Gráfica do Utilizador (IGU) desloca-se de tarefas de ecrã único para desafios complexos de navegação entre ecrãs. No entanto, ambientes reais de IGU, como software para PC e aplicações móveis, são frequentemente complexos e proprietários, dificultando a obtenção da informação ambiental abrangente necessária para o treino e avaliação de agentes. Esta limitação impede a investigação sistemática e a comparação de desempenho das capacidades de navegação dos agentes. Para superar esta limitação, introduzimos o GUI Exploration Lab, um motor de ambiente de simulação para investigação em navegação de agentes de IGU que permite a definição e composição flexível de ecrãs, ícones e grafos de navegação, fornecendo simultaneamente acesso total à informação ambiental para um treino e avaliação abrangentes dos agentes. Através de experiências extensivas, descobrimos que o ajuste fino supervisionado permite uma memorização eficaz do conhecimento fundamental, servindo como base crucial para o treino subsequente. Com base nisto, a aprendizagem por reforço de turno único aumenta ainda mais a generalização para cenários não vistos. Finalmente, a aprendizagem por reforço multi-turno incentiva o desenvolvimento de estratégias de exploração através de tentativa e erro interativa, levando a melhorias adicionais no desempenho da navegação entre ecrãs. Validamos os nossos métodos em benchmarks estáticos e interativos, demonstrando que as nossas descobertas generalizam-se eficazmente para cenários do mundo real. Estes resultados demonstram as vantagens das abordagens de aprendizagem por reforço na navegação de IGU e oferecem orientações práticas para a construção de agentes de IGU mais capazes e generalizáveis.
A reconstrução 3D a partir de imagens multi-visão é um desafio central na visão computacional. Recentemente, os métodos de *feed-forward* surgiram como alternativas eficientes e robustas às técnicas tradicionais de otimização por cena. Entre eles, modelos de última geração, como o *Visual Geometry Grounding Transformer* (VGGT), utilizam autoatenção completa sobre todos os *tokens* de imagem para capturar relações globais. No entanto, esta abordagem sofre de baixa escalabilidade devido à complexidade quadrática da autoatenção e ao grande número de *tokens* gerados em sequências longas de imagens. Neste trabalho, apresentamos o FlashVGGT, uma alternativa eficiente que resolve este estrangulamento através de um mecanismo de atenção baseado em descritores. Em vez de aplicar atenção global densa em todos os *tokens*, o FlashVGGT comprime a informação espacial de cada *frame* num conjunto compacto de *tokens* descritores. A atenção global é então calculada como atenção cruzada entre o conjunto completo de *tokens* de imagem e este conjunto menor de descritores, reduzindo significativamente a sobrecarga computacional. Além disso, a compacidade dos descritores permite inferência online em sequências longas através de um mecanismo *chunk-recursive* que reutiliza descritores em *cache* de blocos anteriores. Resultados experimentais mostram que o FlashVGGT alcança uma precisão de reconstrução competitiva com o VGGT, enquanto reduz o tempo de inferência para apenas 9,3% do VGGT para 1.000 imagens, e escala eficientemente para sequências superiores a 3.000 imagens. A nossa página do projeto está disponível em https://wzpscott.github.io/flashvggt_page/.
Embora os modelos de difusão para geração de vídeos de avatar dirigidos por áudio tenham alcançado progressos notáveis na síntese de sequências longas com sincronização áudio-visual natural e consistência de identidade, a geração de vídeos de performance musical com movimentos de câmera permanece amplamente inexplorada. Apresentamos o YingVideo-MV, o primeiro framework em cascata para geração de vídeos longos dirigidos por música. Nossa abordagem integra análise semântica de áudio, um módulo interpretativo de planejamento de cena (MV-Director), arquiteturas temporais de Transformers de difusão e modelagem de consistência de sequências longas para permitir a síntese automática de vídeos de performance musical de alta qualidade a partir de sinais de áudio. Construímos um conjunto de dados em larga escala "Music-in-the-Wild" coletando dados da web para viabilizar resultados diversos e de alta qualidade. Observando que os métodos existentes de geração de vídeos longos carecem de controle explícito de movimento de câmera, introduzimos um módulo adaptador de câmera que incorpora poses de câmera no ruído latente. Para melhorar a continuidade entre os clipes durante a inferência de sequências longas, propomos ainda uma estratégia de intervalo dinâmico de janela temporal que ajusta adaptativamente os intervalos de remoção de ruído com base na incorporação de áudio. Testes abrangentes de benchmark demonstram que o YingVideo-MV alcança desempenho excepcional na geração de vídeos musicais coerentes e expressivos, e permite uma sincronização precisa entre música, movimento e câmera. Mais vídeos estão disponíveis em nossa página do projeto: https://giantailab.github.io/YingVideo-MV/.
A próxima fronteira para a geração de vídeo reside no desenvolvimento de modelos capazes de raciocínio *zero-shot*, nos quais a compreensão das leis científicas do mundo real é crucial para a modelização precisa de resultados físicos sob condições diversas. No entanto, os *benchmarks* de vídeo existentes baseiam-se no senso comum físico, fornecendo uma perceção limitada sobre a capacidade de raciocínio científico dos modelos de vídeo. Apresentamos o VideoScience-Bench, um *benchmark* concebido para avaliar a compreensão científica ao nível de licenciatura em modelos de vídeo. Cada *prompt* codifica um cenário científico compósito que exige a compreensão e o raciocínio através de múltiplos conceitos científicos para gerar o fenómeno correto. O *benchmark* compreende 200 *prompts* criteriosamente selecionados, abrangendo 14 tópicos e 103 conceitos de física e química. Realizamos avaliações anotadas por especialistas em sete modelos de vídeo state-of-the-art em configurações T2V (*Text-to-Video*) e I2V (*Image-to-Video*) ao longo de cinco dimensões: Consistência com o *Prompt*, Congruência do Fenómeno, Dinamismo Correto, Imutabilidade e Continuidade Espaço-Temporal. Utilizando um VLM (*Vision-Language Model*) como Juiz para avaliar as gerações de vídeo, observámos uma forte correlação com as avaliações humanas. Tanto quanto sabemos, o VideoScience-Bench é o primeiro *benchmark* a avaliar os modelos de vídeo não apenas como geradores, mas também como sistemas de raciocínio, exigindo que as suas gerações demonstrem uma compreensão científica consistente com os fenómenos físicos e químicos esperados. Os nossos dados e código de avaliação estão disponíveis em: https://github.com/hao-ai-lab/VideoScience.
Hoje em dia, as pessoas podem facilmente gravar momentos memoráveis — como concertos, eventos desportivos, palestras, reuniões familiares e festas de aniversário — utilizando várias câmaras de consumo. No entanto, sincronizar estes fluxos de vídeo multicâmaras continua a ser um desafio. Os métodos existentes partem do pressuposto de configurações controladas, alvos específicos, correção manual ou hardware dispendioso. Apresentamos o VisualSync, uma estrutura de otimização baseada em dinâmicas multivista que alinha vídeos não posados e não sincronizados com precisão ao milissegundo. A nossa principal perceção é que qualquer ponto 3D em movimento, quando co-visível em duas câmaras, obedece a restrições epipolares uma vez devidamente sincronizado. Para explorar isto, o VisualSync recorre a reconstrução 3D pronta a usar, correspondência de características e rastreamento denso para extrair segmentos de trajetórias (tracklets), poses relativas e correspondências entre vistas. Em seguida, minimiza conjuntamente o erro epipolar para estimar o desvio temporal de cada câmara. Experiências em quatro conjuntos de dados diversificados e complexos demonstram que o VisualSync supera os métodos de base, alcançando um erro mediano de sincronização inferior a 50 ms.
Os Modelos de Linguagem de Grande Porte Multimodais (MLLMs) demonstram resultados promissores como motores de tomada de decisão para agentes incorporados que operam em ambientes físicos complexos. No entanto, os benchmarks existentes frequentemente priorizam o planeamento de alto nível ou o raciocínio espacial, deixando a inteligência de ação granular necessária para a interação física incorporada subexplorada. Para colmatar esta lacuna, introduzimos o CFG-Bench, um novo benchmark concebido para avaliar sistematicamente esta capacidade crucial. O CFG-Bench é composto por 1.368 vídeos selecionados, emparelhados com 19.562 pares pergunta-resposta de três modalidades, que visam quatro capacidades cognitivas: 1) Interação Física, 2) Relação Temporal-Causal, 3) Compreensão Intencional e 4) Julgamento Avaliativo. Em conjunto, estas dimensões fornecem uma estrutura sistemática para avaliar a capacidade de um modelo traduzir observações visuais em conhecimento acionável, indo além do mero reconhecimento superficial. A nossa avaliação abrangente no CFG-Bench revela que os principais MLLMs têm dificuldade em produzir instruções detalhadas para interações físicas e exibem limitações profundas no raciocínio de ordem superior sobre intenção e avaliação. Além disso, o ajuste fino supervisionado (SFT) com os nossos dados demonstra que ensinar um MLLM a articular ações granulares traduz-se diretamente em ganhos significativos de desempenho em benchmarks de incorporação estabelecidos. A nossa análise salienta estas limitações e oferece perspetivas para o desenvolvimento de agentes incorporados mais capazes e fundamentados.
Os modelos de linguagem autorregressivos (AR) e os Modelos de Linguagem de Difusão (DLMs) constituem os dois paradigmas principais dos grandes modelos de linguagem. No entanto, ambos os paradigmas sofrem de capacidades de raciocínio insuficientes. O raciocínio humano inerentemente depende de conhecimento e pensamento causal, que se refletem na linguagem natural. Mas no paradigma AR, a linguagem é modelada como previsão do próximo token (uma ordem estritamente da esquerda para a direita, token por token), enquanto a própria linguagem natural exibe estruturas causais mais flexíveis. No paradigma DLM, o mecanismo de atenção é totalmente conectado, o que ignora completamente a ordem causal. Para preencher esta lacuna, propomos um **M**odelo de **L**inguagem de **D**ifusão **G**uiado por **C**onceitos **C**ausais (C²DLM). Partindo da atenção totalmente conectada do DLM, o C²DLM obtém primeiro um grafo causal a nível conceptual a partir do modelo professor e, em seguida, guia explicitamente a atenção para aprender relações causais entre conceitos. Ao focar-se nas relações causais e evitar interferências de subobjetivos difíceis envolvendo inversão causal, o C²DLM melhora 12% com cerca de 3,2 vezes de aceleração no treino na tarefa COT-OrderPerturb e alcança um ganho médio de 1,31% em seis tarefas de raciocínio subsequentes. Mais detalhes no repositório ~https://github.com/Kairong-Han/C-2-DLM{aqui}.
A edição de vídeos retrato é uma tarefa desafiadora que requer controle flexível, porém preciso, sobre uma ampla gama de modificações, como alterações de aparência, edições de expressão ou adição de objetos. A principal dificuldade reside em preservar o comportamento temporal original do sujeito, exigindo que cada quadro editado permaneça perfeitamente sincronizado com o quadro de origem correspondente. Apresentamos o Sync-LoRA, um método para edição de vídeos retrato que alcança modificações visuais de alta qualidade, mantendo a sincronização precisa por quadro e a consistência da identidade. Nossa abordagem utiliza um modelo de difusão de imagem para vídeo, no qual a edição é definida pela modificação do primeiro quadro e subsequentemente propagada para toda a sequência. Para permitir uma sincronização precisa, treinamos um LoRA contextual usando vídeos pareados que descrevem trajetórias de movimento idênticas, mas diferem na aparência. Esses pares são gerados e curados automaticamente por meio de um processo de filtragem baseado em sincronização que seleciona apenas os exemplos mais alinhados temporalmente para o treinamento. Esta configuração de treinamento ensina o modelo a combinar pistas de movimento do vídeo de origem com as alterações visuais introduzidas no primeiro quadro editado. Treinado em um conjunto compacto e altamente curado de retratos humanos sincronizados, o Sync-LoRA generaliza para identidades não vistas e edições diversas (por exemplo, modificar a aparência, adicionar objetos ou alterar planos de fundo), lidando de forma robusta com variações de pose e expressão. Nossos resultados demonstram alta fidelidade visual e forte coerência temporal, alcançando um equilíbrio robusto entre a fidelidade da edição e a preservação precisa do movimento.
A prova automática de teoremas em geometria euclidiana, particularmente para problemas de nível da Olimpíada Internacional de Matemática (IMO), continua a ser um grande desafio e um foco de pesquisa importante na Inteligência Artificial. Neste artigo, apresentamos um método altamente eficiente para prova de teoremas geométricos que é executado inteiramente em CPUs, sem depender de inferência baseada em redes neurais. Nosso estudo inicial mostra que uma estratégia aleatória simples para adicionar pontos auxiliares pode atingir o desempenho humano de nível medalha de prata na IMO. Com base nisso, propomos o HAGeo, um método heurístico para adicionar construções auxiliares na dedução geométrica que resolve 28 dos 30 problemas do benchmark IMO-30, alcançando desempenho de nível medalha de ouro e superando a AlphaGeometry, uma abordagem competitiva baseada em redes neurais, por uma margem notável. Para avaliar nosso método e as abordagens existentes de forma mais abrangente, construímos ainda o HAGeo-409, um benchmark composto por 409 problemas de geometria com níveis de dificuldade avaliados por humanos. Em comparação com o amplamente utilizado IMO-30, nosso benchmark apresenta desafios maiores e fornece uma avaliação mais precisa, estabelecendo um padrão mais alto para a prova automática de teoremas geométricos.
Os modelos visuais-linguísticos agentes estão cada vez mais a ser treinados para "pensar com imagens" através da invocação de operações visuais. No entanto, demonstramos que uma alta precisão na resposta final frequentemente oculta um raciocínio visual infiel: os modelos podem invocar ferramentas em regiões irrelevantes ou ignorar completamente os seus resultados, mas ainda assim adivinhar a resposta correta. Neste trabalho, propomos primeiro um protocolo de avaliação de fidelidade que mede se as saídas visuais intermédias das ferramentas (ex.: recortes) contêm efetivamente a evidência solicitada. Isto revela que os agentes visuais recentes atingem alta precisão na resposta final, mas exibem baixas taxas de uso fiel de ferramentas em benchmarks de busca visual. Introduzimos depois o CodeV, um agente visual baseado em código treinado com Otimização de Política Consciente de Ferramentas (TAPO). A TAPO é uma estrutura de RL a nível de processo que aumenta o GRPO com recompensas densas definidas diretamente nas entradas e saídas das ferramentas visuais, em vez de em tokens de cadeia de pensamento, tornando a supervisão mais fácil de verificar e menos suscetível a "hacking" de recompensas. O CodeV representa ferramentas visuais como código Python executável, e a TAPO atribui recompensas passo a passo baseadas apenas na pergunta e na saída da ferramenta, incentivando um uso de ferramentas tanto necessário como consistente com a evidência. Num pipeline de duas fases (SFT+RL), o CodeV atinge uma precisão competitiva ou superior, aumentando substancialmente as taxas de uso fiel de ferramentas em benchmarks de busca visual relacionados. Para além da busca visual, o CodeV atinge um desempenho forte numa variedade de benchmarks de raciocínio multimodal e matemático, sugerindo que supervisionar explicitamente o comportamento intermédio das ferramentas é crucial para construir sistemas de raciocínio visual agentes e confiáveis.
Os grandes modelos multimodais alcançaram progressos notáveis tanto na compreensão quanto na geração. Esforços recentes buscam modelos multimodais unificados que integram componentes heterogêneos para suportar ambas as capacidades em um único framework. No entanto, essa unificação introduz ineficiências na inferência, por exemplo, tarefas ou amostras específicas podem não exigir todo o conhecimento ou capacidade do modelo unificado. Ainda assim, uma compreensão sistemática de como essas ineficiências se manifestam em diferentes componentes permanece limitada. Neste trabalho, primeiro conduzimos uma análise sistemática dos componentes do modelo multimodal unificado usando a poda livre de treinamento como metodologia de sondagem, considerando tanto a poda em profundidade quanto a redução em largura. Nosso estudo revela que o componente de compreensão exibe notável compressibilidade tanto em tarefas de compreensão quanto de geração, sendo mais pronunciada nesta última. Em contraste, os componentes de geração são altamente sensíveis à compressão, com o desempenho deteriorando-se acentuadamente mesmo sob taxas de compressão moderadas. Para superar essa limitação, propomos a Adaptação por Mistura de Especialistas (MoE), inspirada pelos padrões de ativação dinâmica observados em diferentes amostras. Esta abordagem particiona o módulo de geração em múltiplos especialistas e permite ativação esparsa para restaurar a qualidade da geração. Validamos a eficácia da ativação esparsa através do ajuste com especialistas congelados e demonstramos ainda que uma adaptação totalmente treinável proporciona ganhos adicionais. Como resultado, o modelo BAGEL adaptado alcança um desempenho comparável ao modelo completo enquanto ativa apenas cerca de metade de seus parâmetros. O código está disponível em https://github.com/Shwai-He/SparseUnifiedModel{este link}.
Recentemente, estruturas de aprendizagem por reforço para políticas de percepção visual começaram a incorporar cadeias de raciocínio intermediárias expressas em linguagem natural. Observações empíricas indicam que esse raciocínio intermediário puramente linguístico frequentemente reduz o desempenho em tarefas de percepção. Argumentamos que o problema central não está no raciocínio em si, mas na sua forma: enquanto essas cadeias realizam raciocínio semântico em um espaço linguístico não estruturado, a percepção visual requer raciocínio em um espaço espacial e centrado em objetos. Em resposta, apresentamos a Artemis, uma estrutura de aprendizagem de política de percepção que realiza raciocínio estruturado baseado em propostas, onde cada etapa intermediária é representada como um par (rótulo, caixa delimitadora) que captura um estado visual verificável. Este projeto permite o rastreamento explícito de estados intermediários, a supervisão direta da qualidade da proposta e evita a ambiguidade introduzida pelo raciocínio baseado em linguagem. A Artemis é construída sobre o Qwen2.5-VL-3B, atinge um forte desempenho em tarefas de fundamentação (grounding) e detecção e exibe uma generalização substancial para tarefas de contagem e percepção geométrica. As melhorias consistentes nessas diversas configurações confirmam que alinhar o raciocínio com representações espaciais aprimora a aprendizagem de políticas de percepção. Devido ao seu raciocínio visual fortalecido, a Artemis também alcança um desempenho competitivo em benchmarks gerais de MLLM (Large Multimodal Models), ilustrando que o raciocínio espacialmente fundamentado fornece uma rota principiada para políticas de percepção escaláveis e gerais.
Os Modelos de Linguagem de Difusão Mascarada (MDLMs) surgiram recentemente como uma alternativa promissora aos Modelos de Linguagem Autorregressivos (ARLMs), aproveitando um objetivo de remoção de ruído que, em princípio, deveria permitir uma utilização de contexto mais uniforme. Neste trabalho, examinamos as capacidades de compreensão contextual dos MDLMs e descobrimos duas limitações principais. Primeiro, apesar do seu objetivo de treinamento mais global e do mecanismo de atenção bidirecional, de forma semelhante aos ARLMs, os MDLMs exibem um forte viés de localidade: o desempenho é altamente sensível à posição da informação relevante dentro da entrada, favorecendo o contexto local em detrimento do contexto distante. Segundo, mostramos que anexar um grande número de *tokens* de máscara – necessários para a geração – pode degradar significativamente a compreensão contextual. Por meio de ablações sistemáticas, descobrimos que essas máscaras atuam como elementos de distração, reduzindo a capacidade do modelo de processar informações relevantes. Para resolver isso, introduzimos uma função de perda agnóstica à máscara que incentiva as previsões a permanecerem invariantes em relação ao número de máscaras anexadas. O ajuste fino com este objetivo mitiga substancialmente o efeito de distração das máscaras, melhorando a robustez dos MDLMs. No geral, nossas descobertas revelam limitações críticas do paradigma atual de treinamento de MDLMs e fornecem insights acionáveis para a construção de modelos de linguagem baseados em difusão com uma compreensão contextual mais forte.
A globalização da educação e o rápido crescimento do aprendizado online tornaram a localização de conteúdo educacional um desafio crítico. Os materiais de aula são inerentemente multimodais, combinando áudio falado com slides visuais, o que exige sistemas capazes de processar múltiplos modos de entrada. Para proporcionar uma experiência de aprendizagem acessível e completa, as traduções devem preservar todas as modalidades: texto para leitura, slides para compreensão visual e fala para aprendizado auditivo. Apresentamos o BOOM, um companheiro de aula multimodal e multilíngue que traduz conjuntamente o áudio e os slides da aula para produzir saídas sincronizadas em três modalidades: texto traduzido, slides localizados com elementos visuais preservados e fala sintetizada. Esta abordagem de ponta a ponta permite que os alunos acessem as aulas em seu idioma nativo, visando preservar o conteúdo original em sua totalidade. Nossos experimentos demonstram que as transcrições com consciência dos slides também produzem benefícios em cascata para tarefas subsequentes, como sumarização e resposta a perguntas. Disponibilizamos nosso código de Tradução de Slides em https://github.com/saikoneru/image-translator e o integramos no Lecture Translator em https://gitlab.kit.edu/kit/isl-ai4lt/lt-middleware/ltpipeline}\footnote{Todo o código e modelos disponibilizados estão licenciados sob a Licença MIT.}
O contato do pé desempenha um papel crítico na interação humana com o mundo e, portanto, explorar esse contato pode avançar nossa compreensão do movimento humano e da interação física. Apesar de sua importância, os métodos existentes frequentemente aproximam o contato do pé usando uma restrição de velocidade zero e focam no contato a nível articular, falhando em capturar a interação detalhada entre o pé e o mundo. A estimativa densa do contato do pé é crucial para modelar com precisão essa interação, mas a previsão do contato denso do pé a partir de uma única imagem RGB permanece amplamente inexplorada. Existem dois desafios principais para aprender a estimativa densa do contato do pé. Primeiro, os calçados exibem aparências altamente diversificadas, dificultando a generalização dos modelos entre diferentes estilos. Segundo, o solo frequentemente tem uma aparência monótona, dificultando a extração de características informativas. Para enfrentar esses problemas, apresentamos uma estrutura de estimativa de contato do pé (FECO) que aprende o contato denso do pé com aprendizado invariante ao estilo do calçado e consciente do solo. Para superar o desafio da diversidade de aparência dos calçados, nossa abordagem incorpora treinamento adversarial de estilo de calçado que impõe características invariantes ao estilo para a estimativa de contato. Para utilizar efetivamente as informações do solo, introduzimos um extrator de características do solo que captura as propriedades do solo com base no contexto espacial. Como resultado, nosso método proposto alcança uma estimativa robusta do contato do pé, independentemente da aparência do calçado, e aproveita efetivamente as informações do solo. O código será disponibilizado.
Os sistemas de última geração para Geração de Grafos de Cena em Vídeo (VSGG) fornecem compreensão visual estruturada, mas operam como pipelines fechados e de avanço direto, sem capacidade de incorporar orientação humana. Em contraste, modelos de segmentação acionáveis por prompt, como o SAM2, permitem interação precisa do usuário, mas carecem de raciocínio semântico ou relacional. Apresentamos o Click2Graph, o primeiro framework interativo para Geração de Grafos de Cena Panóptica em Vídeo (PVSG) que unifica o prompting visual com a compreensão espacial, temporal e semântica. A partir de uma única indicação do usuário, como um clique ou uma caixa delimitadora, o Click2Graph segmenta e rastreia o sujeito ao longo do tempo, descobre autonomamente objetos interagentes e prevê triplas <sujeito, objeto, predicado> para formar um grafo de cena temporalmente consistente. Nosso framework introduz dois componentes-chave: um Módulo de Descoberta de Interação Dinâmica que gera prompts de objetos condicionados ao sujeito, e um Cabeçalho de Classificação Semântica que realiza raciocínio conjunto de entidades e predicados. Experimentos no benchmark OpenPVSG demonstram que o Click2Graph estabelece uma base sólida para PVSG guiada pelo usuário, mostrando como o prompting humano pode ser combinado com a ancoragem panóptica e a inferência relacional para permitir uma compreensão de cena em vídeo controlável e interpretável.