Artigos de pesquisa em IA selecionados diariamente com traduções
Os recentes avanços na geração de vídeo baseada em difusão abriram novas possibilidades para a edição controlável de vídeo, no entanto, a inserção realista de objetos em vídeo (VOI) permanece um desafio devido à limitada compreensão de cenas 4D e ao tratamento inadequado de oclusões e efeitos de iluminação. Apresentamos o InsertAnywhere, uma nova estrutura VOI que alcança um posicionamento de objetos geometricamente consistente e uma síntese de vídeo fiel à aparência. Nosso método começa com um módulo de geração de máscara com consciência 4D que reconstrói a geometria da cena e propaga o posicionamento de objetos especificado pelo usuário através dos quadros, mantendo a coerência temporal e a consistência de oclusão. Com base nesta fundação espacial, estendemos um modelo de geração de vídeo baseado em difusão para sintetizar conjuntamente o objeto inserido e suas variações locais circundantes, como iluminação e sombreamento. Para permitir o treinamento supervisionado, introduzimos o ROSE++, um conjunto de dados sintético com consciência de iluminação, construído através da transformação do conjunto de dados de remoção de objetos ROSE em trios de vídeo com objeto removido, vídeo com objeto presente e uma imagem de referência gerada por VLM. Através de extensivos experimentos, demonstramos que nossa estrutura produz inserções de objetos geometricamente plausíveis e visualmente coerentes em diversos cenários do mundo real, superando significativamente os modelos de pesquisa e comerciais existentes.
Os seres humanos compreendem textos longos e complexos ao recorrer a uma representação semântica holística do conteúdo. Esta visão global ajuda a organizar o conhecimento prévio, a interpretar novas informações e a integrar evidências dispersas ao longo de um documento, conforme revelado pela Capacidade de Consciência do Panorama Mental (Mindscape-Aware Capability) na psicologia. Os sistemas atuais de Geração Aumentada por Recuperação (RAG) carecem dessa orientação e, portanto, têm dificuldades com tarefas de contexto longo. Neste artigo, propomos o RAG com Consciência do Panorama Mental (MiA-RAG), a primeira abordagem que equipa sistemas RAG baseados em LLM com uma consciência explícita do contexto global. O MiA-RAG constrói um panorama mental através de sumarização hierárquica e condiciona tanto a recuperação quanto a geração a esta representação semântica global. Isto permite que o módulo de recuperação forme incorporações de consulta enriquecidas e que o gerador raciocine sobre as evidências recuperadas dentro de um contexto global coerente. Avaliamos o MiA-RAG em diversos benchmarks de contexto longo e bilíngues para compreensão baseada em evidências e construção de sentido global. O sistema supera consistentemente os baseline, e uma análise mais aprofundada mostra que ele alinha detalhes locais com uma representação global coerente, permitindo uma recuperação e raciocínio de contexto longo mais semelhantes aos humanos.
Os modelos de visão e linguagem (VLMs) em larga escala têm alcançado recentemente avanços notáveis na compreensão multimodal, mas seu tamanho massivo os torna impraticáveis para implantação em dispositivos móveis ou de borda. Isso levanta a necessidade de VLMs compactos, porém capazes, que possam aprender eficientemente de grandes professores. No entanto, a destilação de conhecimento de um professor grande para um estudante pequeno permanece desafiadora devido à grande diferença de tamanho: o estudante frequentemente falha em reproduzir as representações complexas e de alta dimensão do professor, levando a um aprendizado instável e a desempenho degradado. Para resolver isso, propomos o Masters (Mascaramento do Professor e Reforço do Estudante), uma estrutura de destilação por reforço progressivo com mascaramento. O Masters primeiro mascara os pesos não dominantes do professor para reduzir a complexidade desnecessária e, em seguida, restaura progressivamente o professor aumentando gradualmente sua capacidade durante o treinamento. Essa estratégia permite que o estudante aprenda representações mais ricas do professor de forma suave e estável. Para refinar ainda mais a transferência de conhecimento, o Masters integra um estágio de RL offline com duas recompensas complementares: uma recompensa de precisão, que mede a correção das respostas geradas, e uma recompensa de destilação, que quantifica a facilidade de transferir respostas do professor para o estudante. Diferente dos paradigmas de RL online de "pensar-responder", que são computacionalmente caros e geram respostas longas, nosso RL offline aproveita respostas pré-geradas por professores mascarados. Estas fornecem orientação rica e eficiente, permitindo que os estudantes alcancem um desempenho forte sem exigir o processo de pensar-responder.
Os modelos de linguagem multimodal (MLLMs) alcançaram progressos notáveis em tarefas de compreensão visual, como localização visual, segmentação e legendagem. No entanto, sua capacidade de perceber características de imagem a nível perceptual permanece limitada. Neste trabalho, apresentamos o UniPercept-Bench, um framework unificado para compreensão de imagem a nível perceptual em três domínios-chave: Estética, Qualidade, Estrutura e Textura. Estabelecemos um sistema de definição hierárquica e construímos conjuntos de dados em larga escala para avaliar a compreensão de imagem a nível perceptual. Com base nessa fundação, desenvolvemos uma linha de base robusta, o UniPercept, treinado através de Pré-treinamento Adaptativo ao Domínio e RL Alinhado à Tarefa, permitindo generalização robusta em tarefas de Classificação Visual (VR) e Resposta a Perguntas Visuais (VQA). O UniPercept supera os MLLMs existentes na compreensão de imagem a nível perceptual e pode servir como um modelo de recompensa plug-and-play para geração de texto para imagem. Este trabalho define a Compreensão de Imagem a Nível Perceptual na era dos MLLMs e, através da introdução de um benchmark abrangente juntamente com uma linha de base robusta, fornece uma base sólida para avançar a compreensão multimodal de imagem a nível perceptual.
O desenvolvimento de agentes de interface gráfica (GUI) pode revolucionar a próxima geração de interação homem-computador. Motivados por esta visão, apresentamos o MAI-UI, uma família de agentes de GUI fundamentais que abrange todo o espectro de tamanhos, incluindo variantes de 2B, 8B, 32B e 235B-A22B. Identificamos quatro desafios principais para uma implantação realista: a falta de interação nativa entre agente e utilizador, os limites da operação exclusiva com interface gráfica, a ausência de uma arquitetura de implantação prática e a fragilidade em ambientes dinâmicos. O MAI-UI aborda estas questões com uma metodologia unificada: um *pipeline* de dados de auto-evolução que expande os dados de navegação para incluir interação do utilizador e chamadas de ferramentas MCP, um sistema nativo de colaboração dispositivo-nuvem que direciona a execução pelo estado da tarefa, e um *framework* de RL (*Reinforcement Learning*) online com otimizações avançadas para dimensionar ambientes paralelos e o comprimento do contexto. O MAI-UI estabelece um novo estado da arte em *grounding* de GUI e navegação móvel. Em *benchmarks* de *grounding*, atinge 73,5% no ScreenSpot-Pro, 91,3% no MMBench GUI L2, 70,9% no OSWorld-G e 49,2% no UI-Vision, superando o Gemini-3-Pro e o Seed1.8 no ScreenSpot-Pro. Na navegação móvel por GUI, estabelece um novo SOTA de 76,7% no AndroidWorld, superando o UI-Tars-2, o Gemini-2.5-Pro e o Seed1.8. No MobileWorld, o MAI-UI obtém uma taxa de sucesso de 41,7%, superando significativamente os modelos de GUI de ponta a ponta e sendo competitivo com *frameworks* de agentes baseados no Gemini-3-Pro. As nossas experiências com RL online mostram ganhos significativos ao dimensionar ambientes paralelos de 32 para 512 (+5,2 pontos) e aumentar o orçamento de etapas do ambiente de 15 para 50 (+4,3 pontos). Por fim, o sistema nativo de colaboração dispositivo-nuvem melhora o desempenho no dispositivo em 33%, reduz as chamadas ao modelo na nuvem em mais de 40% e preserva a privacidade do utilizador.
Os grandes modelos visuo-linguísticos (VLMs) frequentemente beneficiam de pistas visuais intermediárias, seja através da injeção de ferramentas externas ou da geração de tokens visuais latentes durante o raciocínio. No entanto, estes mecanismos ainda negligenciam evidências visuais de granularidade fina (por exemplo, polilinhas em gráficos), generalizam mal entre domínios e incorrem em alto custo computacional durante a inferência. Neste artigo, propomos o *Bi-directional Perceptual Shaping* (BiPS), que transforma visualizações mascaradas condicionadas pela pergunta em sinais bidirecionais de "onde olhar", moldando a perceção durante o treino. O BiPS aplica primeiro uma restrição de consistência KL entre a imagem original e uma vista que preserva evidências, mantendo apenas as regiões relevantes para a pergunta, incentivando uma cobertura grosseira mas completa dos píxeis de suporte. Em seguida, aplica uma restrição de separação KL entre a imagem original e uma vista onde píxeis críticos são mascarados, de modo que a imagem já não suporta a resposta original, desencorajando atalhos baseados apenas em texto (isto é, responder apenas a partir do texto) e impondo uma dependência visual de granularidade fina. Em oito benchmarks, o BiPS aumenta o Qwen2.5-VL-7B em 8,2% em média e demonstra uma forte generalização fora do domínio para conjuntos de dados e tipos de imagem não vistos.
Os Grandes Modelos de Linguagem (LLMs) estão cada vez mais sendo implantados em sistemas sensíveis ao tempo, como robótica, condução autónoma, inteligência incorporada e automação industrial, onde a geração de respostas precisas dentro de um orçamento de tempo determinado é crucial para tarefas de tomada de decisão, controlo ou de segurança crítica. No entanto, o processo de geração autorregressiva dos LLMs torna difícil modelar e estimar o tempo de execução de ponta a ponta. Além disso, os métodos de inferência eficiente existentes, baseados numa taxa fixa de remoção da cache de chave-valor (KV), têm dificuldade em adaptar-se a tarefas variadas com orçamentos de tempo diversos, onde uma taxa de remoção inadequada pode levar a uma inferência incompleta ou a uma queda no desempenho da resposta. Neste artigo, propomos o TimeBill, uma nova estrutura de inferência com orçamento de tempo para LLMs que equilibra a eficiência da inferência e o desempenho da resposta. Mais especificamente, propomos um preditor de comprimento de resposta de granularidade fina (RLP) e um estimador de tempo de execução (ETE) para prever com precisão o tempo de execução de ponta a ponta dos LLMs. A seguir, desenvolvemos uma abordagem de inferência eficiente com orçamento de tempo que ajusta adaptativamente a taxa de remoção da cache KV com base na previsão do tempo de execução e no orçamento de tempo dado. Finalmente, através de experiências extensivas, demonstramos as vantagens do TimeBill na melhoria da taxa de conclusão de tarefas e na manutenção do desempenho da resposta sob várias estratégias de excesso de tempo.
A capacidade dos agentes de IA de "pensar com imagens" requer uma combinação sofisticada de raciocínio e perceção. No entanto, os atuais agentes multimodais abertos continuam amplamente deficientes no aspeto de raciocínio, crucial para tarefas do mundo real, como analisar documentos com gráficos/diagramas densos e navegar em mapas. Para colmatar esta lacuna, apresentamos o O3-Bench, um novo benchmark concebido para avaliar o raciocínio multimodal com atenção intercalada a detalhes visuais. O O3-Bench apresenta problemas desafiadores que exigem que os agentes reunam informações visuais subtis de áreas distintas da imagem através de um raciocínio de múltiplos passos. Os problemas são altamente desafiadores, mesmo para sistemas de ponta como o OpenAI o3, que obtém apenas 40,8% de precisão no O3-Bench. Para progredir, propomos o InSight-o3, uma arquitetura multiagente composta por um agente de raciocínio visual (vReasoner) e um agente de pesquisa visual (vSearcher), para o qual introduzimos a tarefa de pesquisa visual generalizada — localizar regiões relacionais, difusas ou conceptuais descritas em linguagem livre, para além de simples objetos ou figuras em imagens naturais. Em seguida, apresentamos um Modelo de Linguagem Multimodal treinado especificamente para esta tarefa através de aprendizagem por reforço. Como um agente *plug-and-play*, o nosso vSearcher capacita modelos multimodais de ponta (como vReasoners), melhorando significativamente o seu desempenho numa ampla gama de benchmarks. Isto representa um passo concreto rumo a poderosos sistemas abertos semelhantes ao o3. O nosso código e conjunto de dados podem ser encontrados em https://github.com/m-Just/InSight-o3.
A edição visual baseada em inversão oferece uma forma eficaz e livre de treinamento para editar uma imagem ou vídeo com base nas instruções do utilizador. Os métodos existentes normalmente injetam informações da imagem fonte durante o processo de amostragem para manter a consistência da edição. No entanto, esta estratégia de amostragem depende excessivamente da informação fonte, o que afeta negativamente as edições na imagem alvo (por exemplo, falhando em alterar atributos do sujeito como pose, número ou cor, conforme instruído). Neste trabalho, propomos o ProEdit para abordar esta questão tanto ao nível da atenção como ao nível latente. No aspeto da atenção, introduzimos o KV-mix, que mistura características KV (chave-valor) da fonte e do alvo na região editada, mitigando a influência da imagem fonte na região de edição, mantendo a consistência do fundo. No aspeto latente, propomos o Latents-Shift, que perturba a região editada do latente fonte, eliminando a influência do latente invertido na amostragem. Extensos experimentos em várias referências de edição de imagem e vídeo demonstram que o nosso método alcança um desempenho de estado da arte (SOTA). Além disso, o nosso design é plug-and-play, podendo ser integrado de forma transparente em métodos de inversão e edição existentes, como RF-Solver, FireFlow e UniEdit.
Os modelos recentes de geração de texto-para-vídeo exibem progresso notável no realismo visual, fidelidade de movimento e alinhamento texto-vídeo, mas permanecem fundamentalmente limitados em sua capacidade de gerar comportamentos socialmente coerentes. Diferentemente dos seres humanos, que inferem intenções, crenças, emoções e normas sociais com facilidade a partir de breves pistas visuais, os modelos atuais tendem a reproduzir cenas literais sem capturar a lógica causal ou psicológica subjacente. Para avaliar sistematicamente essa lacuna, introduzimos o primeiro benchmark para raciocínio social na geração de vídeo. Fundamentado em descobertas da psicologia do desenvolvimento e social, nosso benchmark organiza trinta paradigmas clássicos de cognição social em sete dimensões principais, incluindo inferência de estados mentais, ação direcionada a objetivos, atenção conjunta, coordenação social, comportamento pró-social, normas sociais e estratégia multiagente. Para operacionalizar esses paradigmas, desenvolvemos um pipeline baseado em agentes totalmente livre de treinamento que (i) destila o mecanismo de raciocínio de cada experimento, (ii) sintetiza diversos cenários prontos para vídeo, (iii) impõe neutralidade conceitual e controle de dificuldade por meio de crítica baseada em pistas, e (iv) avalia vídeos gerados usando um juiz de VLM de alta capacidade em cinco dimensões interpretáveis de raciocínio social. Usando essa estrutura, conduzimos o primeiro estudo em larga escala envolvendo sete sistemas de geração de vídeo state-of-the-art. Nossos resultados revelam lacunas substanciais de desempenho: enquanto os modelos modernos se destacam na plausibilidade superficial, eles falham sistematicamente no reconhecimento de intenções, raciocínio sobre crenças, atenção conjunta e inferência pró-social.
A modelagem meteorológica exige tanto previsão precisa quanto interpretação mecanicista, contudo os métodos existentes tratam esses objetivos de forma isolada, separando a geração do entendimento. Para preencher essa lacuna, apresentamos o Omni-Weather, o primeiro modelo de base multimodal que unifica a geração e compreensão do tempo dentro de uma única arquitetura. O Omni-Weather integra um codificador de radar para tarefas de geração meteorológica, seguido por processamento unificado usando um mecanismo de autoatenção compartilhado. Além disso, construímos um conjunto de dados Chain-of-Thought para raciocínio causal na geração meteorológica, permitindo saídas interpretáveis e qualidade perceptual aprimorada. Experimentos extensivos mostram que o Omni-Weather alcança desempenho de ponta tanto na geração quanto na compreensão do tempo. Nossos achados indicam ainda que tarefas gerativas e de compreensão no domínio meteorológico podem se reforçar mutuamente. O Omni-Weather também demonstra a viabilidade e o valor da unificação entre geração e compreensão meteorológica.
A geração automática de slides de apresentação pode otimizar significativamente a criação de conteúdo. No entanto, como as preferências de cada utilizador podem variar, as formulações subespecificadas existentes frequentemente resultam em resultados subóptimos que não se alinham com as necessidades individuais dos utilizadores. Introduzimos uma nova tarefa que condiciona a geração de slides a partir de artigos científicos com base em preferências especificadas pelo utilizador. Propomos um quadro agentivo inspirado no comportamento humano, o SlideTailor, que gera progressivamente slides editáveis de forma alinhada com o utilizador. Em vez de exigir que os utilizadores descrevam suas preferências em formato textual detalhado, nosso sistema solicita apenas um par de exemplo artigo-slides e um modelo visual - artefactos naturais e de fácil fornecimento que codificam implicitamente ricas preferências do utilizador em conteúdo e estilo visual. Apesar da natureza implícita e não rotulada dessas entradas, nosso quadro destila e generaliza eficazmente as preferências para orientar a geração personalizada de slides. Também introduzimos um novo mecanismo de cadeia de discurso para alinhar o conteúdo dos slides com a narração oral planeada. Tal projeto melhora significativamente a qualidade dos slides gerados e permite aplicações subsequentes, como apresentações em vídeo. Para suportar esta nova tarefa, construímos um conjunto de dados de referência que captura diversas preferências dos utilizadores, com métricas interpretáveis cuidadosamente desenhadas para avaliação robusta. Experimentos extensivos demonstram a eficácia do nosso quadro.
O feedback baseado em execução, como testes unitários, é amplamente utilizado no desenvolvimento de agentes de codificação através de escalonamento em tempo de teste (TTS) e aprendizagem por reforço (RL). Este paradigma requer uma recolha escalável e fiável de casos de teste unitário para fornecer feedback preciso, sendo que o feedback resultante é frequentemente esparso e não consegue distinguir eficazmente entre trajetórias que são ambas bem-sucedidas ou ambas mal-sucedidas. Em contraste, o feedback livre de execução proveniente de modelos de recompensa pode fornecer sinais mais granulares sem depender de casos de teste unitário. Apesar deste potencial, o feedback livre de execução para agentes realistas de engenharia de software (SWE) permanece pouco explorado. Com o objetivo de desenvolver modelos de recompensa versáteis e eficazes tanto em TTS como em RL, observamos, no entanto, que dois verificadores com desempenho TTS quase idêntico podem, ainda assim, produzir resultados muito diferentes em RL. Intuitivamente, o TTS reflete principalmente a capacidade do modelo de selecionar a melhor trajetória, mas esta capacidade não generaliza necessariamente para RL. Para superar esta limitação, identificamos dois aspetos adicionais cruciais para o treino em RL: a precisão da classificação e a calibração. Em seguida, realizamos experiências controladas abrangentes para investigar como treinar um modelo de recompensa robusto que tenha um bom desempenho nestas métricas. Em particular, analisamos o impacto de vários fatores, como a escala dos dados de treino, misturas de políticas e a composição da fonte de dados. Guiados por estas investigações, introduzimos o SWE-RM, um modelo de recompensa preciso e robusto que adota uma arquitetura de mistura de especialistas com 30B de parâmetros totais e 3B ativados durante a inferência. O SWE-RM melhora substancialmente os agentes SWE tanto no desempenho de TTS como de RL. Por exemplo, aumenta a precisão do Qwen3-Coder-Flash de 51,6% para 62,0% e do Qwen3-Coder-Max de 67,0% para 74,6% no SWE-Bench Verified usando TTS, alcançando um novo desempenho state-of-the-art entre modelos de código aberto.
Este artigo apresenta um novo algoritmo de última geração para multiplicação exata de matrizes 3x3 sobre anéis não comutativos gerais, alcançando um esquema de posto 23 com apenas 58 adições escalares. Este resultado melhora a complexidade aditiva anteriormente estabelecida em 60 adições sem uma mudança de base. A descoberta foi obtida através de uma busca automatizada que combina exploração do grafo de inversão com restrição ternária e redução gulosa de interseções para eliminação de subexpressões comuns. O esquema resultante utiliza apenas coeficientes de {-1, 0, 1}, garantindo tanto eficiência quanto portabilidade através de corpos arbitrários. A contagem total de operações escalares é reduzida de 83 para 81.
Os grandes modelos de raciocínio (LRMs) são normalmente treinados usando aprendizagem por reforço com recompensa verificável (RLVR) para aprimorar suas capacidades de raciocínio. Neste paradigma, as políticas são atualizadas usando rollouts autogerados, tanto positivos quanto negativos, que correspondem a polaridades de amostra distintas. Neste artigo, realizamos uma investigação sistemática sobre como essas polaridades de amostra afetam a dinâmica e os comportamentos do treinamento RLVR. Descobrimos que as amostras positivas aguçam os padrões de raciocínio corretos existentes, enquanto as amostras negativas incentivam a exploração de novos caminhos de raciocínio. Exploramos ainda como o ajuste dos valores de vantagem das amostras positivas e negativas, tanto a nível de amostra quanto a nível de token, afeta o treinamento RLVR. Com base nessas percepções, propomos um método de modelagem de vantagem adaptativo e assimétrico a nível de token para otimização de políticas, denominado A3PO, que aloca sinais de vantagem de forma mais precisa para tokens-chave entre diferentes polaridades. Experimentos em cinco benchmarks de raciocínio demonstram a eficácia da nossa abordagem.