Artigos de pesquisa em IA selecionados diariamente com traduções
Propomos o FlowRL: correspondência da distribuição completa de recompensas por meio de balanceamento de fluxo, em vez de maximizar recompensas no aprendizado por reforço (RL) de modelos de linguagem de grande escala (LLM). Modelos avançados de raciocínio recentes adotam métodos de maximização de recompensas (\eg, PPO e GRPO), que tendem a otimizar excessivamente sinais de recompensa dominantes enquanto negligenciam caminhos de raciocínio menos frequentes, porém válidos, reduzindo assim a diversidade. Em contraste, transformamos recompensas escalares em uma distribuição alvo normalizada usando uma função de partição aprendível e, em seguida, minimizamos a divergência KL reversa entre a política e a distribuição alvo. Implementamos essa ideia como um método de otimização balanceada por fluxo que promove exploração diversificada e trajetórias de raciocínio generalizáveis. Realizamos experimentos em tarefas de raciocínio matemático e de código: o FlowRL alcança uma melhoria média significativa de 10,0% em relação ao GRPO e 5,1% em relação ao PPO em benchmarks matemáticos, e apresenta desempenho consistentemente melhor em tarefas de raciocínio de código. Esses resultados destacam a correspondência da distribuição de recompensas como um passo crucial para exploração eficiente e raciocínio diversificado no aprendizado por reforço de LLMs.
Modelos Visão-Linguagem (VLMs) têm possibilitado agentes de uso de computador (CUAs) que operam interfaces gráficas (GUIs) de forma autônoma, demonstrando grande potencial, embora o progresso seja limitado pela escassez de dados de uso de computador em larga escala e modelos de base de código aberto. Neste trabalho, apresentamos o ScaleCUA, um passo em direção à escalabilidade de CUAs de código aberto. Ele oferece um conjunto de dados em larga escala abrangendo 6 sistemas operacionais e 3 domínios de tarefas, construído por meio de um pipeline de ciclo fechado que une agentes automatizados a especialistas humanos. Treinado com esses dados ampliados, o ScaleCUA pode operar de forma contínua em diversas plataformas. Especificamente, ele apresenta ganhos significativos em relação às linhas de base (+26,6 no WebArena-Lite-v2, +10,7 no ScreenSpot-Pro) e estabelece novos resultados de ponta (94,4% no MMBench-GUI L1-Hard, 60,6% no OSWorld-G, 47,4% no WebArena-Lite-v2). Esses achados destacam o poder da escalabilidade impulsionada por dados para agentes de uso de computador de propósito geral. Disponibilizaremos dados, modelos e código para impulsionar pesquisas futuras: https://github.com/OpenGVLab/ScaleCUA.
Modelos de linguagem de grande escala (LLMs) estão sendo cada vez mais aplicados em diversos cenários do mundo real, cada um regido por especificações comportamentais e de segurança (spec) personalizadas pelos usuários ou organizações. Essas spec, categorizadas em safety-spec e behavioral-spec, variam entre cenários e evoluem com mudanças nas preferências e requisitos. Formalizamos esse desafio como alinhamento de especificações, focando na capacidade dos LLMs de seguir spec dinâmicas e específicas de cenário, tanto do ponto de vista comportamental quanto de segurança. Para abordar esse desafio, propomos o Align3, um método leve que emprega Deliberação em Tempo de Teste (TTD) com reflexão e revisão hierárquica para raciocinar sobre os limites das especificações. Além disso, apresentamos o SpecBench, um benchmark unificado para medir o alinhamento de especificações, abrangendo 5 cenários, 103 spec e 1.500 prompts. Experimentos com 15 modelos de raciocínio e 18 modelos de instrução, utilizando vários métodos de TTD, incluindo Self-Refine, TPO e MoreThink, resultam em três descobertas principais: (i) a deliberação em tempo de teste melhora o alinhamento de especificações; (ii) o Align3 avança a fronteira de compensação entre segurança e utilidade com sobrecarga mínima; (iii) o SpecBench revela efetivamente lacunas de alinhamento. Esses resultados destacam o potencial da deliberação em tempo de teste como uma estratégia eficaz para raciocinar sobre os limites das especificações do mundo real.
Apresentamos o AToken, o primeiro tokenizador visual unificado que alcança tanto reconstrução de alta fidelidade quanto compreensão semântica em imagens, vídeos e ativos 3D. Diferente dos tokenizadores existentes que se especializam em reconstrução ou compreensão para modalidades únicas, o AToken codifica essas diversas entradas visuais em um espaço latente 4D compartilhado, unificando ambas as tarefas e modalidades em um único framework. Especificamente, introduzimos uma arquitetura puramente baseada em transformers com embeddings de posição rotativa 4D para processar entradas visuais de resoluções e durações temporais arbitrárias. Para garantir um treinamento estável, introduzimos um objetivo de treinamento livre de adversários que combina perdas perceptivas e de matriz de Gram, alcançando qualidade de reconstrução state-of-the-art. Ao empregar um currículo de treinamento progressivo, o AToken gradualmente se expande de imagens únicas, vídeos e 3D, e suporta tanto tokens latentes contínuos quanto discretos. O AToken alcança 0.21 rFID com 82.2% de precisão no ImageNet para imagens, 3.01 rFVD com 32.6% de recuperação no MSRVTT para vídeos, e 28.19 PSNR com 90.9% de precisão de classificação para 3D. Em aplicações downstream, o AToken habilita tanto tarefas de geração visual (por exemplo, geração de imagens com tokens contínuos e discretos, geração de texto para vídeo, síntese de imagem para 3D) quanto tarefas de compreensão (por exemplo, LLMs multimodais), alcançando desempenho competitivo em todos os benchmarks. Esses resultados lançam luz sobre os sistemas de IA multimodal de próxima geração construídos sobre tokenização visual unificada.
Modelos de linguagem de grande escala (LLMs) estão sendo cada vez mais treinados com aprendizado por reforço a partir de recompensas verificáveis (RLVR), mas a implantação no mundo real exige modelos que possam se autoaperfeiçoar sem rótulos ou juízes externos. Métodos existentes sem rótulos, como minimização de confiança, autoconsistência ou objetivos de maioria, estabilizam o aprendizado, mas reduzem gradualmente a exploração, causando um colapso de entropia: as gerações tornam-se mais curtas, menos diversas e frágeis. Diferentemente de abordagens anteriores, como o Aprendizado por Reforço em Tempo de Teste (TTRL), que adapta principalmente os modelos ao conjunto de dados não rotulados imediato, nosso objetivo é mais amplo: permitir melhorias gerais sem sacrificar a capacidade inerente de exploração e a habilidade de generalização do modelo, ou seja, evoluir. Formalizamos essa questão e propomos o Aprendizado por Reforço Orientado à Evolução e Sem Rótulos (EVOL-RL), uma regra simples que acopla estabilidade com variação em um cenário sem rótulos. O EVOL-RL mantém a resposta votada pela maioria como uma âncora estável (seleção) enquanto adiciona uma recompensa consciente da novidade que favorece respostas cujo raciocínio difere do que já foi produzido (variação), medido no espaço semântico. Implementado com GRPO, o EVOL-RL também usa recorte assimétrico para preservar sinais fortes e um regularizador de entropia para sustentar a busca. Esse design de maioria-para-seleção + novidade-para-variação previne o colapso, mantém cadeias de pensamento mais longas e informativas, e melhora tanto pass@1 quanto pass@n. O EVOL-RL consistentemente supera a linha de base TTRL apenas com maioria; por exemplo, o treinamento no AIME24 sem rótulos eleva o pass@1 do Qwen3-4B-Base no AIME25 de 4,6% do TTRL para 16,4%, e o pass@16 de 18,5% para 37,9%. O EVOL-RL não apenas previne o colapso da diversidade, mas também desbloqueia uma generalização mais forte entre domínios (por exemplo, GPQA). Além disso, demonstramos que o EVOL-RL também melhora o desempenho no cenário RLVR, destacando sua ampla aplicabilidade.
Modelos recentes de difusão de vídeo demonstram um forte potencial em tarefas de inteligência espacial devido aos seus ricos priors latentes do mundo. No entanto, esse potencial é limitado pela sua controlabilidade restrita e inconsistência geométrica, criando uma lacuna entre seus priors robustos e seu uso prático em tarefas 3D/4D. Como resultado, as abordagens atuais frequentemente dependem de retreinamento ou ajuste fino, o que pode degradar o conhecimento pré-treinado e incorrer em altos custos computacionais. Para resolver isso, propomos o WorldForge, uma estrutura sem treinamento, operando em tempo de inferência, composta por três módulos fortemente acoplados. O Refinamento Recursivo Intra-Etapa introduz um mecanismo de refinamento recursivo durante a inferência, que otimiza repetidamente as previsões da rede em cada etapa de remoção de ruído para permitir a injeção precisa de trajetórias. A Fusão Latente Controlada por Fluxo aproveita a similaridade do fluxo óptico para separar movimento de aparência no espaço latente e injetar seletivamente orientação de trajetória em canais relacionados ao movimento. A Orientação Autocorretiva de Caminho Duplo compara caminhos de remoção de ruído guiados e não guiados para corrigir adaptativamente o desvio de trajetória causado por sinais estruturais ruidosos ou desalinhados. Juntos, esses componentes injetam orientação de granularidade fina e alinhada à trajetória sem treinamento, alcançando tanto controle preciso de movimento quanto geração de conteúdo fotorrealista. Experimentos extensos em diversos benchmarks validam a superioridade do nosso método em realismo, consistência de trajetória e fidelidade visual. Este trabalho introduz um novo paradigma plug-and-play para síntese de vídeo controlável, oferecendo uma nova perspectiva sobre a utilização de priors generativos para inteligência espacial.
A busca emergiu como infraestrutura central para agentes baseados em LLM (Large Language Models) e é amplamente vista como crítica no caminho para uma inteligência mais geral. O setor financeiro é um campo de testes particularmente exigente: analistas realizam rotineiramente buscas complexas e multi-etapas sobre dados sensíveis ao tempo e específicos do domínio, tornando-o ideal para avaliar tanto a proficiência em busca quanto o raciocínio fundamentado em conhecimento. No entanto, nenhum conjunto de dados financeiros aberto existente avalia a capacidade de busca de dados de agentes end-to-end, em grande parte porque a construção de tarefas realistas e complicadas exige profunda expertise financeira, e dados sensíveis ao tempo são difíceis de avaliar. Apresentamos o FinSearchComp, o primeiro benchmark de agentes totalmente de código aberto para busca e raciocínio financeiro realista e de domínio aberto. O FinSearchComp compreende três tarefas — Busca de Dados Sensíveis ao Tempo, Consulta Histórica Simples e Investigação Histórica Complexa — que reproduzem de perto os fluxos de trabalho reais de analistas financeiros. Para garantir dificuldade e confiabilidade, envolvemos 70 especialistas financeiros profissionais para anotação e implementamos um rigoroso pipeline de garantia de qualidade em múltiplas etapas. O benchmark inclui 635 questões abrangendo mercados globais e da Grande China, e avaliamos 21 modelos (produtos) nele. O Grok 4 (web) lidera o subconjunto global, aproximando-se da precisão de nível especialista. O DouBao (web) lidera no subconjunto da Grande China. Análises experimentais mostram que equipar agentes com busca na web e plugins financeiros melhora substancialmente os resultados no FinSearchComp, e a origem geográfica dos modelos e ferramentas impacta significativamente o desempenho. Ao alinhar-se com tarefas realistas de analistas e fornecer avaliação end-to-end, o FinSearchComp oferece um ambiente de teste profissional e de alta dificuldade para busca e raciocínio financeiro complexo.
Estudos recentes demonstraram a importância de representações visuais de alta qualidade na geração de imagens e destacaram as limitações dos modelos generativos na compreensão de imagens. Como um paradigma generativo originalmente projetado para linguagem natural, os modelos autoregressivos enfrentam desafios semelhantes. Neste trabalho, apresentamos a primeira investigação sistemática sobre os mecanismos de aplicação do paradigma de previsão do próximo token ao domínio visual. Identificamos três propriedades-chave que dificultam a aprendizagem de semântica visual de alto nível: dependência local e condicional, inconsistência semântica entre etapas e deficiência de invariância espacial. Mostramos que esses problemas podem ser efetivamente abordados pela introdução de objetivos auto-supervisionados durante o treinamento, levando a um novo framework de treinamento, o Self-guided Training for AutoRegressive models (ST-AR). Sem depender de modelos de representação pré-treinados, o ST-AR melhora significativamente a capacidade de compreensão de imagens dos modelos autoregressivos e resulta em uma qualidade de geração aprimorada. Especificamente, o ST-AR traz uma melhoria de aproximadamente 42% no FID para o LlamaGen-L e 49% no FID para o LlamaGen-XL, mantendo a mesma estratégia de amostragem.
Este artigo apresenta o RynnVLA-001, um modelo visão-linguagem-ação (VLA) construído com base em pré-treinamento generativo em larga escala a partir de demonstrações humanas. Propomos uma metodologia inovadora de pré-treinamento em duas etapas. A primeira etapa, Pré-Treinamento Generativo em Vídeo Ego-Cêntrico, treina um modelo de Imagem-para-Vídeo em 12 milhões de vídeos de manipulação ego-cêntrica para prever quadros futuros condicionados a um quadro inicial e uma instrução em linguagem natural. A segunda etapa, Modelagem Consciente de Trajetória Humano-Cêntrica, estende isso ao prever conjuntamente trajetórias futuras de pontos-chave, efetivamente conectando a previsão de quadros visuais com a previsão de ações. Além disso, para aprimorar a representação de ações, propomos o ActionVAE, um autoencoder variacional que comprime sequências de ações em embeddings latentes compactos, reduzindo a complexidade do espaço de saída do VLA. Quando ajustado nos mesmos conjuntos de dados de robótica downstream, o RynnVLA-001 alcança desempenho superior em relação às baselines state-of-the-art, demonstrando que a estratégia de pré-treinamento proposta fornece uma inicialização mais eficaz para modelos VLA.
Os métodos atuais de edição de imagens baseada em instruções (IBIE) enfrentam dificuldades com tarefas de edição desafiadoras, pois tanto os tipos de edição quanto a quantidade de amostras nos conjuntos de dados existentes são limitados. Além disso, a construção tradicional de conjuntos de dados frequentemente contém pares de imagem-legenda ruidosos, o que pode introduzir vieses e limitar as capacidades dos modelos em cenários de edição complexos. Para abordar essas limitações, apresentamos o MultiEdit, um conjunto de dados abrangente que contém mais de 107 mil amostras de edição de imagens de alta qualidade. Ele abrange 6 tarefas de edição desafiadoras por meio de uma coleção diversificada de 18 tipos de edição que não envolvem transferência de estilo e 38 operações de transferência de estilo, cobrindo um espectro que vai desde transferência de estilo sofisticada até operações semânticas complexas, como edição de referência de pessoas e edição de texto dentro da imagem. Empregamos um pipeline inovador de construção de conjuntos de dados que utiliza dois modelos de linguagem multimodal de grande escala (MLLMs) para gerar instruções de edição visualmente adaptáveis e produzir imagens editadas com alta fidelidade, respectivamente. Experimentos extensivos demonstram que o ajuste fino de modelos fundamentais de código aberto com nosso conjunto MultiEdit-Train melhora substancialmente o desempenho dos modelos em tarefas de edição sofisticadas em nosso benchmark proposto MultiEdit-Test, enquanto preserva efetivamente suas capacidades no benchmark de edição padrão. Acreditamos que o MultiEdit fornece um recurso valioso para avançar a pesquisa em capacidades de IBIE mais diversas e desafiadoras. Nosso conjunto de dados está disponível em https://huggingface.co/datasets/inclusionAI/MultiEdit.
A localização espaço-temporal em vídeos (STVG) tem como objetivo identificar o tubo espaço-temporal de um vídeo, conforme especificado pela consulta textual de entrada. Neste artigo, utilizamos modelos de linguagem multimodal de grande escala (MLLMs) para explorar uma solução zero-shot em STVG. Revelamos dois insights-chave sobre os MLLMs: (1) os MLLMs tendem a atribuir dinamicamente tokens especiais, denominados tokens de localização, para ancorar a consulta textual; e (2) os MLLMs frequentemente apresentam localização subótima devido à incapacidade de integrar plenamente as pistas da consulta textual (por exemplo, atributos, ações) para inferência. Com base nesses insights, propomos um framework zero-shot baseado em MLLMs para STVG, que inclui estratégias inovadoras de destaque espaço-temporal decomposto (DSTH) e montagem temporal-aumentada (TAS) para liberar a capacidade de raciocínio dos MLLMs. A estratégia DSTH primeiro desacopla a consulta original em sub-consultas de atributo e ação para investigar a existência do alvo tanto espacial quanto temporalmente. Em seguida, utiliza um novo módulo de reatenção guiada por logit (LRA) para aprender variáveis latentes como prompts espaciais e temporais, regularizando as previsões de tokens para cada sub-consulta. Esses prompts destacam as pistas de atributo e ação, respectivamente, direcionando a atenção do modelo para regiões visuais confiáveis relacionadas ao espaço e ao tempo. Além disso, como a localização espacial pela sub-consulta de atributo deve ser temporalmente consistente, introduzimos a estratégia TAS para montar as previsões usando os frames originais do vídeo e os frames temporal-aumentados como entradas para ajudar a melhorar a consistência temporal. Avaliamos nosso método em vários MLLMs e mostramos que ele supera os métodos SOTA em três benchmarks comuns de STVG. O código estará disponível em https://github.com/zaiquanyang/LLaVA_Next_STVG.
A imagem por ultrassom tornou-se a modalidade de imagem preferida para o rastreamento precoce do câncer devido às suas vantagens de radiação não ionizante, baixo custo e capacidade de imagem em tempo real. No entanto, o diagnóstico convencional por ultrassom depende fortemente da expertise do médico, apresentando desafios de alta subjetividade e baixa eficiência diagnóstica. Os modelos de visão e linguagem (VLMs) oferecem soluções promissoras para esse problema, mas os modelos de propósito geral existentes demonstram conhecimento limitado em tarefas médicas de ultrassom, com baixa generalização no reconhecimento de lesões em múltiplos órgãos e eficiência reduzida em diagnósticos multitarefa. Para abordar essas limitações, propomos o EchoVLM, um modelo de visão e linguagem especificamente projetado para imagens médicas de ultrassom. O modelo emprega uma arquitetura de Mistura de Especialistas (MoE) treinada em dados que abrangem sete regiões anatômicas. Esse design permite que o modelo execute múltiplas tarefas, incluindo geração de relatórios de ultrassom, diagnóstico e resposta a perguntas visuais (VQA). Os resultados experimentais demonstraram que o EchoVLM alcançou melhorias significativas de 10,15 e 4,77 pontos nas pontuações BLEU-1 e ROUGE-1, respectivamente, em comparação com o Qwen2-VL na tarefa de geração de relatórios de ultrassom. Esses achados sugerem que o EchoVLM tem um potencial substancial para aumentar a precisão diagnóstica em imagens de ultrassom, fornecendo assim uma solução técnica viável para futuras aplicações clínicas. O código-fonte e os pesos do modelo estão disponíveis em https://github.com/Asunatan/EchoVLM.
A detecção de mudanças em imagens de sensoriamento remoto de alta resolução constitui um pilar fundamental das aplicações de observação da Terra, mas sua eficácia é frequentemente comprometida por dois desafios críticos. Primeiro, falsos alarmes são comuns, pois os modelos interpretam erroneamente variações radiométricas decorrentes de mudanças temporais (por exemplo, iluminação, estação do ano) como mudanças genuínas. Segundo, uma lacuna semântica não negligenciável entre características profundas e abstratas e características superficiais ricas em detalhes tende a obstruir sua fusão eficaz, resultando em limites mal delineados. Para avançar na resolução desses problemas, propomos a Rede de Portas Sinérgicas Frequência-Espacial (FSG-Net), um novo paradigma que visa separar sistematicamente mudanças semânticas de variações indesejadas. Especificamente, a FSG-Net opera primeiro no domínio da frequência, onde um Módulo de Interação Wavelet Consciente de Discrepâncias (DAWIM) mitiga adaptativamente pseudo-mudanças ao processar seletivamente diferentes componentes de frequência. Posteriormente, as características refinadas são aprimoradas no domínio espacial por um Módulo de Atenção Temporal-Espacial Sinérgica (STSAM), que amplifica a saliência das regiões de mudança genuína. Para finalmente preencher a lacuna semântica, uma Unidade de Fusão de Portas Leve (LGFU) aproveita a semântica de alto nível para selecionar e integrar seletivamente detalhes cruciais das camadas superficiais. Experimentos abrangentes nos benchmarks CDD, GZ-CD e LEVIR-CD validam a superioridade da FSG-Net, estabelecendo um novo estado da arte com F1-scores de 94,16%, 89,51% e 91,27%, respectivamente. O código estará disponível em https://github.com/zxXie-Air/FSG-Net após uma possível publicação.