Artigos de pesquisa em IA selecionados diariamente com traduções
Os seres humanos pintam imagens de forma incremental: planejam um layout global, esboçam um rascunho grosseiro, inspecionam e refinam detalhes e, mais importante, cada etapa é fundamentada nos estados visuais em evolução. No entanto, os modelos multimodais unificados treinados em conjuntos de dados intercalados texto-imagem também podem imaginar a cadeia de estados intermediários? Neste artigo, introduzimos a geração de imagens orientada por processos, um paradigma de múltiplas etapas que decompõe a síntese em uma trajetória de raciocínio intercalada de pensamentos e ações. Em vez de gerar imagens em uma única etapa, nossa abordagem se desenrola ao longo de múltiplas iterações, cada uma consistindo em 4 fases: planeamento textual, esboço visual, reflexão textual e refinamento visual. O raciocínio textual condiciona explicitamente como o estado visual deve evoluir, enquanto o intermediário visual gerado, por sua vez, restringe e fundamenta a próxima rodada de raciocínio textual. Um desafio central da geração orientada por processos decorre da ambiguidade dos estados intermediários: como podem os modelos avaliar cada imagem parcialmente completa? Abordamos isso através de supervisão densa e passo a passo que mantém duas restrições complementares: para os estados visuais intermediários, aplicamos a consistência espacial e semântica; para os estados textuais intermediários, preservamos o conhecimento visual prévio, permitindo que o modelo identifique e corrija elementos que violem a instrução. Isso torna o processo de geração explícito, interpretável e diretamente supervisionável. Para validar o método proposto, conduzimos experimentos sob vários benchmarks de geração de texto para imagem.
O treinamento por RL de agentes de LLM multi-turn é inerentemente instável, e a qualidade do raciocínio determina diretamente o desempenho da tarefa. A entropia é amplamente utilizada para rastrear a estabilidade do raciocínio. No entanto, a entropia mede apenas a diversidade dentro da mesma entrada e não consegue indicar se o raciocínio realmente responde a entradas diferentes. No RAGEN-2, descobrimos que, mesmo com entropia estável, os modelos podem depender de modelos fixos que parecem diversos, mas são agnósticos à entrada. Denominamos este fenômeno de colapso de modelo, um modo de falha invisível para a entropia e todas as métricas existentes. Para diagnosticar esta falha, decompomos a qualidade do raciocínio em diversidade intra-entrada (Entropia) e capacidade de distinção inter-entradas (Informação Mútua, IM), e introduzimos uma família de proxies de informação mútua para diagnóstico online. Em diversas tarefas, a informação mútua correlaciona-se com o desempenho final muito mais fortemente do que a entropia, tornando-a um proxy mais confiável para a qualidade do raciocínio. Explicamos ainda o colapso de modelo com um mecanismo de relação sinal-ruído (SNR). A baixa variância da recompensa enfraquece os gradientes da tarefa, permitindo que os termos de regularização dominem e apaguem as diferenças de raciocínio entre entradas. Para resolver isto, propomos a Filtragem Consciente do SNR para selecionar *prompts* de alto sinal por iteração, usando a variância da recompensa como um proxy leve. Em planeamento, raciocínio matemático, navegação web e execução de código, o método melhora consistentemente tanto a dependência da entrada como o desempenho da tarefa.
Os modelos de linguagem autoregressivos (AR) geram texto um *token* por vez, mesmo quando *tokens* consecutivos são altamente previsíveis dado o contexto anterior. Apresentamos o MARS (*Mask AutoRegreSsion*), um método de ajuste fino leve que ensina um modelo AR ajustado por instrução a prever múltiplos *tokens* por passagem de avanço (*forward pass*). O MARS não adiciona modificações arquiteturais, nem parâmetros extras, e produz um único modelo que ainda pode ser chamado exatamente como o modelo AR original, sem degradação de desempenho. Diferente da decodificação especulativa, que mantém um modelo rascunho separado junto ao modelo alvo, ou de abordagens de múltiplas cabeças como a Medusa, que anexam cabeças de predição adicionais, o MARS requer apenas treinamento contínuo em dados de instrução existentes. Ao gerar um *token* por passagem de avanço, o MARS iguala ou supera a linha de base AR em seis *benchmarks* padrão. Quando permitido aceitar múltiplos *tokens* por passo, ele mantém a precisão em nível de linha de base enquanto alcança um *throughput* de 1,5-1,7x. Desenvolvemos ainda uma estratégia de cache KV em nível de bloco para inferência em lote, alcançando até 1,71x de aceleração em tempo real (*wall-clock*) sobre o AR com cache KV no Qwen2.5-7B. Finalmente, o MARS suporta ajuste de velocidade em tempo real via limiar de confiança: sob alta carga de solicitações, o sistema de serviço pode aumentar o *throughput* dinamicamente sem trocar modelos ou reiniciar, fornecendo um botão prático de *latency-quality* para implantação.
A construção de modelos de mundo com consistência espacial e interatividade em tempo real continua a ser um desafio fundamental na visão computacional. Os paradigmas atuais de geração de vídeo frequentemente lutam com a falta de persistência espacial e realismo visual insuficiente, dificultando o suporte a uma navegação perfeita em ambientes complexos. Para enfrentar esses desafios, propomos o INSPATIO-WORLD, uma nova estrutura em tempo real capaz de recuperar e gerar cenas interativas dinâmicas de alta fidelidade a partir de um único vídeo de referência. O cerne da nossa abordagem é uma arquitetura Autorregressiva Espaciotemporal (STAR), que permite a evolução consistente e controlável da cena através de dois componentes fortemente acoplados: a Cache Espaciotemporal Implícita agrega observações de referência e históricas numa representação latente do mundo, garantindo consistência global durante a navegação de longo horizonte; o Módulo de Restrição Espacial Explícita impõe a estrutura geométrica e traduz as interações do utilizador em trajetórias de câmera precisas e fisicamente plausíveis. Além disso, introduzimos a Destilação por Correspondência de Distribuição Conjunta (JDMD). Ao usar distribuições de dados do mundo real como um guia de regularização, a JDMD supera efetivamente a degradação da fidelidade tipicamente causada pela excessiva dependência de dados sintéticos. Experimentos extensivos demonstram que o INSPATIO-WORLD supera significativamente os modelos state-of-the-art (SOTA) existentes em consistência espacial e precisão de interação, ocupando o primeiro lugar entre os métodos interativos em tempo real no benchmark WorldScore-Dynamic, e estabelecendo um pipeline prático para navegar em ambientes 4D reconstruídos a partir de vídeos monoculares.
O pós-treinamento baseado em Aprendizagem por Reforço (RL) emergiu recentemente como um paradigma promissor para alinhar modelos de difusão de texto para imagem com as preferências humanas. Em estudos recentes, o aumento do tamanho do grupo de rollouts (simulações) produz melhorias de desempenho pronunciadas, indicando um espaço substancial para ganhos adicionais de alinhamento. No entanto, a escalagem de rollouts em modelos de difusão fundamentais de grande escala (por exemplo, FLUX.1-12B) impõe uma pesada carga computacional. Para aliviar este gargalo, exploramos a integração da quantização FP4 nos rollouts de RL de Difusão. Contudo, identificamos que os pipelines quantizados ingênuos introduzem inerentemente riscos de degradação de desempenho. Para superar este dilema entre eficiência e integridade do treinamento, propomos o Sol-RL (Speed-of-light RL), uma nova estrutura de Aprendizagem por Reforço em Duas Etapas capacitada por FP4. Primeiro, utilizamos rollouts de alta produtividade em NVFP4 para gerar um pool massivo de candidatos e extrair um subconjunto altamente contrastivo. Em segundo lugar, regeneramos essas amostras selecionadas em precisão BF16 e otimizamos a política exclusivamente nelas. Ao desacoplar a exploração de candidatos da otimização da política, o Sol-RL integra os mecanismos algorítmicos de escalonamento de rollouts com os ganhos de produtividade em nível de sistema do NVFP4. Este projeto algorítmico-hardware sinérgico acelera eficazmente a fase de rollout, reservando ao mesmo tempo amostras de alta fidelidade para otimização. Demonstramos empiricamente que a nossa estrutura mantém a integridade do treinamento do pipeline de precisão BF16, enquanto explora totalmente os ganhos de produtividade possibilitados pela aritmética FP4. Extensas experiências com SANA, FLUX.1 e SD3.5-L corroboram que a nossa abordagem oferece um desempenho de alinhamento superior em múltiplas métricas, enquanto acelera a convergência do treinamento em até 4,64 vezes, desbloqueando o poder da escalagem massiva de rollouts a uma fração do custo.
Avanços recentes demonstraram a eficácia de agentes de LLM que evoluem autonomamente em tarefas como correção de programas e descoberta científica. Neste paradigma, um LLM planeador sintetiza um programa de agente que invoca modelos paramétricos, incluindo LLMs, que são subsequentemente ajustados por tarefa para melhorar o desempenho. No entanto, as arquiteturas existentes de agentes auto-evolutivos não fornecem garantias formais de segurança ou correção. Como estes programas são frequentemente executados de forma autónoma em entradas não vistas, esta falta de garantias levanta preocupações de fiabilidade e segurança. Nós formulamos a geração de código agente como um problema de aprendizagem com restrições, combinando especificações formais rígidas com objetivos flexíveis que capturam a utilidade da tarefa. Introduzimos os Modelos Generativos Formalmente Guardados (FGGM), que permitem ao LLM planeador especificar um contrato formal de saída para cada chamada de modelo generativo usando lógica de primeira ordem. Cada chamada FGGM encapsula o modelo subjacente num amostrador de rejeição com um *fallback* verificado, garantindo que cada resultado devolvido satisfaz o contrato para qualquer entrada e configuração de parâmetros. Com base nos FGGM, apresentamos o SEVerA (Agentes Verificados Auto-Evolutivos), uma arquitetura de três fases: Pesquisa sintetiza programas paramétricos candidatos contendo chamadas FGGM; Verificação prova a correção em relação a restrições rígidas para todos os valores dos parâmetros, reduzindo o problema a uma aprendizagem sem restrições; e Aprendizagem aplica uma optimização escalável baseada em gradientes, incluindo *fine-tuning* do estilo GRPO, para melhorar o objetivo flexível, preservando a correção. Avaliamos o SEVerA na verificação de programas Dafny, na síntese de matemática simbólica e no uso de ferramentas agentes em conformidade com políticas (τ^2-bench). Através das tarefas, o SEVerA alcança zero violações de restrições enquanto melhora o desempenho face a linhas de base não restritas e de estado da arte, mostrando que as restrições comportamentais formais não só garantem a correção, como também orientam a síntese na direção de agentes de maior qualidade.
Os recentes avanços na aprendizagem por prompts permitem que agentes de modelos de linguagem grande adquiram conhecimento relevante para tarefas a partir do contexto de inferência sem alterações de parâmetros. Por exemplo, métodos existentes (como ACE ou GEPA) podem aprender prompts de sistema para melhorar a precisão com base em execuções anteriores de agentes. No entanto, esses métodos concentram-se principalmente em configurações de agente único ou de baixo paralelismo. Isso limita fundamentalmente sua capacidade de aprender eficientemente de um grande conjunto de traços agentivos coletados. Seria eficiente e benéfico executar a aprendizagem de prompts em paralelo para acomodar a tendência crescente de aprender a partir de muitos traços agentivos ou execuções paralelas de agentes. No entanto, sem uma estratégia fundamentada para dimensionamento, os métodos atuais sofrem com degradação de qualidade em alto paralelismo. Para melhorar tanto a eficiência quanto a qualidade da aprendizagem por prompts, propomos o Combee, uma nova estrutura para dimensionar a aprendizagem de prompts paralelos para agentes de autoaprimoramento. O Combee acelera a aprendizagem e permite executar muitos agentes em paralelo, aprendendo com seus traços agregados sem degradação de qualidade. Para alcançar isso, o Combee aproveita varreduras paralelas e emprega um mecanismo de embaralhamento aumentado; o Combee também introduz um controlador dinâmico de tamanho de lote para equilibrar qualidade e atraso. Avaliações no AppWorld, Terminal-Bench, Formula e FiNER demonstram que o Combee alcança uma aceleração de até 17x em relação aos métodos anteriores, com precisão comparável ou superior e custo equivalente.
Propomos uma novas fronteira: Computadores Neurais (CNs) – uma forma de máquina emergente que unifica computação, memória e E/S em um estado de execução aprendido. Diferentemente dos computadores convencionais, que executam programas explícitos, dos agentes, que atuam sobre ambientes de execução externos, e dos modelos de mundo, que aprendem dinâmicas ambientais, os CNs visam tornar o próprio modelo o computador em execução. Nosso objetivo de longo prazo é o Computador Completamente Neural (CCN): a realização madura e de propósito geral desta forma de máquina emergente, com execução estável, reprogramação explícita e reutilização durável de capacidades. Como um passo inicial, investigamos se primitivas iniciais de CNs podem ser aprendidas apenas a partir de traços de E/S coletados, sem estado de programa instrumentado. Concretamente, instanciamos CNs como modelos de vídeo que geram quadros de tela a partir de instruções, pixels e ações do usuário (quando disponíveis) em ambientes de CLI e GUI. Essas implementações demonstram que tempos de execução aprendidos podem adquirir primitivas iniciais de interface, especialmente alinhamento de E/S e controle de curto prazo, enquanto a reutilização de rotinas, atualizações controladas e estabilidade simbólica permanecem em aberto. Esboçamos um roteiro para CCNs em torno desses desafios. Se superados, os CCNs poderiam estabelecer um novo paradigma de computação além dos agentes, modelos de mundo e computadores convencionais atuais.
Propomos o TC-AE, uma arquitetura baseada em ViT para autoencoders de compressão profunda. Os métodos existentes geralmente aumentam o número de canais das representações latentes para manter a qualidade de reconstrução sob altas taxas de compressão. No entanto, esta estratégia frequentemente leva ao colapso da representação latente, o que degrada o desempenho generativo. Em vez de depender de arquiteturas progressivamente mais complexas ou esquemas de treinamento multiestágio, o TC-AE aborda este desafio a partir da perspectiva do espaço de *tokens*, a ponte fundamental entre pixels e latentes de imagem, por meio de duas inovações complementares: Em primeiro lugar, estudamos a escalabilidade do número de *tokens* ao ajustar o tamanho do *patch* no ViT sob um orçamento latente fixo, e identificamos a compressão agressiva de *token*-para-latente como o fator-chave que limita a escalabilidade efetiva. Para resolver este problema, decompomos a compressão *token*-para-latente em dois estágios, reduzindo a perda de informação estrutural e permitindo uma escalabilidade efetiva do número de *tokens* para geração. Em segundo lugar, para mitigar ainda mais o colapso da representação latente, aprimoramos a estrutura semântica dos *tokens* de imagem via treinamento auto supervisionado conjunto, resultando em latentes mais favoráveis à geração. Com estes projetos, o TC-AE alcança um desempenho de reconstrução e generativo substancialmente melhorado sob compressão profunda. Esperamos que nossa pesquisa avance o desenvolvimento de *tokenizers* baseados em ViT para geração visual.
Apresentamos o Qualixar OS, o primeiro sistema operacional de camada de aplicação para orquestração universal de agentes de IA. Diferente de abordagens de nível de kernel (AIOS) ou ferramentas de framework único (AutoGen, CrewAI), o Qualixar OS fornece um *runtime* completo para sistemas multiagente heterogéneos, abrangendo 10 provedores de LLM, mais de 8 *frameworks* de agentes e 7 transportes. Nós contribuímos com: (1) semântica de execução para 12 topologias multiagente, incluindo padrões de grelha, floresta, malha e *maker*; (2) Forge, um motor de design de equipas orientado por LLM com memória histórica de estratégias; (3) encaminhamento de modelos de três camadas que combina *Q-learning*, cinco estratégias e POMDP Bayesiano com descoberta dinâmica de múltiplos provedores; (4) um *pipeline* de julgamento baseado em consenso com deteção de Goodhart, monitorização de *drift* JSD e navegação do trilema do alinhamento; (5) atribuição de conteúdo de quatro camadas com assinatura HMAC e marcas de água esteganográficas; (6) compatibilidade universal através da Ponte Claw, suportando protocolos MCP e A2A com um Protocolo de Comando Universal de 25 comandos; (7) um *dashboard* de produção com 24 separadores, incluindo um construtor visual de fluxos de trabalho e um mercado de competências. O Qualixar OS é validado por 2.821 casos de teste em 217 tipos de eventos e 8 módulos de qualidade. Num conjunto de avaliação personalizado de 20 tarefas, o sistema atinge 100% de precisão a um custo médio de $0,000039 por tarefa. Disponível sob licença de código fonte aberto Elastic License 2.0.
A extensão da Cadeia de Pensamento (CoT) através de Aprendizagem por Reforço (RL) tem sido amplamente utilizada para melhorar as capacidades de raciocínio dos LLMs. No entanto, devido à esparsidade dos sinais de recompensa, esta abordagem também pode induzir padrões de pensamento indesejáveis, como o excesso de reflexão (overthinking), ou seja, a geração de conteúdo de raciocínio intermediário redundante. Neste trabalho, argumentamos que uma das principais fontes dessa redundância é a reflexão ineficiente, que frequentemente se manifesta em dois padrões problemáticos: Reflexão Indiscriminada, onde o modelo realiza verificações amplas e de baixo impacto ao longo do raciocínio, e Reflexão Repetitiva, onde ele re-verifica repetidamente uma conclusão já estabelecida. Para resolver isso, introduzimos uma estrutura de otimização de CoT baseada em grafos. Especificamente, convertemos cada CoT linear num grafo acíclico dirigido (DAG) com arestas de dependência explícitas e projetamos uma estratégia de poda dupla: a poda a nível de ramo remove ramos de reflexão com contribuição fraca, enquanto a poda a nível de profundidade elimina re-verificações em fases tardias. Destilamos este comportamento através de um *pipeline* de três etapas: (1) Ajuste Fino Supervisionado (SFT) para inicializar a política em traços concisos podados, (2) Otimização de Preferência Direta (DPO) para preferir trajetórias corretas mas menos redundantes, e (3) Otimização de Política de Reforço por Grafo (GRPO) com penalização de comprimento para otimizar conjuntamente a correção da resposta e a eficiência. Experiências mostram que a nossa abordagem reduz os *tokens* de raciocínio médios em 42\%, mantendo ou melhorando a precisão.
O alinhamento pluralista emergiu como uma fronteira crítica no desenvolvimento de Modelos de Linguagem de Grande Porte (LLMs), com os modelos de recompensa (RMs) servindo como um mecanismo central para capturar valores humanos diversos. Embora os *benchmarks* para a qualidade geral de respostas sejam prevalecentes, avaliar quão bem os modelos de recompensa consideram as preferências individuais dos usuários permanece um desafio em aberto. Para preencher esta lacuna, apresentamos o Personalized RewardBench, um novo *benchmark* projetado para avaliar rigorosamente a capacidade dos modelos de recompensa de modelar preferências personalizadas. Construímos pares de respostas escolhidas e rejeitadas com base na adesão estrita (ou violação) a rubricas específicas do usuário, garantindo que as distinções de preferência sejam exclusivamente adaptadas ao indivíduo. Em particular, avaliações humanas confirmam que o principal fator discriminativo entre os pares é estritamente a preferência pessoal, com ambas as respostas mantendo alta qualidade geral (por exemplo, correção, relevância e utilidade). Testes extensivos revelam que os modelos de recompensa estaduais da arte existentes lutam significativamente com a personalização, atingindo um pico de precisão de apenas 75,94%. Crucialmente, como um *benchmark* eficaz de modelo de recompensa deve prever o desempenho do modelo em tarefas subsequentes, conduzimos experimentos que demonstram que nosso *benchmark* exibe uma correlação significativamente maior com o desempenho subsequente, tanto na amostragem *Best-of-N* (BoN) quanto na Otimização de Políticas Proximais (PPO), em comparação com as *baselines* existentes. Essas descobertas estabelecem o Personalized RewardBench como um *proxy* robusto e preciso para avaliar o desempenho dos modelos de recompensa em aplicações subsequentes.
A transferência de conhecimento de um professor cross-encoder via Distilação de Conhecimento (KD) tornou-se um paradigma padrão para o treinamento de modelos de recuperação de informação. Embora os estudos existentes tenham se concentrado amplamente na mineração de negativos difíceis para melhorar a discriminação, a composição sistemática dos dados de treinamento e a distribuição de pontuações do professor resultante receberam relativamente menos atenção. Neste trabalho, destacamos que focar apenas em negativos difíceis impede o aluno de aprender a estrutura de preferência abrangente do professor, potencialmente prejudicando a generalização. Para emular eficazmente a distribuição de pontuações do professor, propomos uma estratégia de Amostragem Estratificada que cobre uniformemente todo o espectro de pontuações. Experimentos em benchmarks de domínio interno e externo confirmam que a Amostragem Estratificada, que preserva a variância e a entropia das pontuações do professor, serve como uma linha de base robusta, superando significativamente a amostragem top-K e aleatória em diversos cenários. Essas descobertas sugerem que a essência da destilação reside em preservar a diversidade de pontuações relativas percebidas pelo professor.
A viabilidade da monitorização da cadeia de pensamento (CoT) depende da incapacidade dos modelos de raciocinar eficazmente nas suas representações latentes. No entanto, pouco se sabe sobre os limites deste raciocínio latente em LLMs. Testamos estes limites investigando se os modelos podem descobrir estratégias de planeamento multi-etapa sem supervisão sobre os passos intermédios e executá-las de forma latente, numa única passagem direta. Utilizando tarefas de busca de caminhos em grafos que controlam precisamente o número de etapas de planeamento latente necessárias, descobrimos uma limitação notável não resolvida pela escalagem massiva: pequenos transformadores treinados do zero descobrem estratégias que requerem até três passos latentes, o GPT-4o e o Qwen3-32B afinados alcançam cinco, e o GPT-5.4 atinge sete sob *prompting* *few-shot*. Embora a profundidade máxima de planeamento latente que os modelos podem aprender durante o treino seja cinco, a estratégia descoberta generaliza até oito passos latentes no momento do teste. Isto revela uma dissociação entre a capacidade de descobrir uma estratégia latente apenas com supervisão da resposta final e a capacidade de a executar uma vez descoberta. Se limites semelhantes se verificarem de forma mais ampla, estratégias que exijam múltiplas etapas de planeamento latente coordenadas poderão ter de ser explicitamente ensinadas ou externalizadas, o que confere credibilidade à monitorização CoT.
A geração multimodal tem sido historicamente dominada por pipelines orientados por texto, nos quais a linguagem dita a visão, mas não consegue raciocinar ou criar dentro dela. Desafiamos este paradigma ao questionar se todas as modalidades, incluindo descrições textuais, layouts espaciais e instruções de edição, podem ser unificadas numa única representação visual. Apresentamos o FlowInOne, uma estrutura que reformula a geração multimodal como um fluxo puramente visual, convertendo todas as entradas em *prompts* visuais e permitindo um pipeline limpo de imagem-entrada, imagem-saída, governado por um único modelo de *flow matching*. Esta formulação centrada na visão elimina naturalmente os estrangulamentos de alinhamento cross-modal, o agendamento de ruído e os ramos arquitetónicos específicos por tarefa, unificando a geração de texto para imagem, a edição guiada por layout e o seguimento de instruções visuais sob um paradigma coerente. Para suportar esta abordagem, introduzimos o VisPrompt-5M, um conjunto de dados em larga escala com 5 milhões de pares de *prompts* visuais abrangendo tarefas diversificadas, incluindo dinâmicas de força com consciência física e previsão de trajetórias, juntamente com o VP-Bench, um benchmark rigorosamente curado que avalia a fidelidade à instrução, a precisão espacial, o realismo visual e a consistência de conteúdo. Experimentos extensivos demonstram que o FlowInOne atinge um desempenho de ponta em todas as tarefas de geração unificada, superando tanto modelos de código aberto como sistemas comerciais competitivos, estabelecendo uma nova base para a modelação generativa totalmente centrada na visão, onde a perceção e a criação coexistem num único espaço visual contínuo.
Os Grandes Modelos de Linguagem (LLMs) dependem cada vez mais de capacidades agentes — recuperação iterativa, uso de ferramentas e tomada de decisão — para superar os limites do conhecimento paramétrico e estático. No entanto, as estruturas agentes existentes tratam a informação externa como texto não estruturado e não conseguem aproveitar as dependências topológicas inerentes aos dados do mundo real. Para colmatar esta lacuna, introduzimos a Aprendizagem de Grafos Agente (AGL), um paradigma que reformula a aprendizagem de grafos como um processo intercalado de navegação com consciência topológica e inferência baseada em LLM. Especificamente, propomos o AgentGL, a primeira estrutura orientada por aprendizagem por reforço (RL) para AGL. O AgentGL equipa um agente LLM com ferramentas nativas de grafos para exploração multi-escala, regula o uso de ferramentas através de um pensamento com restrições de busca para equilibrar precisão e eficiência, e emprega uma estratégia de RL curricular condicionada por grafos para estabilizar a aprendizagem de políticas de longo horizonte sem supervisão passo a passo. Em diversos benchmarks de Grafos com Atributos Textuais (TAG) e múltiplas arquiteturas de LLM, o AgentGL supera substancialmente fortes baselines de GraphLLMs e GraphRAG, alcançando melhorias absolutas de até 17,5% na classificação de nós e 28,4% na previsão de ligações. Estes resultados demonstram que a AGL é uma fronteira promissora para permitir que os LLMs naveguem e raciocinem de forma autónoma em ambientes relacionais complexos. O código está publicamente disponível em https://github.com/sunyuanfu/AgentGL.
Antecipar diversos estados futuros é um desafio central na modelagem de mundos em vídeo. Os modelos de mundo discriminativos produzem uma previsão determinística que implicitamente faz uma média sobre os futuros possíveis, enquanto os modelos de mundo generativos existentes permanecem computacionalmente dispendiosos. Trabalhos recentes demonstram que prever o futuro no espaço de características de um modelo de base de visão (VFM), em vez de um espaço latente otimizado para reconstrução de pixels, requer significativamente menos parâmetros no modelo de mundo. No entanto, a maioria dessas abordagens permanece discriminativa. Neste trabalho, introduzimos o DeltaTok, um tokenizador que codifica a diferença de características do VFM entre quadros consecutivos em um único token contínuo "delta", e o DeltaWorld, um modelo de mundo generativo que opera sobre esses tokens para gerar de forma eficiente futuros plausíveis e diversos. Os tokens delta reduzem o vídeo de uma representação espaço-temporal tridimensional para uma sequência temporal unidimensional, resultando, por exemplo, numa redução de 1.024x no número de tokens com quadros de 512x512. Esta representação compacta permite um treino multi-hipótese tratável, onde muitos futuros são gerados em paralelo e apenas o melhor é supervisionado. Na inferência, isto leva a previsões diversas numa única passagem direta. Experiências em tarefas de previsão densa demonstram que o DeltaWorld prevê futuros que se alinham mais de perto com os resultados do mundo real, enquanto tem mais de 35x menos parâmetros e usa 2.000x menos FLOPS do que os modelos de mundo generativos existentes. Código e pesos: https://deltatok.github.io.
O Otimização de Políticas Relativas ao Grupo (GRPO) é amplamente utilizada para aprendizagem por reforço com recompensas verificáveis, mas frequentemente sofre de colapso da vantagem: quando todas as rollouts em um grupo recebem a mesma recompensa, o grupo produz uma vantagem relativa zero e, portanto, nenhum sinal de aprendizagem. Por exemplo, se uma questão for muito difícil para o raciocinador, todas as rollouts amostradas podem estar incorretas e receber recompensa zero. Trabalhos recentes abordam essa questão adicionando dicas ou suportes auxiliares a tais questões difíceis, para que o raciocinador produza resultados mistos e recupere uma atualização não zero. No entanto, as dicas existentes são geralmente fixas, em vez de adaptadas ao raciocinador atual, e uma dica que cria um sinal de aprendizagem sob a entrada com dica não necessariamente melhora a política sem dica usada no tempo de teste. Para esse fim, propomos a Aprendizagem de Dicas para Aprendizagem por Reforço (HiLL), uma estrutura que treina conjuntamente uma política de dica (hinter) e uma política de raciocinador durante a AR. Para cada questão difícil, o hinter gera dicas online condicionadas à rollout incorreta do raciocinador atual, permitindo que a geração de dicas se adapte aos erros em evolução do raciocinador. Introduzimos ainda a dependência da dica, que mede o quanto as trajectórias corretas com dica dependem da dica. Derivamos um resultado de transferibilidade que mostra que uma menor dependência da dica implica uma transferência mais forte do sucesso com dica para o sucesso sem dica, e usamos esse resultado para definir uma recompensa ponderada pela transferência para treinar o hinter. Portanto, o HiLL favorece dicas que não apenas recuperam grupos GRPO informativos, mas também produzem sinais com maior probabilidade de melhorar a política original sem dica. Experiências em múltiplos benchmarks mostram que o HiLL supera consistentemente o GRPO e as linhas de base anteriores baseadas em dicas, demonstrando o valor da aprendizagem de dicas adaptativas e conscientes da transferência para a AR. O código está disponível em https://github.com/Andree-9/HiLL.
Com o aumento da acessibilidade e utilização de documentos multilingues, a Recuperação de Informação Translinguística (CLIR) emergiu como uma importante área de investigação. Tradicionalmente, as tarefas de CLIR têm sido conduzidas em contextos onde o idioma dos documentos difere do idioma das consultas, sendo que, normalmente, os documentos são redigidos num único idioma coerente. Neste artigo, salientamos que, num tal contexto, a capacidade de alinhamento translinguístico pode não ser avaliada de forma adequada. Especificamente, observamos que, num conjunto de documentos onde coexistem documentos em inglês com documentos noutro idioma, a maioria dos sistemas de recuperação multilingues tende a priorizar documentos em inglês não relacionados em detrimento do documento relacionado escrito no mesmo idioma da consulta. Para analisar e quantificar rigorosamente este fenómeno, introduzimos vários cenários e métricas concebidos para avaliar o desempenho do alinhamento translinguístico em modelos de recuperação multilingues. Adicionalmente, para melhorar o desempenho translinguístico nestas condições desafiadoras, propomos uma nova estratégia de treino destinada a reforçar o alinhamento translinguístico. Utilizando apenas um pequeno conjunto de dados com 2,8 mil exemplos, o nosso método melhora significativamente o desempenho da recuperação translinguística, mitigando simultaneamente o problema da inclinação para o inglês. Análises extensivas demonstram que o método proposto melhora substancialmente as capacidades de alinhamento translinguístico da maioria dos modelos de incorporação multilingues.
O raciocínio com regras complexas e específicas de contexto continua sendo um desafio para os grandes modelos de linguagem (LLMs). Em contextos jurídicos e políticos, isso se manifesta como raciocínio deôntico: raciocinar sobre obrigações, permissões e proibições sob regras explícitas. Embora muitos benchmarks recentes enfatizem o raciocínio matemático de contexto curto, poucos se concentram no raciocínio deôntico de alto risco e contexto longo. Para preencher essa lacuna, apresentamos o DEONTICBENCH, um benchmark composto por 6.232 tarefas abrangendo impostos federais dos EUA, políticas de bagagem de companhias aéreas, administração de imigração dos EUA e leis estaduais de habitação dos EUA. Essas tarefas podem ser abordadas de várias maneiras, incluindo raciocínio direto em linguagem natural ou com auxílio de computação simbólica. Além do raciocínio em cadeia de pensamento de forma livre, o DEONTICBENCH permite um fluxo de trabalho opcional baseado em solucionador, no qual os modelos traduzem estatutos e fatos do caso em Prolog executável, levando a interpretações formais do problema e um rastreamento de programa explícito. Disponibilizamos programas de referência em Prolog para todas as instâncias. Entre os LLMs de fronteira e modelos de codificação, o melhor desempenho no subconjunto difícil atinge apenas 44,4% no SARA Numérico e 46,6 de macro-F1 no Habitação. Estudamos ainda o treinamento com ajuste fino supervisionado e aprendizado por reforço para a geração de programas simbólicos. Embora o treinamento melhore a qualidade da geração em Prolog, os métodos atuais de RL ainda não resolvem essas tarefas de forma confiável. No geral, o DEONTICBENCH fornece um benchmark para estudar o raciocínio baseado em regras fundamentadas no contexto em domínios do mundo real, tanto em configurações simbólicas quanto não simbólicas.
Os MLLMs exigem entradas visuais de alta resolução para tarefas de granularidade fina, como compreensão de documentos e percepção densa de cenas. No entanto, os paradigmas atuais de escalonamento global de resolução inundam indiscriminadamente o mecanismo de self-attention quadrática com tokens visualmente redundantes, criando um grave gargalo na taxa de inferência enquanto ignoram a esparsidade espacial e a intenção da consulta. Para superar isso, propomos o Q-Zoom, uma estrutura de percepção adaptativa de alta resolução e consciente da consulta que opera de forma eficiente no modo coarse-to-fine. Primeiro, uma Dynamic Gating Network leve ignora com segurança o processamento de alta resolução quando características globais de baixa granularidade são suficientes. Segundo, para consultas que exigem percepção de granularidade fina, uma Self-Distilled Region Proposal Network (SD-RPN) localiza precisamente a Região de Interesse (RoI) relevante para a tarefa diretamente a partir dos espaços de características intermediários. Para otimizar esses módulos de forma eficiente, a rede de gateamento usa uma estratégia de geração consistency-aware para derivar rótulos de roteamento determinísticos, enquanto a SD-RPN emprega um paradigma de destilação totalmente autossupervisionado. Um esquema de alinhamento espaço-temporal contínuo e um fine-tuning direcionado fundem então perfeitamente a RoI local densa com o layout global de baixa granularidade. Experimentos extensivos demonstram que o Q-Zoom estabelece uma fronteira de Pareto dominante. Usando o Qwen2.5-VL-7B como plataforma de teste principal, o Q-Zoom acelera a inferência em 2,52 vezes em benchmarks de Document & OCR e 4,39 vezes em cenários de Alta Resolução, enquanto iguala a precisão máxima da baseline. Além disso, quando configurado para máxima fidelidade perceptual, o Q-Zoom supera o desempenho de pico da baseline em 1,1% e 8,1% nestes benchmarks respectivos. Essas melhorias robustas transferem-se perfeitamente para o Qwen3-VL, LLaVA e modelos emergentes baseados em RL de pensamento com imagens. A página do projeto está disponível em https://yuhengsss.github.io/Q-Zoom/.
O Treinamento em Tempo de Teste com Grandes Segmentos (LaCT) demonstrou um forte desempenho na reconstrução 3D de contexto longo, mas as suas atualizações totalmente plásticas durante a inferência permanecem vulneráveis ao esquecimento catastrófico e ao sobreajuste. Como resultado, o LaCT é tipicamente instanciado com um único segmento grande que abrange toda a sequência de entrada, ficando aquém do objetivo mais amplo de processar sequências arbitrariamente longas em uma única passagem. Propomos o Treinamento em Tempo de Teste Elástico, inspirado na consolidação elástica de pesos, que estabiliza as atualizações de pesos rápidos do LaCT com um prior elástico ponderado pela matriz de Fisher em torno de um estado âncora mantido. O âncora evolui como uma média móvel exponencial dos pesos rápidos passados para equilibrar estabilidade e plasticidade. Com base nesta arquitetura atualizada, introduzimos a Memória Espacial Rápida (FSM), um modelo eficiente e escalável para reconstrução 4D que apreende representações espaço-temporais a partir de longas sequências de observação e renderiza novas combinações de vista-tempo. Pré-treinamos a FSM em dados 3D/4D curados em larga escala para capturar a dinâmica e a semântica de ambientes espaciais complexos. Experimentos extensivos mostram que a FSM suporta uma adaptação rápida ao longo de longas sequências e produz reconstrução 3D/4D de alta qualidade com segmentos menores, mitigando o atalho da interpolação de câmera. No geral, esperamos avançar o LaCT para além do cenário limitado de segmento único em direção a uma adaptação robusta de múltiplos segmentos, um passo necessário para a generalização para sequências genuinamente mais longas, enquanto alivia substancialmente o gargalo de memória de ativação.
A geração de vídeos controlados por movimento--nos quais ações especificadas pelo usuário orientam dinâmicas de cena fisicamente plausíveis sob pontos de vista livremente escolhidos--exige duas capacidades: (1) controle de movimento desacoplado, permitindo que os usuários controlem separadamente o movimento do objeto e ajustem o ponto de vista da câmera; e (2) causalidade do movimento, garantindo que ações dirigidas pelo usuário desencadeiem reações coerentes de outros objetos, em vez de meramente deslocar pixels. Os métodos existentes são deficientes em ambas as frentes: eles entrelaçam o movimento da câmera e do objeto num único sinal de rastreamento e tratam o movimento como um deslocamento cinemático sem modelar relações causais entre os movimentos dos objetos. Apresentamos o MoRight, uma estrutura unificada que aborda ambas as limitações através da modelagem desacoplada de movimento. O movimento do objeto é especificado numa vista estática canónica e transferido para um ponto de vista de câmera alvo arbitrário através de atenção temporal cruzada entre vistas, permitindo o controle desacoplado da câmera e do objeto. Decompomos ainda o movimento em componentes ativos (conduzidos pelo usuário) e passivos (consequência), treinando o modelo para aprender a causalidade do movimento a partir dos dados. Na inferência, os usuários podem fornecer movimento ativo e o MoRight prevê as consequências (raciocínio direto), ou especificar resultados passivos desejados e o MoRight recupera ações condutoras plausíveis (raciocínio inverso), tudo enquanto ajustam livremente o ponto de vista da câmera. Experimentos em três benchmarks demonstram desempenho state-of-the-art em qualidade de geração, controlabilidade do movimento e consciência da interação.
A Registração Precisa de Nuvens de Pontos (PCR) é uma tarefa importante no processamento de dados 3D, envolvendo a estimativa de uma transformação rígida entre duas nuvens de pontos. Embora os métodos de *deep learning* tenham abordado limitações-chave das abordagens tradicionais não baseadas em aprendizagem, como a sensibilidade a ruído, *outliers*, oclusão e inicialização, eles são desenvolvidos e avaliados em conjuntos de dados sintéticos, limpos e densos (limitando sua generalização para cenários industriais do mundo real). Este artigo introduz a R3PM-Net, uma rede leve, de correspondência de pontos a nível de objeto e com consciência global, projetada para preencher esta lacuna priorizando tanto a generalização quanto a eficiência em tempo real. Para apoiar esta transição, são propostos dois conjuntos de dados, Sioux-Cranfield e Sioux-Scans. Eles fornecem um terreno de avaliação para registrar digitalizações fotogramétricas e de câmeras de eventos imperfeitas em modelos CAD digitais, e foram disponibilizados publicamente. Experimentos extensivos demonstram que a R3PM-Net alcança precisão competitiva com velocidade incomparável. No ModelNet40, atinge uma pontuação de ajuste perfeita de 1 e um RMSE de *inliers* de 0,029 cm em apenas 0,007s, aproximadamente 7 vezes mais rápido que o método state-of-the-art RegTR. Este desempenho transfere-se para o conjunto de dados Sioux-Cranfield, mantendo um ajuste de 1 e um RMSE de *inliers* de 0,030 cm com latência igualmente baixa. Além disso, no altamente desafiador conjunto de dados Sioux-Scans, a R3PM-Net resolve com sucesso casos extremos em menos de 50 ms. Estes resultados confirmam que a R3PM-Net oferece uma solução robusta e de alta velocidade para aplicações industriais críticas, onde a precisão e o desempenho em tempo real são indispensáveis. O código e os conjuntos de dados estão disponíveis em https://github.com/YasiiKB/R3PM-Net.
Modelos de raciocínio de grande escala têm demonstrado recentemente um forte desempenho em tarefas complexas que exigem longas cadeias de raciocínio, através do *fine-tuning* supervisionado em conjuntos de dados extensos e de alta qualidade. Para construir tais conjuntos de dados, os *pipelines* existentes geram dados de raciocínio longo a partir de Modelos de Linguagem de Grande Escala (LLMs) mais capazes e aplicam métodos de seleção heurísticos manuais ou baseados em naturalidade para filtrar amostras de alta qualidade. Apesar da eficácia comprovada da seleção de dados baseada em naturalidade, que classifica os dados pela probabilidade logarítmica média atribuída pelos LLMs, a nossa análise mostra que, quando aplicada a conjuntos de dados de raciocínio de LLMs, ela prefere sistematicamente amostras com etapas de raciocínio mais longas (ou seja, mais *tokens* por etapa) em vez de amostras de qualidade superior, um fenómeno que designamos por **confundimento do comprimento da etapa**. Através de análise quantitativa, atribuímos este fenómeno aos primeiros *tokens* de baixa probabilidade nas etapas de raciocínio; etapas mais longas diluem a sua influência, inflacionando assim as probabilidades logarítmicas médias. Para resolver este problema, propomos dois métodos variantes: **ASLEC-DROP**, que ignora as probabilidades do primeiro *token* ao calcular a probabilidade logarítmica média, e **ASLEC-CASL**, que aplica uma regressão de desvio causal para remover o efeito de confundimento dos primeiros *tokens*. Experiências realizadas em quatro LLMs e cinco *benchmarks* de avaliação demonstram a eficácia da nossa abordagem na mitigação do problema de confundimento do comprimento da etapa.
A equivariância é uma propriedade fundamental em modelos de visão computacional, contudo, a equivariância estrita raramente é satisfeita em dados do mundo real, o que pode limitar o desempenho de um modelo. Controlar o grau de equivariância é, portanto, desejável. Propomos uma estrutura geral para construir modelos suavemente equivariantes através da projeção dos pesos do modelo num subespaço concebido para o efeito. O método é aplicável a qualquer arquitetura pré-treinada e fornece limites teóricos para o erro de equivariância induzido. Empiricamente, demonstramos a eficácia do nosso método em múltiplas *backbones* pré-treinadas, incluindo ViT e ResNet, em tarefas de classificação de imagens, segmentação semântica e previsão de trajetórias humanas. De forma notável, a nossa abordagem melhora o desempenho enquanto reduz simultaneamente o erro de equivariância no competitivo benchmark ImageNet.
Apresentamos o GenLCA, um modelo generativo baseado em difusão para gerar e editar avatares fotorealísticos de corpo inteiro a partir de entradas de texto e imagem. Os avatares gerados são fiéis às entradas, suportando simultaneamente animações faciais e de corpo inteiro de alta fidelidade. A ideia central é um novo paradigma que permite treinar um modelo de difusão 3D de corpo inteiro a partir de dados 2D parcialmente observáveis, permitindo que o conjunto de dados de treinamento seja escalado para milhões de vídeos do mundo real. Essa escalabilidade contribui para o fotorealismo e a generalizabilidade superiores do GenLCA. Especificamente, ampliamos o conjunto de dados reutilizando um modelo pré-treinado de reconstrução de avatares *feed-forward* como um tokenizador 3D animável, que codifica quadros de vídeo não estruturados em tokens 3D estruturados. No entanto, a maioria dos vídeos do mundo real fornece apenas observações parciais das partes do corpo, resultando em artefatos excessivos de desfoque ou transparência nos tokens 3D. Para resolver isso, propomos uma nova estratégia de treinamento de difusão com consciência da visibilidade, que substitui regiões inválidas por tokens aprendíveis e calcula as perdas apenas sobre as regiões válidas. Em seguida, treinamos um modelo de difusão baseado em fluxo no conjunto de dados de tokens, mantendo inerentemente o fotorealismo e a capacidade de animação fornecidos pelo modelo pré-treinado de reconstrução de avatares. Nossa abordagem permite efetivamente o uso de dados de vídeo em larga escala do mundo real para treinar um modelo de difusão nativamente em 3D. Demonstramos a eficácia do nosso método por meio de resultados de geração e edição diversos e de alta fidelidade, superando as soluções existentes por uma grande margem. A página do projeto está disponível em https://onethousandwu.com/GenLCA-Page.
À medida que os modelos de linguagem multimodal (MLLMs) audiovisuais são cada vez mais implementados em aplicações críticas para a segurança, compreender as suas vulnerabilidades é crucial. Para tal, introduzimos a Tipografia Multimodal, um estudo sistemático que examina como os ataques tipográficos em múltiplas modalidades influenciam negativamente os MLLMs. Enquanto trabalhos anteriores se concentram de forma restrita em ataques unimodais, nós expomos a fragilidade cross-modal dos MLLMs. Analisamos as interações entre perturbações de áudio, visuais e textuais e revelamos que um ataque multimodal coordenado cria uma ameaça significativamente mais potente do que ataques de modalidade única (taxa de sucesso do ataque = 83,43% vs 34,93%). As nossas descobertas, abrangendo múltiplos MLLMs de fronteira, tarefas e benchmarks de raciocínio de senso comum e moderação de conteúdo, estabelecem a tipografia multimodal como uma estratégia de ataque crítica e subexplorada no raciocínio multimodal. O código e os dados estarão publicamente disponíveis.
Os benchmarks online existentes para agentes de GUI móveis permanecem amplamente centrados em aplicativos e homogéneos em tarefas, falhando em refletir a diversidade e instabilidade do uso real de dispositivos móveis. Para tal, introduzimos o VenusBench-Mobile, um benchmark online desafiador para avaliar agentes de GUI móveis de propósito geral sob condições realistas e centradas no utilizador. O VenusBench-Mobile assenta em dois pilares centrais de avaliação: definir o que avaliar através de um desenho de tarefas orientado por intenções do utilizador que reflete o uso real de dispositivos móveis, e como avaliar através de um esquema de anotação orientado por capacidades para uma análise granular do comportamento do agente. A avaliação extensiva de agentes de GUI móveis state-of-the-art revela grandes lacunas de desempenho em relação a benchmarks anteriores, indicando que o VenusBench-Mobile apresenta tarefas substancialmente mais desafiadoras e realistas e que os agentes atuais permanecem muito longe de uma implantação confiável no mundo real. A análise diagnóstica mostra ainda que as falhas são dominadas por deficiências na perceção e memória, as quais são amplamente obscurecidas por avaliações de granularidade grossa. Além disso, mesmo os agentes mais fortes exibem uma taxa de sucesso próxima de zero sob variações ambientais, destacando a sua fragilidade em ambientes realistas. Com base nestas perceções, acreditamos que o VenusBench-Mobile fornece um passo importante em direção à implantação robusta no mundo real de agentes de GUI móveis. O código e os dados estão disponíveis em https://github.com/inclusionAI/UI-Venus/tree/VenusBench-Mobile.