Artigos de pesquisa em IA selecionados diariamente com traduções
Progressos recentes em modelos de raciocínio avançaram substancialmente a resolução de problemas matemáticos e científicos de longo horizonte, com vários sistemas alcançando agora desempenho de nível medalha de ouro em problemas da Olimpíada Internacional de Matemática (IMO) e da Olimpíada Internacional de Física (IPhO). Neste artigo, apresentamos uma receita simples e unificada para converter um backbone de raciocínio pós-treinado em um solucionador rigoroso de nível olímpico. A receita primeiro utiliza um currículo de perplexidade reversa para SFT, a fim de incutir comportamentos rigorosos de busca de prova e autoverificação; em seguida, escala esses comportamentos por meio de um pipeline de RL em dois estágios que progride de RL com recompensas verificáveis para uma RL mais refinada no nível de provas; e, por fim, impulsiona o desempenho de resolução com escalonamento em tempo de teste. Aplicando esta receita, treinamos um backbone de 30B-A3B com SFT em cerca de 340.000 trajetórias de menos de 8 mil tokens, seguidas por 200 etapas de RL. O modelo resultante, SU-01, suporta raciocínio estável em problemas difíceis com trajetórias que excedem 100 mil tokens, ao mesmo tempo que alcança desempenho de nível medalha de ouro em competições olímpicas de matemática e física, incluindo IMO 2025/USAMO 2026 e IPhO 2024/2025. Ele também demonstra forte generalização do raciocínio científico para domínios além da matemática e da física.
A geração interativa de vídeo em tempo real requer baixa latência, transmissão contínua e rollout controlável. Métodos existentes de destilação por difusão autorregressiva (AR) alcançaram resultados sólidos no regime de 4 passos por bloco, destilando modelos de base bidirecionais em modelos alunos AR de poucos passos, mas ainda são limitados por granularidade grossa de resposta e latência de amostragem não desprezível. Neste artigo, estudamos um cenário mais agressivo: autorregressão quadro a quadro com apenas 1–2 passos de amostragem. Nesse regime, identificamos que a inicialização de um modelo aluno AR de poucos passos é o principal gargalo: as estratégias existentes são ou mal alinhadas ao alvo, incapazes de gerar em poucos passos, ou muito custosas para escalar. Propomos o Causal Forcing++, um pipeline escalável e fundamentado que usa destilação de consistência causal (causal CD) para inicialização AR de poucos passos. A ideia central é que a causal CD aprende o mesmo mapa de fluxo condicionado à AR que a destilação por EDO causal, mas obtém supervisão de um único passo do modelo professor da EDO online entre passos de tempo adjacentes, evitando a necessidade de pré-computar e armazenar trajetórias completas da PF-EDO. Isso torna a inicialização mais eficiente e mais fácil de otimizar. O pipeline resultante, \ours, supera o estado da arte Causal Forcing de 4 passos por bloco sob o \textbf{cenário de 2 passos quadro a quadro} em 0,1 no VBench Total, 0,3 no VBench Qualidade e 0,335 no VisionReward, ao mesmo tempo que reduz a latência do primeiro quadro em 50% e o custo de treinamento do Estágio 2 em cerca de 4 vezes. Estendemos ainda o pipeline para geração de modelos de mundo condicionados a ações, no espírito do Genie3. Página do Projeto: https://github.com/thu-ml/Causal-Forcing e https://github.com/shengshu-ai/minWM .
A Aprendizagem por Reforço (RL) emergiu como um paradigma central para o pós-treinamento de agentes LLM, mas seu sinal de recompensa no nível de trajetória fornece apenas supervisão grosseira para interações de longo horizonte. A Autodestilação On-Policy (OPSD) complementa a RL ao introduzir orientação densa no nível de token a partir de um ramo professor aumentado com contexto privilegiado. No entanto, transferir OPSD para agentes multi-turno revela-se problemático: a instabilidade composta multi-turno desestabiliza a supervisão, enquanto a orientação privilegiada condicionada a habilidades requer tratamento assimétrico, pois rejeições negativas do professor podem surgir de recuperação ou utilização imperfeita de habilidades. Introduzimos SDAR (Aprendizagem por Reforço Agentiva Autodestilada), que trata OPSD como um objetivo auxiliar com porta, mantendo RL como a espinha dorsal de otimização principal. O SDAR mapeia sinais de token desanexados em uma porta sigmoide, fortalecendo a destilação em tokens com lacuna positiva endossados pelo professor e atenuando suavemente rejeições negativas do professor. Nas famílias Qwen2.5 e Qwen3 em ALFWorld, WebShop e Search-QA, o SDAR melhora substancialmente em relação ao GRPO (+9,4% no ALFWorld, +7,0% no Search-QA, +10,2% no WebShop-Acc), evita a instabilidade do GRPO+OPSD ingênuo e supera consistentemente as linhas de base híbridas de RL-OPSD em diferentes escalas de modelo.
A memória é essencial para modelos de linguagem visual de grande escala (LVLMs) lidarem com interações multimodais longas, com duas direções metodológicas fornecendo essa capacidade: LVLMs de contexto longo e agentes aumentados por memória. No entanto, nenhum benchmark existente realiza uma comparação sistemática entre as duas em questões que exigem genuinamente evidência multimodal. Para preencher essa lacuna, apresentamos o MEMLENS, um benchmark abrangente para memória em conversas multimodais de múltiplas sessões, composto por 789 questões abrangendo cinco habilidades de memória (extração de informações, raciocínio entre sessões, raciocínio temporal, atualização de conhecimento e recusa de resposta) em quatro comprimentos de contexto padrão (32K-256K tokens) sob um esquema de contagem de tokens entre modalidades. Um estudo de ablação de imagens confirma que resolver o MEMLENS exige evidência visual: a remoção de imagens de evidência reduz dois LVLMs de fronteira a menos de 2% de precisão nos 80,4% das questões cuja evidência inclui imagens. Ao avaliar 27 LVLMs e 7 agentes aumentados por memória, descobrimos que LVLMs de contexto longo alcançam alta precisão em contextos curtos por meio de fundamentação visual direta, mas degradam à medida que as conversas crescem, enquanto agentes de memória são estáveis em comprimento, mas perdem fidelidade visual sob compressão durante o armazenamento. O raciocínio entre sessões limita a maioria dos sistemas a menos de 30%, e nenhuma abordagem isoladamente resolve a tarefa. Esses resultados motivam arquiteturas híbridas que combinam atenção de contexto longo com recuperação multimodal estruturada. Nosso código está disponível em https://github.com/xrenaf/MEMLENS.
Apresentamos o SANA-WM, um modelo de mundo eficiente, de código aberto e com 2,6 bilhões de parâmetros, treinado nativamente para geração de um minuto, sintetizando vídeos de alta fidelidade em 720p e escala de minutos com controle preciso de câmera. O SANA-WM atinge qualidade visual comparável a referências industriais de grande escala, como LingBot-World e HY-WorldPlay, enquanto melhora significativamente a eficiência. Quatro componentes fundamentais orientam nossa arquitetura: (1) Atenção Linear Híbrida combina Gated DeltaNet (GDN) por quadro com atenção softmax para modelagem eficiente de contexto longo em memória. (2) Controle de Câmera de Ramo Duplo garante aderência precisa à trajetória de 6 Graus de Liberdade (6-DoF). (3) Pipeline de Geração em Dois Estágios aplica um refinador de vídeos longos às saídas do estágio 1, melhorando a qualidade e a consistência entre sequências. (4) Pipeline de Anotação Robusta extrai poses de câmera precisas em escala métrica de 6-DoF a partir de vídeos públicos, gerando rótulos de ação de alta qualidade e consistentes no espaço-tempo. Impulsionado por esses projetos, o SANA-WM demonstra eficiência notável em dados, computação de treinamento e hardware de inferência: utiliza apenas 213 mil clipes de vídeo públicos com supervisão de pose em escala métrica, conclui o treinamento em 15 dias em 64 H100s e gera cada clipe de 60 segundos em uma única GPU; sua variante destilada pode ser implantada em uma única RTX 5090 com quantização NVFP4 para remover ruído de um clipe de 720p com 60 segundos em 34 segundos. Em nosso benchmark de modelo de mundo de um minuto, o SANA-WM demonstra precisão de seguimento de ação superior às referências anteriores de código aberto e atinge qualidade visual comparável com uma taxa de transferência 36 vezes maior para modelagem de mundo escalável.
A memória de longo prazo de agentes é cada vez mais multimodal, no entanto, as avaliações existentes raramente testam se os agentes preservam as evidências visuais necessárias para raciocínios posteriores. Em trabalhos anteriores, muitas perguntas fundamentadas visualmente podiam ser respondidas usando apenas legendas ou vestígios textuais, permitindo inferir respostas sem preservar evidências visuais detalhadas. Entretanto, casos mais difíceis que exigem raciocínio sobre estados visuais em mudança estão em grande parte ausentes. Portanto, apresentamos o MemEye, uma estrutura que avalia capacidades de memória em duas dimensões: uma mede a granularidade das evidências visuais decisivas (desde evidências no nível da cena até o nível do pixel), e a outra mede como as evidências recuperadas devem ser usadas (desde uma única evidência até síntese evolutiva). Sob essa estrutura, construímos um novo conjunto de referência em 8 tarefas de cenários da vida real, com portas de validação orientadas por ablação para avaliar a capacidade de resposta, resistência a atalhos, necessidade visual e estrutura de raciocínio. Ao avaliar 13 métodos de memória em 4 backbones de VLM, mostramos que as arquiteturas atuais ainda têm dificuldade em preservar detalhes visuais finos e raciocinar sobre mudanças de estado ao longo do tempo. Nossos achados indicam que a memória multimodal de longo prazo depende de roteamento de evidências, rastreamento temporal e extração de detalhes.
Apresentamos a Darwin Family, uma estrutura para fusão evolucionária sem treinamento de grandes modelos de linguagem via recombinação no espaço de pesos sem gradientes. Investigamos se o desempenho de raciocínio de nível avançado pode ser melhorado sem treinamento adicional, reorganizando capacidades latentes já codificadas em checkpoints existentes. A Darwin introduz três ideias-chave: (i) um genoma de fusão adaptativo de 14 dimensões que permite recombinação refinada em nível de componente e bloco; (ii) a Fusão MRI-Trust, que equilibra adaptativamente sinais de importância de camada diagnóstica com busca evolucionária por meio de um parâmetro de confiança aprendível; e (iii) um Mapeador de Arquitetura que possibilita o cruzamento entre arquiteturas heterogêneas de famílias de modelos distintas. Empiricamente, o modelo principal Darwin-27B-Opus alcança 86,9% no GPQA Diamond, ocupando a 6ª posição entre 1.252 modelos avaliados, superando seu modelo de base totalmente treinado sem qualquer treinamento baseado em gradientes. Em escalas de 4B a 35B parâmetros, os modelos Darwin melhoram consistentemente em relação aos seus progenitores, suportam evolução recursiva multigeracional e possibilitam uma fusão evolucionária sem treinamento que combina componentes baseados em Transformer e Mamba. Em conjunto, a Darwin Family demonstra que a fusão evolucionária guiada por diagnósticos é uma alternativa prática e reproduzível aos dispendiosos pipelines de pós-treinamento para modelos de linguagem centrados em raciocínio.
Agentes autônomos baseados em LLM demonstraram fortes capacidades de raciocínio, planejamento e uso de ferramentas, mas ainda são limitados quando as tarefas exigem coordenação sustentada entre papéis, ferramentas e ambientes. Os sistemas multiagentes abordam isso por meio da colaboração estruturada entre agentes especializados, mas uma coordenação mais estreita também amplifica um risco menos explorado: os erros podem se propagar entre agentes e ao longo de rodadas de interação, produzindo falhas difíceis de diagnosticar e que raramente se traduzem em autoaperfeiçoamento estrutural. As revisões existentes cobrem separadamente as capacidades individuais dos agentes, a colaboração multiagente ou a auto-evolução dos agentes, deixando sem exame as dependências causais entre esses aspectos. Esta revisão fornece uma análise unificada organizada em torno de quatro estágios causalmente ligados, que denominamos progressão LIFE: Estabelecer a base de capacidades (Lay the capability foundation), Integrar agentes por meio de colaboração (Integrate agents through collaboration), Identificar falhas por meio de atribuição (Find faults through attribution) e Evoluir por meio de autoaperfeiçoamento autônomo (Evolve through autonomous self-improvement). Para cada estágio, fornecemos taxonomias sistemáticas e caracterizamos formalmente as dependências entre estágios adjacentes, revelando como cada estágio depende e restringe o próximo. Além de sintetizar trabalhos existentes, identificamos desafios em aberto nas fronteiras entre estágios e propomos uma agenda de pesquisa entre estágios para sistemas multiagentes de malha fechada, capazes de diagnosticar continuamente falhas, reorganizar estruturas e refinar comportamentos dos agentes, estendendo as estruturas de coordenação atuais em direção a formas mais auto-organizáveis de inteligência coletiva. Ao conectar essas linhas de pesquisa anteriormente fragmentadas, esta revisão visa oferecer tanto uma referência sistemática quanto um roteiro conceitual rumo à inteligência multiagente autônoma e autoaperfeiçoável.
Os agentes de Modelos de Linguagem de Grande Porte (LLMs) são cada vez mais esperados para manter uma memória pessoal coerente e de longo prazo, no entanto, os benchmarks atuais medem principalmente a recuperação estática de fatos, ignorando a capacidade de revisar crenças armazenadas quando novas evidências surgem. Identificamos um modo de falha crítico e pouco explorado, o Conflito Implícito: uma observação posterior invalida uma memória anterior sem negação explícita, exigindo inferência contextual e raciocínio de senso comum para ser detectado. Para avaliar rigorosamente essa capacidade, apresentamos o STALE, um benchmark com 400 cenários de conflito validados por especialistas (1.200 consultas de avaliação em três dimensões de sondagem) abrangendo mais de 100 tópicos do cotidiano, com contextos de até 150 mil tokens. Propomos uma estrutura tridimensional de sondagem que testa a Resolução de Estado (detectar que uma crença anterior está desatualizada), a Resistência a Premissas (rejeitar consultas que pressupõem falsamente um estado obsoleto) e a Adaptação Implícita de Políticas (aplicar proativamente estados atualizados em comportamentos downstream). Uma avaliação sistemática de LLMs de ponta e estruturas especializadas de memória revela uma lacuna generalizada entre recuperar evidências atualizadas e agir sobre elas, com o melhor modelo avaliado alcançando apenas 55,2% de precisão geral. Os modelos frequentemente aceitam suposições desatualizadas embutidas na consulta do usuário e têm dificuldade em reconhecer quando uma mudança em um aspecto do estado do usuário deve invalidar memórias relacionadas. Para estabelecer uma linha de base inicial para memória ciente de estado, apresentamos ainda o CUPMem, um protótipo que fortalece a revisão no momento da escrita por meio de consolidação estruturada de estado e busca ciente de propagação, sugerindo que a adjudicação explícita de estado é uma direção promissora para uma memória agentiva robusta.
Modelos de linguagem ampla e de visão-linguagem estão cada vez mais alimentando agentes que atuam em nome de um usuário por meio de interfaces de linha de comando (CLI). No entanto, a maioria dos benchmarks para agentes ainda depende de sandboxes sintéticos, tarefas de horizonte curto, APIs de serviço simuladas e verificações de resposta final, deixando em aberto se os agentes conseguem concluir trabalhos realistas de horizonte longo nos ambientes de execução onde são implantados. Este trabalho apresenta o WildClawBench, um benchmark de ambiente nativo composto por 60 tarefas bilíngues, multimodais e escritas por humanos, abrangendo seis categorias temáticas. Cada tarefa leva em média cerca de 8 minutos de tempo real de execução e mais de 20 chamadas de ferramentas, sendo executada dentro de um contêiner Docker reproduzível que hospeda um harness real de agente CLI (OpenClaw, Claude Code, Codex ou Hermes Agent) com acesso a ferramentas reais, em vez de serviços simulados. A avaliação é híbrida, combinando verificações determinísticas baseadas em regras, auditoria de estado do ambiente quanto a efeitos colaterais e um juiz LLM/VLM para verificação semântica. Entre 19 modelos de fronteira, o melhor, Claude Opus 4.7, atinge apenas 62,2% geral no OpenClaw, enquanto todos os outros modelos ficam abaixo de 60%, e a simples troca de harness altera um único modelo em até 18 pontos percentuais. Esses resultados mostram que a avaliação de agentes em horizonte longo e ambiente nativo ainda é uma tarefa longe de estar resolvida para os modelos de fronteira atuais. Disponibilizamos as tarefas, o código e as ferramentas conteinerizadas para apoiar a avaliação reproduzível.
O controle de geração de vídeo por câmera tem avançado consideravelmente, permitindo que vídeos gerados sigam trajetórias de ponto de vista prescritas. No entanto, métodos existentes geralmente aprendem condicionamento específico de câmera por meio de codificadores de câmera, ramos de controle ou modificações na codificação posicional e de atenção, que frequentemente exigem pós-treinamento em vídeos anotados com câmera em larga escala. Alternativas livres de treinamento evitam esse pós-treinamento, mas frequentemente transferem o custo para otimização em tempo de teste ou orientação extra em tempo de remoção de ruído. Propomos o Warp-as-History, uma interface simples que transforma deformações induzidas por câmera em um pseudo-histórico deformado por câmera com alinhamento posicional do quadro alvo e seleção de tokens visíveis. Dada uma trajetória de câmera alvo, construímos um pseudo-histórico deformado por câmera a partir de observações passadas e o alimentamos pelo caminho de histórico visual do modelo. Crucialmente, alinhamos sua codificação posicional com os quadros alvo sendo removidos de ruído e removemos tokens de histórico deformado sem observações fonte válidas. Sem qualquer treinamento, modificação arquitetural ou otimização em tempo de teste, essa interface revela uma capacidade zero-shot não trivial de um modelo de geração de vídeo congelado para seguir trajetórias de câmera. Além disso, o ajuste fino leve offline via LoRA em apenas um vídeo anotado com câmera melhora ainda mais essa capacidade e generaliza para vídeos não vistos, aprimorando a aderência à câmera, a qualidade visual e a dinâmica de movimento, sem otimização em tempo de teste ou adaptação ao vídeo alvo. Experimentos extensivos em diversos conjuntos de dados confirmam a eficácia do nosso método.
À medida que o ecossistema de modelos de linguagem de grande escala (LLMs) se expande, modelos individuais exibem capacidades variadas entre consultas, benchmarks e domínios, o que impulsiona o desenvolvimento de roteamento de LLMs. Embora trabalhos anteriores tenham se concentrado majoritariamente no design de mecanismos de roteadores, os perfis de LLMs, que capturam as capacidades dos modelos, permanecem subexplorados. Neste trabalho, perguntamos: Como o design do perfil de LLM afeta o desempenho do roteamento em diferentes roteadores? Abordar essa questão ajuda a esclarecer o papel dos perfis no roteamento, dissociar o design de perfis do design de roteadores e permitir uma comparação mais justa e um desenvolvimento mais fundamentado de sistemas de roteamento. Para tanto, encaramos a criação de perfis de LLMs como um problema estruturado de integração de informações sobre históricos de interação heterogêneos. Desenvolvemos um espaço geral de design para perfis de LLM, denominado RouteProfile, ao longo de quatro dimensões-chave: forma organizacional, tipo de representação, profundidade de agregação e configuração de aprendizado. Por meio de avaliação sistemática em três roteadores representativos, tanto em configurações padrão quanto de generalização para novos LLMs, mostramos que: (1) perfis estruturados superam consistentemente os planos; (2) sinais em nível de consulta são mais confiáveis que sinais grosseiros em nível de domínio; e (3) a generalização para modelos recém-introduzidos se beneficia mais de perfis estruturados sob configurações treináveis. No geral, nosso trabalho destaca o design de perfis de LLM como uma direção importante para futuras pesquisas em roteamento.
A memória do agente é tipicamente construída offline a partir de demonstrações curadas ou online a partir de interações pós-implantação. No entanto, independentemente de como é construída, um agente enfrenta uma lacuna de inicialização a frio quando introduzido pela primeira vez em um novo ambiente, sem qualquer experiência específica de tarefa disponível. Neste artigo, estudamos a construção de memória pré-tarefa: se um agente pode construir memória procedural antes de observar quaisquer tarefas do ambiente-alvo, utilizando apenas prática sintética autogerada. Contudo, a interação sintética isolada é insuficiente, pois, sem controle sobre o que praticar e o que armazenar, as tarefas sintéticas tornam-se redundantes, inviáveis e, em última análise, pouco informativas, e a memória se degrada rapidamente devido a trajetórias não filtradas. Para superar isso, apresentamos Preping, uma estrutura de construção de memória guiada por proponente. Seu núcleo é a memória do proponente, um estado de controle estruturado que molda a prática futura. Um Proponente gera tarefas sintéticas condicionadas a esse estado, um Solver as executa, e um Validador determina quais trajetórias são elegíveis para inserção na memória, além de fornecer feedback para orientar propostas futuras. Experimentos no AppWorld, BFCL v3 e MCP-Universe mostram que o Preping melhora substancialmente em relação a uma linha de base sem memória e atinge desempenho competitivo com métodos robustos baseados em playbook construídos a partir de experiência offline ou online, com custo de implantação 2,99 vezes menor no AppWorld e 2,23 vezes menor no BFCL v3 do que a construção de memória online. Análises adicionais revelam que o principal benefício não advém apenas do volume sintético, mas do controle do lado do proponente sobre viabilidade, redundância e cobertura, combinado com atualizações seletivas de memória.
A memória de longo prazo é essencial para agentes de LLM que operam em múltiplas sessões, no entanto, os sistemas de memória existentes tratam a infraestrutura de recuperação como fixa: o conteúdo armazenado evolui, enquanto funções de pontuação, estratégias de fusão e políticas de geração de respostas permanecem congeladas na implantação. Argumentamos que uma memória verdadeiramente adaptativa requer coevolução em dois níveis: o conhecimento armazenado e o mecanismo de recuperação que o consulta. Apresentamos o EvolveMem, uma arquitetura de memória auto-evolutiva que expõe toda a sua configuração de recuperação como um espaço de ações estruturado, otimizado por um módulo de diagnóstico baseado em LLM. Em cada rodada de evolução, o módulo lê registros de falhas por pergunta, identifica causas raiz e propõe ajustes direcionados na configuração; um meta-analisador com proteção aplica esses ajustes com salvaguardas automáticas de reversão em caso de regressão e exploração em caso de estagnação. Essa autoevolução em malha fechada realiza um processo de AutoPesquisa: o sistema conduz autonomamente ciclos iterativos de pesquisa sobre sua própria arquitetura, substituindo o ajuste manual de configuração. Partindo de uma linha de base mínima, o processo converge autonomamente, descobrindo estratégias eficazes de recuperação, incluindo dimensões de configuração inteiramente novas, ausentes no espaço de ações original. No LoCoMo, o EvolveMem supera a linha de base mais forte em 25,7% relativos e alcança uma melhoria relativa de 78,0% sobre a linha de base mínima. No MemBench, o EvolveMem excede a linha de base mais forte em 18,9% relativos. As configurações evoluídas transferem-se entre benchmarks com transferência positiva, e não catastrófica, indicando que o processo de autoevolução captura princípios universais de recuperação, em vez de heurísticas específicas de benchmark. O código está disponível em https://github.com/aiming-lab/SimpleMem.
Frequentemente, almejamos gerar imagens que sejam tanto fotorrealistas quanto consistentes em 3D, aderindo a controles precisos de geometria, material e ponto de vista. Tipicamente, isso é alcançado ajustando-se um gerador de imagens, pré-treinado em bilhões de imagens reais, utilizando renderizações de ativos 3D sintéticos, onde anotações para sinais de controle estão disponíveis. Embora essa abordagem possa aprender os controles desejados, ela frequentemente compromete o realismo das imagens devido à lacuna de domínio entre fotografias e renderizações. Observamos que esse problema decorre, em grande parte, do modelo aprender uma associação não intencional entre a presença de sinais de controle e a aparência sintética das imagens. Para resolver isso, apresentamos o Realiz3D, uma estrutura leve para treinar modelos de difusão, que desacopla controles e domínio visual. A ideia principal é aprender explicitamente o domínio visual, real ou sintético, separadamente dos outros sinais de controle, introduzindo uma covariável que, quando alimentada em pequenos adaptadores residuais, desloca o domínio. Assim, o gerador pode ser treinado para obter controlabilidade, sem se ajustar a um domínio visual específico. Dessa forma, o modelo pode ser guiado para produzir imagens realistas mesmo quando controles são aplicados. Melhoramos a transferibilidade dos controles para o domínio real ao aproveitar insights sobre os papéis de diferentes camadas e etapas de remoção de ruído em geradores baseados em difusão, informando novas estratégias de treinamento e inferência que mitigam ainda mais a lacuna. Demonstramos as vantagens do Realiz3D em tarefas como geração de multivistas a partir de texto e texturização a partir de entradas 3D, produzindo resultados que são consistentes em 3D e fotorrealistas.
O raciocínio visual, frequentemente intercalado com estados visuais intermediários, emergiu como uma direção promissora na área. Uma abordagem direta é gerar imagens por meio de modelos unificados durante o raciocínio, mas isso é computacionalmente custoso e arquiteturalmente não trivial. Alternativas recentes incluem raciocínio agentivo por meio de código ou chamadas de ferramentas, e raciocínio latente com embeddings ocultos aprendíveis. No entanto, métodos agentivos incorrem em latência de troca de contexto devido à execução externa, enquanto métodos latentes carecem de generalização de tarefas e são difíceis de treinar com paralelização autorregressiva. Para combinar seus pontos fortes enquanto mitigamos suas limitações, propomos o ATLAS, uma estrutura na qual uma única 'palavra' discreta, denominada token funcional, serve tanto como uma operação agentiva quanto como uma unidade de raciocínio visual latente. Cada token funcional está associado a uma operação visual internalizada, mas não requer supervisão visual e permanece um token padrão no vocabulário do tokenizador, podendo ser gerado por meio da previsão do próximo token. Esse design evita a geração verbosa de conteúdo visual intermediário, preservando a compatibilidade com o treinamento SFT e RL escaláveis padrão, sem modificações arquiteturais ou metodológicas. Para lidar ainda com a esparsidade dos tokens funcionais durante o RL, introduzimos o GRPO Ancorado por Latente (LA-GRPO), que estabiliza o treinamento ancorando tokens funcionais com um objetivo auxiliar estaticamente ponderado, fornecendo atualizações de gradiente mais fortes. Experimentos extensivos e análises demonstram que o ATLAS alcança desempenho superior em benchmarks desafiadores, mantendo uma clara interpretabilidade. Esperamos que o ATLAS ofereça um novo paradigma que inspire futuras pesquisas em raciocínio visual.
Planejamento de caminhos multiagente (MAPF) é uma abstração amplamente utilizada para problemas de planejamento de trajetórias de múltiplos robôs, onde agentes homogêneos se movem simultaneamente em um ambiente compartilhado. Embora resolver MAPF de forma otimizada seja NP-difícil, solucionadores escaláveis e eficientes são críticos para aplicações reais, como logística e busca e resgate. Para esse fim, a comunidade de pesquisa propôs diversos solucionadores MAPF subótimos descentralizados que utilizam aprendizado de máquina. Tais métodos enquadram MAPF (da perspectiva de um único agente) como um Dec-POMDP, onde a cada passo de tempo um agente deve decidir uma ação com base na observação local e, tipicamente, resolvem o problema por meio de aprendizado por reforço ou aprendizado por imitação. Seguimos a mesma abordagem, mas adicionalmente introduzimos um módulo de comunicação aprendível, projetado para melhorar a cooperação entre agentes por meio do compartilhamento eficiente de características. Apresentamos o Local Communication for Multi-agent Pathfinding (LC-MAPF), um modelo pré-treinado generalizável que aplica comunicação em múltiplas rodadas entre agentes vizinhos para trocar informações e aprimorar sua coordenação. Nossos experimentos mostram que o método introduzido supera os solucionadores MAPF baseados em aprendizado existentes, incluindo abordagens baseadas em IL e RL, em diversas métricas em uma ampla gama de cenários de teste (não vistos). Notavelmente, o mecanismo de comunicação introduzido não compromete a escalabilidade do LC-MAPF, um gargalo comum para solucionadores MAPF baseados em comunicação.
Muitos desafios de codificação do mundo real são abertos e não admitem solução ótima conhecida. No entanto, o progresso recente na codificação com LLMs tem se concentrado em tarefas bem definidas, como implementação de funcionalidades, correção de bugs e programação competitiva. A codificação aberta continua sendo um ponto fraco para LLMs, em grande parte porque problemas abertos de treinamento são escassos e caros de construir. Nosso objetivo é sintetizar problemas abertos de codificação em escala para treinar codificadores LLM mais robustos. Apresentamos o FrontierSmith, um sistema automatizado para evoluir iterativamente problemas abertos a partir de tarefas de codificação fechadas existentes. Partindo de problemas de programação competitiva, o FrontierSmith gera variantes abertas candidatas alterando os objetivos dos problemas, restringindo saídas e generalizando entradas. Em seguida, utiliza uma métrica quantitativa de divergência de ideias para selecionar problemas que eliciam abordagens genuinamente diversas de diferentes solucionadores. Agentes então geram casos de teste e verificadores para os candidatos sobreviventes. Em dois benchmarks de codificação aberta, o treinamento com nossos dados sintéticos produz ganhos substanciais sobre os modelos base: o Qwen3.5-9B melhora em +8,82 pontos no FrontierCS e +306,36 (desempenho baseado em classificação Elo) no ALE-bench; o Qwen3.5-27B melhora em +12,12 e +309,12, respectivamente. Os problemas sintetizados também fazem com que os agentes realizem mais turnos e usem mais tokens, de forma similar aos problemas curados por humanos, sugerindo que sementes fechadas podem ser um ponto de partida prático para dados de codificação de horizonte longo.
O treinamento de transformadores causais em comprimentos de sequência extremos é limitado pelo tempo e memória quadráticos da atenção de produto escalar escalado (SDPA). Neste trabalho, propomos a Atenção Lighthouse, um algoritmo de atenção hierárquica baseado em seleção simétrica exclusivo para treinamento, que envolve a SDPA comum e pode ser facilmente removido próximo ao final do treinamento. Nossa seleção hierárquica também é livre de gradientes, o que nos isenta de lidar com um kernel de retropropagação complicado e potencialmente ineficiente. Nossa contribuição é tripla: (i) Uma etapa de pré e pós-processamento hierárquico subquadrático que realiza compressão e descompressão adaptativas da sequência. (ii) Uma estratégia de compressão simétrica que agrupa consultas, chaves e valores simultaneamente, preservando a causalidade da esquerda para a direita, o que melhora significativamente o paralelismo. (iii) Uma abordagem de treinamento em duas etapas, na qual pré-treinamos a maior parte do tempo com a Atenção Lighthouse e recuperamos um modelo de atenção completa no final com um treinamento curto. Realizamos experimentos preliminares de pré-treinamento de LLM em pequena escala que mostram a eficácia do nosso método em comparação com o treinamento de atenção completa com todas as outras configurações equivalentes, onde obtemos um tempo total de treinamento mais rápido e uma perda final menor após a fase de recuperação. O código completo está disponível em: https://github.com/ighoshsubho/lighthouse-attention
Os dados de imitação robótica são frequentemente multimodais: observações visuais-linguísticas semelhantes podem ser seguidas por diferentes segmentos de ação devido ao fato de que os demonstradores humanos agem com intenções distintas de curto horizonte, fases da tarefa ou contexto recente. As políticas VLA existentes condicionadas ao quadro inferem cada segmento apenas a partir da observação e instrução atuais; logo, sob observabilidade parcial, elas podem reamostrar diferentes intenções ao longo de passos adjacentes de replanejamento, resultando em conflito entre segmentos e execução instável. Apresentamos o IntentVLA, um framework VLA condicionado ao histórico que codifica observações visuais recentes em uma representação compacta de intenção de curto horizonte e a utiliza para condicionar a geração de segmentos. Além disso, introduzimos o AliasBench, um benchmark ciente de ambiguidade com 12 tarefas no RoboTwin2, acompanhado de dados de treinamento e ambientes de avaliação que isolam o aliasing observacional de curto horizonte. Nos benchmarks AliasBench, SimplerEnv, LIBERO e RoboCasa, o IntentVLA melhora a estabilidade de rollout e supera as fortes linhas de base VLA.
A aprendizagem por reforço emergiu como uma ferramenta poderosa para aprimorar modelos de difusão de texto para imagem, mas os métodos existentes estão amplamente limitados à otimização de tarefa única. Estender a aprendizagem por reforço para múltiplas tarefas é desafiador: a otimização conjunta sofre de interferência entre tarefas e desequilíbrio, enquanto a aprendizagem por reforço em cascata é complicada e propensa ao esquecimento catastrófico. Propomos o DiffusionOPD, um novo paradigma de treinamento multitarefa para modelos de difusão baseado na Destilação de Políticas Online (OPD). O DiffusionOPD primeiro treina professores específicos para cada tarefa de forma independente e, em seguida, destila suas capacidades em um estudante unificado ao longo das trajetórias de rollout do próprio estudante. Isso desacopla a exploração de tarefa única da integração multitarefa e evita o ônus da otimização de resolver todas as tarefas conjuntamente do zero. Teoricamente, elevamos o arcabouço OPD de tokens discretos para processos de Markov de estado contínuo, derivando um objetivo KL por etapa em forma fechada que unifica tanto o refinamento estocástico por EDE quanto o determinístico por EDO por meio de correspondência de médias. Demonstramos formal e empiricamente que esse gradiente analítico fornece menor variância e melhor generalidade em comparação com os gradientes de política convencionais do tipo PPO. Experimentos extensivos mostram que o DiffusionOPD supera consistentemente tanto as linhas de base de aprendizagem por reforço com múltiplas recompensas quanto as de aprendizagem por reforço em cascata em eficiência de treinamento e desempenho final, enquanto alcança resultados de ponta em todos os benchmarks avaliados.
A reconstrução de cenas 3D de alta qualidade recentemente avançou em direção a arquiteturas feed-forward generalizáveis, permitindo a geração de ambientes complexos em uma única passagem direta. No entanto, apesar de seu forte desempenho na percepção de cenas estáticas, esses modelos ainda são limitados ao responder a instruções humanas dinâmicas, o que restringe seu uso em aplicações interativas. Os métodos de edição existentes geralmente dependem de uma estratégia de elevação 2D, onde vistas individuais são editadas independentemente e depois elevadas de volta ao espaço 3D. Esse pipeline indireto frequentemente resulta em texturas borradas e geometria inconsistente, pois os editores 2D não possuem a consciência espacial necessária para preservar a estrutura entre os pontos de vista. Para abordar essas limitações, propomos o VGGT-Edit, um arcabouço feed-forward para edição nativa de cenas 3D condicionada por texto. O VGGT-Edit introduz a injeção de texto sincronizada com profundidade para alinhar a orientação semântica com as poses espaciais do backbone, garantindo um fundamento estável das instruções. Esse sinal semântico é então processado por uma cabeça de transformação residual, que prevê diretamente deslocamentos geométricos 3D para deformar a cena, preservando ao mesmo tempo a estabilidade do fundo. Para garantir resultados de alta fidelidade, supervisionamos o arcabouço com uma função objetivo multi-termo que impõe precisão geométrica e consistência entre vistas. Também construímos o Dataset DeltaScene, um conjunto de dados em grande escala gerado por meio de um pipeline automatizado com filtragem de concordância 3D para assegurar a qualidade do ground-truth. Experimentos mostram que o VGGT-Edit supera substancialmente as linhas de base de elevação 2D, produzindo detalhes de objeto mais nítidos, consistência multi-visão mais forte e velocidade de inferência quase instantânea.
A modelagem agentiva visa transformar LLMs em agentes autônomos capazes de resolver tarefas complexas por meio de planejamento, raciocínio, uso de ferramentas e interação em múltiplas rodadas com ambientes. Apesar de investimentos significativos, a pesquisa aberta permanece limitada por lacunas em infraestrutura e treinamento. Muitos sistemas de alto desempenho dependem de bases de código, modelos ou serviços proprietários, enquanto a maioria dos frameworks de código aberto foca em orquestração e avaliação, em vez de treinamento escalável de agentes. Apresentamos Orchard, um framework de código aberto para modelagem agentiva escalável. Seu núcleo é o Orchard Env, um serviço de ambiente leve que fornece primitivas reutilizáveis para gerenciamento do ciclo de vida de sandboxes em diferentes domínios de tarefas, harnesses de agentes e estágios do pipeline. Sobre o Orchard Env, construímos três receitas de modelagem agentiva. O Orchard-SWE tem como alvo agentes de codificação. Destilamos 107 mil trajetórias do MiniMax-M2.5 e do Qwen3.5-397B, introduzimos SFT com atribuição de crédito para aprender com segmentos produtivos de trajetórias não resolvidas e aplicamos Rollout Adaptativo Balanceado para RL. Partindo do Qwen3-30B-A3B-Thinking, o Orchard-SWE alcança 64,3% no SWE-bench Verified após SFT e 67,5% após SFT+RL, estabelecendo um novo estado da arte entre modelos de código aberto de tamanho comparável. O Orchard-GUI treina um agente de uso de computador visão-linguagem de 4B usando apenas 0,4 mil trajetórias destiladas e 2,2 mil tarefas abertas. Ele atinge taxas de sucesso de 74,1%, 67,0% e 64,0% no WebVoyager, Online-Mind2Web e DeepShop, respectivamente, tornando-se o modelo de código aberto mais forte, ao mesmo tempo que se mantém competitivo com sistemas proprietários. O Orchard-Claw tem como alvo agentes assistentes pessoais. Treinado com apenas 0,2 mil tarefas sintéticas, alcança 59,6% de pass@3 no Claw-Eval e 73,9% quando combinado com um harness ZeroClaw mais robusto. Coletivamente, esses resultados mostram que uma camada de ambiente leve, aberta e agnóstica em relação ao harness permite dados agentivos, receitas de treinamento e avaliações reutilizáveis entre domínios.
Assim que um novo meio surge, ele é utilizado para muito mais do que apenas a transmissão de conteúdo explícito. A informação que carrega geralmente opera em dois níveis: um é o conteúdo diretamente apresentado, enquanto o outro é o subtexto subjacente — as ideias e intenções implícitas que o criador busca transmitir por meio do meio. Da mesma forma, desde que as tecnologias de vídeo se tornaram amplamente adotadas, o vídeo tem servido não apenas como uma ferramenta poderosa para registrar e comunicar informações visuais, mas também como um veículo para emoções, atitudes e significados sociais que muitas vezes são difíceis de articular explicitamente. Assim, o verdadeiro significado de muitos vídeos não reside apenas no que é mostrado na tela; ele está frequentemente embutido no contexto, no estilo de expressão e na experiência social do espectador. Algumas formas desse subtexto em vídeo são humorísticas, enquanto outras carregam ironia, zombaria ou crítica. Esses significados implícitos também podem ser interpretados de maneiras muito diferentes entre contextos culturais e grupos sociais. No entanto, a maioria dos modelos existentes de compreensão de vídeo ainda se concentra principalmente na compreensão visual literal, como reconhecer objetos, ações ou relações temporais, e carece de uma capacidade sistemática de entender os significados metafóricos, irônicos e sociais embutidos nos vídeos. Para preencher essa lacuna, apresentamos o ViMU, o primeiro benchmark projetado para avaliar sistematicamente as capacidades de compreensão de subtexto dos modelos de fronteira em vídeos. O ViMU avalia se os modelos de compreensão de vídeo podem ir além da percepção literal para inferir significados implícitos, fundamentando suas interpretações em evidências multimodais e respondendo a perguntas abertas e de múltipla escolha. Importante destacar que todas as perguntas são projetadas para serem livres de pistas, garantindo que nenhuma evidência-chave seja revelada aos modelos antes da resposta.
Modelos de difusão de vídeo autorregressivos (AR) adotam uma estrutura de geração em streaming, permitindo a geração de vídeos de longo horizonte com capacidade de resposta em tempo real, como exemplificado pelo paradigma de treinamento Self Forcing. No entanto, os modelos existentes de difusão de vídeo AR ainda sofrem com complexidade significativa de atenção e intenso overhead de memória devido aos caches redundantes de chave-valor (KV) entre quadros históricos, o que limita a escalabilidade. Neste artigo, enfrentamos esse desafio introduzindo a compressão de cache KV na difusão de vídeo autorregressiva. Observamos que as cabeças de atenção em modelos de difusão AR dominantes exibem padrões de atenção e papéis funcionais marcadamente distintos que permanecem estáveis entre amostras e etapas de remoção de ruído. Com base em nosso estudo empírico da especialização funcional por cabeça, dividimos as cabeças de atenção em duas categorias: cabeças estáticas, que focam nas transições entre blocos autorregressivos e na fidelidade intra-quadro, e cabeças dinâmicas, que governam o movimento e a consistência entre quadros. Em seguida, propomos o Forcing-KV, uma estratégia híbrida de compressão de cache KV que realiza poda estática estruturada para cabeças estáticas e poda dinâmica baseada em similaridade por segmento para cabeças dinâmicas. Mantendo a qualidade da saída, nosso método atinge uma velocidade de geração superior a 29 quadros por segundo em uma única GPU NVIDIA H200, juntamente com uma redução de 30% na memória cache, proporcionando acelerações de até 1,35x e 1,50x no LongLive e Self Forcing na resolução 480P, e escalando para uma aceleração de 2,82x na resolução 1080P. O código e vídeos de demonstração estão disponíveis em https://zju-jiyicheng.github.io/Forcing-KV-Page.
Avanços recentes na geração de imagens tornaram fácil produzir imagens de alta qualidade. No entanto, esses resultados são inerentemente achatados, entrelaçando elementos de primeiro plano, fundo e texto em uma tela fixa. Como consequência, a edição flexível pós-geração continua desafiadora, revelando um claro gap de última milha em direção à usabilidade prática. Abordagens existentes dependem de ativos em camadas proprietários escassos ou constroem dados parcialmente sintéticos a partir de prioris estruturais limitados. No entanto, ambas as estratégias enfrentam desafios fundamentais de escalabilidade. Neste trabalho, investigamos se dados sintéticos puros em camadas podem melhorar a decomposição de design gráfico. Assumimos que, no design gráfico, a decomposição eficaz não exige modelar dependências entre camadas com tanta precisão quanto na composição de imagens naturais, uma vez que os elementos de design são frequentemente dispostos intencionalmente como componentes modulares e semanticamente separáveis. Concretamente, conduzimos um estudo centrado em dados baseado na linha de base CLD, que é uma estrutura de decomposição de camadas de ponta. Com base nessa linha de base, construímos nosso próprio conjunto de dados sintéticos, SynLayers, geramos supervisão textual usando modelos de linguagem visual e automatizamos entradas de inferência com caixas delimitadoras previstas por VLMs. Nosso estudo revela três descobertas principais: (1) mesmo o treinamento com dados puramente sintéticos pode superar alternativas não escaláveis, como o conjunto de dados amplamente utilizado PrismLayersPro, demonstrando sua viabilidade como substituto escalável e eficaz; (2) o desempenho melhora consistentemente com o aumento da escala dos dados de treinamento, enquanto os ganhos começam a saturar em torno de 50 mil amostras; e (3) dados sintéticos permitem controle equilibrado sobre as distribuições de contagem de camadas, evitando o desequilíbrio de contagem de camadas comumente observado em conjuntos de dados reais. Esperamos que este estudo centrado em dados incentive uma adoção mais ampla de dados sintéticos como base prática para sistemas de edição de design em camadas.
Modelos de difusão de vídeo autorregressivos causais suportam a geração em streaming em tempo real ao extrapolar blocos futuros a partir do conteúdo gerado anteriormente. A destilação de tais geradores a partir de professores bidirecionais de alta fidelidade produz modelos competitivos de poucas etapas, porém uma lacuna persistente entre as distribuições históricas encontradas durante o treinamento e aquelas que surgem na inferência limita a qualidade da geração em horizontes longos. Apresentamos a Rede de Extrapolação de Vídeo Autorregressiva em Tempo Real (RAVEN), uma estrutura de teste em tempo de treinamento que reempacota cada auto-rollout em uma sequência intercalada de pontos finais históricos limpos e estados de denoising ruidosos. Essa formulação alinha a atenção de treinamento com a extrapolação em tempo de inferência e permite que perdas de blocos posteriores supervisionem as representações históricas das quais as previsões futuras dependem. Propomos ainda a Otimização Relativa de Política de Grupo Baseada em Modelos de Consistência (CM-GRPO), que reformula uma etapa de amostragem por consistência como uma transição Gaussiana condicional e aplica o Aprendizado por Reforço (RL) online diretamente a esse kernel, evitando o processo auxiliar de Euler-Maruyama adotado em formulações anteriores de RL baseadas em modelos de fluxo. Experimentos demonstram que o RAVEN supera linhas de base recentes de destilação de vídeo causal em avaliações de qualidade, semântica e grau dinâmico, e que o CM-GRPO proporciona ganhos adicionais quando combinado ao RAVEN.
Modelos de linguagem multimodal de grande escala (MLLMs) ainda enfrentam dificuldades na compreensão espacial sob o paradigma dominante de imagem em perspectiva, que herda o campo de visão estreito da percepção humana. Para navegação, busca robótica e compreensão de cenas tridimensionais, a detecção panorâmica de 360 graus oferece uma forma de supersensoriamento ao capturar todo o ambiente circundante de uma só vez. No entanto, os pipelines existentes de MLLMs tipicamente decompõem panoramas em múltiplas vistas em perspectiva, deixando a estrutura esférica da projeção equirretangular (ERP) amplamente implícita. Neste artigo, estudamos a compreensão pano-nativa, que exige que um MLLM raciocine sobre um panorama ERP como um espaço contínuo centrado no observador. Para tal, primeiro definimos as habilidades-chave para a compreensão pano-nativa, incluindo ancoragem semântica, localização esférica, transformação de referencial e raciocínio espacial 3D consciente da profundidade. Em seguida, construímos um pipeline de geração de metadados em larga escala que converte panoramas ERP de fontes mistas em supervisão consciente de geometria, fundamentada em linguagem e atenta à profundidade, e instanciamos esses sinais como dados de ajuste de instruções alinhados às habilidades. No lado do modelo, introduzimos o PanoWorld com Atenção Cruzada Espacial Esférica, que injeta geometria esférica no fluxo visual. Construímos ainda o PanoSpace-Bench, um benchmark diagnóstico para avaliar o raciocínio espacial nativo de ERP. Experimentos mostram que o PanoWorld supera substancialmente tanto as linhas de base proprietárias quanto as de código aberto nos benchmarks PanoSpace-Bench, H* Bench e R2R-CE Val-Unseen. Esses resultados demonstram que o raciocínio panorâmico robusto requer supervisão pano-nativa dedicada e adaptação de modelo com consciência geométrica. Todo o código-fonte e dados propostos serão disponibilizados publicamente.
Sistemas de memória são essenciais para que agentes de interpretação de papéis (RPAs) mantenham consistência de longo horizonte. No entanto, os métodos existentes de memória para RPAs (como a criação de perfis) dependem principalmente de sumarização recorrente, cuja compressão inevitavelmente descarta detalhes importantes. Para abordar essa questão, propomos um framework de memória baseado em busca chamado BOOKMARKS, que inicializa, mantém e atualiza ativamente trechos de bookmarks relevantes para a tarefa atual (por exemplo, atuação do personagem). Um bookmark é estruturado como a resposta a uma pergunta em um ponto específico da linha narrativa. Para cada tarefa atual, o BOOKMARKS seleciona bookmarks existentes reutilizáveis ou inicializa novos (no início da linha narrativa) com perguntas úteis. Esses bookmarks são então sincronizados ao ponto atual da história, com suas respostas atualizadas em conformidade, de modo que possam ser reutilizados eficientemente em futuras rodadas de ancoragem. Em comparação com a sumarização recorrente, o BOOKMARKS oferece: (1) ancoragem ativa para capturar detalhes específicos da tarefa e (2) atualização passiva para evitar cálculos desnecessários. Na implementação, o BOOKMARKS suporta buscas por conceito, comportamento e estado, cada uma delas alimentada por um método eficiente de sincronização. O BOOKMARKS supera significativamente as linhas de base de memória para RPAs em 85 personagens de 16 artefatos, demonstrando a eficácia da memória baseada em busca para RPAs.
Buscamos uma visão para modelos de linguagem autoaprimorantes na qual o modelo não apenas gera problemas ou traços para imitar, mas constrói os ambientes que o treinam. No RL de raciocínio com zero dados, isso reformula o autoaprimoramento de um ciclo de geração de dados para um ciclo de construção de ambientes, onde cada artefato é um objeto executável reutilizável que amostra instâncias, calcula referências e pontua respostas. Se essa visão sustenta a melhoria depende de uma única propriedade: os ambientes devem exibir assimetria resolver–verificar estável — o modelo deve ser capaz de escrever um oráculo uma vez que não consiga executar de forma confiável em linguagem natural em instâncias novas. Essa assimetria assume duas formas complementares. Algumas tarefas são algoritmicamente difíceis de raciocinar, mas triviais como código: uma programação dinâmica ou travessia de grafo, compilada uma vez, produz infinitas instâncias calibradas. Outras são intrinsecamente difíceis de resolver, mas fáceis de verificar, como subset-sum plantado ou satisfação de restrições. Ambas criam uma lacuna duradoura entre propor e resolver que a política não consegue fechar manipulando o verificador, e é essa lacuna que mantém a recompensa informativa à medida que o aprendiz melhora. Instanciamos essa visão no EvoEnv, um método gerador de política única e solucionador que sintetiza ambientes Python a partir de dez sementes e os admite somente após validação em etapas, autoavaliação semântica, calibração de dificuldade relativa ao solucionador e verificações de novidade. A evidência mais forte vem do regime já forte: no Qwen3-4B-Thinking, RLVR com dados públicos fixos e RLVR com ambientes artesanais fixos reduzem a média, enquanto o EvoEnv a melhora de 72,4 para 74,8, um ganho relativo de 3,3%. O autoaprimoramento estável, sugerimos, depende não de produzir mais dados sintéticos, mas de modelos aprenderem a construir mundos cuja dificuldade permanece estruturalmente além do próprio alcance.
Gerar movimentos humanos realistas é um desafio central, porém não resolvido, na geração de vídeos. Embora o pós-treinamento baseado em aprendizado por reforço (RL) tenha impulsionado ganhos recentes na qualidade geral dos vídeos, estendê-lo ao movimento humano ainda é limitado por um sinal de recompensa que não consegue avaliar de forma confiável o realismo do movimento. As recompensas de vídeo existentes dependem principalmente de sinais perceptuais 2D, sem modelar explicitamente o estado corporal 3D, o contato e a dinâmica subjacentes ao movimento humano articulado, frequentemente atribuindo pontuações altas a vídeos com corpos flutuantes ou movimentos fisicamente implausíveis. Para resolver isso, propomos o PhyMotion, uma recompensa de movimento estruturada e de granularidade fina que ancora trajetórias humanas 3D recuperadas em um simulador físico e avalia a qualidade do movimento ao longo de múltiplas dimensões de viabilidade física. Concretamente, recuperamos malhas corporais SMPL a partir de vídeos gerados, as redirecionamos para um humanoide no simulador físico MuJoCo e avaliamos o movimento resultante em três eixos: plausibilidade cinemática, consistência de contato e equilíbrio, e viabilidade dinâmica. Cada componente fornece um sinal contínuo e interpretável vinculado a um aspecto específico da qualidade do movimento, permitindo que a recompena capture quais aspectos do movimento são fisicamente corretos ou violados. Experimentos mostram que o PhyMotion alcança uma correlação mais forte com os julgamentos humanos do que as formulações de recompensa existentes. Esses ganhos se estendem ao pós-treinamento baseado em RL, onde a otimização do PhyMotion leva a melhorias maiores e mais consistentes do que a otimização de recompensas existentes, aprimorando o realismo do movimento tanto em geradores de vídeo autorregressivos quanto bidirecionais, sob métricas automáticas e avaliação humana cega (+68 pontos de Elo). As ablações mostram que os três eixos fornecem sinais de supervisão complementares, enquanto a recompensa preserva a qualidade geral da geração de vídeo com apenas uma modesta sobrecarga de treinamento.
A auto-destilação on-policy tornou-se uma abordagem eficaz para raciocínio de LLMs, onde um professor privilegiado supervisiona os próprios rollouts do aluno enquanto condiciona na solução de referência. No entanto, uma escolha de design compartilhada por quase todos esses métodos tem permanecido inquestionada: o professor sempre vê o raciocínio de referência completo. Defendemos que essa própria configuração padrão faz parte do problema e identificamos uma incompatibilidade de exposição no lado do professor: quando o professor condiciona em um raciocínio muito além da competência atual do aluno, os alvos de tokens resultantes tornam-se fortes demais para serem absorvidos. Uma varredura controlada de exposição fixa torna isso concreto em duas frentes: 1) a exposição completa não é confiavelmente a melhor escolha, e 2) a incompatibilidade aluno-professor cresce monotonicamente à medida que o professor vê mais raciocínio privilegiado. Isso motiva tratar a exposição do professor não como um hiperparâmetro fixo, mas como uma variável de controle aprendível durante o treinamento. Portanto, propomos a Exposição Adaptativa do Professor para Auto-Destilação (ATESD). O ATESD modela a taxa de revelação com um controlador de política Beta leve, condicionado em estatísticas compactas do estado de treinamento, e utiliza uma exposição amostrada para uma curta janela de espera de atualizações do aluno. Para tornar este controlador de exposição aprendível, otimizamo-lo com uma recompensa de progresso de aprendizado com desconto, que pontua cada decisão retida com base em seu efeito na melhoria futura do aluno, em vez de sua mudança imediata de perda, lidando com a atribuição de crédito atrasada induzida pela destilação on-policy. Experimentos no AIME 24, AIME 25 e HMMT 25, utilizando Qwen3-{1.7B, 4B, 8B}, mostram que o ATESD supera consistentemente linhas de base competitivas de auto-destilação e RL, melhorando em relação ao OPSD em +0,95, +2,05 e +2,33 pontos Average@12, respectivamente, estabelecendo a exposição adaptativa do professor como um novo e eficaz eixo para a auto-destilação de raciocínio.
Utilizar modelos de base multimodais para analisar imagens de tabelas é uma aplicação de alto valor, porém desafiadora, em cenários de consumo e empresariais. Apesar de sua importância, as avaliações atuais dependem em grande parte de tabelas de texto estruturado ou imagens renderizadas limpas, deixando inexplorada a complexidade visual das imagens de tabelas encontradas em ambientes reais. Essas imagens apresentam layouts variados e domínios diversos que exigem percepção estrutural sofisticada e raciocínio numérico. Para preencher essa lacuna, apresentamos o WildTableBench, o primeiro benchmark de perguntas e respostas para imagens de tabelas naturalmente ocorrentes em contextos do mundo real. O WildTableBench compreende 402 imagens de tabelas com alta densidade de informação, coletadas de fóruns online e sites de diversos domínios, juntamente com 928 perguntas anotadas e verificadas manualmente, abrangendo 17 subtipos em cinco categorias. Avaliamos 21 modelos de base multimodais de ponta, proprietários e de código aberto, neste benchmark. Apenas um modelo ultrapassa 50% de precisão, enquanto todos os restantes variam de 4,1% a 49,9%. Realizamos ainda análises diagnósticas para caracterizar as falhas dos modelos e revelar fragilidades persistentes na percepção estrutural e no raciocínio. Esses resultados e análises fornecem insights úteis sobre as capacidades atuais dos modelos e estabelecem o WildTableBench como um benchmark diagnóstico valioso para a compreensão de imagens de tabelas.
A super-resolução de imagens de texto (Text-SR) exige mais do que a síntese visualmente plausível de detalhes: pequenos erros na topologia dos traços podem alterar a identidade do caractere e comprometer a legibilidade. Métodos existentes melhoram a fidelidade do texto com priores mais fortes baseados em reconhecimento ou gerativos, mas ainda enfrentam dois desafios não resolvidos sob degradação severa: a condição de texto extraída de entradas de baixa qualidade pode ser, ela própria, não confiável, e um prior global plausível não determina completamente os limites finos dos traços. Apresentamos o PRISM, um framework de Text-SR baseado em difusão de etapa única que aborda esses dois desafios por meio da Retificação de Prior por Correspondência de Fluxo (FMPR) e de um Codificador Residual Consciente de Incerteza Guiado por Estrutura (SURE). O FMPR constrói um prior privilegiado em tempo de treinamento a partir de latentes pareados de baixa/alta qualidade e aprende uma correspondência de fluxo que transporta embeddings degradados em direção a esse espaço de prior orientado à restauração, gerando uma orientação textual global mais precisa e confiável. O SURE ainda prevê resíduos estruturais conscientes de incerteza para absorver seletivamente evidências confiáveis de limites locais, suprimindo pistas ambíguas de traços. Juntos, esses componentes permitem retificação explícita de prior global e refinamento local de estrutura em uma única passagem de restauração por difusão. Experimentos em benchmarks sintéticos e do mundo real mostram que o PRISM alcança desempenho estado-da-arte com inferência em nível de milissegundos. Nosso conjunto de dados e código estarão disponíveis em https://github.com/faithxuz/PRISM.
Neste artigo, estudamos operadores de solução de equações de campo físico em malhas geométricas sob uma perspectiva de espaço de funções. Revelamos que a ortogonalidade de Hodge resolve fundamentalmente a interferência espectral ao isolar graus de liberdade topológicos não aprendíveis das dinâmicas geométricas aprendíveis, possibilitando uma aproximação aditiva confinada a subespaços que preservam estrutura. Com base na teoria de Hodge e na divisão de operadores, derivamos uma decomposição fundamentada em nível de operador. O resultado é uma arquitetura Híbrida Euleriana-Lagrangeana com um viés indutivo em nível algébrico que denominamos Dualidade Espectral de Hodge (HSD). Em nossa estrutura, utilizamos formas diferenciais discretas para capturar componentes dominadas pela topologia e um espaço ambiente auxiliar ortogonal para representar dinâmicas locais complexas. Nosso método alcança precisão e eficiência superiores em grafos geométricos, com fidelidade aprimorada aos invariantes físicos. Nosso código está disponível em https://github.com/ContinuumCoder/Hodge-Spectral-Duality.
O flow matching latente para geração de imagens normalmente transporta ruído Gaussiano para latentes de autoencoder variacional ao longo de caminhos lineares. No entanto, ambos os pontos finais se concentram em cascas esféricas finas, e uma corda euclidiana sai dessas cascas mesmo quando o pré-processamento alinha seus raios. Ao decompor cada token latente em componentes radial e angular, mostramos por meio de sondas de troca de componentes que o conteúdo perceptual e semântico decodificado é predominantemente carregado pela direção, com o raio contribuindo muito menos. Portanto, projetamos os latentes dos dados em um raio fixo de token, usamos a projeção radial do ruído Gaussiano como o prior esférico, ajustamos fino o decodificador com o codificador congelado e substituímos a interpolação linear pela interpolação linear esférica. Os caminhos geodésicos resultantes permanecem na esfera a cada passo temporal, e seus alvos de velocidade são puramente angulares por construção. Sob treinamento equivalente, o método melhora consistentemente o FID condicional à classe do ImageNet-256 em diferentes tokenizadores de imagem, mantém a arquitetura de difusão inalterada e não requer codificador auxiliar ou objetivo de alinhamento de representação.
A avaliação de edições de imagens guiadas por instruções requer recompensas que reflitam preferências humanas sutis, mas os modelos de recompensa atuais geralmente dependem de anotação de preferências em larga escala e treinamento adicional de modelos. Isso cria uma lacuna de eficiência de dados: humanos muitas vezes conseguem inferir os critérios de avaliação alvo a partir de apenas alguns exemplos, enquanto modelos são geralmente treinados com centenas de milhares de comparações. Apresentamos o RewardHarness, uma estrutura de recompensa auto-evolutiva baseada em agentes que reformula a modelagem de recompensas como evolução de contexto, em vez de otimização de pesos. Em vez de aprender com anotações em larga escala, o RewardHarness se alinha com as preferências humanas ao evoluir iterativamente uma biblioteca de ferramentas e habilidades a partir de apenas 100 demonstrações de preferência. Dada uma imagem fonte, imagens editadas candidatas e uma instrução de edição, um Orquestrador seleciona o subconjunto mais relevante de ferramentas e habilidades da biblioteca mantida, e um Sub-Agente congelado as utiliza para construir uma cadeia de raciocínio que produz um julgamento de preferência. Ao comparar os julgamentos previstos com as preferências reais e analisar sucessos e falhas no processo de raciocínio, o Orquestrador refina automaticamente sua biblioteca de ferramentas e habilidades sem necessidade de anotação humana adicional. Utilizando apenas 0,05% dos dados de preferência do EditReward, o RewardHarness alcança 47,4% de precisão média em benchmarks de avaliação de edição de imagem, superando o GPT-5 em 5,3 pontos. Quando usado como sinal de recompensa para ajuste fino via GRPO, os modelos ajustados com RL alcançam 3,52 no ImgEdit-Bench. Página do projeto: https://rewardharness.com.
Agentes de inteligência artificial estão sendo cada vez mais implantados em ambientes dinâmicos e de final aberto, que exigem adaptação a novas informações à medida que estas chegam. Para medir eficientemente essa capacidade em cenários realistas, propomos a construção de simulações fundamentadas que reproduzem eventos do mundo real na ordem em que ocorreram. Construímos o FutureSim, onde agentes preveem eventos mundiais além de seu limite de conhecimento, enquanto interagem com uma reprodução cronológica do mundo: artigos de notícias reais chegando e questões sendo resolvidas ao longo do período simulado. Avaliamos agentes de fronteira em seu ambiente nativo, testando sua capacidade de prever eventos mundiais durante um período de três meses, de janeiro a março de 2026. O FutureSim revela uma separação clara em suas capacidades, com a precisão do melhor agente sendo de 25%, e muitos apresentando pior pontuação de habilidade de Brier do que não fazer previsão alguma. Por meio de ablações cuidadosas, mostramos como o FutureSim oferece um cenário realista para estudar direções de pesquisa emergentes, como adaptação em horizonte longo durante o teste, busca, memória e raciocínio sobre incerteza. No geral, esperamos que nosso design de referência abra caminho para medir o progresso da IA na adaptação de final aberto em horizontes temporais longos no mundo real.
Gerar uma cena 3D ao nível da rua a partir de uma única imagem de satélite é uma tarefa crucial, porém desafiadora. Os métodos atuais apresentam uma nítida troca: modelos de colorização geométrica alcançam alta fidelidade geométrica, mas geralmente são focados em edifícios e carecem de diversidade semântica. Em contraste, modelos baseados em proxies utilizam estruturas feed-forward de imagem para 3D para gerar cenas holísticas por meio do aprendizado conjunto de geometria e textura, um processo que produz conteúdo rico, mas geometria grosseira e instável. Atribuímos essas falhas geométricas à extrema lacuna de ponto de vista e à supervisão esparsa e inconsistente inerente aos dados de satélite para rua. Apresentamos o Sat3DGen para enfrentar esses desafios fundamentais, que incorpora uma metodologia de primeira geometria. Essa metodologia aprimora o paradigma feed-forward integrando novas restrições geométricas com uma estratégia de treinamento em perspectiva, combatendo explicitamente as principais fontes de erro geométrico. Essa estratégia centrada em geometria resulta em um salto dramático tanto na precisão 3D quanto no fotorrealismo. Para validação, primeiro construímos um novo benchmark pareando o conjunto de teste VIGOR-OOD com dados DSM de alta resolução. Nesse benchmark, nosso método melhora o RMSE geométrico de 6,76m para 5,20m. Crucialmente, esse salto geométrico também impulsiona o fotorrealismo, reduzindo a Distância Inception de Fréchet (FID) de sim40 para 19 em relação ao método líder, Sat2Density++, apesar de não usar módulos extras de qualidade de imagem. Demonstramos a versatilidade de nossos ativos 3D de alta qualidade por meio de diversas aplicações downstream, incluindo síntese de mapa semântico para 3D, geração de vídeo multicâmera, malhamento em larga escala e estimativa não supervisionada de Modelo Digital de Superfície (DSM) a partir de imagem única. O código foi disponibilizado em https://github.com/qianmingduowan/Sat3DGen.
Modelos de linguagem onimodais são projetados para compreender conjuntamente entradas de áudio, visuais e linguagem, mas os ganhos em benchmarks podem ser inflacionados quando apenas evidências visuais são suficientes para responder a uma consulta. Investigamos se os atuais benchmarks onimodais separam atalhos visuais da genuína integração de evidências audiovisuais e linguísticas, e como o pós-treinamento se comporta em um cenário de avaliação visualmente desenviesada. Auditamos nove benchmarks onimodais com sondagem apenas visual, removemos consultas solúveis visualmente e mantemos subconjuntos completos quando a filtragem é indefinida ou tornaria as comparações instáveis. Isso resulta no OmniClean, uma visão de avaliação limpa com 8.551 consultas retidas de 16.968 consultas auditadas. No OmniClean, avaliamos o OmniBoost, uma receita de pós-treinamento em três estágios baseada no Qwen2.5-Omni-3B: SFT bimodal misto, RLVR de modalidades mistas e SFT em dados autodestilados. O SFT bimodal balanceado proporciona ganhos limitados e desiguais, o RLVR oferece a primeira melhoria ampla, e a autodestilação remodela o perfil do benchmark. Após o SFT em dados autodestilados, o modelo de 3B atinge desempenho comparável e, no agregado, ligeiramente superior ao Qwen3-Omni-30B-A3B-Instruct sem usar um professor onimodal mais forte. Esses resultados mostram que o progresso onimodal é mais fácil de interpretar quando a avaliação controla o vazamento visual, e que modelos onimodais pequenos podem se beneficiar de pós-treinamento em estágios com supervisão oniconsulta autodestilada. Página do projeto: https://cheliu-computation.github.io/omni/
Investigamos a concatenação temporal de subpolíticas em Processos de Decisão de Markov (MDP) com funções de recompensa variáveis no tempo. Introduzimos a Busca Global de Dijkstra (GDS) e provamos que políticas ótimas globais para alcance de metas podem ser recuperadas por meio da composição temporal de subpolíticas ótimas intermediárias. Motivados pelo princípio "buscar, selecionar, atualizar" subjacente ao GDS, propomos o Roteamento Latente Dinâmico (DLR), um método de pós-treinamento de modelos de linguagem que aprende conjuntamente códigos latentes discretos, políticas de roteamento e parâmetros do modelo por meio de busca dinâmica em um único estágio de treinamento. Em cenários de ajuste fino com poucos dados, o DLR iguala ou supera o ajuste fino supervisionado em quatro conjuntos de dados e seis modelos, alcançando um ganho médio de +6,6 pontos percentuais, enquanto as linhas de base com latência discreta anteriores apresentam desempenho consistentemente inferior ao SFT. Análises mecanicistas e ablações de código direcionadas mostram que o DLR aprende comportamentos de roteamento estruturados com papéis causais distintos.
Apresentamos um novo arcabouço computacional para detectar e estruturar narrativas políticas manipulativas. Uma tarefa que se tornou mais importante devido à migração dos debates políticos para as redes sociais. Um dos principais desafios, portanto, é diferenciar narrativas políticas manipulativas de críticas legítimas. Algumas postagens podem também recontextualizar eventos reais dentro de um contexto manipulativo. Para obter bons resultados de agrupamento, filtramos postagens manipulativas previamente, utilizando um prompt detalhado de poucos exemplos (*few-shot*), que combina narrativas documentadas de campanhas com críticas legítimas para diferenciá-las. Esse prompt permite que um modelo de raciocínio atribua rótulos, retendo apenas postagens com narrativa manipulativa para processamento posterior. As postagens restantes são subsequentemente incorporadas (*embedded*) e têm sua dimensionalidade reduzida por UMAP, antes da aplicação do HDBSCAN para descobrir grupos narrativos. Uma vantagem fundamental dessa abordagem não supervisionada é sua independência de uma lista predefinida de categorias-alvo, permitindo a descoberta de novos agrupamentos narrativos. Por fim, um modelo de raciocínio é empregado para revelar a narrativa subjacente a cada agrupamento. Essa abordagem, aplicada a mais de 1,2 milhão de postagens em redes sociais, identificou efetivamente 41 agrupamentos narrativos manipulativos distintos, integrando filtragem baseada em *prompts* com agrupamento não supervisionado.
As eleições representam um marco crucial no desenvolvimento contínuo de uma nação. Para compreender melhor a retórica política de diversos movimentos, que vão da esquerda à direita, propomos um modelo baseado em transformer capaz de projetar a orientação política de um texto em um espectro contínuo de esquerda a direita, representado por um escalar normalizado d entre -1 e 1. Esta abordagem permite que analistas se concentrem em segmentos específicos do cenário político, como conservadores, excluindo movimentos liberais e de extrema-direita. Tal tarefa só pode ser alcançada com classificadores multiclasse, desde que a orientação desejada esteja incorporada em uma de suas classes predefinidas. Para determinar o modelo base mais adequado entre 13 transformers candidatos para esta tarefa, construímos quatro corpora distintos. Um corpus foi composto por notas plenárias anotadas do Bundestag alemão, enquanto outro foi baseado em uma ferramenta oficial de tomada de decisão online, o Wahl-O-Mat. O terceiro corpus consistiu em artigos de 33 jornais, cada um identificado por sua orientação política, e o quarto incluiu 535.200 tweets de 597 membros do 20º e 21º Bundestag alemão. Para mitigar o sobreajuste, usamos dois corpora distintos para treinamento e dois para teste, respectivamente. Quanto ao desempenho intra-domínio, o DeBERTa-large alcançou o maior F1-score (F1=0,844), assim como no teste fora do domínio do X (Twitter) (ACC=0,864). Em relação ao teste fora do domínio dos jornais, o Gemma2-2B se destacou (MAE = 0,172). Este estudo demonstra que modelos transformer podem reconhecer o enquadramento político em notícias alemãs no nível das pesquisas de opinião pública. Nossos achados sugerem que tanto a arquitetura do modelo quanto a disponibilidade de dados de treinamento específicos do domínio podem ser tão influentes quanto o tamanho do modelo para estimar o viés político. Discutimos limitações metodológicas e delineamos direções para melhorar a robustez da medição de viés.
Aprendizado por Reforço com Recompensas Verificáveis (RLVR) alcançou grande sucesso no desenvolvimento de Grandes Modelos de Linguagem (LLMs) com rollouts de cadeia de pensamento para muitas tarefas, como matemática e programação. No entanto, o RLVR enfrenta dificuldades com eficiência amostral em problemas difíceis onde rollouts corretos são difíceis de gerar. Trabalhos anteriores propõem abordar esse problema por meio de RLVR guiado por demonstrações, ou seja, realizar Ajuste Fino Supervisionado (SFT) quando o RL falha; contudo, o SFT frequentemente requer muitos dados, o que pode ser caro de adquirir. Neste artigo, propomos o FEST, um algoritmo de RLVR guiado por demonstrações com poucos exemplos (Few-Shot). Ele obtém resultados impressionantes com apenas 128 demonstrações selecionadas aleatoriamente de um conjunto de dados SFT. Descobrimos que três componentes são vitais para o sucesso: sinal supervisionado, sinal on-policy e pesos decrescentes no conjunto de dados SFT de poucos exemplos para evitar overfitting do treinamento de múltiplas épocas. Em vários benchmarks, o FEST supera as linhas de base com magnitudes menores de dados SFT, até mesmo igualando seu desempenho com o conjunto de dados completo.
Modelos de vídeo generativos são cada vez mais estudados como modelos de mundo implícitos, no entanto, avaliar se eles produzem estrutura 3D e movimento fisicamente plausíveis continua sendo um desafio. A maioria dos pipelines de avaliação de vídeo existentes depende fortemente de julgamento humano ou classificadores aprendidos, que podem ser subjetivos e pouco diagnósticos para falhas geométricas. Apresentamos o PDI-Bench (Índice de Distorção de Perspectiva), uma estrutura quantitativa para auditar a coerência geométrica em vídeos gerados. Dado um clipe gerado, obtemos observações centradas em objetos por meio de segmentação e rastreamento de pontos (por exemplo, SAM 2, MegaSaM e CoTracker3), elevamos essas observações para coordenadas 3D do espaço mundial via reconstrução monocular e calculamos um conjunto de resíduos de geometria projetiva que capturam três dimensões de falha: alinhamento escala-profundidade, consistência de movimento 3D e rigidez estrutural 3D. Para apoiar a avaliação sistemática, construímos o PDI-Dataset, abrangendo diversos cenários projetados para estressar essas restrições geométricas. Em geradores de vídeo de última geração, o PDI revela modos de falha consistentes e específicos de geometria que não são capturados por métricas perceptuais comuns, e fornece um sinal diagnóstico para o progresso em direção à geração de vídeo fisicamente fundamentada e ao modelo de mundo físico. Nosso código e conjunto de dados podem ser encontrados em https://pdi-bench.github.io/.
Os sistemas industriais de agentes baseados em LLM frequentemente separam o planejamento da execução, mas os planejadores baseados em LLM produzem com frequência workflows estruturalmente inválidos ou desnecessariamente longos, levando a falhas frágeis e custos evitáveis de ferramentas e APIs. Propomos o SPIN, um invólucro de planejamento que combina o planejamento validado por Grafo Acíclico Dirigido (DAG) com controle de execução baseado em prefixo. O SPIN impõe um contrato estrito de DAG por meio de `_validate_plan_text` e correção por prompt, gerando planos executáveis antes da execução downstream, e então avalia incrementalmente prefixos do DAG para parar quando o prefixo atual é suficiente para responder à consulta. No AssetOpsBench, em 261 cenários, o SPIN reduz as tarefas executadas de 1061 para 623 e melhora o Accomplished de 0,638 para 0,706, enquanto reduz as chamadas de ferramentas de 11,81 para 6,82 por execução. No MCP Bench, o mesmo invólucro melhora as pontuações relacionadas ao planejamento, fundamentação e dependência tanto para o GPT OSS1 quanto para o Llama 4 Maverick.
Arquiteturas Mistura de Especialistas (MoE) melhoram a eficiência de modelos de linguagem grandes ao ativar apenas um subconjunto de especialistas por token. No entanto, o MoE padrão emprega uma estratégia de roteamento Top-K fixa, levando a computação redundante e latência de inferência subótima. Métodos de aceleração existentes ou exigem um retreinamento custoso com mudanças arquiteturais, ou sofrem uma queda severa de desempenho em alta esparsidade devido à incompatibilidade entre treino e inferência. Para superar essas limitações, propomos BEAM (Máscara Binária de Ativação de Especialistas), um método inovador que aprende a seleção de especialistas adaptativa a tokens por meio de máscaras binárias treináveis. Com um estimador de passagem direta e uma perda de regularização auxiliar, o BEAM induz esparsidade dinâmica de especialistas através de treinamento de ponta a ponta, mantendo a capacidade do modelo. Implementamos ainda um kernel CUDA personalizado e eficiente para o BEAM, garantindo integração perfeita com o framework de inferência vLLM. Experimentos mostram que o BEAM retém mais de 98% do desempenho do modelo original enquanto reduz os FLOPs da camada MoE em até 85%, alcançando uma decodificação até 2,5 vezes mais rápida e um throughput 1,4 vezes maior, demonstrando sua eficácia como uma solução prática plug-and-play para inferência MoE eficiente.
À medida que os agentes de IA transitam de interfaces de conversação para sistemas que leem dados privados, acionam ferramentas e executam fluxos de trabalho com múltiplas etapas, as salvaguardas tornam-se uma última linha de defesa contra danos concretos de implantação. Nesses contextos, falhas nas salvaguardas não são mais meros erros de qualidade de resposta: elas podem vazar segredos, autorizar ações inseguras ou bloquear trabalho legítimo. As falhas mais difíceis são frequentemente contextuais: se uma ação é aceitável depende de normas locais de privacidade, políticas organizacionais e expectativas dos usuários que resistem à especificação pré-implantação. Isso cria uma lacuna prática: as salvaguardas devem adaptar-se aos seus próprios ambientes operacionais, mas o feedback de implantação é tipicamente limitado a falhas esparsas e ruidosas relatadas por usuários, e o ajuste fino repetido é frequentemente impraticável. Para abordar essa lacuna, propomos o LiSA (Lifelong Safety Adaptation – Adaptação Contínua de Segurança), um arcabouço de indução de políticas conservadora que melhora uma salvaguarda base fixa por meio de memória estruturada. O LiSA converte falhas ocasionais em abstrações de políticas reutilizáveis, de modo que relatos esparsos possam generalizar além de casos individuais; adiciona regras locais cientes de conflitos para evitar generalização excessiva em contextos de rótulos mistos; e aplica um controle de confiança ciente de evidências por meio de um limite inferior posterior, de modo que a reutilização da memória seja escalonada com a evidência acumulada, e não apenas com a precisão empírica. Em PrivacyLens+, ConFaide+ e AgentHarm, o LiSA supera consistentemente fortes linhas de base baseadas em memória sob feedback esparso, permanece robusto sob feedback ruidoso de usuários mesmo com taxas de inversão de rótulos de 20% e amplia a fronteira latência–desempenho além do escalonamento do modelo base. Em última análise, o LiSA oferece um caminho prático para proteger agentes de IA contra a imprevisível cauda longa de riscos extremos do mundo real.
Apesar dos rápidos avanços, os modelos atuais de texto para imagem (T2I) dependem predominantemente de um paradigma de geração em etapa única, que enfrenta dificuldades com semânticas complexas e apresenta retornos decrescentes com o escalonamento de parâmetros. Embora abordagens recentes de raciocínio em múltiplas etapas sejam promissoras, elas são prejudicadas por alucinações de planejamento não fundamentadas e sem verificação, reflexão post-hoc monolítica, instabilidades de otimização de contexto longo e latência de inferência proibitiva. Para superar esses gargalos, propomos o framework de Raciocínio Visual em Malha Fechada (CLVR), um sistema abrangente que acopla profundamente o planejamento lógico visual-linguístico à geração por difusão em nível de pixel. O CLVR introduz um motor de dados automatizado com verificação visual em nível de etapa para sintetizar trajetórias de raciocínio confiáveis e propõe a Aprendizagem por Reforço de Prompt Proxy (PPRL) para resolver instabilidades de otimização de contexto longo, destilando histórias multimodais intercaladas em sinais de recompensa explícitos para uma atribuição causal precisa. Além disso, para mitigar o grave gargalo de latência causado pela remoção iterativa de ruído, propomos a Fusão de Pesos no Espaço Δ (DSWM), um método teoricamente fundamentado que funde pesos de alinhamento com prioris de destilação prontas para uso, reduzindo o custo de inferência por etapa para apenas 4 NFEs sem exigir re-destilação dispendiosa. Experimentos extensivos demonstram que o CLVR supera as linhas de base existentes de código aberto em múltiplos benchmarks e se aproxima do desempenho de modelos comerciais proprietários, desbloqueando capacidades gerais de escalabilidade em tempo de teste para geração visual complexa.
Golpes conversacionais, como golpes românticos e de investimento, estão emergindo como uma forma importante de fraude online. Diferentemente de iscas de golpe únicas, como mensagens de loteria falsa ou pedágio não pago, eles se desenrolam por meio de conversas de múltiplas rodadas, nas quais os golpistas manipulam gradualmente as vítimas usando técnicas psicológicas em evolução. No entanto, a pesquisa existente concentra-se principalmente na detecção estática de golpes ou em golpes sintéticos, deixando em aberto se os modelos de linguagem conseguem entender como os golpes do mundo real progridem ao longo do tempo. Apresentamos o PreScam, um benchmark para modelagem da progressão de golpes a partir de conversas iniciais. Construído a partir de relatos de golpes submetidos por usuários, o PreScam filtra e estrutura 177.989 relatos brutos em 11.573 instâncias de golpes conversacionais abrangendo 20 categorias de golpes. Cada instância é estruturada hierarquicamente de acordo com o ciclo de vida do golpe definido pela cadeia de progressão do golpe proposta (scam kill chain), e ainda anotada no nível da rodada com ações psicológicas do golpista e respostas da vítima. Avaliamos modelos em duas tarefas: previsão de término em tempo real, que estima se uma conversa está se aproximando do estágio de término, e previsão de ação do golpista, que prevê as ações subsequentes do golpista. Os resultados mostram uma lacuna clara entre fluência superficial e modelagem de progressão: codificadores supervisionados superam substancialmente os LLMs zero-shot na previsão de término em tempo real, enquanto a previsão da próxima ação permanece apenas moderadamente bem-sucedida, mesmo para LLMs fortes. Em conjunto, esses resultados mostram que os modelos atuais conseguem capturar algumas pistas relacionadas a golpes, mas ainda têm dificuldade em rastrear como o risco aumenta e como a manipulação se desenrola ao longo das rodadas.
A previsão de séries temporais não é apenas uma extrapolação numérica, mas frequentemente requer raciocínio com dados contextuais não estruturados, como notícias ou eventos. Embora Modelos de Base de Séries Temporais (TSFMs) especializados se destaquem na previsão baseada em padrões numéricos, eles permanecem alheios a sinais textuais do mundo real. Por outro lado, embora LLMs estejam emergindo como previsores zero-shot, seu desempenho permanece desigual entre domínios e fundamentação contextual. Para preencher essa lacuna, apresentamos Nexus, uma estrutura de previsão multiagente que decompõe a predição em etapas especializadas: isolando flutuações temporais de nível macro e micro, e integrando informações contextuais quando disponíveis antes de sintetizar uma previsão final. Essa decomposição permite que Nexus se adapte de sinais sazonais a informações voláteis e orientadas por eventos, sem depender de âncoras estatísticas externas ou prompting monolítico. Mostramos que LLMs da geração atual possuem uma capacidade intrínseca de previsão substancialmente mais forte do que reconhecido anteriormente, dependendo criticamente de como o raciocínio numérico e contextual é organizado. Avaliado em dados estritamente posteriores aos cortes de conhecimento dos LLMs, abrangendo métricas imobiliárias do Zillow e ações voláteis do mercado de capitais, Nexus consistentemente iguala ou supera TSFMs de última geração e fortes baselines de LLM. Além da precisão numérica, Nexus produz traços de raciocínio de alta qualidade que mostram explicitamente os impulsionadores fundamentais por trás de cada previsão. Nossos resultados estabelecem que a previsão no mundo real é um problema de raciocínio agentivo que se estende muito além da mera modelagem de sequências.
Apresentamos o CurveBench, um benchmark para raciocínio topológico hierárquico a partir de entrada visual. O CurveBench consiste em 756 imagens de curvas de Jordan que não se intersectam aos pares, distribuídas em configurações fáceis, poligonais, inspiradas em topografia, labirínticas e de contagem densa. Cada imagem é anotada com uma árvore enraizada que codifica as relações de contenção entre regiões planares. Formulamos a tarefa como predição estruturada: dada uma imagem, o modelo deve recuperar a árvore de contenção enraizada completa induzida pelas curvas. Apesar da simplicidade visual da tarefa, o modelo avaliado mais forte, o Gemini 3.1 Pro, atinge apenas 71,1% de precisão na geração de árvores no CurveBench-Easy e 19,1% no CurveBench-Hard. Demonstramos ainda a utilidade do benchmark por meio do ajuste fino no estilo RLVR de modelos de visão-linguagem de pesos abertos. Nosso modelo treinado Qwen3-VL-8B melhora em relação ao Qwen-3-VL-8B-Thinking de 2,8% para 33,3% de precisão na geração de árvores no CurveBench-Easy, superando o GPT-5.4 e o Claude Opus 4.5 em nosso protocolo de avaliação. A lacuna restante, especialmente no CurveBench-Hard, mostra que o raciocínio visual exato ciente de topologia ainda está longe de ser resolvido.
Modelos Visão-Linguagem-Ação (VLA) alcançam notável flexibilidade e generalização além dos paradigmas clássicos de controle. No entanto, a maioria dos VLAs predominantes é treinada sob um paradigma de observação de quadro único, o que os torna estruturalmente cegos para dinâmicas temporais. Consequentemente, esses modelos degradam-se severamente em cenários não estacionários, mesmo quando treinados ou ajustados em conjuntos de dados dinâmicos. Abordagens existentes exigem retreinamento dispendioso ou sofrem de gargalos de latência e baixa consistência temporal entre blocos de ação. Propomos a Correção de Ritmo e Trajetória (Pace-and-Path Correction), um operador em tempo de inferência livre de treinamento e de forma fechada, que envolve qualquer VLA com ações em blocos. A partir de um único custo quadrático, a minimização conjunta produz uma solução unificada que se decompõe ortogonalmente em dois canais distintos. O canal de ritmo comprime a execução ao longo da direção planejada, enquanto o canal de trajetória aplica um deslocamento espacial ortogonal, absorvendo conjuntamente a dinâmica percebida dentro da janela do bloco. Avaliamos nossa abordagem em um benchmark diagnóstico abrangente, MoveBench, projetado para isolar o movimento como a única variável controlada. Resultados empíricos demonstram que nossa estrutura supera consistentemente os wrappers livres de treinamento e os métodos adaptativos dinâmicos de última geração, melhorando as taxas de sucesso em até 28,8% e 25,9% em termos absolutos sobre modelos VLA fundamentais em ambientes exclusivamente dinâmicos e mistos (estáticos e dinâmicos), respectivamente.