Artigos de pesquisa em IA selecionados diariamente com traduções
Clonar o movimento de câmera a partir de vídeos de referência é uma tarefa importante na geração de vídeos, pois os vídeos fornecem controle intuitivo e preciso. Métodos existentes ou utilizam diretamente representações paramétricas que não conseguem lidar com a geração de múltiplas tomadas, ou sintetizam dados emparelhados cruzados, que sofrem com escassez de dados, resultando em baixo desempenho na clonagem de movimentos de câmera complexos. Para resolver esses problemas, introduzimos uma representação geral de movimento de câmera que codifica câmeras como vídeos de grade de movimento. Essa grade de câmera representa visualmente os parâmetros da câmera e suporta a integração de trajetórias diversas para geração de vídeos de múltiplas tomadas. Com base nisso, propomos o OmniDirector, uma estrutura unificada treinada em um milhão de pares de grade de câmera e vídeo que coordena personagens, ações e câmeras para fornecer controle em nível de diretor para transformadores difusão multimodais. Além disso, projetamos um novo agente hierárquico de expansão de prompts que integra harmoniosamente diferentes sinais de controle ao descrever sistematicamente o movimento da câmera e o conteúdo visual por meio da compreensão das relações entre os sinais. Experimentos extensos demonstram o desempenho superior e a notável controlabilidade da nossa estrutura. Página do projeto: https://ymlinfeng.github.io/OmniDirector.github.io/
Avanços recentes na Aprendizagem por Reforço (AR) Agêntica melhoraram substancialmente as capacidades de uso de ferramentas em múltiplas rodadas de agentes baseados em grandes modelos de linguagem. No entanto, a maioria dos métodos existentes atribui crédito sobre unidades heurísticas grosseiras, como limites de chamadas de ferramentas ou fluxos de trabalho fixos, dificultando a identificação de quais decisões intermediárias influenciam os resultados subsequentes. Neste trabalho, estudamos a AR agêntica sob duas perspectivas: onde ramificar e como atribuir crédito após a ramificação. Nossa análise piloto mostra que pontos de decisão influentes estão amplamente distribuídos ao longo da sequência gerada, em vez de concentrados nas chamadas de ferramentas, enquanto a entropia de tokens por si só não reflete de forma confiável seu impacto nos resultados finais. Motivados por essas observações, propomos a Otimização de Política Procedimental Agêntica (APPO), que desloca a ramificação e a atribuição de crédito de unidades grosseiras de interação para pontos de decisão refinados na sequência. A APPO seleciona locais de ramificação usando uma Pontuação de Ramificação que combina a incerteza do token com ganhos de verossimilhança induzidos pela política em continuações subsequentes, permitindo uma exploração mais direcionada enquanto filtra posições espúrias de alta entropia. Ela ainda introduz o escalonamento de vantagem no nível do procedimento para distribuir melhor o crédito entre rollouts ramificados. Experimentos em 13 benchmarks mostram que a APPO melhora consistentemente bases fortes de AR agêntica em quase 4 pontos, mantendo chamadas de ferramentas eficientes e a interpretabilidade do comportamento.
Apesar dos recentes avanços, os agentes de LLM ainda enfrentam dificuldades no raciocínio sobre longos históricos de interação. Embora os agentes atuais com memória aumentada dependam de um paradigma estático de recuperação seguida de raciocínio, esse design rígido de pipeline impede que eles adaptem dinamicamente o acesso à memória com base em evidências intermediárias descobertas durante a inferência. Para superar essa lacuna, propomos o MRAgent, uma estrutura que combina um grafo de memória associativa com um mecanismo de reconstrução ativa. Representamos a memória como um grafo Sinal-Etiqueta-Conteúdo, onde etiquetas associativas servem como pontes semânticas conectando sinais de granularidade fina aos conteúdos de memória. Operando sobre essa estrutura, nosso mecanismo de reconstrução ativa integra o raciocínio do LLM diretamente no acesso à memória, permitindo ao agente explorar e podar iterativamente caminhos de recuperação com base em evidências acumuladas. Isso garante que a recuperação da memória seja adaptada dinamicamente ao contexto de raciocínio, evitando ao mesmo tempo a explosão combinatória causada pela expansão sem restrições. Experimentos nos benchmarks LoCoMo e LongMemEval demonstram melhorias significativas em relação a linhas de base fortes (de até 23%), além de reduzir substancialmente o custo de tokens e tempo de execução, destacando a eficácia da reconstrução ativa e associativa para o raciocínio de memória de longo horizonte.
Modelos de Linguagem de Grande Escala (LLMs) estão passando por uma transformação fundamental, evoluindo de geradores conversacionais para sistemas integrados de IA capazes de raciocínio, ação, memória e autoaperfeiçoamento. Conceituamos essa transição como uma mudança de Chatbot para Colega Digital: de respostas conversacionais para trabalho persistente. Organizamos essa transição ao longo de duas dimensões intimamente acopladas. Primeiro, no nível do núcleo cognitivo, os LLMs estão avançando de sistemas de "raciocínio rápido" da era dos Chatbots, impulsionados pela previsão do próximo token, para LLMs Pensantes que aproveitam a computação em tempo de inferência, raciocínio em Cadeia de Pensamento (Chain-of-Thought), reflexão, supervisão de processo e aprendizado por reforço para apoiar uma cognição mais deliberada e confiável. Segundo, no nível da execução de tarefas aumentada por ferramentas, os LLMs estão progredindo de Agentes chamadores de ferramentas, que invocam recursos externos de forma ad hoc, para sistemas de estação de trabalho do tipo OpenClaw (OpenClaw), equipados com Workspaces persistentes, habilidades, loops de verificação e governança. O paradigma "Workspace + Habilidade" (Workspace + Skill) torna o uso episódico de ferramentas similar ao de um colega de trabalho, por meio de persistência de estado, procedimentos reutilizáveis, fechamento de tarefas e reutilização de experiência. Examinamos as mudanças na construção de dados, de pares instrução-resposta para trajetórias Estado-Ação-Observação, e a avaliação, de benchmarks estáticos para ecossistemas de IA em sandbox, auditáveis e autoevolutivos.
O recente sucesso dos enxames de agentes deslocou o paradigma dos agentes baseados em modelos de linguagem de grande escala (LLMs) de fluxos de trabalho de agente único para sistemas multiagentes, destacando a importância da orquestração de agentes para a decomposição e colaboração de tarefas. No entanto, as estruturas de orquestração existentes estão limitadas a um conjunto restrito de modalidades e têm dificuldade em generalizar para configurações mais complexas, onde modalidades heterogéneas coexistem e interagem. Esta limitação torna-se particularmente evidente em cenários omnimodais, nos quais as tarefas exigem a compreensão e coordenação unificadas de entradas diversas, como texto, imagem, áudio e vídeo. Neste trabalho, propomos o Orchestra-o1, uma estrutura de orquestração omnimodal projetada para suportar uma colaboração eficiente de agentes em múltiplas modalidades. O Orchestra-o1 introduz um mecanismo de orquestração unificado que permite a decomposição de tarefas com consciência modal, a especialização online de subagentes e a execução paralela de subtarefas. Este design escalável permite que os sistemas de agentes lidem eficazmente com tarefas complexas do mundo real envolvendo fontes de informação heterogéneas, superando a segunda melhor abordagem em 10,3% de precisão no benchmark OmniGAIA. Além disso, apresentamos a otimização de políticas relativas de grupo alinhada à decisão (DA-GRPO), uma abordagem eficiente de aprendizagem por reforço orientada a agentes para treinar o Orchestra-o1-8B, que também atinge o estado da arte em relação a todos os agentes omnimodais de código aberto existentes.
O desempenho de agentes de IA depende criticamente da estrutura de execução (runtime harness), composta pelos prompts, ferramentas, memória e fluxo de controle que mediam como um modelo observa, raciocina e age. No entanto, as estruturas atuais permanecem amplamente artesanais e estáticas: cada novo modelo ou tarefa ainda exige arcabouço sob medida, e os ricos traços gerados durante a execução raramente são destilados de volta para melhoria sistemática. Apresentamos o HarnessX, uma fundição para estruturas de agentes compostíveis, adaptáveis e evolutivas. O HarnessX monta primitivas de estrutura tipadas por meio de uma álgebra de substituição, adapta-as através do AEGIS, um motor de evolução multiagente orientado por traços, fundamentado em um espelho operacional entre adaptação simbólica e aprendizado por reforço, e fecha o ciclo estrutura-modelo ao transformar trajetórias tanto em atualizações de estrutura quanto em sinal de treinamento do modelo. Em cinco benchmarks (ALFWorld, GAIA, WebShop, tau^3-Bench e SWE-bench Verified), o HarnessX obtém um ganho médio de +14,5% (até +44,0%), com os maiores ganhos onde as linhas de base são mais baixas. Esses resultados sugerem que o progresso de agentes não precisa vir apenas do escalonamento de modelos: compor e evoluir interfaces de execução a partir de feedback de execução é uma alavanca acionável e complementar. O código completo será disponibilizado como código aberto em uma versão futura.
A geração aumentada por recuperação está se movendo além do texto para vídeos longos e egocêntricos, onde os sistemas devem selecionar trechos relevantes à consulta em múltiplas modalidades e granularidades temporais. No entanto, o progresso no VideoRAG é limitado por duas lacunas: os benchmarks existentes permitem que as consultas sejam respondidas sem o vídeo, ocultando erros de recuperação, e métodos anteriores aplicam uma única configuração de modalidade-granularidade por consulta, ignorando a variabilidade no nível do trecho. Abordamos ambas introduzindo o V-RAGBench, um benchmark de tripletos ⟨consulta, trecho de evidência, resposta⟩ que possibilita uma avaliação fiel e desacoplada da recuperação e da geração, e o CARVE, um método simples que executa recuperadores paralelos em diversas configurações e emprega reclassificação adaptativa por trecho para identificar a configuração vencedora para cada trecho. Cada trecho então entra no gerador sob sua configuração vencedora selecionada durante a recuperação, resultando em uma forma de evidência intercalada onde a decisão no nível do trecho se propaga por ambos os estágios. O CARVE supera oito linhas de base recentes do VideoRAG, com os trechos fornecidos ao gerador intercalando múltiplas configurações em vez de compartilhar uma única, um comportamento inatingível por métodos no nível da consulta.
Pipelines automatizados atuais para Question Answering (QA) audiovisual geralmente adotam um paradigma de "vídeo-legenda-QA". No entanto, esses métodos tipicamente segmentam vídeos em clipes curtos e geram descrições separadas para as modalidades auditiva e visual. Esse processamento desacoplado rompe as associações inerentes entre sons e suas fontes visuais, enquanto o processamento independente de clipes frequentemente causa descrições inconsistentes de uma mesma entidade ao longo dos segmentos. Além disso, acoplar a compreensão de textos longos e a síntese de QA em uma única etapa frequentemente restringe os modelos a eventos localizados, gerando perguntas que carecem de conexões temporais de longo prazo e raciocínio multimodal profundo. Para abordar essas questões, propomos um mecanismo automatizado de geração de dados com dois mecanismos: (1) Roteirização de Vídeo com Âncora em Entidades, que transforma vídeos em roteiros estruturados, contendo resumos, listas de entidades principais e descrições audiovisuais por segmento. A lista de entidades serve como um prior global para garantir consistência referencial entre segmentos e reconstruir associações audiovisuais. (2) Geração de QA Guiada por Pistas, que leva os modelos a primeiro extrair pistas multimodais entre segmentos do roteiro e, em seguida, gerar pares de QA com base nessas pistas de alto valor. Utilizando esse pipeline, construímos o conjunto de dados de ajuste por instruções OmniVideo-100K e um conjunto de teste verificado por humanos, o OmniVideo-Test. O ajuste fino do VITA-1.5, Qwen2.5-Omni-7B e Qwen3-Omni-30B no OmniVideo-100K resulta em ganhos de desempenho de até 20,59% no OmniVideo-Test, demonstrando forte generalização (melhorias de até 12,64%) em benchmarks estabelecidos como Daily-Omni e JointAVBench.
Na última década, a construção de inteligência artificial geral a nível humano passou de uma especulação remota para ser um objetivo concreto para a próxima década para muitas das maiores organizações de IA. Alcançar este objetivo teria impactos profundos e de grande alcance na sociedade humana, o que levanta muitas questões complexas para a década vindoura. Este relatório investiga como a própria IA pode continuar a se desenvolver num mundo pós-AGI ao longo do continuum da inteligência de máquina. O ponto final deste continuum, a IA Universal, é teoricamente bem compreendido, o que fornece algum fundamento formal para o foco principal deste relatório: a transição da AGI a nível humano para a superinteligência geral artificial, que, intuitivamente, pode ser entendida como um sistema que é mais inteligente e cognitivamente capaz do que grandes organizações de humanos. Após caracterizar a ASI, o relatório discute quatro caminhos potenciais da AGI para a ASI: escalonamento da AGI, mudanças de paradigma na IA, melhoria recursiva e ASI emergindo de coletivos multiagente em grande escala. O relatório então discute possíveis fricções e gargalos ao longo desses caminhos. Determinar se o impacto dessas fricções será negligenciável ou substancial levanta uma série de questões de pesquisa abertas e concretas. Devido a grandes incertezas na previsão do progresso da ASI, não se pode descartar que o progresso da IA possa continuar a acelerar nos próximos anos. Isso pode implicar que a imagem de uma única mudança transformadora, causada pela introdução da AGI a nível humano na nossa sociedade, pode ser imprecisa. Mais adequada pode ser a perspetiva de uma série de mudanças sociais transformadoras causadas pelo progresso e avanços possibilitados pela IA em muitas áreas da ciência e tecnologia. Preparar-se para esta perspetiva requer um esforço massivamente interdisciplinar de âmbito e interesse globais.
Identificamos uma nova dimensão para aumentar a diversidade de rollouts na Otimização de Política Relativa a Grupo (GRPO) para LLMs. Embora a GRPO dependa de rollouts diversos, as estratégias predominantes aumentam a diversidade principalmente injetando mais aleatoriedade em nível de token, o que pode introduzir ruído passo a passo e levar a trajetórias incoerentes. Descobrimos que modelos menores dentro da mesma família de modelos exibem inerentemente maior diversidade em nível de política, indicada por seu pass@k superior em relação a modelos maiores à medida que o número de amostras aumenta. Diferentemente do ruído em nível de token, essa diversidade é correlacionada temporalmente, preserva a consistência lógica e fornece sinais de exploração estruturados para a estimativa de gradientes. Propomos então o S2L-PO (Otimização de Política do Pequeno para o Grande), uma estrutura que utiliza modelos pequenos fixos como exploradores naturais para treinar modelos maiores. Para equilibrar exploração e explotação, projetamos uma estratégia de recozimento progressivo que transita de rollouts offline de modelos pequenos para a amostragem do próprio aprendiz grande. Essa mudança evita elegantemente quedas de desempenho durante o treinamento causadas pelos limites de capacidade do modelo pequeno, alcançando convergência mais rápida e desbloqueando um teto de desempenho mais alto. O S2L-PO melhora a precisão em diversos benchmarks de raciocínio matemático (por exemplo, +8,8% no AIME 24 usando um explorador de 1,7B para guiar o modelo de 8B) enquanto reduz o custo computacional de rollout.
Modelos de linguagem de grande escala (LLMs) realizam inferência seguindo uma profundidade e ordem fixas, executando todas as camadas de forma não recorrente. Revelamos a ampla existência de programas-de-camadas (PoLar) flexíveis, dinâmicos e que não exigem treinamento, nos quais camadas pré-treinadas podem ser agrupadas como módulos e depois puladas ou repetidas para formar um programa personalizado para cada entrada. Para a maioria das entradas, execuções de programas substancialmente mais curtas podem alcançar a mesma ou melhor acurácia, enquanto predições incorretas do LLM original podem ser corrigidas por programas alternativos com menos camadas. Essas observações indicam que a inferência admite múltiplos cálculos latentes válidos além do passe direto padrão. Para alcançar PoLar de forma eficiente na prática, propomos uma rede de predição PoLar leve, que aprende a gerar programas de execução que dinamicamente pulam ou repetem camadas pré-treinadas para cada entrada. Experimentos em benchmarks de raciocínio matemático demonstram que o PoLar melhora consistentemente a acurácia em relação à inferência padrão e a métodos dinâmicos de profundidade anteriores, frequentemente executando menos camadas, e que esses ganhos persistem sob avaliação fora da distribuição. Nossos resultados sugerem que a execução de profundidade fixa captura apenas um subconjunto estreito da capacidade latente de raciocínio de um LLM.
Modelos de linguagem de grande escala (LLMs) agora alcançam pontuações em nível de especialista em exames de licenciamento médico, incentivando a suposição de que pontuações altas implicam julgamento médico seguro, enquanto pacientes os utilizam cada vez mais para aconselhamento de saúde. Mostramos que essa suposição é frágil: quando um contexto enganoso é injetado em perguntas que os LLMs originalmente respondem corretamente, eles abandonam a resposta correta. Chamamos a capacidade de manter um julgamento correto sob contexto adversarial de resiliência epistêmica, e introduzimos o MedMisBench para medi-la. O MedMisBench contém 10.932 itens de perguntas médicas e 48.889 pares de contexto-opção enganosos, abrangendo raciocínio médico, capacidade agentiva e avaliação da jornada do paciente. Em 11 configurações de modelo, a acurácia média cai de 71,1% nas perguntas originais para 38,0% sob contexto enganoso focado, com 51,5% de sucesso de ataque. As injeções mais prejudiciais são fabricações formais, semelhantes a regras: falsidades enquadradas como autoridade alcançam 69,5% de sucesso de ataque e alegações de envenenamento por exceção alcançam 64,1%. Um painel clínico de 14 membros de 7 países identificou dano potencial grave em 38,2% dos casos revisados. O MedMisBench expõe um ponto cego estrutural na avaliação de LLMs em contextos médicos: os benchmarks existentes medem o que os modelos sabem, mas não se eles preservam o julgamento médico correto sob contexto enganoso.
Os utilizadores dependem de rastros de execução para observar o comportamento de agentes, diagnosticar falhas e garantir responsabilidade. Esses rastros contêm detalhes processuais ricos, incluindo invocações de ferramentas, decisões intermédias e lógica de recuperação de erros. No entanto, esse detalhe pode expor habilidades processuais privadas, permitindo que métodos downstream recuperem fórmulas, limiares e estratégias fundamentais sem acesso a pesos de modelo ou arquivos de habilidades. Para quantificar esse risco e avaliar a proteção, construímos o CapTraceBench, um benchmark de 75 tarefas especializadas de horizonte longo e 154 habilidades selecionadas em sete domínios. Também apresentamos o RedAct (https://github.com/XuShuwenn/RedAct), uma estrutura de divulgação protegida de rastros que localiza informações protegidas fundamentais, reescreve rastros preservando evidências críticas para o verificador e incorpora marcas-d'água comportamentais para análise downstream de proveniência. Em métodos representativos de reutilização de rastros, o RedAct reduz a transferência normalizada de habilidades (TNH) de 44,7–67,1% em rastros brutos para abaixo do valor de referência sem habilidades, preservando ao mesmo tempo as evidências de auditoria. Suas marcas-d'água comportamentais independentes atingem 93,6–100,0% de deteção verdadeira, com uma taxa de falso alarme de no máximo 1,9%. Esses resultados enquadram os rastros públicos de agentes como interfaces de segurança e mostram que a redação seletiva pode reduzir a fuga de capacidade processual sem remover evidências de auditoria.
Agentes de codificação baseados em modelos de linguagem de grande escala têm demonstrado desempenho robusto em tarefas de engenharia de software. No entanto, a maioria desses agentes consome repositórios quase inteiramente como texto, o que difere da forma como desenvolvedores humanos utilizam estruturas visuais, como hierarquias de pastas e relações de dependência, para se orientar em bases de código extensas. Com modelos de linguagem de grande escala multimodais (MLLMs), permanece uma questão em aberto se os agentes podem se beneficiar efetivamente de representações visuais de repositórios. Este artigo apresenta o primeiro estudo empírico sistemático sobre representações visuais de repositórios para agentes baseados em LLMs na resolução de problemas em nível de repositório. Avaliamos quatro modelos multimodais recentes. Nossos resultados mostram que uma configuração estritamente baseada em visão degrada a precisão e aumenta o custo de tokens, pois os agentes carecem de detalhes simbólicos suficientes e compensam com consultas visuais repetidas. Em contraste, a integração de gráficos visuais da estrutura do repositório como uma modalidade suplementar, juntamente com interfaces de texto padrão, ajuda os agentes a compreender a estrutura de forma mais eficiente: o consumo de tokens de entrada diminui em até 26%, enquanto a precisão na resolução de problemas é mantida ou melhorada. A visualização é mais útil durante a localização de falhas e quando o agente controla autonomamente a profundidade da exploração. Essas descobertas apontam para um design híbrido prático de texto e visão para a próxima geração de agentes de codificação.
Grandes modelos de linguagem (LLMs) são amplamente utilizados em sistemas de texto para imagem (T2I), mas geralmente se limitam à codificação de texto, enquanto a remoção de ruído é tratada por backbones generativos recém-treinados. O surgimento de autoencoders de representação (RAEs) desloca o objetivo da geração para representações visuais semanticamente estruturadas, criando um espaço latente mais compatível com priors de LLMs pré-treinados. Inspirados por LLMs multimodais (MLLMs), onde um projetor MLP é suficiente para alinhar representações visuais limpas com um LLM pré-treinado, reaproveitamos o próprio MLLM como um codificador de representação ruidosa, estendendo esse mecanismo de entradas limpas para entradas ruidosas. Apresentamos o RepFusion, que utiliza as saídas resultantes do MLLM como sinal de condicionamento para um transformador de difusão. Em comparações controladas com orçamentos de inferência semelhantes, o RepFusion supera as linhas de base que dedicam capacidade comparável a removedores de ruído recém-inicializados. Esses resultados demonstram que MLLMs fornecem priors fortes para a remoção de ruído de representações visuais e que, ao condicionar representações ruidosas em evolução, o poder computacional em tempo de teste pode ser gasto produtivamente em condicionamento repetido do MLLM em sistemas T2I modernos.
Modelos de mundo incorporados emergiram como um paradigma fundamental para a tomada de decisão robótica visual e simulação de ambientes interativos. No entanto, estruturas incorporadas convencionais dependem de vetores de ação estruturados de baixa dimensionalidade (por exemplo, ângulos das juntas e poses do efetuador final), que sofrem de capacidade expressiva limitada, baixa generalização entre diversas incorporações e modelagem dinâmica não natural para interações físicas complexas. Para lidar com essas limitações, este artigo propõe o iMac (Image as Action Control - Imagem como Controle de Ação), um novo paradigma de controle unificado que trata imagens visuais brutas como representações de ação nativas para modelos de mundo incorporados. Diferindo da codificação explícita de ação cinemática tradicional, o iMac formula a manipulação visual contínua como tokens de ação baseados em imagem, que encapsulam inerentemente intenções de movimento espacial, restrições geométricas interativas e dinâmicas físicas sutis. Construímos uma arquitetura incorporada de dois ramos composta por um codificador de imagem-ação e um preditor de mundo dinâmico: o codificador comprime imagens visuais orientadas por alvo em embeddings de ação compactos, enquanto o preditor aprende regras de transição do ambiente condicionadas por ações de imagem para alcançar predição de estado futuro de alta fidelidade e controle incorporado em malha fechada. Extensos experimentos são realizados em benchmarks públicos de manipulação incorporada e cenários robóticos do mundo real. Os resultados demonstram que o iMac supera as linhas de base de controle de ação baseado em vetores em precisão de predição, taxa de sucesso de tarefa e capacidade de generalização entre cenas. Além disso, nosso design de imagem-ação elimina a dependência de espaços de ação definidos manualmente, realizando um controle flexível e universal para agentes incorporados heterogêneos. Este trabalho fornece uma perspectiva inovadora de ação visual para modelos de mundo incorporados, oferecendo um paradigma simples, porém eficaz, para percepção e manipulação robótica escalável.
Neste relatório, apresentamos Hy-Embodied-0.5-VLA, abreviado como HyVLA-0.5, um sistema de ponta a ponta que abrange toda a pilha de aprendizado robótico: coleta de dados, design de modelo, pré-treinamento contínuo e ajuste fino supervisionado, pós-treinamento com RL e implantação no mundo real. Cada componente desempenha um papel distinto nessa pilha.
Os modernos provadores de teoremas Lean alcançam alto desempenho apenas com custo computacional substancial de treinamento e inferência, impulsionado em parte pela escassez de dados de provas verificadas e pelos longos traços de raciocínio da busca formal de provas, tornando tanto o ajuste fino supervisionado (SFT) quanto a amostragem caros. Apresentamos o Pythagoras-Prover, uma família de provadores de teoremas Lean eficientes em termos computacionais e de código aberto, projetada para orçamentos computacionais práticos. A família abrange dois paradigmas de geração: modelos autorregressivos com 4B e 32B de parâmetros, e um primeiro protótipo de provador baseado em difusão (4B) que refina iterativamente provas Lean em tempo de inferência. Para eficiência de treinamento, construímos um corpus verificado em Lean estratificado em problemas fáceis, médios e difíceis para SFT curricular, de modo que os modelos adquiram habilidades de prova progressivamente, passando de provas mais curtas e simples para provas mais longas e complexas. Durante o SFT, um esquema dinâmico de filtragem de raciocínio de provas preserva traços de prova informativos, mantendo cada instância dentro de um orçamento de contexto de 8 mil tokens. Também introduzimos a Formalização Aumentada Lean (ALF), que expande corpora verificados escassos em variantes de declarações formais, preenchidas por meio de autodestilação para sinal de treinamento extra, sem verificar formalmente cada instância mutada. Ao perturbar problemas conhecidos enquanto preserva seu caráter formal, a ALF reduz a dependência da forma superficial de qualquer declaração. Empiricamente, o Pythagoras-Prover-4B supera o DeepSeek-Prover-V2-671B no pass@32 do MiniF2F-Test (86,1% vs 82,4%) com aproximadamente 167x menos parâmetros, enquanto o Pythagoras-Prover-32B estabelece o estado da arte de código aberto com 93,0% no MiniF2F-Test e resolve 93 dos 672 problemas do PutnamBench. Disponibilizamos o MiniF2F-ALF, um benchmark sensível a contaminação com mutações ALF no qual todos os modelos avaliados perdem precisão; aqui, nosso modelo de 32B permanece o mais forte, e o de 4B iguala o estado da arte anterior, Goedel-Prover-V2-32B.
À medida que as revisões geradas por IA passam de ferramentas experimentais para infraestrutura de revisão por pares, a maioria das preocupações com robustez tem se concentrado em ataques explícitos, como instruções ocultas e injeção de prompt. Estudamos um modo de falha mais difícil e mais relevante para políticas públicas: nenhum texto oculto, nenhuma injeção de prompt e nenhuma alteração em métodos, experimentos, figuras, equações, provas ou resultados numéricos. O atacante modifica apenas o conteúdo de nível de apresentação, como o resumo, o enquadramento das contribuições, a literatura relacionada, a discussão e a estrutura narrativa. Introduzimos o reembalamento adversarial: um ataque de ciclo fechado que utiliza o feedback do revisor de IA para buscar revisões no nível de apresentação, mantendo as evidências científicas fixas. Em três revisores de IA convencionais, o reembalamento adversarial alcança uma taxa de sucesso de ataque de 75,1% e um ganho médio de pontuação de +1,21/10. O efeito não é explicado pelo polimento comum da prosa. Também revelamos que estratégias que alteram a forma como o revisor interpreta o artigo, como o reposicionamento da literatura relacionada e a expansão da discussão analítica, superam substancialmente edições superficiais, como polimento local, formatação de tabelas e caixas de algoritmos. Nossa análise revela dois modos de falha estruturais mais profundos. Primeiro, revisores de IA são mais fáceis de impressionar do que de convencer: destacar pontos fortes aumenta consistentemente o mérito percebido, enquanto tentativas de dissolver fraquezas frequentemente saem pela culatra. Segundo, revisores de IA podem confundir a aparência de abordar uma limitação com sua resolução real, permitindo que evidências inalteradas sejam reinterpretadas como contribuição científica mais forte. Esses resultados mostram que o risco de implantação não reside apenas em instruções ocultas maliciosas, mas no surgimento da própria apresentação do artigo como uma superfície de otimização. Lançamos um benchmark rolante livre de contaminação e uma estrutura de ataque para testar se revisores de IA permanecem ancorados ao conteúdo científico sob edições apenas de apresentação.
Ao aplicar a Otimização de Política Relativa em Grupos (GRPO) para Fundamentação de GUI (*GUI Grounding*), os *rollouts* são amostrados a partir de uma única vista de captura de tela; os grupos frequentemente resultam em todas falhas em instâncias difíceis ou todos sucessos em instâncias fáceis, não gerando vantagem relativa útil. Propomos VISTA (*View-Consistent Self-Verified Training*), uma estrutura de treinamento baseada em GRPO que constrói cada grupo de comparação a partir de múltiplas vistas que preservam o alvo da mesma instância de GUI. Cada vista é gerada por um recorte que mantém o elemento alvo visível e remapeia sua caixa exatamente, de modo que os *rollouts* do modelo são comparados entre entradas semanticamente equivalentes, mas geometricamente diferentes. Para estabilizar a geração de coordenadas curtas sem transformar o aprendizado por reforço em imitação incondicional, o VISTA adiciona ainda uma âncora auto-verificada entre vistas: uma resposta ótima otimizada com uma perda ponderada pela vantagem, excluída da linha de base do grupo e ativada apenas quando o modelo produziu um *rollout* de recompensa máxima. Em cinco benchmarks de fundamentação de GUI e múltiplos *backbones* Qwen, o VISTA melhora consistentemente a precisão da fundamentação. No ScreenSpot-Pro, ele eleva Qwen3-VL 4B/8B/30B-A3B de 55,5/52,7/53,7 para 63,4/65,8/67,0. Análises de robustez mostram ainda maior precisão na pior vista e menores taxas de inversão de previsão.
Avanços recentes em modelos de mundo baseados em vídeo demonstraram uma capacidade sem precedentes de sintetizar sequências visuais de alta fidelidade. No entanto, persiste uma lacuna fundamental entre a geração de vídeos visualmente plausíveis e os requisitos funcionais de um modelo de mundo, particularmente na manutenção de um estado interno estável e razoável ao longo de horizontes temporais estendidos. Embora os benchmarks existentes enfatizem principalmente a qualidade visual, a coerência de movimento e o alinhamento texto-vídeo, eles negligenciam em grande parte a memória, a capacidade central de um modelo de mundo de preservar a consistência em horizontes de longo prazo e interações complexas. Para abordar essa lacuna, apresentamos o MBench, um benchmark abrangente dedicado a quantificar e avaliar a capacidade de memória de modelos de mundo em vídeo. Decompoemos sistematicamente a capacidade de memória dos modelos de mundo em vídeo em três dimensões centrais hierárquicas e complementares: consistência de entidade, consistência de ambiente e consistência causal, que são ainda refinadas em 12 subdimensões quantificáveis para uma caracterização abrangente da memória de longo prazo. Nosso benchmark é construído a partir de vídeos longos reais rigorosamente selecionados e avaliado por matrizes quantitativas baseadas em regras e VLM para permitir uma avaliação de consistência objetiva e abrangente. Avaliações extensivas dos principais modelos de mundo em vídeo do estado da arte revelam limitações sistêmicas críticas dos métodos existentes na retenção de estado de longo prazo, fornecendo um benchmark padronizado e uma direção de pesquisa clara para avançar o campo.
Modelos de mundo que capturam como ações induzem mudanças físicas permitem aprendizado escalável de robôs sem depender de rótulos de ação específicos ao corpo. Modelos de vídeo em espaço de pixels fornecem priores visuais amplos, mas consomem capacidade do modelo na reconstrução densa de aparência, enquanto modelos de ação direta exigem rótulos específicos ao corpo que dificultam a escalabilidade. Apresentamos μ_0, um modelo de mundo escalável baseado em traços 3D. Em vez de prever pixels densos ou modelar ações diretamente, o μ_0 prevê trajetórias 3D suaves para pontos de interação salientes, como objetos, ferramentas, mãos e regiões de contato, resultando em uma interface de movimento compacta e agnóstica ao corpo. Para permitir o treinamento a partir de diversas fontes de vídeo, nosso sistema TraceExtract extrai automaticamente supervisão 3D selecionando pontos-chave, construindo traços alinhados globalmente e associando segmentos de movimento a legendas de linguagem hierárquicas. Essa supervisão do TraceExtract pré-treina o μ_0 combinando um backbone de visão-linguagem pré-treinado com um especialista modular em traços, que representa cada consulta por meio de pontos de controle B-spline e prevê traços futuros. Experimentos mostram que o μ_0 supera as linhas de base tanto na previsão de traços 2D quanto 3D, incluindo modelos de previsão de traços e métodos VLM tokenizados. Como o μ_0 é congelado e reutilizável, pode ser combinado com especialistas em ação para corpos robóticos downstream. Apesar do pré-treinamento sem ação, as políticas condicionadas a traços resultantes alcançam desempenho competitivo com modelos VLA pré-treinados com supervisão de ação, como o π_0. Esses resultados estabelecem traços 3D como uma representação escalável e transferível para manipulação entre corpos.
À medida que sistemas de IA compostos por múltiplos agentes de modelo de linguagem se tornam mais comuns, eles são cada vez mais utilizados para tomar decisões em conjunto: discutindo, negociando e agindo em tarefas compartilhadas. Embora agentes individuais possam parecer bem alinhados quando testados isoladamente, problemas podem surgir da forma como interagem entre si. Apresentamos o Árbitro, um agente projetado para monitorar conversas multiagente em tempo real e identificar quais participantes podem estar se comportando de maneira desalinhada. O Árbitro opera sob um "orçamento de inspeção" limitado, o que significa que deve decidir cuidadosamente como utilizar seus recursos. À medida que observa uma conversa passo a passo, pode optar por esperar, questionar um participante, examinar informações internas, como prompts de sistema ou vestígios de raciocínio, ou registrar comportamentos suspeitos. Ao final, produz um relatório identificando a provável fonte de desalinhamento. Avaliamos o Árbitro em cinco condições de conversa, que vão desde organismos-modelo de aconselhamento financeiro arriscado até agentes cientes de avaliação e coniventes; testamos cinco configurações de ferramentas de capacidade crescente e dois modelos de base. Constatamos que o Árbitro detecta de forma confiável agentes desalinhados bem antes do término da conversa, com ferramentas de inspeção ativa melhorando tanto a precisão quanto a velocidade da detecção. O desalinhamento induzido por peso mostra-se o mais difícil de detectar, enquanto o desalinhamento induzido por instrução é identificado de forma confiável mesmo sob observação passiva. A ferramenta de registro apresenta um efeito duplo, melhorando a revocação em detrimento da precisão. Esses resultados sugerem que o monitoramento contínuo e consciente do orçamento pode capturar eficazmente o desalinhamento, e que supervisionar sistemas multiagente pode exigir tratar o auditor como um participante ativo no processo. O código está disponível em https://github.com/aisilab/arbiter.
Gerar vídeos de avatares que não são apenas visualmente semelhantes a um indivíduo alvo, mas também comportamentalmente reconhecíveis, reproduzindo fielmente seu ritmo de fala, tendências gestuais e dinâmica de expressões, continua sendo um desafio em aberto. Métodos existentes predominantemente se condicionam a imagens estáticas únicas, que fornecem informações de identidade insuficientes e não conseguem capturar traços dinâmicos de movimento, enquanto objetivos padrão em nível de pixel não atendem adequadamente às regiões faciais de importância perceptiva que determinam a fidelidade do avatar. Apresentamos o Avatar V, uma estrutura em escala de produção que resolve essas limitações por meio da modelagem de identidade condicionada por referência de vídeo. Em vez de comprimir a identidade em embeddings de tamanho fixo, o modelo condiciona-se diretamente na sequência completa de tokens de um vídeo de referência, aprendendo a reproduzir tanto atributos estáticos de identidade (geometria facial, textura da pele) quanto padrões comportamentais dinâmicos (ritmo de fala, microexpressões) por meio da atenção sobre o contexto de referência. Introduzimos a Atenção Esparsa de Referência, um mecanismo assimétrico que alcança condicionamento de complexidade linear em referências arbitrariamente longas; um fluxo de representação de movimento que possibilita transferência de estilo de fala em malha fechada; e um refinador de super-resolução ciente da identidade que herda o condicionamento completo da referência. Esses componentes são suportados por um motor de dados que seleciona mais de 100 milhões de clipes de treinamento a partir de 50 milhões de vídeos brutos, e por um pipeline de treinamento em cinco estágios com pré-treinamento por correspondência de fluxo, ajuste fino de personalidade, destilação em duas fases (aceleração superior a 10x) e alinhamento com RLHF, implantado em milhares de GPUs. O Avatar V gera vídeos 1080p de duração ilimitada, alcançando preservação de identidade, sincronização labial e qualidade de geração de ponta em nosso benchmark entre cenas, superando consistentemente sistemas líderes, incluindo Seedance 2.0, Kling O3 Pro, Veo 3.1 e OmniHuman 1.5, tanto em métricas automatizadas quanto em avaliação humana.
Modelos de geração de vídeo baseados em Transformers de Difusão (DiTs) alcançaram desempenho notável na síntese de vídeo, no entanto, sofrem de alta latência de inferência e custos computacionais devido à complexidade quadrática da atenção 3D. Métodos de aceleração existentes reduzem principalmente a complexidade computacional em cada etapa individual de remoção de ruído por meio de técnicas como atenção esparsa e cache de pares chave-valor (KV-caching). Contudo, eles aderem rigidamente à restrição inerente do pipeline de difusão padrão: cada quadro na sequência de vídeo alvo deve ser submetido a um processo completo e denso de remoção de ruído em todas as etapas temporais de difusão. Observamos que, devido aos conteúdos e movimentos correspondentes entre quadros adjacentes, quando quadros-chave com transições semânticas críticas são ancorados, os estados intermediários dos outros frequentemente seguem trajetórias mais previsíveis, o que indica que esse processo uniforme e denso de remoção de ruído é inerentemente redundante para dados de vídeo natural. Para esse fim, introduzimos o RhymeFlow, uma estrutura livre de treinamento que desacopla as trajetórias de remoção de ruído de diferentes quadros. Especificamente, primeiro identificamos um conjunto esparso de quadros-chave pivotais que dominam a evolução semântica latente. Em seguida, apenas esses quadros-chave passam por remoção de ruído densa, passo a passo, para garantir a integridade estrutural, enquanto os quadros não-chave pulam progressivamente etapas de remoção de ruído para minimizar o custo computacional. Como os estados intermediários pulados dos quadros não-chave quebram a coerência temporal nas etapas de remoção de ruído dos quadros-chave, levando à degradação visual, introduzimos adicionalmente um módulo de projeção de trajetória latente, que permite que os quadros-chave interajam com uma representação de sequência completa e temporalmente consistente. Extensos experimentos em modelos atuais de geração de vídeo baseados em DiT demonstram que nosso método supera as linhas de base existentes com maior velocidade de inferência e melhor qualidade visual.
Na Adaptação de Baixo Posto (LoRA), o fator de escala α é frequentemente tratado como um mero complemento à taxa de aprendizado, mas seu papel na otimização permanece pouco compreendido. Neste artigo, revelamos que o fator de escala α e a taxa de aprendizado funcionam de forma distinta, com α emergindo como o principal impulsionador da otimização eficaz, proporcionando ganhos que não podem ser replicados apenas pelo escalonamento da taxa de aprendizado. Por meio da sinergia entre uma extensa análise empírica e um arcabouço teórico de Deriva de Sinal, descobrimos três aspectos do mecanismo de escalonamento da LoRA: Primeiro, a supressão espectral da LoRA suaviza a paisagem de otimização, tornando os hiperparâmetros padrão excessivamente conservadores e criando uma lacuna de otimização. Segundo, ao aproveitar essa suavidade para acelerar a convergência, α supera a taxa de aprendizado ao amplificar o sinal da tarefa sem aumentar a razão de deriva. Terceiro, o fator de escala ótimo segue uma relação sublinear com o posto, bem caracterizada por uma lei de raiz quadrada com um coeficiente surpreendentemente grande, revelando o escalonamento insuficiente das heurísticas existentes vinculadas ao posto. Com base nesses insights, propomos LoRA-α, um framework minimalista que restaura α ao seu regime fundamentado, tornando a LoRA compatível com taxas de aprendizado pequenas padrão. Avaliações extensas em diversas tarefas demonstram que o LoRA-α melhora consistentemente o desempenho enquanto simplifica a busca de hiperparâmetros, liberando o potencial de aprendizado da LoRA.
O direcionamento de ativação oferece uma abordagem leve para controlar o comportamento de modelos de linguagem durante a inferência, mas seu sucesso ou fracasso depende fortemente do prompt, conceito, modelo e configuração de direcionamento. Identificar o regime e os limites do direcionamento bem-sucedido geralmente exige buscas em grade caras e avaliação post-hoc de rollouts autorregressivos completos. Neste trabalho, investigamos se a direcionabilidade pode ser prevista a partir dos estados internos do modelo no início do processo de geração, por exemplo, após gerar os primeiros tokens, e como aproveitar esse preditor para melhorar a taxa de sucesso do direcionamento. Para isso, primeiro introduzimos o ASTEER, um ambiente de teste que inclui 1,4 milhões de gerações direcionadas, abrangendo 150 conceitos, cada uma rotulada como sucesso ou fracasso. Utilizando esse ambiente de teste, analisamos as dinâmicas iniciais de decodificação do modelo extraindo características que comparam estados ocultos antes e depois do direcionamento ao longo das camadas e das etapas iniciais de decodificação. Essas características nos ajudam a entender como os efeitos do direcionamento se propagam pelas camadas e posições dos tokens, fornecendo informações essenciais para a previsão da direcionabilidade. Em seguida, treinamos um classificador de Árvores de Decisão com Gradiente Impulsionado (GBDT) nessas características para prever se uma intervenção resultará em subdirecionamento, sucesso ou sobredirecionamento, sem exigir um rollout completo. Nosso preditor alcança uma pontuação macro-F1 de cerca de 0,7 em conceitos não vistos, demonstrando que estados ocultos iniciais codificam informações substanciais e estruturadas sobre a eficácia final do direcionamento. Além disso, aproveitamos esse preditor de direcionabilidade como guia para a busca da intensidade de direcionamento, alcançando desempenho quase ótimo com uma fração reduzida do custo de decodificação.
Construir modelos de linguagem grandes multimodais médicos confiáveis (MLLMs) é crítico para um suporte à decisão clínica confiável. Os benchmarks existentes de alucinação médica focam principalmente na coleta de dados, mas frequentemente ignoram onde as alucinações se originam dentro do processo de raciocínio. Descobrimos que as fontes de alucinação variam entre amostras: erros podem surgir de reconhecimento visual incorreto, recuperação incorreta de conhecimento médico ou integração defeituosa do raciocínio. Para permitir o diagnóstico de alucinação em nível de fonte, apresentamos ClinHallu, um benchmark para diagnóstico de alucinação por estágios no raciocínio de MLLMs médicos. ClinHallu contém 7.031 instâncias validadas, onde cada instância é aumentada com um traço de raciocínio estruturado decomposto em Reconhecimento Visual, Recuperação de Conhecimento e Integração de Raciocínio. Também usamos intervenções de substituição de estágios para medir como a correção de estágios específicos afeta a resposta final. Além da avaliação, mostramos que o ajuste fino supervisionado por traços reduz alucinações por estágios. ClinHallu fornece um ambiente de teste de alucinação de granularidade fina para diagnosticar e mitigar falhas de raciocínio em MLLMs médicos. O benchmark está disponível publicamente em https://github.com/alibaba-damo-academy/ClinHallu.
Grupos de chat online são espaços sociais com normas conversacionais locais que raramente são explicitamente declaradas. A capacidade e a disposição de agentes baseados em LLM para reconhecer e se adaptar a essas normas permanecem praticamente inexploradas. Apresentamos o LoSoNA, um benchmark para adaptação a normas sociais locais em conversas multiparticipantes. Cada cenário fornece ao modelo-sujeito uma transcrição selecionada de um chat em grupo, na qual os participantes não-sujeito demonstram uma norma local oculta, seguida por uma rodada eliciadora final que força uma resposta revelando se o sujeito inferiu essa norma. Avaliamos oito modelos de fronteira e de pesos abertos sob quatro condições de prompt que variam o quão explicitamente o modelo é instruído a tratar a conversa anterior como evidência para como deve responder. Prompts ingênuos continuam limitados para a maioria dos modelos; prompts explícitos com consciência de norma ajudam de forma desigual, com o Gemini 3.1 Pro atingindo 84,2% e o Claude Fable 5 atingindo 81,6%, enquanto vários outros modelos apresentam pequenos ganhos ou regressões. O LoSoNA contribui para os recentes apelos por avaliação de capacidades sociais de LLMs ao testar se os modelos podem inferir normas conversacionais locais a partir de precedentes e utilizá-las em uma resposta de chat em grupo de uma única rodada.
Agentes de IA estão sendo cada vez mais desenvolvidos para acelerar descobertas científicas, mas suas capacidades práticas em ambientes reais de pesquisa ainda são pouco compreendidas. Os benchmarks existentes para agentes de IA raramente capturam a complexidade, heterogeneidade e raciocínio prolongado exigidos pelo trabalho científico, enquanto os benchmarks para tarefas científicas frequentemente reduzem a pesquisa a problemas estáticos e diretos, oferecendo suporte limitado para avaliação interativa. Neste artigo, apresentamos o SciAgentArena, um benchmark sistemático para avaliar agentes de IA em cenários reais de pesquisa científica, baseados em necessidades emergentes de múltiplos domínios. O SciAgentArena compreende aproximadamente 200 tarefas com verificação passo a passo e um ambiente interativo e independente de agente para avaliar diversos agentes de IA. Utilizando esse benchmark, descobrimos que os agentes atuais podem contribuir efetivamente para fluxos de trabalho de análise de dados bem especificados, especialmente quando a estrutura da tarefa e os critérios de avaliação são claros. No entanto, seu desempenho permanece desigual entre diferentes contextos científicos: os agentes têm dificuldade em gerar insights genuinamente novos, sustentar exploração autônoma e formular soluções robustas para questões de pesquisa abertas. Caracterizamos ainda modos de falha comuns entre os agentes e identificamos oportunidades para melhorar sua confiabilidade, autonomia e raciocínio científico. Em conjunto, o SciAgentArena fornece um quadro prático para medir o progresso em agentes de IA para a ciência e orientar o design de agentes futuros capazes de enfrentar desafios científicos complexos. Códigos completos, tarefas e conjuntos de dados podem ser acessados pelo link: https://sciagentarena.github.io/.
A destilação on-policy (OPD) tornou-se recentemente uma técnica proeminente de pós-treinamento, pois combina dois ingredientes desejáveis: trajetórias do estudante on-policy e supervisão densa do professor; no entanto, como essa combinação altera os parâmetros de um modelo ainda não está claro. Em vários pares de modelos de linguagem e visão-linguagem e casos de uso, nossa análise revela duas descobertas principais. Sobre esparsidade, as atualizações do estilo OPD são pequenas e esparsas em coordenadas. Elas são distribuídas entre as camadas e geralmente predominam nas FFN. Essa estrutura esparsa é operacionalmente útil: treinar apenas a sub-rede descoberta recupera quase o mesmo desempenho que a OPD completa. No entanto, o otimizador SGD indutor de esparsidade apresenta desempenho inferior ao AdamW em nossa ablação de otimizador, provavelmente porque a supervisão densa do professor preserva escalas heterogêneas de gradientes por coordenada, onde o escalonamento adaptativo do AdamW ainda é útil. Sobre geometria, as atualizações são numericamente de posto completo, mas concentradas espectralmente; elas se situam majoritariamente distantes dos subespaços singulares principais dos pesos fonte e recaem desproporcionalmente sobre coordenadas onde os pesos fonte estão próximos de zero. Essas descobertas sugerem que a supervisão densa do professor não transforma a OPD em uma reescrita densa comum de parâmetros; em vez disso, a OPD retém assinaturas geométricas importantes do pós-treinamento on-policy.
Raciocínio de affordância, a inferência das possibilidades de ação de um objeto a partir de suas propriedades físicas (e.g., forma e material), é fundamental para a compreensão física humana e cada vez mais crítico para Grandes Modelos de Linguagem (LLMs). No entanto, os benchmarks de affordância existentes em grande parte expõem identidades explícitas de objetos na configuração de avaliação, permitindo que os modelos dependam de mapeamentos objeto-affordância memorizados, em vez de raciocinar sobre propriedades físicas. Para preencher essa lacuna, apresentamos o Affordance20Q, um novo benchmark de raciocínio de affordância formulado como um jogo de 20 Perguntas, sem expor a identidade do objeto. Em cada jogo, o modelo identifica a affordância de um objeto oculto a partir de um conjunto candidato, fazendo perguntas sim/não sobre suas propriedades físicas. O Affordance20Q compreende 1.009 jogos envolvendo 454 objetos e 59 affordâncias, todos filtrados, refinados e anotados manualmente. Realizamos experimentos abrangentes com 15 LLMs de última geração e encontramos uma lacuna substancial (~20 pontos) em comparação com o desempenho humano. Uma análise de ganho de informação (GI) baseada em KL mostra ainda que os modelos falham em fazer perguntas discriminantes à medida que o jogo avança. Para fechar a lacuna, desenvolvemos a Indução de Regras Ancoradas em KB (KARI), um fluxo baseado em LLMs que gera regras de affordância fundamentadas em evidências de bases de conhecimento (KBs). A KARI melhora LLMs de código aberto em até 15,2 pontos, enquanto a cobertura limitada das KBs dificulta ganhos adicionais. Disponibilizamos todo o nosso código e dados em https://github.com/1171-jpg/Affordance20Q.git.
Estudos sobre o raciocínio humano demonstraram que as pessoas são tipicamente mais competentes em avaliar raciocínios do que em produzi-los a partir do zero. Em contraste, os grandes modelos de raciocínio (LRMs) são treinados para se destacarem na produção de longas cadeias de raciocínio para resolver problemas complexos. Como então os LRMs se saem ao avaliar os raciocínios? Investigamos isso com o conjunto de dados Valid-Answer-Invalid-Reasoning (VAIR): problemas e soluções matemáticas com falhas de raciocínio triviais, mas respostas válidas, projetados para isolar a avaliação do raciocínio do confundimento da produção do raciocínio. Ao contrário dos humanos, que descobrimos serem apenas 6% piores na correção do que na resolução desses problemas, encontramos uma lacuna substancial entre produção e avaliação nos LRMs: modelos de fronteira obtêm pontuações tão baixas quanto 48% ao avaliar as soluções do VAIR, apesar de uma produção de soluções quase perfeita. Por que esse enigma? Através da análise da cadeia de pensamento (CoT), encontramos evidências de um viés de confirmação da resposta: os LRMs frequentemente produzem e depois verificam a resposta correta, em vez de verificar cuidadosamente cada etapa, fabricando racionalizações mesmo quando notam raciocínios anômalos. Sondas lineares corroboram isso, mostrando que, embora as ativações dos LRMs codifiquem alguma representação de raciocínio válido, elas falham em representar robustamente as soluções do VAIR como inválidas. A correção causal (causal patching) das representações da resposta final faz com que os veredictos e as ativações dos modelos se invertam, demonstrando que a validade da resposta é responsável pelos vieses de confirmação dos modelos. Essas descobertas indicam uma limitação significativa nas abordagens dominantes ao treinamento de raciocínio, que incentivam os LRMs a produzir e confirmar raciocínios em direção a respostas corretas, mas não a avaliar robustamente os raciocínios subjacentes.
Modelos de linguagem grandes multimodais podem escrever código para produzir programas complexos, bem como utilizar programas para realizar modelagem 3D, o que abre uma nova via para a geração 3D impulsionada por seus conhecimentos prévios, conhecimento de mundo e raciocínio. No entanto, os benchmarks existentes raramente avaliam a modelagem 3D por meio de código. Tal modelagem exige mais do que código executável: a partir de uma especificação textual ou visual, um modelo deve gerar um programa paramétrico 3D que seja geometricamente preciso, semanticamente alinhado e consistente em termos de montagem. Apresentamos o P3D-Bench, um benchmark para geração 3D paramétrica. Diferentemente de uma malha 3D, um programa paramétrico 3D expõe dimensões explícitas, operações de construção e relações entre partes, revelando se um modelo recupera a estrutura de um design, e não apenas sua aparência. Sob um protocolo unificado, o P3D-Bench abrange três famílias de tarefas (Texto-para-3D, Imagem-para-3D e Montagem-3D) e pontua cada saída quanto a executabilidade, fidelidade geométrica, topologia, restrições baseadas em texto, alinhamento semântico multivista e estrutura no nível das partes. Avaliamos MLLMs de ponta e LLMs exclusivamente textuais em 400 casos textuais, 400 casos imagéticos e 203 montagens anotadas, com modelos específicos de domínio como pontos de referência. Nossa avaliação extensa produz três descobertas. Primeiro, montagens são o cenário mais difícil, onde os modelos ainda falham em compor múltiplas partes em uma estrutura coerente. Segundo, os modelos frequentemente conseguem recuperar a forma global e a identidade semântica do objeto alvo, mas falham em reproduzir a geometria paramétrica precisa especificada pela entrada. Terceiro, a modelagem no nível das partes permanece fraca em montagens, onde os modelos não recuperam nem a geometria de cada parte nem o número correto de partes. Esses resultados posicionam o P3D-Bench como um benchmark para avaliar geometria paramétrica precisa e estrutura no nível das partes na geração 3D paramétrica.
Modelos Visão-Linguagem-Ação (VLA) que acoplam Modelos Visão-Linguagem (VLM) pré-treinados com especialistas contínuos em ação alcançaram desempenho robusto em manipulação, mas a generalização para instruções de linguagem fora da distribuição (OOD) permanece baixa. Um desafio conhecido é o desequilíbrio estrutural nos dados VLA, onde a linguagem é muito menos diversa que o conteúdo visual e de ação, tornando as políticas suscetíveis a atalhos visuais. Embora métodos de ação discreta atenuem isso por meio de co-treinamento visão-linguagem, especialistas em ação contínua carecem dessa proteção: eles partem de inicialização aleatória e aprendem inteiramente a partir de dados desbalanceados, produzindo gradientes ruidosos que corrompem o VLM e falham em explorar sua capacidade linguística. Abordamos isso de uma perspectiva bayesiana, fatorando a política em um prior Visão-Ação (VA) agnóstico à linguagem e uma verossimilhança VLA condicionada à linguagem, e propomos APT, um método de treinamento em dois estágios que enfatiza o Pré-treinamento do Especialista em Ação. No Estágio 1, o especialista em ação é pré-treinado como um prior VA em pares visão-ação a partir de um VLM congelado, contornando o desequilíbrio linguístico. No Estágio 2, tokens de linguagem são injetados por meio de um mecanismo de fusão com portas que integra características do VLM enquanto preserva o prior visuomotor aprendido. O APT se aplica a arquiteturas VLA mainstream, incluindo as arquiteturas dos estilos π e GR00T. Experimentos abrangentes validam que o APT obtém ganhos consistentes em instruções não vistas e tarefas composicionais. Página do Projeto: https://xukechun.github.io/papers/APT/
Métodos de imagem para 3D frequentemente sacrificam fidelidade e completude: estimadores de profundidade ancoram-se nos pixels de entrada, mas limitam-se à superfície visível, enquanto modelos de imagem para 3D geram formas completas que frequentemente estão desalinhadas com a entrada. Apresentamos o World Tracing, uma representação geométrica generativa alinhada a pixels que prevê pontos 3D alinhados com pixels observados, ao mesmo tempo que completa a geometria além da superfície visível. Para cada pixel de entrada, o World Tracing prevê uma pilha ordenada de pontos 3D no espaço da câmera, onde a primeira camada representa a superfície visível e as camadas subsequentes representam interseções de frente para trás com superfícies oclusas. Instanciamos essa representação com um transformador de difusão de rastreamento mundial, WT-DiT, que trata múltiplas camadas geométricas como tokens de denoising separados, acoplados por meio de atenção fatorada e global. O WT-DiT é treinado com flow matching no espaço de pixels e um cronograma de ruído misto que equilibra a reconstrução da superfície visível com a geração de geometria oclusa. O World Tracing alcança desempenho robusto na reconstrução de superfície visível e na geração de geometria completa em benchmarks de objetos, cenas e dinâmicas, superando tanto preditores de profundidade quanto geradores de imagem para 3D. Ele também preserva a correspondência 2D-para-3D, possibilitando edição de cenas 3D orientada por texto, síntese de vídeo com novas vistas condicionada por geometria e integração sem treinamento com geradores de malha texturizada.
Modelos Fundamentais Multimodais (MFMs) fizeram progressos substanciais, mas ainda permanecem frágeis no raciocínio espacial sobre o mundo físico. Um gargalo-chave reside na sua incapacidade de transformar observações egocêntricas locais em uma representação espacial alocêntrica global. Para enfrentar isso, propomos o AlloSpatial, uma estrutura agentiva para cognição espacial alocêntrica em modelos fundamentais. O AlloSpatial introduz o World2Mind, uma sandbox de mapeamento cognitivo plug-and-play que converte observações egocêntricas em priors alocêntricos estruturados, incluindo Árvores Espaciais Alocêntricas e mapas de rota que suportam consultas sobre topologia de objetos, relações geométricas, passabilidade e trajetórias. Para utilizar esses priors de forma confiável sob reconstrução ruidosa e evidência visual ambígua, o AlloSpatial introduz um Arnês de Raciocínio Espacial para julgamento de uso de ferramentas, coleta de pistas com decodificação de modalidade e arbitragem geométrico-semântica. Internalizamos ainda esse processo no Qwen3-VL por meio de aprendizado por reforço com inicialização a frio, usando uma recompensa em nível de trajetória com portão controlado pelo arnês. Experimentos no VSI-Bench e no MindCube mostram que o AlloSpatial melhora modelos proprietários em 5%–18% em um ambiente sem treinamento, enquanto as ASTs sozinhas suportam raciocínio espacial robusto mesmo quando as entradas visuais são removidas. Os agentes AlloSpatial treinados superam ainda modelos de propósito geral maiores e linhas de base espaciais competitivas, sugerindo que representações alocêntricas estruturadas, uso ativo de ferramentas e raciocínio verificável oferecem um caminho promissor para modelos fundamentais espacialmente capazes.
Estudamos a identificação de melhor ação com confiança fixa (BAI) em árvores minimax estocásticas. Este problema é cada vez mais relevante no planejamento moderno de IA, onde a busca minimax profunda e a Busca em Árvore Monte Carlo (MCTS) com rollouts longos de modelos de linguagem enfrentam uma troca fundamental: avaliações heurísticas são baratas, mas tendenciosas, enquanto rollouts precisos são confiáveis, mas proibitivamente caros. Propomos o 2FFS, um algoritmo de busca em árvore com duas fidelidades que traz ideias de bandidos multi-fidelidade em cenários planos para árvores. O algoritmo combina expansão rápida estilo minimax com amostragem estocástica estilo MCTS, decidindo adaptativamente quando explorar avaliações tendenciosas baratas e quando invocar avaliações precisas caras para certificação local. Provamos a correção com confiança fixa, estabelecemos parada finita para identificação exata e fornecemos um limite superior de custo polinomial em profundidade para árvores de profundidade geral. Em experimentos numéricos com árvores estocásticas, o 2FFS utiliza substancialmente menos amostras e operações computacionais em comparação com a linha de base BAI-MCTS existente.
Detectores de alucinação no nível do token são avaliados como classificadores, por AUC sobre todos os tokens, mas um monitor de streaming é julgado pelo seu tempo de reação: o número de tokens que passam entre o início de uma alucinação e o alarme. Formulamos a detecção do início da alucinação como um problema de detecção de mudança mais rápida. Um modelo de Markov de primeira ordem do estado latente fiel/alucinado, validado no RAGTruth, insere a tarefa na teoria clássica de pontos de mudança e fornece o limite inferior de Lorden para o atraso de detecção: cerca de 1,3 tokens para uma taxa de falsos alarmes de 0,01. Em seguida, mostramos que um rotulador recorrente causal atua como um CUSUM com um incremento aprendido; com uma taxa de falsos alarmes correspondente, ele detecta em 11–13 tokens, contra 31 para uma linha de base linear por token, e uma decomposição controlada atribui a maior parte dessa vantagem a uma melhor pontuação por token, em vez de à acumulação temporal. Um teorema de otimalidade da taxa de informação do tipo Donsker–Varadhan explica a lacuna restante de ordem de magnitude: a pontuação aprendida realiza apenas 1/4,5 da divergência que as características transportam, um déficit que a recalibração não pode remover, sendo o restante um efeito de horizonte finito. As métricas de classificação ocultam essa estrutura de atraso; a análise sequencial a torna mensurável.
Apresentamos um benchmark para avaliar modelos e agentes de IA em tarefas reais de verificação formal de software. Primeiramente, coletamos 11.039 testes baseados em propriedades (PBTs) de repositórios Python reais e, em seguida, traduzimos automaticamente 2.772 deles (25%) em 9.415 especificações Lean 4 com placeholders `sorry` (cerca de 3 formalizações/PBT; mantemos múltiplas tentativas quando nenhuma domina nas métricas de qualidade). A tradução de PBTs para especificações Lean é desafiadora: exige modelar a semântica do Python em Lean, inferir a propriedade lógica codificada em um PBT imperativo e lidar com as dificuldades inerentes à programação com tipos dependentes em uma linguagem pouco utilizada. Descrevemos um pipeline de três agentes LLM para transpilar PBTs em especificações Lean, avaliamos métricas de cobertura e qualidade, e fornecemos linhas de base para geração de provas usando diversas abordagens automatizadas e baseadas em modelos. Todo o código (scraper e agentes) e dados (PBTs e especificações Lean) são de código aberto. Nosso benchmark visa impulsionar o progresso no problema ainda pouco explorado de verificação formal assistida por IA de software real, questão de interesse crescente à medida que a IA produz cada vez mais o código do mundo.
Vídeos humanos egocêntricos oferecem uma alternativa escalável aos dados de robôs para pré-treinamento, porém modelos pré-treinados com esses vídeos consistentemente apresentam desempenho inferior àqueles pré-treinados com dados de robôs. Atribuímos essa lacuna a um sinal ausente: o comportamento de percepção ativa em vídeos egocêntricos, onde humanos reposicionam continuamente seu ponto de vista durante a manipulação, induzindo movimento de câmera que pipelines padrão tratam como ruído. Para solucionar isso, apresentamos o ActiveMimic, uma estrutura de pré-treinamento que recupera trajetórias sincronizadas de câmera e punho a partir de uma única câmera RGB corporal, modela o movimento da câmera como uma ação de ponto de vista e aprende conjuntamente percepção ativa e manipulação a partir de vídeos humanos egocêntricos em ambiente não controlado, antes de se adaptar a um robô alvo. Empiricamente, experimentos no mundo real em tarefas com demandas diversas de percepção ativa mostram que o ActiveMimic supera consistentemente as linhas de base pré-treinadas com vídeos humanos e equivale a modelos de última geração pré-treinados com dados de robôs. Análises adicionais fornecem evidências de que a capacidade de percepção ativa se origina do pré-treinamento com vídeos humanos egocêntricos, e não do ajuste fino específico para robôs, confirmando a percepção ativa como a chave para destravar o uso de vídeos humanos egocêntricos no pré-treinamento de robôs.
A condução interativa expõe um modo de falha fácil de ser negligenciado em pilhas autônomas conscientes de regras: uma margem de regra rígida pode ser negativa para um candidato ego, mesmo que uma pequena acomodação legal por parte de um agente não prioritário restaurasse a viabilidade. Livros de regras, escudos e filtros de alcançabilidade existentes são eficazes em vetar ações inseguras, enquanto planejadores baseados em previsão modelam respostas prováveis. Nenhum retorna um objeto de prova em tempo de execução que indique qual edição multiagente limitada repara a manobra, de quem é a edição, se a solicitação é acessível em termos de direito de passagem e qual fallback do ego permanece se a solicitação não for atendida. Formulamos esse objeto ausente como *certificação de reparo interativo* e introduzimos *CARVE*, uma camada de certificação livre de previsão sobre uma rede finita de operadores táticos de propriedade do ego e do agente. Solicitações de propriedade do agente são admissíveis apenas dentro de \(B_j(s) = β(π_j)α_j^{\max}(s)\), um envelope de cooperação que separa a alcançabilidade cinemática da prioridade normativa. O certificado resultante registra a regra vinculante, a categoria de reparo, o conjunto de reparos, a divisão de custos ponderada por responsabilidade e o fallback. Em 589 episódios de replay INTERACTION fundamentados na geometria Lanelet2, o CARVE-Greedy aceita 98,64% das manobras inicialmente vetadas e recupera 370/378 falsos vetos resolvidos por humanos, preservando 589/589 respeito ao direito de passagem, zero falsos positivos de agente prioritário e 400/400 vetos de estresse negativo. Provamos a solidez do certificado, o respeito estrutural ao direito de passagem, a minimalidade exata da rede finita, a contingência de fallback e as condições de consistência de culpa. O CARVE não prevê nem exige a conformidade de outro motorista; ele certifica se uma interação proposta é limitada, atribuível e normativamente admissível sob suposições declaradas.
Modelos de raciocínio de grande porte geralmente seguem um paradigma de ler-depois-pensar: eles observam a entrada completa, raciocinam sobre um contexto estático e então produzem a resposta. No entanto, muitos cenários do mundo real são inerentemente dinâmicos, como fluxos de áudio e vídeo, em que as informações chegam como um fluxo contínuo e os modelos devem raciocinar, atualizar e responder sob observações parciais. Métodos recentes de raciocínio em fluxo permitem que os modelos pensem enquanto leem, mas dependem amplamente de imitação supervisionada de trajetórias pré-construídas, o que limita sua flexibilidade. Neste artigo, propomos AdaSR, uma estrutura adaptativa de raciocínio em fluxo que permite que os modelos raciocinem durante o fluxo de entrada e realizem uma deliberação final quando o fluxo estiver completo, aprendendo quando pensar e quanta computação alocar em diferentes estágios. Para otimizar esse processo de raciocínio hierárquico, introduzimos a Otimização Hierárquica Relativa de Políticas (HRPO), que decompõe a otimização de políticas em fases de raciocínio em fluxo e raciocínio profundo, fornecendo uma atribuição de vantagem mais granular, em vez de distribuir uniformemente uma única vantagem no nível da sequência sobre todos os tokens. A HRPO integra recompensas de formato, precisão e pensamento adaptativo para impor protocolos de raciocínio válidos, preservar o desempenho final da tarefa e incentivar a alocação de computação ciente da latência. Experimentos mostram que o AdaSR alcança um melhor equilíbrio entre precisão do raciocínio, eficiência computacional e latência de fluxo em comparação com a linha de base de ajuste fino supervisionado. Disponibilizamos nosso código em https://github.com/EIT-NLP/StreamingLLM/tree/main/AdaSR.
A poda não estruturada produz tensores de pesos esparsos, mas a implementação padrão mantém as formas dos tensores inalteradas, de modo que o modelo implantado não é menor do que antes da poda. Apresentamos uma reescrita estrutural exata, que chamamos de minimização, que converte uma rede mascarada em uma rede densa menor com a mesma função forward, a menos do arredondamento de ponto flutuante. O ciclo de Compressão-Liberação itera poda e minimização com uma etapa intermediária de liberação que reabilita as posições exatamente zero dentro dos tensores compactados como pequeno ruído calibrado, transformando capacidade de outra forma desperdiçada de volta em parâmetros treináveis. Ciclos sucessivos usam essa capacidade para encontrar redundância estrutural que uma única passagem não consegue alcançar. Introduzimos adicionalmente a CompensatedLayerNorm, uma substituição que preserva a função para LayerNorm que estende a minimização à redução de canais em fluxos residuais equipados com LayerNorm. O ciclo de Compressão-Liberação comprime a rede implantável para 39x menor que o modelo não podado em uma rede de modelo totalmente conectada e 14,8x menor em uma CNN moderna (ConvNeXt-Tiny), com precisão comparável. Além disso, provamos que a reescrita pode ser estendida a arquiteturas transformer.
Conjuntos de dados grandes e demograficamente equilibrados são essenciais para biomarcadores confiáveis em neuroimagem. A síntese de ressonância magnética cerebral 3D em resolução total pode apoiar a aumentação de dados nesse contexto, mas as abordagens existentes ou incorrem em custo computacional proibitivo em escala volumétrica ou dependem de compressão latente com perdas que pode comprometer detalhes anatômicos. Como resultado, a aumentação generativa 3D prática frequentemente requer infraestrutura computacional especializada. Propomos o WaveDiT, uma estrutura de correspondência de fluxo condicional que opera no espaço de coeficientes de uma Transformada Wavelet Discreta de Haar 3D. O modelo combina atenção fatorada espaço-profundidade com modelagem de incerteza heterocedástica por banda derivada de estatísticas wavelet de ordem superior. A log-variância prevista é integrada diretamente tanto no objetivo de fluxo quanto no caminho de condicionamento, permitindo precisão adaptativa consistente com a estrutura de variância de cauda pesada e dependente da entrada dos detalhes anatômicos. Essa formulação suporta síntese 3D em resolução total sob restrições práticas de memória e tempo em uma única GPU moderna. A avaliação em uma coorte multissítio demonstra melhor alinhamento entre as distribuições de ressonância magnética geradas e reais, juntamente com previsão aprimorada de idade cerebral e concordância anatômica em nível regional em comparação com abordagens baseadas em difusão, latente e wavelet. O código está disponível em https://github.com/sisinflab/WaveDiT
Com o PRECISE, estendemos a Inferência Potencializada por Predição (Prediction-Powered Inference) para produzir estimativas corrigidas de viés de métricas de avaliação de ranqueamento, combinando um pequeno conjunto rotulado por humanos com um grande conjunto julgado por LLM. O PPI é comprovadamente não viesado, independentemente do perfil de erro do julgador LLM. Tornamo-lo aplicável a métricas hierárquicas como Precisão@K, onde as anotações são por documento, mas a métrica é por consulta, reduzindo o cálculo do espaço de saída de O(2^|C|) para O(2^K). No benchmark ESCI, a ampliação de 30 anotações humanas com julgamentos do Claude 3 Sonnet reduz o erro padrão das estimativas de Precisão@4 de 4,45 para 3,50 (uma redução relativa de 21%). Em um sistema de produção, nossa estrutura identificou corretamente a melhor de três variantes do sistema a partir de 100 rótulos humanos e 2 horas de anotação de especialistas no domínio; o teste A/B confirmou esse ranqueamento com +407 pontos-base nas vendas diárias.