Artigos de pesquisa em IA selecionados diariamente com traduções
A autodestilação on-policy, em que um estudante é puxado em direção a uma cópia de si mesmo condicionada a um contexto privilegiado (por exemplo, uma solução verificada ou feedback), oferece uma direção promissora para avançar a capacidade de raciocínio sem a necessidade de um professor externo mais forte. No entanto, no raciocínio matemático, os ganhos são inconsistentes, mesmo quando a mesma abordagem é bem-sucedida em outros contextos. Uma análise de informação mútua pontual atribui a falha ao próprio contexto privilegiado: ele infla a confiança do professor em tokens já implícitos pela solução (conectivos estruturais, afirmações verificáveis) e a reduz nos tokens de deliberação ("Espere", "Vamos", "Talvez") que impulsionam a busca em múltiplas etapas. Propomos a Anti-Autodestilação (AntiSD), que ascende uma divergência entre estudante e professor em vez de descendê-la: isso inverte o sinal por token e produz uma vantagem naturalmente limitada em uma única etapa. Uma porta acionada por entropia desativa o termo assim que a entropia do professor colapsa, completando uma substituição direta para a autodestilação padrão. Em cinco modelos de 4B a 30B parâmetros em benchmarks de raciocínio matemático, a AntiSD atinge a precisão da linha de base GRPO em 2 a 10 vezes menos etapas de treinamento e melhora a precisão final em até 11,5 pontos. A AntiSD abre um caminho para a auto-melhoria escalável, onde um modelo de linguagem inicializa seu próprio raciocínio através de seu sinal de treinamento.
Automatizar a descoberta científica exige mais do que gerar artigos a partir de ideias. A pesquisa real é iterativa: hipóteses são desafiadas sob múltiplas perspectivas, experimentos falham e informam a tentativa seguinte, e lições se acumulam ao longo dos ciclos. Os sistemas autônomos de pesquisa existentes frequentemente modelam esse processo como um pipeline linear: dependem de raciocínio de agente único, param quando a execução falha e não carregam experiência entre execuções. Apresentamos o AutoResearchClaw, um pipeline de pesquisa autônomo multiagente construído sobre cinco mecanismos: debate multiagente estruturado para geração de hipóteses e análise de resultados, um executor autocorretivo com um ciclo de decisão Pivot/Refine que transforma falhas em informação, relato de resultados verificáveis que impede números fabricados e citações alucinadas, colaboração com humano no loop com sete modos de intervenção que abrangem desde autonomia total até supervisão passo a passo, e evolução entre execuções que converte erros passados em salvaguardas futuras. No ARC-Bench, um benchmark de estágio experimental com 25 tópicos, o AutoResearchClaw supera o AI Scientist v2 em 54,7%. Uma ablação com humano no loop em sete modos de intervenção revela que a colaboração precisa e direcionada em pontos de decisão de alto impacto supera consistentemente tanto a autonomia total quanto a supervisão passo a passo exaustiva. Posicionamos o AutoResearchClaw como um amplificador de pesquisa que aumenta, em vez de substituir, o julgamento científico humano. O código está disponível em https://github.com/aiming-lab/AutoResearchClaw.
Apesar do rápido progresso dos MLLMs capazes de processar vídeo, descobrimos que sua aparente compreensão de áudio em vídeos é frequentemente impulsionada pela visão: os modelos dependem de pistas visuais para inferir ou alucinar informações acústicas, em vez de verificar o fluxo de áudio. Esse problema se manifesta tanto em modelos omni de última geração com código aberto quanto nos principais modelos de código fechado de provedores como Google e OpenAI. Caracterizamos esse modo de falha como um efeito Clever Hans audiovisual, no qual os modelos aparentam (falsamente) estar fundamentados no áudio, mas na verdade exploram correlações visuoacústicas sem verificar se os fluxos de áudio e visual estão verdadeiramente alinhados. Para estudar sistematicamente esse comportamento, introduzimos o Thud, uma estrutura de sondagem orientada por intervenções baseada em três edições de áudio contrafactuais: Deslocamento, que testa a sincronização temporal; Silenciamento, que testa a existência de som; e Troca, que testa a consistência audiovisual. Além do diagnóstico, estudamos ainda uma receita de alinhamento em dois estágios: pares de preferência derivados de intervenções ensinam a verificação de áudio, enquanto preferências gerais de vídeo em nível de evento regularizam o modelo contra a superespecialização. Nossa melhor receita com 10.000 amostras melhora o desempenho médio nas três dimensões de intervenção em 28 pontos percentuais, ao mesmo tempo que melhora ligeiramente o desempenho em benchmarks gerais de vídeo e de perguntas e respostas audiovisuais.
O Prompt de Classificação Pareada (PRP) elicita julgamentos de preferência pareada de um LLM, que são então agregados em uma classificação, geralmente por meio de algoritmos clássicos de ordenação. No entanto, os julgamentos são ruidosos, sensíveis à ordem e, às vezes, intransitivos, de modo que as premissas de ordenação não correspondem ao contexto. Como a ordenação visa recuperar uma permutação completa, truncá-la para atender a um orçamento de chamadas não produz um top-K confiável. Assim, reformulamos o reranking por PRP como aprendizado ativo a partir de comparações pareadas ruidosas e mostramos que ranqueadores ativos são substitutos diretos que melhoram o NDCG@10 por chamada no regime de chamadas restrito. Nossa estrutura robusta a ruídos também introduz um oráculo de direção aleatória que usa uma única chamada de LLM por par. Essa abordagem converte o viés sistemático de posição em ruído de média zero, permitindo uma classificação agregada não enviesada sem o custo de chamadas bidirecionais.
Apresentamos o OpenComputer, uma estrutura fundamentada em verificadores para a construção de mundos de software verificáveis para agentes de uso de computador. O OpenComputer integra quatro componentes: (1) verificadores de estado específicos de aplicativos que expõem pontos de inspeção estruturados sobre aplicativos reais, (2) uma camada de verificação auto-evolutiva que melhora a confiabilidade dos verificadores usando feedback fundamentado na execução, (3) um pipeline de geração de tarefas que sintetiza tarefas de desktop realistas e verificáveis por máquina, e (4) uma estrutura de avaliação que registra trajetórias completas e calcula recompensas auditáveis de crédito parcial. Em sua forma atual, o OpenComputer abrange 33 aplicativos de desktop e 1.000 tarefas finalizadas, abrangendo navegadores, ferramentas de escritório, softwares criativos, ambientes de desenvolvimento, gerenciadores de arquivos e aplicativos de comunicação. Experimentos mostram que os verificadores rigidamente codificados do OpenComputer se alinham mais estreitamente com a adjudicação humana do que a avaliação do tipo LLM como juiz, especialmente quando o sucesso depende de um estado de aplicativo refinado. Agentes de fronteira têm dificuldade com a conclusão de ponta a ponta, apesar do progresso parcial, e modelos de código aberto apresentam quedas acentuadas em relação às suas pontuações no OSWorld-Verified, expondo uma lacuna persistente na automação robusta de computadores.
Apresentamos o GoLongRL, uma receita de pós-treinamento totalmente open-source e orientada a capacidades para aprendizado por reforço de contexto longo com recompensas verificáveis (RLVR). Métodos existentes de RL de contexto longo frequentemente tratam a construção de dados como uma questão de projetar caminhos de recuperação cada vez mais complexos, levando a uma cobertura homogênea de tarefas e formulações de recompensa que refletem inadequadamente os requisitos práticos de contexto longo. Nosso trabalho oferece duas contribuições. (1) Construção de dados orientada a capacidades com liberação total open-source. Disponibilizamos abertamente um conjunto de dados de 23K amostras RLVR, o pipeline completo de construção e todo o código de treinamento. Guiado por uma taxonomia de capacidades de contexto longo, o conjunto de dados abrange 9 tipos de tarefa, cada um emparelhado com sua métrica de avaliação natural. Ele compreende amostras open-source selecionadas de corpora estabelecidos e amostras sintéticas cujos pares de Q&A são gerados a partir de documentos fonte reais, como livros, artigos acadêmicos e diálogos multi-turno. Sob a mesma configuração vanilla GRPO, nosso conjunto de dados supera o conjunto de dados fechado QwenLong-L1.5. Além disso, nosso modelo Qwen3-30B-A3B treinado nesses dados oferece desempenho de contexto longo comparável ao DeepSeek-R1-0528 e Qwen3-235B-A22B-Thinking-2507, sugerindo que uma cobertura mais ampla e maior diversidade de recompensas beneficiam substancialmente a melhoria da capacidade de contexto longo. (2) TMN-Reweight para otimização multitarefa heterogênea. Para lidar com os desafios de otimização decorrentes de recompensas heterogêneas, propomos o TMN-Reweight, que combina normalização da média ao nível da tarefa para alinhamento da escala de recompensas entre tarefas com ponderação adaptativa à dificuldade para uma estimativa de vantagem mais confiável. O TMN-Reweight melhora ainda mais o desempenho médio em relação ao GRPO vanilla, com capacidades gerais preservadas ou melhoradas nas avaliações relatadas.
Modelos de Recompensa por Processo (PRMs) fornecem feedback em nível de etapa para raciocínio, mas os PRMs atuais geralmente produzem apenas uma única pontuação de recompensa para cada etapa. Métodos downstream devem, portanto, tratar previsões de recompensa imperfeitas em nível de etapa como sinais de decisão confiáveis, sem indicação de quando essas previsões devem ser confiáveis. Propomos o BetaPRM, um PRM distribucional que prevê tanto a probabilidade de sucesso em nível de etapa quanto a confiabilidade dessa previsão. Dada a supervisão de sucesso em etapas a partir de continuações de Monte Carlo, o BetaPRM aprende uma crença Beta que explica o número observado de continuações bem-sucedidas por meio de uma verossimilhança Beta-Binomial, em vez de regredir para a razão de sucesso da amostra finita como um alvo pontual. Esse sinal de confiabilidade aprendido indica quando uma recompensa de etapa deve ser confiável, permitindo que aplicações downstream distingam recompensas confiáveis de incertas. Como uma aplicação, introduzimos a Alocação Adaptativa de Computação (ACA) para o raciocínio Melhor-de-N guiado por PRM. A ACA usa o sinal de confiabilidade aprendido para parar quando uma solução de alta recompensa é confiável e para gastar computação adicional em prefixos candidatos incertos. Experimentos em quatro backbones e quatro benchmarks de raciocínio mostram que o BetaPRM melhora a seleção Melhor-de-N guiada por PRM, preservando a detecção padrão de erros em nível de etapa. Construída sobre esse sinal, a ACA melhora o compromisso precisão—token em relação ao Melhor-de-16 com orçamento fixo, reduzindo o uso de tokens em até 33,57% enquanto melhora a precisão da resposta final.
Equipar LLMs com capacidades de uso de ferramentas via Aprendizagem por Reforço Agentiva (Agentic RL) é limitado por dois desafios: a falta de ambientes de execução escaláveis e robustos, e a escassez de dados de treinamento realistas que capturem o raciocínio implícito humano. Abordagens existentes dependem de APIs do mundo real de alto custo, simuladores de LLM propensos a alucinações, ou ambientes sintéticos que frequentemente são de turno único ou dependem de documentos pré-coletados. Além disso, trajetórias sintéticas são frequentemente superespecificadas, assemelhando-se a sequências de instruções em vez de intenções humanas naturais, reduzindo sua eficácia para o treinamento RL. Apresentamos o EnvFactory, uma estrutura totalmente automatizada que aborda ambos os desafios. O EnvFactory explora e verifica autonomamente ambientes de ferramentas executáveis e com estado a partir de recursos autênticos, e sintetiza trajetórias naturais de múltiplos turnos por meio de amostragem ciente da topologia e refinamento calibrado, produzindo consultas fundamentadas com intenções implícitas. Utilizando apenas 85 ambientes verificados em 7 domínios, o EnvFactory gera 2.575 trajetórias SFT e RL. Apesar de usar significativamente menos ambientes do que trabalhos anteriores, que frequentemente são 5 vezes mais, o EnvFactory alcança eficiência de treinamento e desempenho downstream superiores, melhorando os modelos da série Qwen3 em até +15% no BFCLv3, +8,6% no MCP-Atlas e +6% em benchmarks conversacionais incluindo τ^2-Bench e VitaBench. Ao automatizar completamente tanto a construção do ambiente quanto a síntese de trajetórias, o EnvFactory fornece uma base escalável, extensível e robusta para Agentic RL.
Modelos de difusão recentes alcançam forte fotorrealismo e fluência na geração de vídeos, mas ainda são frágeis sob condições abstratas, esparsas ou complexas, resultando em desempenho ruim em fluxos de trabalho profissionais de produção, como esboços de storyboard e condições de renderização em argila. Modelos existentes de geração de vídeos, seja injetando condições através de adaptadores ou acoplando um modelo genérico de visão-linguagem (VLM) a um backbone de difusão, deixam uma lacuna de capacidade e falham em produzir vídeos alinhados com a intenção criativa do usuário. Apresentamos o CogOmniControl, uma estrutura orientada por raciocínio que divide a geração controlável de vídeos em cognição da intenção criativa e geração. Especificamente, treinamos um CogVLM especializado utilizando dados autênticos de produção de anime. Comparado a VLMs genéricos, ele gera saídas mais profissionais e claras, reconhecendo com precisão a intenção criativa do usuário a partir de condições esparsas e abstratas, transformando essas pistas em saídas densas de raciocínio. Além disso, o CogOmniDiT unifica os controles de várias condições por meio de geração em contexto e é alinhado às saídas de raciocínio do CogVLM via aprendizado por reforço. Adicionalmente, aproveitando a capacidade robusta do CogVLM em orientar a geração de vídeos, liberamos seu potencial no planejamento de avaliadores específicos e habilitamos uma seleção do Melhor-de-N para os vídeos gerados. Essa integração transforma toda a estrutura em uma arquitetura de "laço fechado" semelhante a um arnês. Apresentamos também o CogReasonBench e o CogControlBench, construídos a partir de dados de fluxos de trabalho profissionais que carregam intenção criativa genuína, não simulada. Experimentos em dois benchmarks mostram que o CogOmniControl superou os modelos existentes de código aberto. Site do projeto: https://um-lab.github.io/CogOmniControl/
Equipar agentes de LLM com habilidades reutilizáveis derivadas de experiências passadas tornou-se uma abordagem popular e bem-sucedida para lidar com tarefas complexas e de longo horizonte. No entanto, essas lições são frequentemente codificadas como orientações textuais que permanecem em grande parte consultivas, carecendo de mecanismos explícitos sobre quando e como intervir no loop do agente. Para preencher essa lacuna, apresentamos o HASP (Harnessing LLM Agents with Skill Programs), um novo framework que atualiza habilidades em Funções de Programa (PFs) executáveis. Em vez de oferecer conselhos passivos, as PFs atuam como diretrizes executáveis que ativam em estados propensos a falhas e modificam a próxima ação ou injetam contexto corretivo. O HASP é altamente modular: pode ser aplicado em tempo de inferência para intervenção direta no loop do agente, durante o pós-treinamento para fornecer supervisão estruturada, ou para autoaperfeiçoamento ao evoluir PFs validadas e revisadas por professores. Empiricamente, o HASP gera ganhos substanciais em comparação com métodos livres de treinamento e baseados em treinamento em tarefas de busca na web, raciocínio matemático e codificação. Por exemplo, no raciocínio de busca na web, as PFs em tempo de inferência sozinhas melhoram o desempenho médio em 25% em comparação com o Agente ReAct (multi-loop), enquanto o pós-treinamento e a evolução controlada alcançam um ganho de 30,4% sobre o Search-R1. Para fornecer insights mais profundos sobre o HASP, nossa análise de mecanismo revela como as PFs disparam e intervêm, como as habilidades são internalizadas e a necessidade de uma evolução estável da biblioteca de habilidades.
Os modelos recentes de edição de vídeo convergiram para um design de condicionamento unificado: um único transformador de difusão que consome conjuntamente texto, vídeo de origem e imagens de referência, e um conjunto de pesos abrange substituição, remoção, transferência de estilo e inserção orientada por referência. O design é flexível, mas pressupõe que o usuário já forneça texto, imagens de referência e fundamentação espacial prontos para o modelo, elementos que as solicitações reais frequentemente omitem. Apresentamos o Aurora, uma estrutura de edição de vídeo agentiva que combina um agente de modelo de linguagem-visão (VLM) aprimorado com ferramentas e um transformador de difusão de vídeo unificado. O agente VLM mapeia uma solicitação bruta do usuário para um plano de edição estruturado alinhado com os canais de condicionamento do transformador, resolvendo assim a subespecificação textual e visual antes da geração. Treinamos o agente VLM com dados supervisionados para planejamento completo de edição e seleção de imagens de referência, juntamente com pares de preferência para uso robusto de ferramentas e refinamento de instruções. Introduzimos o AgentEdit-Bench para avaliar a edição de vídeo aprimorada por agentes sob subespecificação textual e visual. Experimentos no AgentEdit-Bench e em dois benchmarks de edição de vídeo existentes mostram que o Aurora melhora as linhas de base baseadas apenas em instruções e que o agente VLM transfere para modelos de edição de vídeo congelados compatíveis. Página do projeto: https://yeates.github.io/Aurora-Page
Os recentes modelos geradores de vídeo melhoraram significativamente o realismo dos vídeos gerados por IA, porém suas saídas ainda apresentam artefatos como inconsistências temporais, distorções estruturais e incoerência semântica. Embora os Modelos Multimodais de Grande Linguagem (MLLMs) demonstrem forte capacidade de compreensão visual, sua habilidade de perceber e raciocinar sobre tais artefatos ainda não está clara. Os benchmarks existentes frequentemente carecem de uma avaliação sistemática da percepção consciente de artefatos e do raciocínio diagnóstico refinado, especialmente em domínios diversos de vídeos gerados por IA além de conteúdo fotorrealista. Para preencher essa lacuna, apresentamos o Artifact-Bench, um benchmark abrangente para avaliar MLLMs na detecção e análise de artefatos em vídeos gerados por IA. Primeiro, estabelecemos uma taxonomia hierárquica de três níveis para artefatos de realismo, abrangendo vídeos fotorrealistas, animados e em estilo CG. Com base nessa taxonomia, o Artifact-Bench define três tarefas complementares: classificação entre vídeo real e gerado por IA, comparação pareada de realismo e identificação refinada de artefatos. Experimentos com 19 MLLMs líderes revelam limitações substanciais na percepção e raciocínio sobre artefatos, com muitos modelos apresentando desempenho próximo ou até abaixo do aleatório em configurações desafiadoras. Observamos ainda um desalinhamento significativo entre os julgamentos dos MLLMs e as preferências perceptuais humanas, destacando sua confiabilidade limitada como avaliadores gerais do realismo de vídeos gerados por IA.
A IA conversacional agora alcançou bilhões de usuários, mas os conjuntos de dados existentes capturam apenas o que as pessoas dizem, não o que elas pensam. Apresentamos o ThoughtTrace, o primeiro conjunto de dados em grande escala que combina conversas reais entre humanos e IA, com múltiplas trocas, e os pensamentos autorrelatados pelos usuários: suas razões para enviar instruções e reações às respostas do assistente. O ThoughtTrace compreende 1.058 usuários, 2.155 conversas, 17.058 turnos e 10.174 anotações de pensamentos coletadas em 20 modelos de linguagem. Nossa análise mostra que o ThoughtTrace captura interações de longo horizonte e topicalmente diversas, e que os pensamentos são semanticamente distintos das mensagens, difíceis de inferir pelo contexto mesmo para LLMs de ponta, diversos em conteúdo e vinculados a estágios da conversa. Demonstramos ainda a utilidade dos pensamentos para a modelagem downstream. Primeiro, os pensamentos melhoram a previsão do comportamento do usuário como contexto em tempo de inferência. Segundo, reescritas guiadas por pensamentos fornecem sinais de alinhamento de granularidade fina para treinar assistentes personalizados. Em conjunto, o ThoughtTrace estabelece os pensamentos dos usuários como uma nova modalidade de dados para estudar as dinâmicas cognitivas por trás da interação humano-IA e fornece uma base para construir assistentes que compreendam e se adaptem melhor aos objetivos, preferências e necessidades latentes dos usuários.
Os benchmarks atuais para agentes de interface gráfica do usuário (GUI) dependem predominantemente de capturas de tela estáticas. No entanto, a interação com smartphones no mundo real exige que agentes processem, rotineiramente, dicas auditivas transitórias e dinâmicas temporais de vídeo que estão intrinsecamente ligadas ao momento da ação. Para preencher essa lacuna, apresentamos o OmniGUI, o primeiro benchmark em nível de passo projetado para avaliar agentes GUI em ambientes de smartphone omni-modais. O OmniGUI fornece entradas multimodais contínuas e intercaladas, compreendendo imagens estáticas, áudio síncrono e clipes de vídeo em cada passo de ação. O conjunto de dados abrange 709 episódios demonstrados por especialistas (2.579 passos de ação) em 29 aplicativos, anotados sistematicamente com níveis objetivos de dependência multimodal. Devido ao fato de que frameworks dedicados de agentes GUI omni-modais ainda estão em estágio incipiente, selecionamos modelos omni-modais fundamentais capazes de processar nativamente entradas intercaladas para atuarem como proxies de agentes para nossas linhas de base iniciais. Nossa avaliação empírica revela que, embora os modelos atuais demonstrem competência em tarefas visualmente estáticas, seu desempenho de predição de ação degrada significativamente em ambientes que exigem sinais temporais e auditivos síncronos. Além disso, estudos de ablação isolam gargalos operacionais específicos, notadamente a interferência cross-modal ao processar ruído ambiental irrelevante para a tarefa. O conjunto de dados completo, o pipeline de avaliação e as instruções de linha de base são fornecidos no material suplementar. Página do projeto: https://omni-gui.github.io.
A geração de vídeo está evoluindo rapidamente da síntese de uma única tomada para narrativas complexas de áudio-vídeo multi-take (MSAV), a fim de atender às demandas do mundo real. No entanto, avaliar esses modelos de fronteira continua sendo um desafio fundamental. Os benchmarks existentes são limitados em escopo e diversidade de dados, além de dependerem de pipelines de avaliação rígidos, impedindo uma avaliação sistemática e confiável dos modelos modernos de MSAV. Para preencher essas lacunas, apresentamos o MSAVBench, o primeiro benchmark abrangente e estrutura de avaliação híbrida adaptativa para geração de áudio-vídeo multi-take. Nosso benchmark abrange quatro dimensões principais — vídeo, áudio, tomada e referência — cobrindo diversas configurações de tarefa, contagens variáveis de tomadas de até 15 e cenários desafiadores não realistas. Nossa estrutura de avaliação melhora a robustez por meio de um mecanismo adaptativo de autocorreção para segmentação de tomadas, rubricas por instância para métricas subjetivas e extração de evidências baseada em ferramentas para julgamentos complexos. Além disso, o MSAVBench atinge um alto alinhamento com julgamentos humanos, alcançando uma correlação de postos de Spearman de 91,5%. Nossa avaliação sistemática de 19 modelos de última geração de código fechado e aberto mostra que os sistemas atuais ainda enfrentam dificuldades com controle em nível de diretor e sincronização audiovisual de granulação fina, enquanto pipelines de geração modulares ou agentivos oferecem um caminho promissor para reduzir a lacuna entre modelos de código aberto e fechado. Disponibilizaremos os dados do benchmark e o código de avaliação para facilitar pesquisas futuras.
A avaliação de IA está passando por uma mudança estrutural. Grandes modelos de linguagem (LLMs) são cada vez mais implantados como sistemas que atuam ao longo do tempo por meio de ferramentas, ambientes, usuários e outros agentes, enquanto muitas práticas de avaliação ainda herdam pressupostos de benchmarks centrados em respostas (por exemplo, entradas fixas, saídas isoladas e julgamentos de resultado que podem ser feitos a partir de uma única resposta). O campo começou a construir benchmarks interativos, mas o panorama resultante é fragmentado: os benchmarks diferem quanto aos artefatos de interação que admitem, como as trajetórias são pontuadas e quais alegações seus resultados sustentam. Este artigo de posição argumenta que a avaliação interativa deve ser tratada como um paradigma de avaliação fundamentado, e não meramente como uma nova família de benchmarks para agentes. Simplesmente adotar paradigmas de avaliação anteriores não é suficiente. Definimos avaliação como um mapeamento autônomo de evidências para julgamentos e mostramos que a avaliação interativa altera ambos os lados desse mapeamento: a evidência torna-se trajetórias geradas pela interação, enquanto o procedimento de avaliação deve avaliar processo, recuperabilidade, coordenação, robustez e desempenho em nível de sistema. Com base nessa definição, propomos uma taxonomia de dois eixos, derivamos princípios de design e padrões de relato, examinamos cenários representativos e analisamos como desafios de longa data na avaliação reaparecem no nível da trajetória.
Quando um modelo produz uma solução correta sob aprendizado por reforço com recompensas verificáveis (RLVR), cada token recebe o mesmo sinal de recompensa, independentemente de ser uma etapa de raciocínio decisiva ou um preenchimento gramatical. Uma solução natural é condicionar o modelo à resposta correta como um professor, identificando tokens que ele teria gerado de forma diferente se soubesse a resposta. Trabalhos anteriores mostram que isso ou corrompe o treinamento ao vazar a resposta para o gradiente, ou produz um sinal fraco que não consegue distinguir etapas decisivas de preenchimentos, já que ambos parecem igualmente surpreendentes em relação à linha de base do modelo. Propomos a Otimização de Política por Evidência Contrastiva (CEPO), que faz uma pergunta mais precisa a cada token: não apenas "a resposta correta favorece este token?" mas "a resposta correta o favorece enquanto a resposta errada o desfavorece?" Um token que satisfaz ambas as condições é uma etapa genuína de raciocínio; um que não satisfaz nenhuma é preenchimento. O professor com resposta errada é construído a partir de rollouts rejeitados já no lote de treinamento, sem custo adicional de amostragem. Provamos que o CEPO herda todas as garantias estruturais de segurança do estado da arte anterior, enquanto aperfeiçoa estritamente o crédito em tokens decisivos, com a melhoria desaparecendo exatamente nas posições de preenchimento. Empiricamente, o CEPO atinge 43,43% e 60,56% de precisão média em cinco benchmarks multimodais de raciocínio matemático nas escalas de 2B e 4B, respectivamente, contra 41,17% e 57,43% do GRPO sob orçamentos de treinamento idênticos. Métodos de autodestilação por correspondência de distribuição (OPSD, SDPO) ficam abaixo da linha de base não treinada, confirmando empiricamente o vazamento de informação que nossa teoria prevê. Nosso código está disponível em https://github.com/ahmedheakl/CEPO.
A Modelagem de Energia de Edifícios Urbanos (UBEM) desempenha um papel crucial no alcance dos Objetivos de Desenvolvimento Sustentável 7 e 11 da ONU. Embora estudos existentes baseados em imagens de satélite e aprendizado profundo tenham alcançado progresso notável, muitos desafios persistem: a maioria dos estudos existentes é inerentemente preditiva, não refletindo a natureza generativa do planejamento urbano; embora a IA generativa e os modelos de difusão tenham experimentado crescimento explosivo em imagens de satélite, eles carecem de geração funcional urbana (por exemplo, camada de energia); em terceiro lugar, dados alinhados de alta qualidade e alta resolução de energia de edifícios com imagens de satélite são limitados e escassos. Aqui propomos o SENSE (Síntese de Energia Baseada em Satélite para Ambiente Sustentável), uma estrutura UBEM generativa unificada que sintetiza conjuntamente imagens realistas de satélite urbano e mapas alinhados de alta qualidade de consumo de energia e altura de edifícios. Ao condicionar redes viárias e métricas de densidade urbana, o SENSE, baseado em um modelo de difusão controlável, aproveita o conhecimento aprendido por grandes modelos de visão para gerar informações de consumo de energia e altura de edifícios urbanos (anotações) no espaço latente. Experimentos em quatro cidades (Nova York, Boston, Lyon, Busan) demonstram que o SENSE alcança alta fidelidade visual e forte consistência física, satisfazendo a métrica padrão ASHRAE. Os experimentos demonstram que o SENSE pode gerar dados sintéticos anotados suficientes usando menos de 20% dos dados de energia rotulados, aumentando o desempenho preditivo downstream em 10% de IoU. Em comparação com métodos de previsão de energia urbana de última geração, o SENSE reduziu significativamente o erro de previsão (redução de 3%-11% no NMBE e 1%-9% no CVRMSE). Este estudo oferece uma solução de planejamento urbano energeticamente eficiente e geração física para a ciência urbana, ciência da energia e ciência dos edifícios. O conjunto de dados e o código: https://huggingface.co/datasets/skl24/MUSE e https://github.com/kailaisun/GenAI4Urban-Energy/.
Os modelos de difusão de vídeo têm progredido rapidamente em realismo perceptual e coerência temporal, mas permanecem otimizados principalmente para geração plausível, em vez de raciocínio verificável. Essa limitação é especialmente pronunciada em tarefas nas quais os vídeos gerados devem satisfazer restrições explícitas espaciais, temporais ou lógicas. Inspirados pelo papel do aprendizado por reforço com recompensas verificáveis (RLVR) em modelos de linguagem orientados a raciocínio, apresentamos o VideoRLVR, uma receita prática para otimizar modelos de difusão de vídeo com feedback baseado em regras. O VideoRLVR formula o raciocínio de vídeo como a geração de trajetórias visuais verificáveis e consiste em um backbone de otimização SDE-GRPO, recompensas densas decompostas e uma estratégia de Foco em Etapas Iniciais para treinamento eficiente. A estratégia de Foco em Etapas Iniciais restringe a otimização da política à fase inicial de denoising, reduzindo a latência de treinamento em cerca de 40% enquanto preserva o desempenho. Avaliamos o VideoRLVR em Maze, FlowFree e Sokoban, três domínios gerados proceduralmente com critérios objetivos de sucesso. Nessas tarefas, o VideoRLVR melhora consistentemente em relação às bases de ajuste fino supervisionado, com recompensas densas decompostas mostrando-se especialmente importantes em cenários de baixa taxa de sucesso. Nosso modelo otimizado por RL também supera os modelos de geração de vídeo proprietários e de código aberto avaliados nesses benchmarks de raciocínio verificável e em benchmarks fora do domínio. Esses resultados sugerem que o RL verificável pode levar os modelos de vídeo além da imitação perceptual em direção a um raciocínio visual mais confiável e consistente com regras.
Modelos Texto-para-Imagem (T2I) recentemente demonstraram progressos notáveis em resoluções de 1K e 2K. Com o desejo extremo por uma melhor experiência visual e o rápido desenvolvimento da tecnologia de imagem, a demanda pela geração de imagens em Ultra-Alta Resolução (UHR) cresceu significativamente. No entanto, a geração de imagens em UHR apresenta grandes desafios devido à escassez e complexidade do conteúdo de alta resolução. Neste artigo, apresentamos primeiro o PixVerve-95K, um conjunto de dados UHR T2I de alta qualidade e código aberto, curado por meio de um pipeline de dados cuidadosamente projetado, que contém 95 mil imagens em diversos cenários (cada imagem possui um mínimo de 100 milhões de pixels) e anotações de sete dimensões. Com base em nosso conjunto de dados de imagem-texto em larga escala, damos um passo pioneiro ao estender vários modelos fundamentais de T2I para geração nativa de 100MP com três esquemas de treinamento. Por fim, utilizando tanto métricas convencionais quanto avaliações baseadas em modelos de linguagem multimodal de grande escala, nosso benchmark proposto, PixVerve-Bench, estabelece um protocolo de avaliação abrangente para imagens UHR, abrangendo qualidade visual e alinhamento semântico. Resultados experimentais extensivos em nosso benchmark e a exploração construtiva de estratégias de treinamento fornecem, em conjunto, insights valiosos para avanços futuros.
Modelos multimodais unificados (MMUs) buscam consolidar a compreensão visual e a geração visual em uma única arquitetura. No entanto, paradigmas de treinamento predominantes otimizam independentemente a compreensão por meio de sinais de texto esparsos e a geração por meio de objetivos densos de pixels. Tal estratégia desacoplada resulta em espaços de representação desalinhados, isolando a compreensão visual da geração e dificultando seu reforço mútuo. Este trabalho apresenta a primeira investigação sistemática sobre pós-treinamento generativo, onde formulamos tarefas visuais hierárquicas como proxies generativos para superar o isolamento nos MMUs. Nossa investigação empírica revela que tarefas semânticas de alto nível, particularmente a segmentação de imagens, atuam como proxies ideais. Diferentemente de tarefas de baixo nível que distraem os modelos com detalhes de textura, a segmentação fornece semântica estrutural que melhora significativamente tanto a percepção centrada na visão quanto a fidelidade do layout generativo. Com base nesses insights, introduzimos o Ajuste Generativo Semântico (AGS), um novo paradigma que utiliza a segmentação como proxy generativo para alinhar e sinergizar capacidades multimodais. Análises mecanísticas demonstram ainda que o AGS melhora fundamentalmente a separabilidade linear de características e otimiza o padrão de alocação de atenção visual-textual. Avaliações extensas mostram que o AGS melhora consistentemente tanto a compreensão multimodal quanto a fidelidade generativa em benchmarks convencionais. Nosso código está disponível em https://song2yu.github.io/SGT/.
A geração de malhas 4D surgiu recentemente como um paradigma poderoso para recuperar estruturas 3D dinâmicas a partir de vídeos, mas os métodos existentes permanecem lentos, computacionalmente caros e difíceis de escalar para sequências mais longas. Apresentamos uma abordagem livre de treinamento que acelera a geração de malhas 4D enquanto melhora a qualidade da correspondência temporal. Nossa observação chave é que correspondências temporais emergem dentro de um backbone 4D muito antes de suas malhas geradas se tornarem visualmente precisas. Exploramos isso com uma estrutura geral que chamamos de Cadeia de Atenção Espaço-Temporal, que propaga informações através do espaço e do tempo. Começando a partir de vértices em uma malha âncora, a cadeia mapeia vértices para tokens latentes. Em seguida, segue correspondências temporais no espaço latente e recupera vértices específicos do quadro através de atenção latente-para-vértice. Esse design evita correspondência explícita cara enquanto preserva detalhes da malha âncora, melhorando assim a geometria dinâmica da malha e a consistência temporal. Comparado ao estado da arte, nosso método gera uma malha 4D em 9 segundos, alcançando uma aceleração de 13 vezes enquanto produz resultados de maior qualidade. Além disso, nossa abordagem escala para vídeos até 16 vezes mais longos sem degradar a qualidade da malha. Além da geração, as correspondências melhoradas permitem desempenho competitivo zero-shot em duas tarefas downstream: rastreamento de objetos 2D e rastreamento 4D. Mostramos ainda que nossa estrutura permite estimativa confiável de câmera, uma capacidade não suportada por métodos anteriores de geração de malhas 4D.
O 3D Gaussian Splatting (3DGS) possibilita a síntese de novas vistas em tempo real com alta qualidade visual. No entanto, os métodos existentes têm dificuldades com superfícies especulares semitransparentes que exibem tanto reflexões complexas quanto transmissão nítida, frequentemente produzindo reflexões borradas ou transmissão excessivamente ocluída. Para resolver isso, apresentamos o RT-Splatting, uma estrutura que desassocia a ocupação geométrica de cada Gaussiana de sua opacidade óptica. Essa fatoração resulta em uma representação unificada de cena superfície-volume com um único conjunto de primitivas Gaussianas. Nosso renderizador híbrido interpreta essa representação tanto como uma superfície para capturar reflexões de alta frequência quanto como um volume para preservar a transmissão nítida. Para mitigar a ambiguidade na otimização conjunta de reflexão e transmissão, introduzimos o Portão de Gradiente Consciente de Especularidade, que suprime gradientes enganosos oriundos de regiões altamente especulares no ramo de transmissão, reduzindo efetivamente flutuadores perturbadores. Experimentos em cenas semitransparentes desafiadoras mostram que o RT-Splatting alcança desempenho de ponta, entregando reflexões de alta fidelidade e transmissão nítida com renderização em tempo real. Além disso, nossa fatoração possibilita naturalmente edição flexível de cena. A página do projeto está disponível em https://sjj118.github.io/RT-Splatting.
Os Resíduos de Atenção substituem as conexões residuais aditivas padrão por atenção softmax aprendida sobre as saídas de camadas anteriores, permitindo roteamento seletivo entre camadas. No entanto, os Resíduos de Atenção padrão ainda atendem sobre estados ocultos cumulativos em camadas anteriores, que são altamente redundantes. Mostramos que essa redundância leva ao colapso do roteamento em camadas mais profundas: os pesos de atenção tornam-se de baixo contraste e mais próximos de uniformes (peso máximo ≈ 0,2), limitando a capacidade do modelo de selecionar estados informativos em camadas anteriores. Isso levanta uma questão de design fundamental, porém pouco explorada: quais representações por camada devem ser roteadas nos Resíduos de Atenção? Para responder a essa pergunta, propomos os Resíduos de Atenção Delta, que atendem sobre deltas — a mudança introduzida por cada subcamada (v_i = h_{i+1} - h_i) — em vez de estados cumulativos. As representações delta são estruturalmente diversas e produzem distribuições de atenção de maior contraste (peso máximo ≈ 0,6), permitindo um roteamento mais seletivo e eficaz entre camadas. Esse princípio se aplica tanto na granularidade por subcamada quanto por bloco. Em todas as escalas testadas (220M–7,6B), os Resíduos de Atenção Delta superam consistentemente tanto os resíduos padrão quanto os Resíduos de Atenção, com ganhos de perplexidade de validação de 1,7–8,2%. Os Resíduos de Atenção Delta também permitem converter checkpoints pré-treinados em Resíduos de Atenção Delta via fine-tuning padrão. O código está disponível em https://github.com/wdlctc/delta-attention-residuals-code.
Estudos recentes sugerem que o Ajuste Fino por Reforço (RFT) é inerentemente mais resiliente ao esquecimento catastrófico do que o Ajuste Fino Supervisionado (SFT). No entanto, a questão de se o RFT (e.g., GRPO) pode efetivamente superar o esquecimento em contextos desafiadores de aprendizado contínuo visual, como aprendizado incremental de classes (CIL) e aprendizado incremental de domínios (DIL), permanece em aberto. Por meio de um estudo piloto, confirmamos que, embora o RFT supere consistentemente o SFT, ele ainda sofre de esquecimento não desprezível. Rastreamos empiricamente esse gargalo ao Agnosticismo de Desvio em Nível de Trajetória: entre os rollouts candidatos que alcançam recompensas idênticas por tarefa, a divergência KL em relação à política da tarefa anterior varia substancialmente, o que se correlaciona fortemente com o esquecimento catastrófico ao longo de tarefas sequenciais. Motivados por essa percepção, propomos a Otimização de Política com Consciência de Retenção (RaPO), um método RFT simples, porém eficaz, que mitiga explicitamente o esquecimento por meio da modelagem de recompensa em nível de trajetória. Especificamente, o RaPO compreende dois componentes principais: (1) Recompensa de Retenção, que converte o desvio da distribuição em nível de trajetória em um sinal de recompensa contínuo, reforçando preferencialmente os rollouts que preservam conhecimento dentro de cada grupo; (2) Normalização de Vantagem entre Tarefas (CTAN), que mantém uma média móvel exponencial persistente das estatísticas de recompensa através dos limites das tarefas para estabilizar o progresso da otimização durante o aprendizado contínuo. Aproveitando a generalização textual de forma livre dos MLLMs, avaliamos abrangentemente o RaPO em cinco cenários de aprendizado contínuo visual. Experimentos extensos demonstram que o RaPO alcança desempenho de ponta, reduzindo substancialmente o esquecimento catastrófico enquanto preserva uma forte plasticidade. Até onde sabemos, este trabalho representa a primeira exploração sistemática do RFT no aprendizado contínuo visual, oferecendo insights que esperamos inspirar pesquisas futuras.
Agentes de modelos de linguagem de grande porte (LLMs) operam cada vez mais em contextos externos longos e recorrentes, como corpora documentais e repositórios de código. Entre invocações, as abordagens existentes preservam ou a trajetória do agente, o acesso passivo ao material bruto, ou estratégias em nível de tarefa. Nenhuma delas preserva o que argumentamos ser mais necessário para cargas de trabalho repetidas no mesmo contexto: conhecimento de orientação reutilizável (por exemplo, o que o contexto contém, como está organizado e quais entidades, constantes e esquemas foram historicamente úteis) sobre o próprio contexto recorrente. Apresentamos o PEEK, um sistema que armazena em cache e mantém esse conhecimento de orientação como um mapa de contexto: um artefato pequeno e de tamanho constante no prompt do agente que lhe dá um vislumbre persistente do contexto externo. O mapa é mantido por uma política de cache programável com três módulos: um Destilador que extrai conhecimento transferível de sinais de inferência, um Cartógrafo que o traduz em edições estruturadas e um Evictor baseado em prioridade que impõe um orçamento fixo de tokens. Em raciocínio de contexto longo e agregação de informações, o PEEK melhora em 6,3–34,0% em relação a linhas de base fortes, enquanto usa 93–145 iterações a menos e incorre em custos 1,7–5,8x menores do que o framework state-of-the-art de aprendizado de prompts, ACE. Em aprendizado de contexto, o PEEK melhora a taxa de resolução e a precisão da rubrica em 6,0–14,0% e 7,8–12,1%, respectivamente, com custo 1,4x menor que o ACE. Esses ganhos generalizam-se entre LMs e arquiteturas de agentes, incluindo o OpenAI Codex, um agente de codificação de nível de produção. Em conjunto, esses resultados mostram que um mapa de contexto ajuda agentes LLM de contexto longo a interagir com contextos externos recorrentes de forma mais precisa e eficiente.
A decodificação especulativa (DE) acelera a inferência de modelos de linguagem de grande porte ao explorar um paradigma de rascunho-depois-verificação. Para maximizar a taxa de aceitação, métodos recentes constroem árvores de rascunho expansivas, que, infelizmente, incorrem em severas sobrecargas computacionais e de largura de banda da VRAM, criando gargalos que limitam as acelerações ponta a ponta. Embora a poda de profundidade dinâmica possa reduzir essa latência ao remover ramos marginais, ela também descarta candidatos potencialmente válidos, impedindo que a taxa de aceitação atinja o limite superior das árvores densas. Neste artigo, identificamos uma oportunidade crítica na alocação de recursos: a transição do rascunho denso para o podado libera um orçamento computacional significativo. Para romper esse tradeoff de Pareto, introduzimos o Graft, uma estrutura de compensação que acopla poda e recuperação como operações mutuamente reforçadoras. A poda fornece orçamento suficiente para a recuperação, enquanto a recuperação compensa a perda de cobertura induzida pela poda e recupera o comprimento aceito. Empregando um mecanismo sequencial de "podar-depois-enxertar", o Graft anexa tokens recuperados altamente preditivos às posições abertas pela poda, preenchendo as lacunas topológicas com sobrecarga quase nula. O Graft é totalmente livre de treinamento e sem perdas. Avaliações abrangentes mostram que o Graft estabelece uma nova fronteira de Pareto em configurações práticas de implantação, incluindo geração de contexto curto, geração de contexto longo e modelos de grande escala. Em benchmarks de contexto curto, ele atinge acelerações de até 5,41 vezes e melhora a aceleração média em relação ao EAGLE-3 em até 21,8% no modelo de grande escala Qwen3-235B. Também fornecemos uma exploração preliminar da aplicação do Graft ao paradigma de rascunho em bloco estilo DFlash, oferecendo evidências iniciais e insights para a extensão do enxerto além das árvores de rascunho autorregressivas.
O treinamento de 3D Gaussian Splatting (3DGS) em escala de bilhões de primitivas é fundamentalmente limitado pela memória: cada primitiva gaussiana carrega um grande vetor de atributos, e a tabela de parâmetros agregada rapidamente excede a capacidade da GPU, limitando sistemas anteriores a dezenas de milhões de Gaussianas em hardware de GPU única comum. Observamos que o treinamento de 3DGS é inerentemente esparso e condicionado à trajetória: cada iteração ativa apenas as Gaussianas visíveis a partir do lote atual de câmeras, de modo que a memória da GPU pode servir como um cache de conjunto de trabalho, em vez de um armazenamento persistente de parâmetros. Com base nessa percepção, apresentamos o TideGS, uma estrutura de treinamento fora do núcleo (out-of-core) que gerencia parâmetros em uma hierarquia SSD-CPU-GPU por meio de três técnicas sinérgicas: geometria virtualizada por blocos para localidade espacial alinhada ao SSD, um pipeline assíncrono hierárquico para sobrepor E/S com computação, e streaming diferencial adaptativo à trajetória que transfere apenas diferenças incrementais do conjunto de trabalho entre iterações. Experimentos mostram que o TideGS permite o treinamento com mais de um bilhão de Gaussianas em uma única GPU de 24 GB, alcançando a melhor qualidade de reconstrução entre as bases de referência de GPU única avaliadas em cenas de grande escala, escalando além de bases de referência anteriores fora do núcleo (por exemplo, aproximadamente 100 milhões de Gaussianas) e do treinamento padrão em memória (por exemplo, aproximadamente 11 milhões de Gaussianas).
A aprendizagem por reforço com recompensas verificáveis tornou o pós-treinamento altamente eficaz quando a correção pode ser verificada automaticamente. No entanto, muitos comportamentos importantes do modelo exigem satisfazer vários critérios qualitativos simultaneamente. Recompensas baseadas em rubrica abordam esse cenário ao classificar critérios específicos de cada prompt e agregá-los em uma recompensa escalar. Contudo, agregações estáticas padrão confundem a importância atribuída por humanos a um critério com sua utilidade atual como sinal de otimização. Mostramos que essa suposição falha na RL com rubrica: muitos critérios importantes já estão saturados ou atualmente inalcançáveis, enquanto critérios que distinguem rollouts não são necessariamente aqueles com maiores pesos humanos. Apresentamos o POW3R, uma estrutura de recompensa baseada em rubrica ciente da política que preserva os pesos humanos e o equilíbrio de categorias como objetivo da rubrica, ao mesmo tempo que adapta pesos das recompensas em nível de critério durante o treinamento. O POW3R usa contraste no nível de rollout para enfatizar critérios que atualmente separam as saídas da política, tornando a recompensa do GRPO mais informativa sem alterar o alvo de avaliação subjacente. Em três políticas base em dois conjuntos de dados que abrangem configurações multimodais e apenas de texto, o POW3R vence 24 de 30 comparações política base/métrica, melhorando tanto a recompensa média da rubrica quanto a conclusão estrita (a fração de prompts cuja resposta satisfaz todos os critérios de rubrica exigidos) em relação ao GRPO vanilla com recompensas baseadas em rubrica, e atinge o mesmo platô em 2,5 a 4 vezes menos etapas de treinamento. Portanto, recompensas baseadas em rubrica devem distinguir o que deve importar na resposta final daquilo que pode ensinar a política atual.
Este artigo aborda a tarefa de aprender a gerar sinais sobre malhas triangulares de forma agnóstica à triangulação, ou seja, o modelo treinado pode ser aplicado efetivamente a diferentes malhas e triangulações. Na prática, o artigo adapta o paradigma de *flow matching* (FM) a um contexto baseado em malhas e agnóstico à triangulação. Teoricamente, propõe uma distribuição de ruído específica, que é agnóstica à triangulação, para ser utilizada no processo de denoising do modelo FM. Embora distribuições de ruído sejam geralmente triviais de conceber para, por exemplo, imagens, conceber uma distribuição agnóstica à triangulação mostra-se uma tarefa muito mais difícil. Formulamos uma definição matemática de agnosticismo à triangulação de distribuições, através de seu espectro. Em seguida, mostramos que uma discretização de um campo aleatório Gaussiano específico, chamado processo de Matérn, possui essas propriedades desejadas e fornece um algoritmo de amostragem simples e eficiente. Utilizamo-lo como nosso modelo de ruído e adaptamos o FM ao contexto agnóstico à triangulação usando uma abordagem de ponta para aprender sinais em malhas no domínio do gradiente — PoissonNet — como o denoiser. Realizamos experimentos em tarefas elaboradas, como amostragem de estados de repouso elástico e geração de poses de humanoides. Nosso método mostra-se capaz de produzir resultados altamente realistas para malhas com mais de um milhão de triângulos, superando significativamente o estado da arte em qualidade e diversidade.
A manipulação hábil é intensiva em física e altamente sensível a erros de modelagem e ruído de percepção, tornando a transferência sim-para-real extremamente desafiadora. A randomização de domínio (DR) é comumente utilizada para melhorar a robustez de políticas aprendidas para tais tarefas, mas a DR convencional randomiza uma instância por episódio, oferecendo exposição muito limitada à variabilidade da dinâmica do mundo real. Para tal, propomos o Conjunto de Instâncias Randomizadas por Domínio (DRIS), que representa e propaga simultaneamente um conjunto de instâncias randomizadas, proporcionando uma aproximação mais rica da dinâmica incerta e permitindo que as políticas aprendam ações que levem em conta múltiplos resultados possíveis. Apoiados por análise teórica, mostramos que o DRIS produz políticas mais robustas e alivia a necessidade de ajuste fino no mundo real, mesmo com um número modesto de instâncias (por exemplo, 10). Demonstramos isso em uma tarefa desafiadora de captura reativa. Diferentemente das configurações tradicionais de captura que usam efetuadores finais projetados para estabilizar mecanicamente o objeto (por exemplo, superfícies curvas ou envolventes), nosso sistema utiliza uma placa plana que não oferece estabilização passiva, tornando a tarefa altamente sensível a ruídos e exigindo movimentos reativos rápidos. As políticas aprendidas apresentam forte robustez a incertezas e alcançam uma transferência sim-para-real confiável sem ajuste adicional.
Normalmente, benchmarks de perguntas de múltipla escolha (MCQA) avaliam modelos de linguagem pequenos (SLMs) como respondedores diretos, mas sistemas de modelos de linguagem implantados cada vez mais dependem de suportes externos, como ferramentas, código e chamadas repetidas ao modelo. Apresentamos o Raciocínio Guiado por Código (CGR), um protocolo de avaliação e um recurso de programas gerados para medir quando suportes de raciocínio executáveis melhoram o desempenho de SLMs em tarefas de MCQA. O CGR padroniza seis componentes: uma interface normalizada de itens, um prompt de solução direta, um prompt gerador, um suporte Python, auxiliares de chamada ao solucionador e extração, e um registro de resultados em três canais. Em 20.498 linhas de resultado retidas de um pacote de MCQA preparado localmente e seis modelos solucionadores registrados por metadados, a partição observada com linha de base não nula mostra 66,21% de precisão assistida macro versus 38,11% de precisão direta, uma diferença de +28,10 pontos percentuais com um intervalo de bootstrap pareado de [20,32, 36,43]. Sob um critério mais rigoroso de gate de sinal direto Ab > 30%, a diferença macro é de +14,11 pontos. Essas estimativas são descritas. A inferência assistida utiliza um orçamento maior de chamadas ao solucionador, a extração de respostas é frágil, a Time-MQA contém as regressões observadas, e alguns programas gerados violam a instrução de não codificação rígida. O CGR fornece o pacote de rastreamento necessário para interpretar esses resultados, incluindo respostas diretas, assistidas e do lado do gerador, definições de partição, programas gerados, metadados de resposta e auditorias.
Aplicações modernas de modelos de linguagem de grande escala (LLMs) dependem cada vez mais de prefixos de condicionamento longos para controlar o comportamento do modelo durante a inferência. Embora a inferência aumentada por prefixo seja eficaz, ela acarreta duas limitações estruturais: i) a influência do prefixo diminui à medida que a geração prossegue, e ii) a computação de atenção sobre o prefixo escala linearmente com seu comprimento. As abordagens existentes ou mantêm o prefixo na atenção enquanto o comprimem, ou o internalizam nos parâmetros do modelo por meio de treinamento baseado em gradiente. A primeira ainda atende ao prefixo durante a inferência, enquanto a segunda é intensiva em treinamento e inadequada para atualizações do prefixo. Para abordar essas questões, propomos a memória de estados de atenção, uma abordagem livre de treinamento que externaliza o prefixo em uma memória leve baseada em consulta de estados de atenção pré-computados entre tokens de prefixo e de consulta. No ManyICLBench com LLaMA-3.1-8B, nosso método melhora a precisão em relação ao aprendizado em contexto com orçamentos de memória de 1K a 8K, enquanto reduz a latência da atenção em 1,36x em 8K, e supera o desempenho do RAG com atenção completa no benchmark NBA usando apenas 20% do seu consumo de memória.
Um único sistema de otimização baseado em LLM pode igualar ferramentas especializadas em domínios fundamentalmente diferentes? Mostramos que, quando problemas de otimização são formulados como a melhoria de um artefato de texto avaliado por uma função de pontuação, um único sistema de otimização baseado em IA — apoiando busca de tarefa única, busca multitarefa com transferência entre problemas e generalização para entradas não vistas — alcança resultados de última geração em seis tarefas diversas. Nosso sistema descobre arquiteturas de agente que quase triplicam a precisão do Gemini Flash no ARC-AGI (de 32,5% para 89,5%), encontra algoritmos de escalonamento que reduzem custos de nuvem em 40%, gera kernels CUDA dos quais 87% igualam ou superam o PyTorch e supera a solução de empacotamento de círculos reportada pelo AlphaEvolve (n=26). Estudos de ablação em três domínios revelam que informação lateral acionável produz convergência mais rápida e pontuações finais substancialmente mais altas do que feedback apenas por pontuação, e que a busca multitarefa supera a otimização independente dado orçamento equivalente por problema através de transferência entre tarefas, com benefícios escalando com o número de tarefas relacionadas. Em conjunto, mostramos pela primeira vez que a otimização de texto com busca baseada em LLM é um paradigma de resolução de problemas de uso geral, unificando tarefas que tradicionalmente exigiam algoritmos específicos de domínio sob uma única estrutura. Disponibilizamos como código aberto o optimize\_anything com suporte para múltiplos backends como parte do projeto GEPA em https://github.com/gepa-ai/gepa.
Modelos de atribuição de autoria ajustados com o mesmo codificador pré-treinado, dados e perda podem apresentar uma diferença de até quatro vezes no desempenho, dependendo exclusivamente do mecanismo de pontuação. Utilizamos ferramentas de interpretabilidade mecânica para explicar essa lacuna. Características estilísticas, como comprimento das palavras, densidade de pontuação e frequência de palavras funcionais, estão igualmente disponíveis em todas as camadas de cada modelo, inclusive em um codificador de controle pronto para uso; portanto, a lacuna não decorre da qualidade da representação. Em vez disso, a intervenção causal mostra que o pontuador determina onde o codificador consolida o sinal de autoria. O pooling médio força a consolidação nas camadas iniciais a intermediárias, enquanto a interação tardia a adia para camadas posteriores. Além disso, derivamos essa diferença da estrutura do gradiente de cada pontuador, e a dinâmica de treinamento revela trajetórias de aprendizado distintas que decorrem dessa diferença.
A inteligência espacial se desenvolve por meio de um ciclo percepção-ação: agentes agem para obter observações e raciocinam sobre como essas observações variam em função da ação. Em vez de processar passivamente o que é visto, eles revelam ativamente o que não é visto – estrutura ocluída, dinâmica, contenção e funcionalidade que não podem ser resolvidas apenas pela percepção passiva. Vamos além das formulações anteriores de inteligência espacial que assumem observações oraculares, reformulando o observador como um ator. Introduzimos o ESI-BENCH, um benchmark abrangente para inteligência espacial incorporada que abrange 10 categorias de tarefas e 29 subcategorias, construído sobre o OmniGibson e fundamentado nos sistemas de conhecimento central de Spelke. Os agentes devem decidir quais habilidades empregar – percepção, locomoção e manipulação – e como sequenciá-las para acumular ativamente evidências relevantes para a tarefa. Realizamos extensos experimentos com MLLMs de última geração e descobrimos que a exploração ativa supera substancialmente as abordagens passivas, com agentes descobrindo espontaneamente estratégias espaciais emergentes sem instruções explícitas, enquanto a multivisão aleatória frequentemente adiciona ruído em vez de sinal, apesar de consumir muito mais imagens. A maioria das falhas não decorre de percepção fraca, mas de cegueira de ação: escolhas de ação inadequadas levam a observações pobres, que por sua vez geram erros em cascata. Embora o embasamento 3D explícito estabilize o raciocínio em tarefas sensíveis à profundidade, a representação 3D imperfeita se mostra mais prejudicial do que as linhas de base 2D, distorcendo as relações espaciais. Estudos com humanos revelam ainda que, ao contrário dos humanos, que buscam pontos de vista falsificadores e revisam crenças sob contradição, os modelos se comprometem prematuramente com alta confiança, independentemente da qualidade das evidências, expondo uma lacuna metacognitiva que nem uma melhor percepção nem uma interação mais incorporada podem, por si só, fechar.
Modelos de linguagem de grande escala omni-modais (om-LLMs) alcançam compreensão audiovisual unificada ao codificar vídeo e áudio em sequências de tokens temporalmente alinhados, intercaladas ao nível da janela. No entanto, processar esses tokens densos não textuais ao longo do LLM acarreta custos computacionais substanciais. Embora a seleção de tokens sem treinamento possa reduzir esse custo, os métodos existentes ou focam apenas em entradas visuais ou podam tokens de om-LLMs apenas antes do LLM com proporções fixas por modalidade, não capturando como a importância dos tokens entre modalidades evolui entre as camadas. Para abordar essa limitação, analisamos primeiro a dependência token por camada dos om-LLMs. Descobrimos que as dependências visuais e auditivas seguem um padrão por blocos e se enfraquecem gradualmente com a profundidade, indicando que muitos tokens não textuais em camadas tardias se tornam redundantes após a fusão entre modalidades. Motivados por essa observação, propomos SEATS, um método de seleção de tokens sem treinamento e adaptativo por estágio para inferência eficiente de om-LLMs. Antes do LLM, SEATS remove redundância espaço-temporal via seleção de diversidade ponderada por atenção. Dentro do LLM, ele poda progressivamente tokens entre blocos e aloca dinamicamente o orçamento de retenção de janelas temporais para modalidades usando pontuações de relevância da consulta. Em camadas tardias, remove todos os tokens não textuais restantes assim que a fusão entre modalidades é concluída. Experimentos com Qwen2.5-Omni e Qwen3-Omni demonstram que SEATS melhora efetivamente a eficiência da inferência. Retendo apenas 10% dos tokens visuais e de áudio, alcança uma redução de 9,3x em FLOPs e uma aceleração de preenchimento de 4,8x, preservando 96,3% do desempenho original.
Modelos de difusão de vídeo autorregressivos permitem geração aberta por meio de atenção local e cache KV. No entanto, os métodos existentes de otimização de vídeo longo sem treinamento focam principalmente na extensão estável sob um único prompt, o que dificulta o tratamento de cenários interativos envolvendo troca de prompt, esquecimento de cenas antigas e recall de cenas históricas. Identificamos o gargalo central como o emaranhamento funcional dos estados históricos de KV: âncoras estáveis e dinâmicas recentes são gerenciadas pela mesma política de cache, levando à contaminação por fundo desatualizado, resposta atrasada a novos prompts e perda de memória de longo alcance. Para resolver esse problema, propomos o Echo-Forcing, uma estrutura de memória de cena sem treinamento, projetada especificamente para geração de vídeo longo interativa, com três mecanismos principais: (1) Memória Temporal Hierárquica, que desacopla âncoras estáveis, histórico comprimido e janelas recentes sob RoPE relativa; (2) Quadros de Recall de Cena, que comprimem cenas históricas em representações KV espacialmente estruturadas para suportar recall de longo prazo; e (3) Decaimento de Memória Sensível à Diferença, que esquece adaptativamente tokens conflitantes de acordo com a discrepância entre cenas antigas e novas. Com base nesses projetos, o Echo-Forcing suporta uniformemente transições suaves, cortes abruptos e recall de cena de longo alcance sob um orçamento de cache limitado. Avaliações extensas no VBench-Long demonstram ainda que o Echo-Forcing alcança o melhor desempenho geral tanto em configurações de geração de vídeo longo quanto em geração de vídeo interativa. Nosso código está disponível em https://github.com/mingqiangWu/Echo-Forcing.
A eficácia do Aprendizado por Reforço (RL) em Grandes Modelos de Linguagem (LLMs) depende da natureza e da diversidade dos dados utilizados antes e durante o RL. Em particular, problemas de raciocínio podem frequentemente ser abordados de múltiplas maneiras que dependem de diferentes formas de raciocínio, e a exposição a apenas um conjunto limitado dessas abordagens nos dados de treinamento pode restringir a eficácia do RL. Motivados por isso, investigamos o uso de dados autogerados diversos durante o treinamento intermediário como uma etapa intermediária antes do treinamento com RL. Especificamente, adotamos um framework de geração de dados bootstrapada guiado pelas abordagens de resolução de problemas de George Pólya para gerar múltiplas variantes de respostas corretas para cada pergunta nos dados de treinamento e, em seguida, realizamos o ajuste fino. Primeiramente, oferecemos uma perspectiva teórica sobre como o treinamento intermediário com tais dados melhora o RL e explicamos como as atualizações de gradiente de política podem incentivar a combinação de múltiplas abordagens. Em seguida, demonstramos empiricamente que modelos treinados com RL, quando inicializados com nossos dados de treinamento intermediário, alcançam melhorias consistentes em diversos benchmarks de raciocínio matemático e em outras tarefas OOD, como geração de código e raciocínio narrativo. De modo geral, nosso estudo investigativo mostra que um modelo de linguagem que aprende múltiplas abordagens de resolução de problemas, por meio de dados autogerados, auxilia o RL subsequente.
À medida que sistemas agentivos autônomos escalam por infraestruturas críticas reguladas, a ausência de aplicação mecanística, enraizada em hardware, para atualizações de políticas de alta frequência apresenta uma lacuna fundamental de segurança. Apresentamos o Ethical Hyper-Velocity (EHV), um novo arcabouço arquitetural para a verificação formal de políticas de governança de IA em tempo de execução. Diferentemente de arcabouços de auditoria retrospectiva (ISO/IEC 42001, NIST AI RMF) que introduzem latências de 14 a 30 dias, o EHV realoca o Ponto de Aplicação de Políticas (PEP) no pipeline de inferência por meio de um Compilador Just-In-Time (JIT) Consciente de Governança. Ao integrar Tipos de Dados Replicados sem Conflitos (CRDTs) para sincronização de políticas e Cache de Atestação Baseado em Épocas dentro de Ambientes de Execução Confiáveis (TEEs), o EHV alcança Determinismo Formal Sub-milissegundo (SMFD). Demonstramos por meio de verificação formal TLA+ que ações agentivas não conformes são computacionalmente inalcançáveis dentro do espaço de estados operacionais limitados do sistema. Provamos que a aplicação em tempo de execução O(1) pode eliminar o trade-off tradicional entre velocidade de implantação e integridade de governança, reduzindo a Latência de Governança de O(dias) para O(1).
A cadeia de pensamento (CoT, do inglês *chain-of-thought*) é uma abordagem padrão para extrair capacidades de raciocínio de modelos de linguagem de grande escala (LLMs, do inglês *large language models*). No entanto, o paradigma comum do CoT trata o pensamento como um pré-requisito para responder, o que pode atrasar o acesso a respostas plausíveis e incorrer em custos desnecessários de *tokens*, mesmo quando o modelo é capaz de identificar uma resposta antes de um pensamento prolongado — um comportamento conhecido como raciocínio performativo. Neste artigo, apresentamos o CopT, um pipeline de raciocínio reformulado que inverte a ordem usual de pensar e responder. Em vez de pensar antes de responder, o CopT primeiro elicia uma resposta preliminar (*draft answer*) e, em seguida, invoca um pensamento subsequente baseado na política atual (*on-policy thinking*), condicionado à sua própria resposta preliminar, para reflexão e correção. Para avaliar se a resposta preliminar deve ser confiável, o CopT reformula *embeddings* contínuos como verificadores contrastivos no momento da inferência. Especificamente, ele contrasta o suporte do modelo para os mesmos *tokens* gerados sob entradas de *tokens* discretos e entradas de *embeddings* contínuos, produzindo um estimador KL reverso (*reverse KL estimator*) em nível de sequência para a confiabilidade da resposta. Nossa análise mostra que, sob certas suposições, a estimativa esperada equivale à informação mútua entre o estado latente não resolvido e o *token* de resposta emitido, explicando por que ela captura incerteza relevante para a resposta, e não incerteza arbitrária no estado latente. Quando a resposta é considerada insuficientemente confiável, o CopT realiza pensamento adicional baseado na política atual, onde um segundo estimador KL controla dinamicamente a visibilidade da resposta preliminar, preservando informações parciais úteis enquanto reduz o risco de ser induzido a erro por conteúdo não confiável. Em tarefas de matemática, codificação e raciocínio agentivo, o CopT melhora a precisão máxima em até 23% e reduz o uso de *tokens* em até 57%, com precisão comparável ou superior, sem nenhum treinamento adicional. O código está disponível em https://github.com/sdc17/CopT.
Os seres humanos comunicam-se naturalmente por meio de conceitos abstratos como "humor". No entanto, os benchmarks atuais de edição de imagens concentram-se principalmente em comandos explícitos e literais, deixando instruções abstratas amplamente inexploradas. Neste trabalho, formalizamos primeiro a definição e a taxonomia da edição abstrata de imagens. Para medir o seguimento de instruções nesse domínio desafiador, introduzimos o Entity-Rubrics, uma estrutura que decompõe edições abstratas em avaliações individuais no nível da entidade e obtém forte correlação com o julgamento humano. Juntamente com essa estrutura, contribuímos com o AbstractEdit, o primeiro benchmark dedicado à edição abstrata de imagens em cenas diversas do mundo real. A avaliação de 11 modelos líderes nesse conjunto de dados revela um desafio fundamental: arquiteturas padrão têm dificuldade em equilibrar intenção e preservação, muitas vezes tendendo a subedição ou superedição. Nossa análise demonstra que impulsionar melhorias significativas depende fortemente da integração de codificadores de texto avançados de LLM e do pensamento iterativo. Olhando adiante, nosso paradigma baseado em entidades pode se generalizar além da avaliação para servir como modelo de recompensa, permitir que modelos interpretem corretamente a comunicação abstrata ou destacar falhas específicas em loops de crítica em tempo de teste. Por fim, esperamos que este trabalho sirva como um trampolim para uma interação multimodal contínua, fechando a lacuna entre a execução rígida das máquinas e a forma natural e aberta como os humanos se comunicam.
Ataques de backdoor em modelos de linguagem representam uma preocupação crescente de segurança, mas os mecanismos internos pelos quais uma sequência de gatilho sequestra as computações do modelo ainda são pouco compreendidos. Identificamos um circuito subjacente a um backdoor de troca de idioma em um modelo de linguagem autoregressivo de 8 bilhões de parâmetros, onde um gatilho latino de três palavras (nove tokens) redireciona a saída em inglês para o francês. Decompomos o circuito em três fases: (1) cabeças de atenção distribuídas nas primeiras camadas compõem os tokens do gatilho na última posição da sequência; (2) o sinal resultante propaga-se pelas camadas intermediárias em um subespaço ortogonal à direção natural de identidade de linguagem do modelo; (3) o MLP na camada final converte esse sinal latente em logits em francês. Todo o circuito flui através de um gargalo serial em uma única posição: corromper essa posição em qualquer camada mitiga completamente o gatilho, mas também prejudica as capacidades do modelo. A codificação latente ortogonal sugere que defesas que buscam sinais semelhantes à linguagem em representações intermediárias deixariam de detectar esse gatilho por completo.
A compreensão de documentos multilíngue permanece limitada para línguas com poucos recursos, devido à escassez de dados de treinamento e a pipelines de anotação baseados em modelos que perpetuam vieses existentes. Apresentamos o DocAtlas, um framework que constrói conjuntos de dados de OCR de alta fidelidade e benchmarks cobrindo 82 línguas e 9 tarefas de avaliação. Nossos pipelines duplos — renderização diferencial de documentos DOCX nativos e geração sintética baseada em LaTeX para escritas da direita para a esquerda — produzem anotações estruturais precisas em um formato unificado DocTag, codificando layout, texto e tipos de componentes, sem modelos aprendidos para a anotação central. A avaliação de 16 modelos de ponta revela lacunas persistentes em escritas com poucos recursos. Mostramos que a Otimização de Preferência Direta (DPO), utilizando verdade fundamental derivada da renderização como sinal positivo, alcança adaptação multilíngue estável, melhorando a precisão tanto intradomínio (+1,9%) quanto extradomínio (+1,8%), sem degradação mensurável da língua base, enquanto o ajuste fino supervisionado degrada o desempenho extradomínio em até 21%. Nossa melhor variante, DocAtlas-DeepSeek, melhora +1,7% em relação à linha de base mais forte.
A interação duplex em tempo real é essencial para sistemas de IA multimodal que operam em cenários do mundo real, onde os modelos devem processar continuamente entradas em fluxo e responder em momentos apropriados. No entanto, a maioria dos modelos multimodais de linguagem de grande escala (MLLMs) existentes é avaliada em configurações offline, onde toda a entrada de vídeo é processada antes que qualquer resposta seja gerada. Embora trabalhos recentes tenham começado a explorar MLLMs duplex em tempo real, ainda não existe um benchmark abrangente ou método de avaliação automática para esse cenário. Para preencher essa lacuna, propomos o Omni-DuplexEval, um benchmark para avaliar sistematicamente a interação duplex em tempo real. O benchmark consiste em dois cenários complementares: (1) Descrição em Tempo Real, que avalia a capacidade de gerar respostas contínuas e alinhadas temporalmente que acompanham entradas multimodais em evolução; e (2) Lembrete Proativo, que avalia a capacidade de identificar eventos salientes e responder em momentos apropriados. O Omni-DuplexEval contém 660 vídeos com anotações refinadas, rotuladas por humanos, e metadados temporais precisos, abrangendo 9 tarefas baseadas em cenários do mundo real, onde todas as perguntas são formuladas como consultas abertas. Introduzimos ainda uma estrutura de avaliação automática baseada em LLM como Juiz, que permite uma avaliação sistemática ao analisar conjuntamente o alinhamento conteúdo-resposta e o tempo da resposta por meio de raciocínio consciente de timestamps e raciocínio sequencial, alcançando forte alinhamento com os julgamentos humanos. Experimentos com MLLMs duplex de última geração revelam limitações substanciais. O modelo com melhor desempenho atinge apenas 39,6% no geral, enquanto pontua apenas 20,0% no Lembrete Proativo. Nossa análise identifica dois desafios principais: os modelos têm dificuldade em equilibrar respostas oportunas com geração de conteúdo coerente e holística, e frequentemente falham em determinar tanto quando responder quanto o que produzir. Esperamos que nosso trabalho facilite novos avanços em MLLMs.
O progresso recente em modelos de linguagem de grande escala levou ao surgimento de modelos de raciocínio, que demonstram desempenho robusto em tarefas complexas por meio de procedimentos especializados de ajuste fino. Embora esses métodos melhorem de forma confiável a precisão pass@1, trabalhos anteriores observaram que eles apresentam um comportamento de encolhimento de cobertura, no qual a métrica pass@k se degrada em relação ao modelo base. Neste artigo, investigamos o encolhimento de raciocínio que surge sob o pós-treinamento baseado em SFT. Hipotetizamos que esse comportamento é impulsionado por propriedades dos dados de ajuste fino, especificamente relacionadas a pontos de decisão ou cenários de "bifurcação no caminho", onde o modelo enfrenta padrões indecifráveis com múltiplos caminhos de raciocínio válidos. Para testar essa hipótese, projetamos estudos de caso controlados que simulam tais configurações de ponto de decisão, abrangendo nós indecifráveis em ramificações de grafos e modos de raciocínio. Ao rastrear as dinâmicas de pós-treinamento nessas configurações, descobrimos que o fenômeno de encolhimento está fortemente correlacionado com a prevalência de cenários de ponto de decisão nos dados de treinamento. Também demonstramos que esse comportamento de encolhimento pode ser parcialmente mitigado por meio de um design direcionado de síntese de dados para pontos de decisão e de um mecanismo de decodificação mais sistemático que incentiva a diversidade. Nossas descobertas identificam fatores centrados em dados como um impulsionador chave do encolhimento em modelos de raciocínio e destacam designs conscientes da diversidade como uma alavanca eficaz para controlá-lo.
O design de arquiteturas neurais modernas convergiu por meio de escolhas empíricas incrementais, porém os mecanismos que governam suas dinâmicas de treinamento permanecem apenas parcialmente compreendidos. Identificamos e analisamos um desvio negativo de pesos induzido pela interação entre funções de perda padrão e funções de ativação com viés positivo. Provamos que, sob perda MSE ou entropia cruzada, o gradiente em relação a pré-ativações positivas é não negativo em expectativa na inicialização, direcionando os pesos subsequentes para valores negativos durante o treinamento inicial. O desvio é intrínseco à otimização, e não aos dados, e persiste em diversas arquiteturas (MLP, ResNet, ViT, GPT-nano, MP-SENe) e funções de ativação assimétricas (ReLU, GELU, SiLU). Combinado com ReLU, o desvio de pesos produz esparsidade de ativação que atinge até 90% no GPT-nano. Caracterizamos o trade-off entre esparsidade e acurácia em 79 configurações e identificamos um precipício de acurácia acima de 70% de esparsidade de ativação. Embora ReLU² atinja uma boa relação esparsidade-acurácia no GPT-nano, ele amplifica patologicamente picos de ativação identificados em camadas intermediárias do transformer. O clipping resolve isso enquanto preserva os benefícios representacionais da quadratura: ReLU² com clipping supera sua versão sem clipping, e GELU² atinge a menor perda de validação no GPT-nano. O código está disponível em https://github.com/On-Point-RND/BugOrFeature.
Modelos de linguagem de grande porte (LLMs) são altamente suscetíveis a ataques de backdoor (ABs), nos quais amostras de treinamento são envenenadas usando conteúdo prejudicial baseado em gatilhos. Além disso, as defesas existentes mostraram-se ineficazes quando testadas extensivamente em diferentes padrões de AB. Para combater melhor os ABs, exploramos o uso da reescrita por LLMs como uma defesa proativa contra envenenamento de dados. Primeiro, demonstramos teoricamente que, quando a reescrita por LLMs utiliza amostras benignas com consulta aberta—denominada reescrita benigna com consulta aberta (RBCA)—a probabilidade de uma saída reescrita ser benigna é estritamente maior do que a da reescrita sem consulta. Assim, a RBCA neutraliza o conteúdo prejudicial ao projetar as amostras de treinamento no espaço de prompts benignos. Em seguida, mostramos que, ao contrário de defesas anteriores, a RBCA mitiga eficazmente um grande número de ABs existentes: em cinco ABs conhecidos e quatro LLMs amplamente utilizados, a RBCA aumenta o desempenho de segurança em média 51% em comparação com defesas de AB de última geração e 25,7% em comparação com métodos de reescrita sem consulta. Por fim, mostramos que a RBCA é computacionalmente eficiente em relação a outras defesas de AB, não degrada o desempenho do modelo em tarefas de linguagem natural após o ajuste fino e é capaz de defender contra ataques de envenenamento de dados sem gatilho.
À medida que o texto gerado por IA entra no mundo real em escala, instituições passam a usar cada vez mais detectores comerciais de texto gerado por IA, especialmente em fluxos de trabalho educacionais e de integridade acadêmica. Reportamos uma descoberta empírica surpreendente sobre tais sistemas: quando avaliados pelo GPTZero e pelo Pangram, o texto gerado por modelos base é frequentemente julgado como esmagadoramente humano, enquanto o texto gerado por suas contrapartes ajustadas por instruções não o é. Com base nessa observação, propomos a Humanização por Parafraseamento Iterativo (HIP), um pipeline independente de detector que ajusta minimamente um modelo base em um parafraseador e o aplica iterativamente. Em comparação com as linhas de base testadas, a HIP oferece um trade-off mais forte entre preservação semântica e evasão de detectores comerciais. Nas famílias Llama-3 e Qwen-3, abrangendo tamanhos de modelo de 0,6B a 70B, a HIP melhora consistentemente a similaridade humana dos detectores. Nossos achados sugerem que os detectores atuais estão rastreando artefatos do ajuste por instruções e do contexto local mais do que qualquer noção invariante de texto gerado por máquina. Isso, por sua vez, exige projetos de detectores que modelem esses fatores de forma mais explícita.
Este artigo de posicionamento argumenta que conferências de ciência da computação devem exigir atestados de resultados experimentais que sejam à prova de violação e irrefutáveis. Denominamos o problema subjacente de não repúdio de experimentos: um protocolo em conformidade deve vincular os números presentes em um artigo a uma computação efetivamente executada, de modo que o autor não possa posteriormente alterá-los ou negá-los. O sistema atual depende de listas de verificação auto reportadas, compartilhamento opcional de código e registro de logs controlado pelo autor. Nenhum desses mecanismos responde à pergunta que um revisor não pode verificar: o código descrito no artigo produziu os números relatados no artigo? Definimos o problema formalmente, enunciamos as propriedades de segurança que qualquer protocolo em conformidade deve satisfazer e descrevemos um modelo de ameaça que inclui ataques que as abordagens atuais não previnem. Para demonstrar que o problema é solucionável, construímos o K-Veritas, uma implementação de referência em Go que gera relatórios assinados sem acessar dados de treinamento. O K-Veritas é uma bancada de testes, não uma resposta definitiva. Conclamamos as conferências e a comunidade a tratar o não repúdio como um requisito de primeira classe e a ajudar na construção de um padrão aberto e independente para tal.
Agentes LLM concorrentes que compartilham estado mutável em linguagem natural produzem Condições de Corrida Estruturais (Structural Race Conditions – SRCs): conflitos de escrita-escrita e de leitura desatualizada entre shards que corrompem silenciosamente a saída dos agentes. Os frameworks multiagentes existentes (LangGraph, CrewAI, AutoGen) não fornecem semânticas de propriedade de escrita sobre o estado compartilhado. Apresentamos o S-Bus, um middleware HTTP cujo mecanismo central é um DeliveryLog no servidor: um log por agente de operações HTTP GET que reconstrói automaticamente o conjunto de leitura de cada agente no momento do commit, sem alterações no SDK dos agentes, sob HTTP/1.1. A propriedade de consistência que o DeliveryLog fornece — Isolamento de Leitura Observável (Observable-Read Isolation – ORI), uma consistência causal parcial sobre a projeção observável por HTTP do conjunto de leitura — previne condições de corrida estruturais quando agentes colaboram por meio de shards compartilhados. Três contribuições: (C1) O mecanismo DeliveryLog para reconstrução automática do conjunto de leitura baseada em tráfego HTTP, com evidência mecanizada em três níveis: ReadSetSoundness e ORICommitSafety verificadas por máquina em TLAPS (módulo um axioma de tipagem retido); TLC exaustivo em N=3 (20.763.484 estados distintos, zero violações); Dafny descarrega 9 lemas indutivos de solidez. (C2) Paridade empírica de prevenção de conflitos estruturais em relação ao PostgreSQL 17 SERIALIZABLE e ao Redis 7 WATCH/MULTI em varreduras de contenção de shards compartilhados com 427.308 conflitos HTTP-409 ativos: zero corrupções do Tipo I em todos os três backends. (C3) O envelope operacional da ORI é condicionado à topologia: semanticamente neutro em cargas de trabalho com shards dedicados; prejudicial em escrita colaborativa de shard único porque a preservação propaga contradições concorrentes. Código-fonte: https://github.com/sajjadanwar0/sbus
Os modelos de microssimulação utilizados pelos ministérios da fazenda e bancos centrais baseiam-se em processos paramétricos para rendimentos ao longo da vida que capturam apenas o primeiro e o segundo momentos da distribuição condicional e perdem a estrutura não linear de longo alcance. Propomos o SAGA, um transformador exclusivamente decodificador para sequências tabulares irregulares em painel, combinado com um invólucro de calibração conformal dividida que fornece intervalos de previsão em nível individual com garantias de cobertura marginal em amostras finitas. Treinado no registro longitudinal sueco LISA de 1990 a 2022, abrangendo 2.143.817 indivíduos e 61.284.903 pessoas-ano, o modelo prevê rendimentos anuais do trabalho em horizontes de um a trinta anos e os agrega por Monte Carlo em distribuições de rendimentos ao longo da vida descontados ao presente. Em comparação com o processo paramétrico canônico de Guvenen, Karahan, Ozkan e Song e com as linhas de base tabulares e recorrentes, o SAGA reduz o escore de probabilidade ordenada contínua em 31,9% no horizonte de dez anos e o erro absoluto médio em 37,7% no horizonte de vinte anos. Os intervalos conformais alcançam cobertura nominal com margem de até 0,4 pontos percentuais marginalmente e até 2,4 pontos percentuais no subgrupo demográfico de pior caso. O coeficiente de Gini reconstruído dos rendimentos ao longo da vida é de 0,327, contra a verdade parcialmente observada de 0,341 e a estimativa do GKOS de 0,378. Os pesos do modelo, as tabelas de calibração e um conjunto de dados sintéticos equivalentes são divulgados para replicação fora do ambiente protegido SCB MONA.
Identificamos limitações intrínsecas dos Embeddings Posicionais Rotativos (RoPE) em modelos de linguagem de contexto longo baseados em Transformers. Nossa análise teórica abstrai o conteúdo específico do contexto e depende apenas de seu comprimento. Provamos que, à medida que o comprimento do contexto aumenta, a atenção baseada em RoPE torna-se imprevisível e perde duas propriedades centrais para sua eficácia. Primeiro, perde seu viés de localidade: o RoPE não favorece mais posições mais próximas do que posições substancialmente mais distantes. Segundo, perde a consistência na relevância dos tokens: um vetor-chave que recebe uma pontuação de atenção maior do que uma alternativa em uma posição pode receber uma pontuação menor em outra. Em ambos os casos, a probabilidade de falha se aproxima de 0,5, não melhor do que um palpite aleatório. Provamos ainda que a pontuação de atenção pode permanecer inalterada quando um token-chave é movido para uma posição diferente, ou mesmo substituído por um token diferente, indicando uma falha em distinguir posições ou tokens. Ajustar a base do RoPE cria um compromisso entre distinguir posições e distinguir tokens, mas não pode preservar ambos simultaneamente. Aumentar o hiperparâmetro da base do RoPE, uma prática comum em modelos atuais de contexto longo, ajuda a distinguir tokens diferentes, mas inevitavelmente sacrifica a capacidade de distinguir posições. Nossa análise empírica mostra que arquiteturas com múltiplas cabeças e múltiplas camadas são insuficientes para superar essas limitações. Nossos achados sugerem que mecanismos fundamentalmente novos para codificar posição e ordem dos tokens podem ser necessários em futuros modelos de linguagem de contexto longo baseados em Transformers.