HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

26 papers found

Esclarecendo o Viés SNR-t dos Modelos Probabilísticos de Difusão
Elucidating the SNR-t Bias of Diffusion Probabilistic Models

Apr 17

ByMeng Yu, Lei Sun, Jianhao Zeng, Xiangxiang Chu, Kun Zhan

Os Modelos Probabilísticos de Difusão demonstraram desempenho notável em uma ampla gama de tarefas generativas. No entanto, observamos que esses modelos frequentemente sofrem de um viés Relação Sinal-Ruído-tempo (SNR-t). Esse viés refere-se ao desalinhamento entre a SNR da amostra de desruído e seu timestep correspondente durante a fase de inferência. Especificamente, durante o treinamento, a SNR de uma amostra está estritamente acoplada ao seu timestep. Entretanto, essa correspondência é interrompida durante a inferência, levando ao acúmulo de erros e prejudicando a qualidade da geração. Fornecemos evidências empíricas abrangentes e análise teórica para comprovar esse fenômeno e propomos um método de correção diferencial simples, porém eficaz, para mitigar o viés SNR-t. Reconhecendo que os modelos de difusão normalmente reconstroem componentes de baixa frequência antes de se concentrarem em detalhes de alta frequência durante o processo reverso de desruído, decompomos as amostras em vários componentes de frequência e aplicamos correção diferencial a cada componente individualmente. Experimentos extensivos mostram que nossa abordagem melhora significativamente a qualidade da geração de vários modelos de difusão (IDDPM, ADM, DDIM, A-DPM, EA-DPM, EDM, PFGM++ e FLUX) em conjuntos de dados de várias resoluções com sobrecarga computacional insignificante. O código está disponível em https://github.com/AMAP-ML/DCW.

Dano Cerebral Máximo sem Dados ou Otimização: Perturbando Redes Neurais por meio de Inversão de Bits de Sinal
Maximal Brain Damage Without Data or Optimization: Disrupting Neural Networks via Sign-Bit Flips

Apr 16

ByIdo Galil, Moshe Kimhi, Ran El-Yaniv

Redes Neurais Profundas (DNNs) podem ser catastróficamente comprometidas ao inverter apenas um punhado de bits dos parâmetros. Apresentamos a Lesão Neural Profunda (DNL), um método livre de dados e de otimização que localiza parâmetros críticos, e uma variante aprimorada de passagem única, 1P-DNL, que refina essa seleção com uma passagem direta e reversa em entradas aleatórias. Demonstramos que essa vulnerabilidade abrange múltiplos domínios, incluindo classificação de imagens, detecção de objetos, segmentação de instâncias e modelos de linguagem grandes de raciocínio. Na classificação de imagens, inverter apenas dois bits de sinal na ResNet-50 no ImageNet reduz a precisão em 99,8%. Na detecção de objetos e segmentação de instâncias, uma ou duas inversões de sinal na backbone colapsam a AP de detecção e máscara do COCO para os modelos Mask R-CNN e YOLOv8-seg. Na modelagem de linguagem, duas inversões de sinal em diferentes especialistas reduzem a precisão do Qwen3-30B-A3B-Thinking de 78% para 0%. Também mostramos que proteger seletivamente uma pequena fração dos bits de sinal vulneráveis oferece uma defesa prática contra tais ataques.

PersonaVLM: Modelos de Linguagem Multimodais Personalizados de Longo Prazo
PersonaVLM: Long-Term Personalized Multimodal LLMs

Mar 20

ByChang Nie, Chaoyou Fu, Yifan Zhang, Haihua Yang, Caifeng Shan

Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) servem como assistentes diários para milhões de pessoas. No entanto, a sua capacidade de gerar respostas alinhadas com as preferências individuais permanece limitada. Abordagens anteriores permitem apenas uma personalização estática e de turno único através de aumento de entrada ou alinhamento de saída, falhando assim em capturar as preferências e personalidade dos utilizadores em evolução ao longo do tempo (ver Fig.1). Neste artigo, apresentamos o PersonaVLM, uma estrutura inovadora de agente multimodal personalizado concebida para personalização de longo prazo. Esta transforma um MLLM de propósito geral num assistente personalizado através da integração de três capacidades principais: (a) Memorização: Extrai e resume proativamente memórias multimodais cronológicas das interações, consolidando-as numa base de dados personalizada. (b) Raciocínio: Realiza raciocínio multi-turno através da recuperação e integração de memórias relevantes da base de dados. (c) Alinhamento de Resposta: Infere a personalidade em evolução do utilizador ao longo de interações de longo prazo para garantir que as saídas permanecem alinhadas com as suas características únicas. Para avaliação, estabelecemos o Persona-MME, um benchmark abrangente que compreende mais de 2.000 casos de interação curados, concebido para avaliar a personalização de MLLMs de longo prazo em sete aspetos principais e 14 tarefas de granularidade fina. Experimentos extensivos validam a eficácia do nosso método, melhorando a linha de base em 22,4% (Persona-MME) e 9,8% (PERSONAMEM) sob um contexto de 128k, superando ainda o GPT-4o em 5,2% e 2,0%, respetivamente. Página do projeto: https://PersonaVLM.github.io.

Web Retrieval-Aware Chunking (W-RAC) para Sistemas de Geração Aumentada por Recuperação Eficientes e Rentáveis
Web Retrieval-Aware Chunking (W-RAC) for Efficient and Cost-Effective Retrieval-Augmented Generation Systems

Jan 8

ByUday Allu, Sonu Kedia, Tanmay Odapally, Biddwan Ahmed

Os sistemas de Geração Aumentada por Recuperação (RAG) dependem criticamente de estratégias eficazes de segmentação de documentos para equilibrar a qualidade da recuperação, a latência e o custo operacional. As abordagens tradicionais de segmentação, como as baseadas em tamanho fixo, regras ou em agentes autónomos, frequentemente sofrem com alto consumo de *tokens*, geração de texto redundante, escalabilidade limitada e fraca capacidade de depuração, especialmente para a ingestão de conteúdo web em larga escala. Neste artigo, propomos o *Web Retrieval-Aware Chunking* (W-RAC), uma nova estrutura de segmentação económica, concebida especificamente para documentos baseados na web. O W-RAC desacopla a extração de texto do planeamento semântico de segmentação, representando o conteúdo web analisado como unidades estruturadas e endereçáveis por ID, e aproveitando os grandes modelos de linguagem (LLMs) apenas para decisões de agrupamento conscientes da recuperação, em vez de para geração de texto. Isto reduz significativamente o uso de *tokens*, elimina os riscos de alucinação e melhora a observabilidade do sistema. A análise experimental e a comparação arquitetónica demonstram que o W-RAC atinge um desempenho de recuperação comparável ou superior às abordagens de segmentação tradicionais, enquanto reduz os custos com LLM relacionados com a segmentação em uma ordem de grandeza.

Relatório Técnico do Qwen3.5-Omni
Qwen3.5-Omni Technical Report

Apr 17

ByQwen Team

Neste trabalho, apresentamos o Qwen3.5-Omni, o avanço mais recente da família de modelos Qwen-Omni. Representando uma evolução significativa em relação ao seu predecessor, o Qwen3.5-Omni escala para centenas de bilhões de parâmetros e suporta um contexto de 256k tokens. Ao aproveitar um conjunto massivo de dados composto por pares texto-visão heterogêneos e mais de 100 milhões de horas de conteúdo audiovisual, o modelo demonstra capacidades robustas de omni-modalidade. O Qwen3.5-Omni-plus alcança resultados de estado da arte (SOTA) em 215 subtarefas e benchmarks de compreensão, raciocínio e interação de áudio e audiovisual, superando o Gemini-3.1 Pro em tarefas-chave de áudio e equiparando-se a ele na compreensão audiovisual abrangente. Arquitetonicamente, o Qwen3.5-Omni emprega uma estrutura Híbrida de Atenção com Mistura de Especialistas (MoE) tanto para o "Thinker" quanto para o "Talker", permitindo uma inferência eficiente de sequências longas. O modelo facilita interações sofisticadas, suportando mais de 10 horas de compreensão de áudio e 400 segundos de vídeo 720P (a 1 FPS). Para abordar a instabilidade inerente e a falta de naturalidade na síntese de fala em streaming, frequentemente causada por discrepâncias de eficiência de codificação entre os tokenizadores de texto e fala, introduzimos o ARIA. O ARIA alinha dinamicamente as unidades de texto e fala, melhorando significativamente a estabilidade e a prosódia da fala conversacional com impacto mínimo na latência. Além disso, o Qwen3.5-Omni expande as fronteiras linguísticas, suportando compreensão e geração de fala multilingue em 10 idiomas com nuances emocionais semelhantes às humanas. Finalmente, o Qwen3.5-Omni exibe capacidades superiores de ancoragem audiovisual, gerando legendas estruturadas em nível de roteiro com sincronização temporal precisa e segmentação automática de cenas. Notavelmente, observamos o surgimento de uma nova capacidade em modelos omni-modais: executar codificação diretamente com base em instruções audiovisuais, que denominamos de "Codificação por Vibração Audiovisual" (Audio-Visual Vibe Coding).

Corte Suas Perdas! Aprendendo a Podar Caminhos Antecipadamente para um Raciocínio Paralelo Eficiente
Cut Your Losses! Learning to Prune Paths Early for Efficient Parallel Reasoning

Apr 17

ByJiaxi Bi, Tongxu Luo, Wenyu Du, Zhengyang Tang, Benyou Wang

O raciocínio paralelo melhora os Modelos de Raciocínio de Grande Escala (LRMs), mas incorre em custos proibitivos devido a caminhos infrutíferos causados por erros iniciais. Para mitigar isso, a poda de caminhos a nível de prefixo é essencial, porém a pesquisa existente permanece fragmentada sem uma estrutura padronizada. Neste trabalho, propomos a primeira taxonomia sistemática de poda de caminhos, categorizando métodos por sua fonte de sinal (interna vs. externa) e capacidade de aprendizado (aprendível vs. não-aprendível). Esta classificação revela o potencial inexplorado dos métodos internos aprendíveis, motivando nossa proposta de STOP (Super Token para Poda). Avaliações extensas em LRMs variando de 1,5B a 20B de parâmetros demonstram que o STOP alcança eficácia e eficiência superiores comparado às linhas de base existentes. Adicionalmente, validamos rigorosamente a escalabilidade do STOP sob diferentes orçamentos computacionais - por exemplo, elevando a precisão do GPT-OSS-20B no AIME25 de 84% para quase 90% sob orçamentos computacionais fixos. Por fim, consolidamos nossas descobertas em diretrizes empíricas formalizadas para facilitar a implantação ótima em cenários reais. Código, dados e modelos estão disponíveis em https://bijiaxihh.github.io/STOP.

(1D) Tokens Ordenados Permitem uma Busca Eficiente Durante o Teste
(1D) Ordered Tokens Enable Efficient Test-Time Search

Apr 16

ByZhitong Gao, Parham Rezaei, Ali Cy, Mingqiao Ye, Nataša Jovanović, Jesse Allardice, Afshin Dehghan, Amir Zamir, Roman Bachmann, Oğuzhan Fatih Kar

A tokenização é um componente fundamental dos modelos generativos autorregressivos (AR), convertendo dados brutos em unidades mais gerenciáveis para modelagem. Geralmente, os tokens descrevem informações locais, como regiões de pixels em imagens ou partes de palavras em texto, e a geração AR prevê esses tokens em uma ordem fixa. Uma questão relevante é se as estruturas de tokens afetam a capacidade de direcionar a geração por meio de busca em tempo de teste, onde múltiplas gerações candidatas são exploradas e avaliadas por um verificador. Usando a geração de imagens como nosso campo de teste, hipotetizamos que tokenizadores ordenados 1D recentes, com estrutura de granularidade grossa-para-fina, podem ser mais adequados para busca do que as estruturas clássicas de grade 2D. Isso se baseia no fato de que os estados intermediários nas sequências grossa-para-fina carregam significado semântico que os verificadores podem avaliar de forma confiável, permitindo um direcionamento eficaz durante a geração. Através de experimentos controlados, descobrimos que os modelos AR treinados com tokens ordenados grossa-para-fina exibem um comportamento de escalabilidade em tempo de teste melhorado em comparação com as contrapartes baseadas em grade. Além disso, demonstramos que, graças à estrutura ordenada, uma busca pura em tempo de teste sobre sequências de tokens (ou seja, sem treinar um modelo AR) pode realizar geração de texto-para-imagem sem treinamento quando guiada por um verificador imagem-texto. Além disso, estudamos sistematicamente como algoritmos clássicos de busca (melhor-de-N, busca por feixe, busca com antecipação) interagem com diferentes estruturas de tokens, bem como o papel de diferentes verificadores e priores AR. Nossos resultados destacam o impacto da estrutura de token na escalabilidade no momento da inferência e fornecem orientações práticas para a escalabilidade em tempo de teste em modelos AR.

Reutilização de Modelo Generativo 3D para Geração Autoregressiva de Layouts
Repurposing 3D Generative Model for Autoregressive Layout Generation

Apr 17

ByHaoran Feng, Yifan Niu, Zehuan Huang, Yang-Tian Sun, Chunchao Guo, Yuxin Peng, Lu Sheng

Apresentamos o LaviGen, uma estrutura que reaproveita modelos generativos 3D para a geração de layouts 3D. Diferente de métodos anteriores que inferem layouts de objetos a partir de descrições textuais, o LaviGen opera diretamente no espaço 3D nativo, formulando a geração de layout como um processo autoregressivo que modela explicitamente relações geométricas e restrições físicas entre objetos, produzindo cenas 3D coerentes e fisicamente plausíveis. Para aprimorar ainda mais este processo, propomos um modelo de difusão 3D adaptado que integra informações de cena, objeto e instrução, e emprega um mecanismo de destilação por auto-distribuição de dupla orientação para melhorar a eficiência e a precisão espacial. Experimentos extensivos no benchmark LayoutVLM mostram que o LaviGen alcança um desempenho superior em geração de layouts 3D, com uma plausibilidade física 19% maior do que o estado da arte e uma computação 65% mais rápida. Nosso código está publicamente disponível em https://github.com/fenghora/LaviGen.

Onde ocorre o colapso da diversidade de saída no pós-treinamento?
Where does output diversity collapse in post-training?

Apr 17

ByConstantinos Karouzos, Xingwei Tan, Nikolaos Aletras

Os modelos de linguagem pós-treinados produzem saídas menos variadas do que as suas contrapartes base. Este colapso da diversidade das saídas prejudica os métodos de escalonamento no tempo de inferência que dependem de amostras variadas e corre o risco de homogeneizar as saídas dos modelos em tarefas criativas e carregadas de valor. Trabalhos anteriores atribuem o colapso a métodos específicos de pós-treinamento, sem separar o papel da composição dos dados de treino do método, ou o formato de geração dos pesos do modelo. Nós rastreamos a diversidade das saídas através de três linhagens paralelas de pós-treinamento do Olmo 3 – Think (destilação de pensamento em cadeia), Instruct (dados multi-fonte abrangentes) e RL-Zero – em 15 tarefas e quatro métricas de diversidade textual. Descobrimos que a localização do colapso co-varia com a composição dos dados: a linhagem Think perde a maior parte da diversidade semântica no ajuste fino supervisionado, e o efeito do DPO é maior em Instruct do que em Think. Suprimir o raciocínio de pensamento em cadeia durante a inferência nos modelos Think reduz a precisão em tarefas difíceis, mas deixa inalterada a diversidade a nível de resposta, mostrando que o colapso está embutido nos pesos do modelo pelos dados de treino, e não imposto pelo formato de geração. A decomposição da perda de diversidade em seis tarefas verificáveis num componente de controlo de qualidade (remoção de saídas incorretas) e num componente residual (estreitamento genuíno entre saídas corretas) revela que a divisão é dependente da tarefa, e que os modelos Think retêm mais diversidade de respostas corretas do que os modelos Instruct, apesar de sofrerem um colapso maior no agregado. Os nossos resultados indicam que o colapso da diversidade é determinado durante o treino pela composição dos dados e não pode ser resolvido apenas no tempo de inferência.

QuantCode-Bench: Um Benchmark para Avaliar a Capacidade de Modelos de Linguagem de Grande Porte em Gerar Estratégias de Trading Algorítmico Executáveis
QuantCode-Bench: A Benchmark for Evaluating the Ability of Large Language Models to Generate Executable Algorithmic Trading Strategies

Apr 16

ByAlexey Khoroshilov, Alexey Chernysh, Orkhan Ekhtibarov, Nini Kamkia, Dmitry Zmitrovich

Os grandes modelos de linguagem demonstraram um forte desempenho em tarefas de programação de propósito geral, mas a sua capacidade de gerar estratégias de trading algorítmico executáveis permanece pouco explorada. Ao contrário dos benchmarks de código padrão, a geração de estratégias de negociação exige o domínio simultâneo de lógica financeira específica do domínio, conhecimento de uma API especializada e a capacidade de produzir código que não é apenas sintaticamente correto, mas que também resulte em negociações reais em dados históricos. Neste trabalho, apresentamos o QuantCode-Bench, um benchmark para a avaliação sistemática de LLMs modernos na geração de estratégias para a framework Backtrader a partir de descrições textuais em inglês. O benchmark contém 400 tarefas de dificuldade variada, recolhidas do Reddit, TradingView, StackExchange, GitHub e fontes sintéticas. A avaliação é conduzida através de um pipeline de múltiplos estágios que verifica a correção sintática, a execução bem-sucedida do backtest, a presença de negociações e o alinhamento semântico com a descrição da tarefa usando um modelo de linguagem como juiz. Comparamos modelos state-of-the-art em dois cenários: single-turn, onde a estratégia deve ser gerada corretamente na primeira tentativa, e multi-turn agentico, onde o modelo recebe feedback iterativo e pode corrigir os seus erros. Analisamos os modos de falha em diferentes estágios do pipeline e mostramos que as principais limitações dos modelos atuais não estão relacionadas com a sintaxe, mas sim com a correta operacionalização da lógica de trading, o uso adequado da API e a adesão à semântica da tarefa. Estas descobertas sugerem que a geração de estratégias de trading constitui uma classe distinta de tarefas de geração de código específico de domínio, na qual o sucesso requer não apenas a correção técnica, mas também o alinhamento entre as descrições em linguagem natural, a lógica financeira e o comportamento observável da estratégia nos dados.

Aprendizagem de Caminhos de Raciocínio Adaptativos para Raciocínio Visual Eficiente
Learning Adaptive Reasoning Paths for Efficient Visual Reasoning

Apr 16

ByYixu Huang, Tinghui Zhu, Muhao Chen

Os modelos de raciocínio visual (VRMs) demonstraram recentemente fortes capacidades de raciocínio multimodal ao integrar a percepção visual com o raciocínio linguístico. No entanto, eles frequentemente sofrem de "overthinking", produzindo cadeias de raciocínio desnecessariamente longas para qualquer tarefa. Atribuímos este problema à Redundância do Percurso de Raciocínio no raciocínio visual: muitas questões visuais não requerem o processo completo de raciocínio. Para resolver isso, propomos o AVR, uma estrutura de raciocínio visual adaptativa que decompõe o raciocínio visual em três funções cognitivas: percepção visual, raciocínio lógico e aplicação da resposta. Ela permite ainda que os modelos escolham dinamicamente entre três formatos de resposta: Formato Completo, Formato Apenas de Percepção e Resposta Direta. O AVR é treinado com o FS-GRPO, uma adaptação do Group Relative Policy Optimization que incentiva o modelo a selecionar o formato de raciocínio mais eficiente, preservando a correção. Experimentos em várias bases de referência visão-linguagem mostram que o AVR reduz o uso de tokens em 50–90\%, mantendo a precisão geral, especialmente em tarefas intensivas em percepção. Estes resultados demonstram que o raciocínio visual adaptativo pode mitigar efetivamente o "overthinking" em VRMs. O código e os dados estão disponíveis em: https://github.com/RunRiotComeOn/AVR.

Os Grandes Modelos de Linguagem Podem Reinventar Algoritmos Fundamentais?
Can Large Language Models Reinvent Foundational Algorithms?

Apr 7

ByJian Zhao, Haoren Luo, Yu Wang, Yuhan Cao, Pingyue Sheng, Tianxing He

Os LLMs demonstraram forte potencial para impulsionar a descoberta científica. No entanto, a questão sobre se possuem capacidade para inovação fundamental permanece em aberto. Neste trabalho, focamos num pré-requisito para a inovação fundamental: os LLMs podem reinventar algoritmos fundamentais da ciência da computação? Nossa abordagem Unlearn-and-Reinvent aplica o "desaprendizado" (unlearning) em LLMs para remover um algoritmo fundamental específico, como o algoritmo de Dijkstra ou o algoritmo de Euclides, do conhecimento pré-treinado do modelo, e depois testa se o modelo consegue reinventá-lo num ambiente controlado. Para permitir um desaprendizado eficaz, adotamos um método de desaprendizado on-policy baseado em GRPO. Através de experiências com 10 algoritmos-alvo, 3 modelos open-weight robustos e 3 níveis de dica, nossos resultados demonstram que (1) o modelo mais forte, Qwen3-4B-Thinking-2507, consegue reinventar 50% dos algoritmos sem dica, 70% no nível de dica 1 e 90% no nível de dica 2; (2) algumas dicas de alto nível podem aumentar a taxa de sucesso na reinvenção, mas mesmo dicas passo a passo falham para os algoritmos mais complexos; e (3) o reforço de aprendizagem em tempo de teste (test-time reinforcement learning) permite a reinvenção bem-sucedida do algoritmo de Strassen no nível de dica 2. Através da análise dos percursos de saída e de estudos de ablação, descobrimos que o verificador generativo na fase de reinvenção desempenha um papel crucial na sustentação da capacidade de raciocínio dos modelos, ajudando a evitar o fenômeno do "colapso do pensamento" (thought collapse). Estas descobertas oferecem perspetivas sobre o potencial e os limites atuais do pensamento inovador dos LLMs.

TIPSv2: Avançando no Pré-treinamento de Visão e Linguagem com Alinhamento Aprimorado entre Patches e Texto
TIPSv2: Advancing Vision-Language Pretraining with Enhanced Patch-Text Alignment

Apr 13

ByBingyi Cao, Koert Chen, Kevis-Kokitsi Maninis, Kaifeng Chen, Arjun Karpur, Ye Xia, Sahil Dua, Tanmaya Dabral, Guangxing Han, Bohyung Han, Joshua Ainslie, Alex Bewley, Mithun Jacob, René Wagner, Washington Ramos, Krzysztof Choromanski, Mojtaba Seyedhosseini, Howard Zhou, André Araujo

Os recentes avanços no pré-treinamento visão-linguagem têm permitido melhorias significativas em muitas aplicações de visão computacional, como classificação, recuperação, segmentação e predição de profundidade. No entanto, uma capacidade fundamental com a qual estes modelos ainda lutam é o alinhamento de representações densas de *patches* com incorporações de texto de conceitos correspondentes. Neste trabalho, investigamos esta questão crítica e propomos técnicas novas para melhorar esta capacidade em modelos fundamentais visão-linguagem. Primeiro, revelamos que um procedimento de destilação a nível de *patch* aumenta significativamente o alinhamento denso *patch*-texto — surpreendentemente, o alinhamento *patch*-texto do modelo estudante destilado supera fortemente o do modelo professor. Esta observação inspira-nos a considerar modificações nas receitas de pré-treinamento, levando-nos a propor o iBOT++, uma atualização do objetivo comum de imagem mascarada iBOT, onde os *tokens* não mascarados também contribuem diretamente para a perda. Isto melhora dramaticamente o alinhamento *patch*-texto dos modelos pré-treinados. Adicionalmente, para melhorar a eficiência e eficácia do pré-treinamento visão-linguagem, modificamos a configuração da média móvel exponencial na receita de aprendizagem e introduzimos uma estratégia de amostragem de legendas para beneficiar de legendas sintéticas em diferentes granularidades. Combinando estes componentes, desenvolvemos o TIPSv2, uma nova família de modelos codificadores de imagem-texto adequada para uma ampla gama de aplicações a jusante. Através de experiências abrangentes em 9 tarefas e 20 conjuntos de dados, demonstramos um desempenho robusto, geralmente em pé de igualdade ou superior a modelos recentes de codificadores de visão. O código e os modelos são disponibilizados através da nossa página do projeto em https://gdm-tipsv2.github.io/.

GTA-2: Avaliação de Agentes de Ferramentas Gerais: Do Uso Atômico de Ferramentas a Fluxos de Trabalho Abertos
GTA-2: Benchmarking General Tool Agents from Atomic Tool-Use to Open-Ended Workflows

Apr 17

ByJize Wang, Xuanxuan Liu, Yining Li, Songyang Zhang, Yijun Wang, Zifei Shan, Xinyi Le, Cailian Chen, Xinping Guan, Dacheng Tao

O desenvolvimento de agentes de propósito geral requer uma transição da execução de instruções simples para a conclusão de fluxos de trabalho produtivos complexos e do mundo real. No entanto, os benchmarks atuais de uso de ferramentas permanecem desalinhados com os requisitos do mundo real, dependendo de consultas geradas por IA, ferramentas fictícias e coordenação limitada a nível de sistema. Para resolver isso, propomos o GTA-2, um benchmark hierárquico para Agentes de Ferramenta Geral (GTA) abrangendo o uso atômico de ferramentas e fluxos de trabalho abertos. Construído com base na autenticidade do mundo real, ele aproveita consultas de usuários reais, ferramentas implantadas e contextos multimodais. (i) O GTA-Atomic, herdado do nosso benchmark GTA anterior, avalia a precisão de uso de ferramentas de curto prazo e de fim fechado. (ii) O GTA-Workflow introduz tarefas de longo prazo e abertas para conclusão realista de ponta a ponta. Para avaliar entregáveis abertos, propomos um mecanismo de avaliação recursivo baseado em *checkpoints* que decompõe objetivos em submetas verificáveis, permitindo uma avaliação unificada tanto das capacidades do modelo quanto dos frameworks de execução de agentes (ou seja, *execution harnesses*). Experimentos revelam um pronunciado precipício de capacidade: enquanto os modelos de fronteira já lutam em tarefas atômicas (abaixo de 50%), eles falham amplamente em fluxos de trabalho, com os melhores modelos alcançando apenas 14,39% de sucesso. Análises adicionais mostram que o *feedback* guiado por *checkpoints* melhora o desempenho, enquanto frameworks avançados como Manus e OpenClaw melhoram substancialmente a conclusão do fluxo de trabalho, destacando a importância do projeto do *execution harness* além da capacidade do modelo subjacente. Essas descobertas fornecem orientação para o desenvolvimento de assistentes pessoais e profissionais confiáveis. O conjunto de dados e o código estarão disponíveis em https://github.com/open-compass/GTA.

EdgeDetect: Compressão de Gradientes com Consciência da Importância e Agregação Homomórfica para Detecção de Intrusão Federada
EdgeDetect: Importance-Aware Gradient Compression with Homomorphic Aggregation for Federated Intrusion Detection

Apr 16

ByNoor Islam S. Mohammad

A aprendizagem federada (FL) permite a detecção colaborativa de intrusões sem troca de dados brutos, mas a FL convencional incorre em alta sobrecarga de comunicação devido à transmissão de gradientes de precisão total e permanece vulnerável a ataques de inferência de gradientes. Este artigo apresenta o EdgeDetect, um Sistema de Detecção de Intrusões federado eficiente em comunicação e consciente da privacidade para ambientes 6G-IoT com restrição de largura de banda. O EdgeDetect introduz a "gradient smartification", uma binarização estatística baseada em mediana que comprime as atualizações locais para representações {+1,-1}, reduzindo a carga útil de uplink em 32 vezes enquanto preserva a convergência. Integramos ainda a criptografia homomórfica de Paillier sobre os gradientes binarizados, protegendo contra servidores honestos mas curiosos sem expor atualizações individuais. Experimentos no conjunto CIC-IDS2017 (2,8M fluxos, 7 classes de ataque) demonstram 98,0% de acurácia multiclasse e 97,9% de F1-score macro, equiparando-se a linhas de base centralizadas, enquanto reduzem a comunicação por rodada de 450 MB para 14 MB (redução de 96,9%). A implantação em Raspberry Pi-4 confirma a viabilidade na borda: 4,2 MB de memória, latência de 0,8 ms e 12 mJ por inferência com perda de acurácia <0,5%. Sob ataques de envenenamento de 5% e desbalanceamento severo, o EdgeDetect mantém 87% de acurácia e F1 de 0,95 para a classe minoritária (p<0,001), estabelecendo um equilíbrio prático entre acurácia, comunicação e privacidade para a próxima geração de detecção de intrusões na borda.

AccelOpt: Um Sistema Agente de LLM de Autoaprimoramento para Otimização de Kernels de Aceleradores de IA
AccelOpt: A Self-Improving LLM Agentic System for AI Accelerator Kernel Optimization

Apr 15

ByGenghan Zhang, Shaowei Zhu, Anjiang Wei, Zhenyu Song, Allen Nie, Zhen Jia, Nandita Vijaykumar, Yida Wang, Kunle Olukotun

Apresentamos o AccelOpt, um sistema agente de modelo de linguagem de grande escala (LLM) com capacidade de autoaprimoramento que otimiza kernels de forma autónoma para aceleradores de IA emergentes, eliminando a necessidade de conhecimento de otimização específico de hardware fornecido por especialistas. O AccelOpt explora o espaço de otimização de kernels através de geração iterativa, orientado por uma memória de otimização que seleciona experiências e insights de pares de kernels lentos-rápidos previamente encontrados. Construímos o NKIBench, um novo conjunto de benchmarks de kernels do acelerador AWS Trainium com complexidade variada, extraídos de cargas de trabalho reais de LLM, para avaliar a eficácia do AccelOpt. Nossa avaliação confirma que a capacidade do AccelOpt melhora ao longo do tempo, aumentando o percentual médio de taxa de transferência de pico de 49% para 61% no Trainium 1 e de 45% para 59% no Trainium 2 para os kernels do NKIBench. Além disso, o AccelOpt é altamente rentável: utilizando modelos de código aberto, ele iguala as melhorias de kernel do Claude Sonnet 4 enquanto é 26 vezes mais barato. O código é de código aberto em https://github.com/zhang677/AccelOpt.

Codificação Hierárquica por Difusão para Geração de Fala a partir de Vídeo
Hierarchical Codec Diffusion for Video-to-Speech Generation

Apr 17

ByJiaxin Ye, Gaoxiang Cong, Chenhui Wang, Xin-Cheng Wen, Zhaoyang Li, Boyuan Cao, Hongming Shan

A geração de Vídeo-para-Fala (VTS) tem como objetivo sintetizar fala a partir de um vídeo silencioso, sem sinais auditivos. No entanto, os métodos VTS existentes ignoram a natureza hierárquica da fala, que abrange desde semântica de baixo nível, consciente do locutor, até detalhes prosódicos de alto nível. Esta omissão dificulta o alinhamento direto entre características visuais e de fala em níveis hierárquicos específicos durante a correspondência de propriedades. Neste artigo, aproveitando a estrutura hierárquica de codecs baseados em Quantização Vetorial Residual (RVQ), propomos o HiCoDiT, um novo *Transformer* de Difusão de Codec Hierárquico que explora a hierarquia inerente dos *tokens* de fala discretos para alcançar um forte alinhamento áudio-visual. Especificamente, uma vez que os *tokens* de nível inferior codificam semântica de baixo nível consciente do locutor e os *tokens* de nível superior capturam prosódia de alto nível, o HiCoDiT emprega blocos de baixo e alto nível para gerar *tokens* em diferentes níveis. Os blocos de baixo nível condicionam-se no movimento sincronizado com os lábios e na identidade facial para capturar conteúdo consciente do locutor, enquanto os blocos de alto nível usam a expressão facial para modular a dinâmica prosódica. Finalmente, para permitir um condicionamento mais eficiente do tipo *coarse-to-fine*, propomos uma normalização de camada por instância adaptativa de dupla escala, que captura conjuntamente o estilo vocal global através da normalização por canal e a dinâmica prosódica local através da normalização por temporal. Experimentos extensivos demonstram que o HiCoDiT supera as *baselines* em fidelidade e expressividade, destacando o potencial da modelação discreta para VTS. O código e a demonstração de fala estão disponíveis em https://github.com/Jiaxin-Ye/HiCoDiT.

Assinaturas estatísticas universais da evolução em arquiteturas de inteligência artificial
Universal statistical signatures of evolution in artificial intelligence architectures

Apr 12

ByTheodor Spiro

Testamos se a evolução arquitetural da inteligência artificial obedece às mesmas leis estatísticas da evolução biológica. Compilando 935 experimentos de ablação de 161 publicações, demonstramos que a distribuição dos efeitos de aptidão (DFE) de modificações arquiteturais segue uma distribuição t de Student de cauda pesada, com proporções (68% deletérias, 19% neutras, 13% benéficas para ablações maiores, n=568) que posicionam a IA entre genomas virais compactos e eucariotos simples. A forma da DFE corresponde à de *D. melanogaster* (KS normalizado=0,07) e *S. cerevisiae* (KS=0,09); a fração benéfica elevada (13% vs. 1-6% na biologia) quantifica a vantagem da busca direcionada sobre a busca cega, preservando a forma distribucional. A origem arquitetural segue dinâmicas logísticas (R²=0,994) com equilíbrios pontuados e radiação adaptativa em nichos de domínio. Catorze características arquiteturais foram inventadas independentemente 3-5 vezes, paralelamente a convergências biológicas. Estes resultados demonstram que a estrutura estatística da evolução é independente do substrato, sendo determinada pela topologia da paisagem de aptidão e não pelo mecanismo de seleção.

PRL-Bench: Um Benchmark Abrangente para Avaliar as Capacidades dos LLMs na Investigação de Física de Fronteira
PRL-Bench: A Comprehensive Benchmark Evaluating LLMs' Capabilities in Frontier Physics Research

Apr 16

ByTingjia Miao, Wenkai Jin, Muhua Zhang, Jinxin Tan, Yuelin Hu, Tu Guo, Jiejun Zhang, Yuhan Wang, Wenbo Li, Yinuo Gao, Shuo Chen, Weiqi Jiang, Yayun Hu, Zixing Lei, Xianghe Pang, Zexi Liu, Yuzhi Zhang, Linfeng Zhang, Kun Chen, Wei Wang, Weinan E, Siheng Chen

O paradigma da ciência agencial exige que sistemas de IA realizem raciocínio robusto e se envolvam em exploração autónoma de longo prazo. No entanto, os atuais benchmarks científicos permanecem confinados à compreensão de conhecimento de domínio e ao raciocínio complexo, falhando em avaliar a natureza exploratória e a complexidade processual da investigação do mundo real. Neste trabalho, apresentamos avaliações orientadas para a investigação em física teórica e computacional, um campo de teste natural com conhecimento de domínio abrangente, raciocínio complexo e fluxos de trabalho verificáveis de ponta a ponta, sem dependência de experiências laboratoriais. Apresentamos o PRL-Bench (Physics Research by LLMs), um benchmark concebido para mapear sistematicamente os limites de capacidade dos LLMs na execução de investigação física de ponta a ponta. Construído a partir de 100 artigos selecionados das edições mais recentes da Physical Review Letters desde agosto de 2025 e validado por especialistas de domínio, o PRL-Bench abrange cinco subáreas principais da física moderna intensivas em teoria e computação: astrofísica, física da matéria condensada, física de altas energias, informação quântica e física estatística. Cada tarefa no benchmark foi concebida para replicar as propriedades centrais da investigação científica autêntica, incluindo formulação orientada para a exploração, fluxos de trabalho de longo prazo e verificabilidade objetiva, reconstruindo assim os processos de raciocínio essenciais e os fluxos de trabalho de investigação da física real. A avaliação em modelos de fronteira mostra que o desempenho permanece limitado, com a melhor pontuação geral abaixo de 50, revelando uma lacuna pronunciada entre as capacidades atuais dos LLMs e as exigências da investigação científica real. O PRL-Bench serve como um banco de testes fiável para avaliar a próxima geração de cientistas de IA, avançando os sistemas de IA em direção à descoberta científica autónoma.

RoboLab: Um Benchmark de Simulação de Alta Fidelidade para Análise de Políticas Generalistas de Tarefas
RoboLab: A High-Fidelity Simulation Benchmark for Analysis of Task Generalist Policies

Apr 14

ByXuning Yang, Rishit Dagli, Alex Zook, Hugo Hadfield, Ankit Goyal, Stan Birchfield, Fabio Ramos, Jonathan Tremblay

A busca por robótica de propósito geral tem produzido modelos-base impressionantes, mas a avaliação comparativa baseada em simulação continua a ser um gargalo devido à rápida saturação de desempenho e à falta de testes de generalização genuínos. Os benchmarks existentes frequentemente exibem uma sobreposição significativa de domínio entre o treinamento e a avaliação, banalizando as taxas de sucesso e obscurecendo insights sobre robustez. Apresentamos o RoboLab, uma estrutura de avaliação comparativa em simulação concebida para enfrentar esses desafios. Concretamente, a nossa estrutura foi desenhada para responder a duas questões: (1) até que ponto podemos compreender o desempenho de uma política do mundo real analisando o seu comportamento em simulação, e (2) quais fatores externos afetam mais fortemente esse comportamento sob perturbações controladas. Em primeiro lugar, o RoboLab permite a geração de cenas e tarefas, criadas por humanos ou habilitadas por LLMs, de uma forma agnóstica em relação ao robô e à política, dentro de uma simulação fisicamente realista e fotorrealista. Com isto, propomos o benchmark RoboLab-120, composto por 120 tarefas categorizadas em três eixos de competência: competência visual, procedural e relacional, distribuídas por três níveis de dificuldade. Em segundo lugar, introduzimos uma análise sistemática de políticas do mundo real que quantifica tanto o seu desempenho como a sensibilidade do seu comportamento a perturbações controladas, indicando que uma simulação de alta fidelidade pode servir como um proxy para analisar o desempenho e a sua dependência de fatores externos. A avaliação com o RoboLab expõe uma lacuna de desempenho significativa nos modelos state-of-the-art atuais. Ao fornecer métricas granulares e um conjunto de ferramentas escalável, o RoboLab oferece uma estrutura escalável para avaliar as verdadeiras capacidades de generalização de políticas robóticas generalistas para tarefas.

DiPO: Otimização de Política de Perplexidade Desacoplada para um Equilíbrio Granular entre Exploração e Exploração
DiPO: Disentangled Perplexity Policy Optimization for Fine-grained Exploration-Exploitation Trade-Off

Apr 15

ByXiaofan Li, Ming Yang, Zhiyuan Ma, Shichao Ma, Jintao Du, Yu Cheng, Weiqiang Wang, Zhizhong Zhang, Xin Tan, Yanyun Qu, Lizhuang Ma, Yuan Xie

O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) catalisou avanços significativos nas capacidades de raciocínio de Modelos de Linguagem de Grande Porte (LLMs). No entanto, gerir eficazmente o equilíbrio entre exploração e exploração permanece um desafio crítico. Neste artigo, analisamos profundamente o dilema de exploração e exploração de amostras extremamente difíceis e fáceis durante o treinamento e propomos um novo mecanismo de equilíbrio de granularidade fina. Concretamente, introduzimos uma estratégia de desagregação do espaço de perplexidade que divide o espaço de amostras em subespaços distintos de exploração (alta perplexidade) e exploração (baixa perplexidade, permitindo assim a mineração de amostras de granularidade fina que requerem um equilíbrio entre exploração e exploração. Subsequentemente, propomos um mecanismo de alocação de recompensa bidirecional com impacto mínimo nas recompensas de verificação para implementar a exploração e exploração guiadas pela perplexidade, permitindo uma otimização de política mais estável. Por fim, avaliamos nosso método em duas tarefas principais: raciocínio matemático e chamada de funções, e os resultados experimentais demonstram a superioridade do método proposto, confirmando sua eficácia na melhoria do desempenho do LLM através de um equilíbrio de granularidade fina entre exploração e exploração.

A Incrível Corrida dos Agentes: Fortes Usuários de Ferramentas, Fracos Navegadores
The Amazing Agent Race: Strong Tool Users, Weak Navigators

Apr 17

ByZae Myung Kim, Dongseok Lee, Jaehyung Kim, Vipul Raheja, Dongyeop Kang

Os benchmarks existentes para avaliação do uso de ferramentas por agentes de LLM são maciçamente lineares: nossa análise de seis benchmarks mostra que 55 a 100% das instâncias são cadeias simples de 2 a 5 etapas. Apresentamos The Amazing Agent Race (AAR), um benchmark que apresenta quebra-cabeças de grafo acíclico direcionado (DAG) (ou "pernas") com cadeias de ferramentas do tipo fork-merge. Disponibilizamos 1.400 instâncias em duas variantes: sequencial (800 pernas) e composicional (600 pernas DAG). Os agentes devem navegar pela Wikipedia, executar cadeias de ferramentas de múltiplas etapas e agregar os resultados em uma resposta verificável. As pernas são geradas proceduralmente a partir de sementes da Wikipedia em quatro níveis de dificuldade, com validação via API ao vivo. Três métricas complementares (precisão na linha de chegada, taxa de visita ao pit-stop e taxa de conclusão de obstáculos) diagnosticam separadamente falhas de navegação, uso de ferramentas e aritméticas. Avaliando três frameworks de agentes em 1.400 pernas, o melhor alcança apenas 37,2% de precisão. Erros de navegação predominam (27 a 52% dos testes), enquanto erros de uso de ferramentas ficam abaixo de 17%, e a arquitetura do agente importa tanto quanto a escala do modelo (Claude Code empata com Codex CLI em 37%, usando 6 vezes menos tokens). A estrutura composicional do AAR revela que os agentes falham não em chamar ferramentas, mas em navegar para as páginas corretas, um ponto cego invisível para benchmarks lineares. A página do projeto pode ser acessada em: https://minnesotanlp.github.io/the-amazing-agent-race

NTIRE 2026: Métodos e Resultados do Desafio de Previsão de Saliência em Vídeo
NTIRE 2026 Challenge on Video Saliency Prediction: Methods and Results

Apr 16

ByAndrey Moskalenko, Alexey Bryncev, Ivan Kosmynin, Kira Shilovskaya, Mikhail Erofeev, Dmitry Vatolin, Radu Timofte, Kun Wang, Yupeng Hu, Zhiran Li, Hao Liu, Qianlong Xiang, Liqiang Nie, Konstantinos Chaldaiopoulos, Niki Efthymiou, Athanasia Zlatintsi, Panagiotis Filntisis, Katerina Pastra, Petros Maragos, Li Yang, Gen Zhan, Yiting Liao, Yabin Zhang, Yuxin Liu, Xu Wu, Yunheng Zheng, Linze Li, Kun He, Cong Wu, Xuefeng Zhu, Tianyang Xu, Xiaojun Wu, Wenzhuo Zhao, Keren Fu, Gongyang Li, Shixiang Shi, Jianlin Chen, Haibin Ling, Yaoxin Jiang, Guoyi Xu, Jiajia Liu, Yaokun Shi, Jiachen Tu

Este artigo apresenta uma visão geral do Desafio NTIRE 2026 sobre Predição de Salitência em Vídeo. O objetivo dos participantes do desafio foi desenvolver métodos automáticos de predição de mapas de saliência para as sequências de vídeo fornecidas. Um novo conjunto de dados com 2.000 vídeos diversos e licença aberta foi preparado para este desafio. As fixações e os mapas de saliência correspondentes foram coletados por meio de rastreamento de mouse *crowdsourced* e contêm dados de visualização de mais de 5.000 avaliadores. A avaliação foi realizada em um subconjunto de 800 vídeos de teste utilizando métricas de qualidade geralmente aceitas. O desafio atraiu a participação de mais de 20 equipes com submissões, e 7 equipes passaram pela fase final, que incluiu revisão de código. Todos os dados utilizados neste desafio estão disponíveis publicamente em https://github.com/msu-video-group/NTIRE26_Saliency_Prediction.

TwinTrack: Calibração Pós-Hoc de Múltiplos Avaliadores para Segmentação de Imagens Médicas
TwinTrack: Post-hoc Multi-Rater Calibration for Medical Image Segmentation

Apr 17

ByTristan Kirscher, Alexandra Ertl, Klaus Maier-Hein, Xavier Coubez, Philippe Meyer, Sylvain Faisan

A segmentação do adenocarcinoma ductal pancreático (PDAC) em tomografia computadorizada com contraste é inerentemente ambígua: a discordância entre avaliadores especialistas reflete uma genuína incerteza, e não ruído na anotação. As abordagens padrão de aprendizagem profunda pressupõem uma única verdade fundamental, produzindo saídas probabilísticas que podem ser mal calibradas e de difícil interpretação sob tal ambiguidade. Apresentamos o TwinTrack, uma estrutura que aborda esta lacuna através da calibração *post-hoc* das probabilidades de segmentação de *ensemble* para a resposta humana média empírica (MHR) - a fração de anotadores especialistas que classificam um voxel como tumor. As probabilidades calibradas são, portanto, diretamente interpretáveis como a proporção esperada de anotadores que atribuem o rótulo de tumor, modelando explicitamente a discordância entre avaliadores. O procedimento de calibração *post-hoc* proposto é simples e requer apenas um pequeno conjunto de calibração com múltiplos avaliadores. Ele melhora consistentemente as métricas de calibração em relação às abordagens padrão quando avaliado no benchmark multi-avaliador CURVAS-PDACVI da MICCAI 2025.

VEFX-Bench: Um Benchmark Abrangente para Edição de Vídeo Genérica e Efeitos Visuais
VEFX-Bench: A Holistic Benchmark for Generic Video Editing and Visual Effects

Apr 17

ByXiangbo Gao, Sicong Jiang, Bangya Liu, Xinghao Chen, Minglai Yang, Siyuan Yang, Mingyang Wu, Jiongze Yu, Qi Zheng, Haozhi Wang, Jiayi Zhang, Jared Yang, Jie Yang, Zihan Wang, Qing Yin, Zhengzhong Tu

À medida que a criação de vídeos assistida por IA se torna cada vez mais prática, a edição de vídeo guiada por instruções tornou-se essencial para refinar filmagens geradas ou capturadas, a fim de atender a requisitos profissionais. No entanto, a área ainda carece tanto de um conjunto de dados em larga escala anotado por humanos, com exemplos completos de edição, quanto de um avaliador padronizado para comparar sistemas de edição. Os recursos existentes são limitados pela pequena escala, pela ausência de resultados editados ou pela falta de rótulos humanos de qualidade, enquanto a avaliação atual frequentemente depende de inspeção manual dispendiosa ou de modelos genéricos de juízes de visão e linguagem que não são especializados em qualidade de edição. Apresentamos o VEFX-Dataset, um conjunto de dados anotado por humanos contendo 5.049 exemplos de edição de vídeo em 9 categorias principais de edição e 32 subcategorias, cada um rotulado ao longo de três dimensões dissociadas: Seguimento da Instrução, Qualidade de Renderização e Exclusividade da Edição. Com base no VEFX-Dataset, propomos o VEFX-Reward, um modelo de recompensa projetado especificamente para avaliação da qualidade de edição de vídeo. O VEFX-Reward processa conjuntamente o vídeo de origem, a instrução de edição e o vídeo editado, e prevê pontuações de qualidade por dimensão via regressão ordinal. Liberamos ainda o VEFX-Bench, um benchmark de 300 pares de vídeo-instrução selecionados para comparação padronizada de sistemas de edição. Experimentos mostram que o VEFX-Reward se alinha mais fortemente com os julgamentos humanos do que juízes de VLM genéricos e modelos de recompensa anteriores, tanto em métricas padrão de IQA/VQA quanto em avaliação de preferência por grupo. Usando o VEFX-Reward como avaliador, analisamos sistemas representativos de edição de vídeo comerciais e de código aberto, revelando uma lacuna persistente entre plausibilidade visual, seguimento da instrução e localidade da edição nos modelos atuais.

ArtifactNet: Detetando Música Gerada por IA via Física Residual Forense
ArtifactNet: Detecting AI-Generated Music via Forensic Residual Physics

Apr 17

ByHeewon Oh

Apresentamos o ArtifactNet, uma estrutura leve que detecta música gerada por IA reformulando o problema como física forense — extraindo e analisando os artefatos físicos que os codecs neurais de áudio imprimem inevitavelmente no áudio gerado. Uma UNet com máscara limitada (ArtifactUNet, 3,6M de parâmetros) extrai resíduos do codec de espectrogramas de magnitude, que são então decompostos via HPSS em características forenses de 7 canais para classificação por uma CNN compacta (0,4M de parâmetros; 4,0M no total). Introduzimos o ArtifactBench, um benchmark de avaliação multi-gerador composto por 6.183 faixas (4.383 de IA de 22 geradores e 1.800 reais de 6 fontes diversas). Cada faixa é etiquetada com `bench_origin` para avaliação zero-shot justa. Na partição de teste não vista (n=2.263), o ArtifactNet atinge F1 = 0,9829 com FPR = 1,49%, comparado ao CLAM (F1 = 0,7576, FPR = 69,26%) e ao SpecTTTra (F1 = 0,7713, FPR = 19,43%) avaliados sob condições idênticas com checkpoints publicados. O treinamento com consciência do codec (aumento de dados em 4 vias: WAV/MP3/AAC/Opus) reduz ainda mais o *drift* de probabilidade entre codecs em 83% (Delta = 0,95 -> 0,16), resolvendo o principal modo de falha de invariância do codec. Estes resultados estabelecem a física forense — extração direta de artefatos a nível de codec — como um paradigma mais generalizável e eficiente em parâmetros para detecção de música IA do que a aprendizagem de representação, usando 49x menos parâmetros que o CLAM e 4,8x menos que o SpecTTTra.