Artigos de pesquisa em IA selecionados diariamente com traduções
Os Modelos Probabilísticos de Difusão demonstraram desempenho notável em uma ampla gama de tarefas generativas. No entanto, observamos que esses modelos frequentemente sofrem de um viés Relação Sinal-Ruído-tempo (SNR-t). Esse viés refere-se ao desalinhamento entre a SNR da amostra de desruído e seu timestep correspondente durante a fase de inferência. Especificamente, durante o treinamento, a SNR de uma amostra está estritamente acoplada ao seu timestep. Entretanto, essa correspondência é interrompida durante a inferência, levando ao acúmulo de erros e prejudicando a qualidade da geração. Fornecemos evidências empíricas abrangentes e análise teórica para comprovar esse fenômeno e propomos um método de correção diferencial simples, porém eficaz, para mitigar o viés SNR-t. Reconhecendo que os modelos de difusão normalmente reconstroem componentes de baixa frequência antes de se concentrarem em detalhes de alta frequência durante o processo reverso de desruído, decompomos as amostras em vários componentes de frequência e aplicamos correção diferencial a cada componente individualmente. Experimentos extensivos mostram que nossa abordagem melhora significativamente a qualidade da geração de vários modelos de difusão (IDDPM, ADM, DDIM, A-DPM, EA-DPM, EDM, PFGM++ e FLUX) em conjuntos de dados de várias resoluções com sobrecarga computacional insignificante. O código está disponível em https://github.com/AMAP-ML/DCW.
Redes Neurais Profundas (DNNs) podem ser catastróficamente comprometidas ao inverter apenas um punhado de bits dos parâmetros. Apresentamos a Lesão Neural Profunda (DNL), um método livre de dados e de otimização que localiza parâmetros críticos, e uma variante aprimorada de passagem única, 1P-DNL, que refina essa seleção com uma passagem direta e reversa em entradas aleatórias. Demonstramos que essa vulnerabilidade abrange múltiplos domínios, incluindo classificação de imagens, detecção de objetos, segmentação de instâncias e modelos de linguagem grandes de raciocínio. Na classificação de imagens, inverter apenas dois bits de sinal na ResNet-50 no ImageNet reduz a precisão em 99,8%. Na detecção de objetos e segmentação de instâncias, uma ou duas inversões de sinal na backbone colapsam a AP de detecção e máscara do COCO para os modelos Mask R-CNN e YOLOv8-seg. Na modelagem de linguagem, duas inversões de sinal em diferentes especialistas reduzem a precisão do Qwen3-30B-A3B-Thinking de 78% para 0%. Também mostramos que proteger seletivamente uma pequena fração dos bits de sinal vulneráveis oferece uma defesa prática contra tais ataques.
Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) servem como assistentes diários para milhões de pessoas. No entanto, a sua capacidade de gerar respostas alinhadas com as preferências individuais permanece limitada. Abordagens anteriores permitem apenas uma personalização estática e de turno único através de aumento de entrada ou alinhamento de saída, falhando assim em capturar as preferências e personalidade dos utilizadores em evolução ao longo do tempo (ver Fig.1). Neste artigo, apresentamos o PersonaVLM, uma estrutura inovadora de agente multimodal personalizado concebida para personalização de longo prazo. Esta transforma um MLLM de propósito geral num assistente personalizado através da integração de três capacidades principais: (a) Memorização: Extrai e resume proativamente memórias multimodais cronológicas das interações, consolidando-as numa base de dados personalizada. (b) Raciocínio: Realiza raciocínio multi-turno através da recuperação e integração de memórias relevantes da base de dados. (c) Alinhamento de Resposta: Infere a personalidade em evolução do utilizador ao longo de interações de longo prazo para garantir que as saídas permanecem alinhadas com as suas características únicas. Para avaliação, estabelecemos o Persona-MME, um benchmark abrangente que compreende mais de 2.000 casos de interação curados, concebido para avaliar a personalização de MLLMs de longo prazo em sete aspetos principais e 14 tarefas de granularidade fina. Experimentos extensivos validam a eficácia do nosso método, melhorando a linha de base em 22,4% (Persona-MME) e 9,8% (PERSONAMEM) sob um contexto de 128k, superando ainda o GPT-4o em 5,2% e 2,0%, respetivamente. Página do projeto: https://PersonaVLM.github.io.
Os sistemas de Geração Aumentada por Recuperação (RAG) dependem criticamente de estratégias eficazes de segmentação de documentos para equilibrar a qualidade da recuperação, a latência e o custo operacional. As abordagens tradicionais de segmentação, como as baseadas em tamanho fixo, regras ou em agentes autónomos, frequentemente sofrem com alto consumo de *tokens*, geração de texto redundante, escalabilidade limitada e fraca capacidade de depuração, especialmente para a ingestão de conteúdo web em larga escala. Neste artigo, propomos o *Web Retrieval-Aware Chunking* (W-RAC), uma nova estrutura de segmentação económica, concebida especificamente para documentos baseados na web. O W-RAC desacopla a extração de texto do planeamento semântico de segmentação, representando o conteúdo web analisado como unidades estruturadas e endereçáveis por ID, e aproveitando os grandes modelos de linguagem (LLMs) apenas para decisões de agrupamento conscientes da recuperação, em vez de para geração de texto. Isto reduz significativamente o uso de *tokens*, elimina os riscos de alucinação e melhora a observabilidade do sistema. A análise experimental e a comparação arquitetónica demonstram que o W-RAC atinge um desempenho de recuperação comparável ou superior às abordagens de segmentação tradicionais, enquanto reduz os custos com LLM relacionados com a segmentação em uma ordem de grandeza.
Neste trabalho, apresentamos o Qwen3.5-Omni, o avanço mais recente da família de modelos Qwen-Omni. Representando uma evolução significativa em relação ao seu predecessor, o Qwen3.5-Omni escala para centenas de bilhões de parâmetros e suporta um contexto de 256k tokens. Ao aproveitar um conjunto massivo de dados composto por pares texto-visão heterogêneos e mais de 100 milhões de horas de conteúdo audiovisual, o modelo demonstra capacidades robustas de omni-modalidade. O Qwen3.5-Omni-plus alcança resultados de estado da arte (SOTA) em 215 subtarefas e benchmarks de compreensão, raciocínio e interação de áudio e audiovisual, superando o Gemini-3.1 Pro em tarefas-chave de áudio e equiparando-se a ele na compreensão audiovisual abrangente. Arquitetonicamente, o Qwen3.5-Omni emprega uma estrutura Híbrida de Atenção com Mistura de Especialistas (MoE) tanto para o "Thinker" quanto para o "Talker", permitindo uma inferência eficiente de sequências longas. O modelo facilita interações sofisticadas, suportando mais de 10 horas de compreensão de áudio e 400 segundos de vídeo 720P (a 1 FPS). Para abordar a instabilidade inerente e a falta de naturalidade na síntese de fala em streaming, frequentemente causada por discrepâncias de eficiência de codificação entre os tokenizadores de texto e fala, introduzimos o ARIA. O ARIA alinha dinamicamente as unidades de texto e fala, melhorando significativamente a estabilidade e a prosódia da fala conversacional com impacto mínimo na latência. Além disso, o Qwen3.5-Omni expande as fronteiras linguísticas, suportando compreensão e geração de fala multilingue em 10 idiomas com nuances emocionais semelhantes às humanas. Finalmente, o Qwen3.5-Omni exibe capacidades superiores de ancoragem audiovisual, gerando legendas estruturadas em nível de roteiro com sincronização temporal precisa e segmentação automática de cenas. Notavelmente, observamos o surgimento de uma nova capacidade em modelos omni-modais: executar codificação diretamente com base em instruções audiovisuais, que denominamos de "Codificação por Vibração Audiovisual" (Audio-Visual Vibe Coding).
O raciocínio paralelo melhora os Modelos de Raciocínio de Grande Escala (LRMs), mas incorre em custos proibitivos devido a caminhos infrutíferos causados por erros iniciais. Para mitigar isso, a poda de caminhos a nível de prefixo é essencial, porém a pesquisa existente permanece fragmentada sem uma estrutura padronizada. Neste trabalho, propomos a primeira taxonomia sistemática de poda de caminhos, categorizando métodos por sua fonte de sinal (interna vs. externa) e capacidade de aprendizado (aprendível vs. não-aprendível). Esta classificação revela o potencial inexplorado dos métodos internos aprendíveis, motivando nossa proposta de STOP (Super Token para Poda). Avaliações extensas em LRMs variando de 1,5B a 20B de parâmetros demonstram que o STOP alcança eficácia e eficiência superiores comparado às linhas de base existentes. Adicionalmente, validamos rigorosamente a escalabilidade do STOP sob diferentes orçamentos computacionais - por exemplo, elevando a precisão do GPT-OSS-20B no AIME25 de 84% para quase 90% sob orçamentos computacionais fixos. Por fim, consolidamos nossas descobertas em diretrizes empíricas formalizadas para facilitar a implantação ótima em cenários reais. Código, dados e modelos estão disponíveis em https://bijiaxihh.github.io/STOP.
A tokenização é um componente fundamental dos modelos generativos autorregressivos (AR), convertendo dados brutos em unidades mais gerenciáveis para modelagem. Geralmente, os tokens descrevem informações locais, como regiões de pixels em imagens ou partes de palavras em texto, e a geração AR prevê esses tokens em uma ordem fixa. Uma questão relevante é se as estruturas de tokens afetam a capacidade de direcionar a geração por meio de busca em tempo de teste, onde múltiplas gerações candidatas são exploradas e avaliadas por um verificador. Usando a geração de imagens como nosso campo de teste, hipotetizamos que tokenizadores ordenados 1D recentes, com estrutura de granularidade grossa-para-fina, podem ser mais adequados para busca do que as estruturas clássicas de grade 2D. Isso se baseia no fato de que os estados intermediários nas sequências grossa-para-fina carregam significado semântico que os verificadores podem avaliar de forma confiável, permitindo um direcionamento eficaz durante a geração. Através de experimentos controlados, descobrimos que os modelos AR treinados com tokens ordenados grossa-para-fina exibem um comportamento de escalabilidade em tempo de teste melhorado em comparação com as contrapartes baseadas em grade. Além disso, demonstramos que, graças à estrutura ordenada, uma busca pura em tempo de teste sobre sequências de tokens (ou seja, sem treinar um modelo AR) pode realizar geração de texto-para-imagem sem treinamento quando guiada por um verificador imagem-texto. Além disso, estudamos sistematicamente como algoritmos clássicos de busca (melhor-de-N, busca por feixe, busca com antecipação) interagem com diferentes estruturas de tokens, bem como o papel de diferentes verificadores e priores AR. Nossos resultados destacam o impacto da estrutura de token na escalabilidade no momento da inferência e fornecem orientações práticas para a escalabilidade em tempo de teste em modelos AR.
Apresentamos o LaviGen, uma estrutura que reaproveita modelos generativos 3D para a geração de layouts 3D. Diferente de métodos anteriores que inferem layouts de objetos a partir de descrições textuais, o LaviGen opera diretamente no espaço 3D nativo, formulando a geração de layout como um processo autoregressivo que modela explicitamente relações geométricas e restrições físicas entre objetos, produzindo cenas 3D coerentes e fisicamente plausíveis. Para aprimorar ainda mais este processo, propomos um modelo de difusão 3D adaptado que integra informações de cena, objeto e instrução, e emprega um mecanismo de destilação por auto-distribuição de dupla orientação para melhorar a eficiência e a precisão espacial. Experimentos extensivos no benchmark LayoutVLM mostram que o LaviGen alcança um desempenho superior em geração de layouts 3D, com uma plausibilidade física 19% maior do que o estado da arte e uma computação 65% mais rápida. Nosso código está publicamente disponível em https://github.com/fenghora/LaviGen.
Os modelos de linguagem pós-treinados produzem saídas menos variadas do que as suas contrapartes base. Este colapso da diversidade das saídas prejudica os métodos de escalonamento no tempo de inferência que dependem de amostras variadas e corre o risco de homogeneizar as saídas dos modelos em tarefas criativas e carregadas de valor. Trabalhos anteriores atribuem o colapso a métodos específicos de pós-treinamento, sem separar o papel da composição dos dados de treino do método, ou o formato de geração dos pesos do modelo. Nós rastreamos a diversidade das saídas através de três linhagens paralelas de pós-treinamento do Olmo 3 – Think (destilação de pensamento em cadeia), Instruct (dados multi-fonte abrangentes) e RL-Zero – em 15 tarefas e quatro métricas de diversidade textual. Descobrimos que a localização do colapso co-varia com a composição dos dados: a linhagem Think perde a maior parte da diversidade semântica no ajuste fino supervisionado, e o efeito do DPO é maior em Instruct do que em Think. Suprimir o raciocínio de pensamento em cadeia durante a inferência nos modelos Think reduz a precisão em tarefas difíceis, mas deixa inalterada a diversidade a nível de resposta, mostrando que o colapso está embutido nos pesos do modelo pelos dados de treino, e não imposto pelo formato de geração. A decomposição da perda de diversidade em seis tarefas verificáveis num componente de controlo de qualidade (remoção de saídas incorretas) e num componente residual (estreitamento genuíno entre saídas corretas) revela que a divisão é dependente da tarefa, e que os modelos Think retêm mais diversidade de respostas corretas do que os modelos Instruct, apesar de sofrerem um colapso maior no agregado. Os nossos resultados indicam que o colapso da diversidade é determinado durante o treino pela composição dos dados e não pode ser resolvido apenas no tempo de inferência.
Os grandes modelos de linguagem demonstraram um forte desempenho em tarefas de programação de propósito geral, mas a sua capacidade de gerar estratégias de trading algorítmico executáveis permanece pouco explorada. Ao contrário dos benchmarks de código padrão, a geração de estratégias de negociação exige o domínio simultâneo de lógica financeira específica do domínio, conhecimento de uma API especializada e a capacidade de produzir código que não é apenas sintaticamente correto, mas que também resulte em negociações reais em dados históricos. Neste trabalho, apresentamos o QuantCode-Bench, um benchmark para a avaliação sistemática de LLMs modernos na geração de estratégias para a framework Backtrader a partir de descrições textuais em inglês. O benchmark contém 400 tarefas de dificuldade variada, recolhidas do Reddit, TradingView, StackExchange, GitHub e fontes sintéticas. A avaliação é conduzida através de um pipeline de múltiplos estágios que verifica a correção sintática, a execução bem-sucedida do backtest, a presença de negociações e o alinhamento semântico com a descrição da tarefa usando um modelo de linguagem como juiz. Comparamos modelos state-of-the-art em dois cenários: single-turn, onde a estratégia deve ser gerada corretamente na primeira tentativa, e multi-turn agentico, onde o modelo recebe feedback iterativo e pode corrigir os seus erros. Analisamos os modos de falha em diferentes estágios do pipeline e mostramos que as principais limitações dos modelos atuais não estão relacionadas com a sintaxe, mas sim com a correta operacionalização da lógica de trading, o uso adequado da API e a adesão à semântica da tarefa. Estas descobertas sugerem que a geração de estratégias de trading constitui uma classe distinta de tarefas de geração de código específico de domínio, na qual o sucesso requer não apenas a correção técnica, mas também o alinhamento entre as descrições em linguagem natural, a lógica financeira e o comportamento observável da estratégia nos dados.
Os modelos de raciocínio visual (VRMs) demonstraram recentemente fortes capacidades de raciocínio multimodal ao integrar a percepção visual com o raciocínio linguístico. No entanto, eles frequentemente sofrem de "overthinking", produzindo cadeias de raciocínio desnecessariamente longas para qualquer tarefa. Atribuímos este problema à Redundância do Percurso de Raciocínio no raciocínio visual: muitas questões visuais não requerem o processo completo de raciocínio. Para resolver isso, propomos o AVR, uma estrutura de raciocínio visual adaptativa que decompõe o raciocínio visual em três funções cognitivas: percepção visual, raciocínio lógico e aplicação da resposta. Ela permite ainda que os modelos escolham dinamicamente entre três formatos de resposta: Formato Completo, Formato Apenas de Percepção e Resposta Direta. O AVR é treinado com o FS-GRPO, uma adaptação do Group Relative Policy Optimization que incentiva o modelo a selecionar o formato de raciocínio mais eficiente, preservando a correção. Experimentos em várias bases de referência visão-linguagem mostram que o AVR reduz o uso de tokens em 50–90\%, mantendo a precisão geral, especialmente em tarefas intensivas em percepção. Estes resultados demonstram que o raciocínio visual adaptativo pode mitigar efetivamente o "overthinking" em VRMs. O código e os dados estão disponíveis em: https://github.com/RunRiotComeOn/AVR.
Os LLMs demonstraram forte potencial para impulsionar a descoberta científica. No entanto, a questão sobre se possuem capacidade para inovação fundamental permanece em aberto. Neste trabalho, focamos num pré-requisito para a inovação fundamental: os LLMs podem reinventar algoritmos fundamentais da ciência da computação? Nossa abordagem Unlearn-and-Reinvent aplica o "desaprendizado" (unlearning) em LLMs para remover um algoritmo fundamental específico, como o algoritmo de Dijkstra ou o algoritmo de Euclides, do conhecimento pré-treinado do modelo, e depois testa se o modelo consegue reinventá-lo num ambiente controlado. Para permitir um desaprendizado eficaz, adotamos um método de desaprendizado on-policy baseado em GRPO. Através de experiências com 10 algoritmos-alvo, 3 modelos open-weight robustos e 3 níveis de dica, nossos resultados demonstram que (1) o modelo mais forte, Qwen3-4B-Thinking-2507, consegue reinventar 50% dos algoritmos sem dica, 70% no nível de dica 1 e 90% no nível de dica 2; (2) algumas dicas de alto nível podem aumentar a taxa de sucesso na reinvenção, mas mesmo dicas passo a passo falham para os algoritmos mais complexos; e (3) o reforço de aprendizagem em tempo de teste (test-time reinforcement learning) permite a reinvenção bem-sucedida do algoritmo de Strassen no nível de dica 2. Através da análise dos percursos de saída e de estudos de ablação, descobrimos que o verificador generativo na fase de reinvenção desempenha um papel crucial na sustentação da capacidade de raciocínio dos modelos, ajudando a evitar o fenômeno do "colapso do pensamento" (thought collapse). Estas descobertas oferecem perspetivas sobre o potencial e os limites atuais do pensamento inovador dos LLMs.
Os recentes avanços no pré-treinamento visão-linguagem têm permitido melhorias significativas em muitas aplicações de visão computacional, como classificação, recuperação, segmentação e predição de profundidade. No entanto, uma capacidade fundamental com a qual estes modelos ainda lutam é o alinhamento de representações densas de *patches* com incorporações de texto de conceitos correspondentes. Neste trabalho, investigamos esta questão crítica e propomos técnicas novas para melhorar esta capacidade em modelos fundamentais visão-linguagem. Primeiro, revelamos que um procedimento de destilação a nível de *patch* aumenta significativamente o alinhamento denso *patch*-texto — surpreendentemente, o alinhamento *patch*-texto do modelo estudante destilado supera fortemente o do modelo professor. Esta observação inspira-nos a considerar modificações nas receitas de pré-treinamento, levando-nos a propor o iBOT++, uma atualização do objetivo comum de imagem mascarada iBOT, onde os *tokens* não mascarados também contribuem diretamente para a perda. Isto melhora dramaticamente o alinhamento *patch*-texto dos modelos pré-treinados. Adicionalmente, para melhorar a eficiência e eficácia do pré-treinamento visão-linguagem, modificamos a configuração da média móvel exponencial na receita de aprendizagem e introduzimos uma estratégia de amostragem de legendas para beneficiar de legendas sintéticas em diferentes granularidades. Combinando estes componentes, desenvolvemos o TIPSv2, uma nova família de modelos codificadores de imagem-texto adequada para uma ampla gama de aplicações a jusante. Através de experiências abrangentes em 9 tarefas e 20 conjuntos de dados, demonstramos um desempenho robusto, geralmente em pé de igualdade ou superior a modelos recentes de codificadores de visão. O código e os modelos são disponibilizados através da nossa página do projeto em https://gdm-tipsv2.github.io/.
O desenvolvimento de agentes de propósito geral requer uma transição da execução de instruções simples para a conclusão de fluxos de trabalho produtivos complexos e do mundo real. No entanto, os benchmarks atuais de uso de ferramentas permanecem desalinhados com os requisitos do mundo real, dependendo de consultas geradas por IA, ferramentas fictícias e coordenação limitada a nível de sistema. Para resolver isso, propomos o GTA-2, um benchmark hierárquico para Agentes de Ferramenta Geral (GTA) abrangendo o uso atômico de ferramentas e fluxos de trabalho abertos. Construído com base na autenticidade do mundo real, ele aproveita consultas de usuários reais, ferramentas implantadas e contextos multimodais. (i) O GTA-Atomic, herdado do nosso benchmark GTA anterior, avalia a precisão de uso de ferramentas de curto prazo e de fim fechado. (ii) O GTA-Workflow introduz tarefas de longo prazo e abertas para conclusão realista de ponta a ponta. Para avaliar entregáveis abertos, propomos um mecanismo de avaliação recursivo baseado em *checkpoints* que decompõe objetivos em submetas verificáveis, permitindo uma avaliação unificada tanto das capacidades do modelo quanto dos frameworks de execução de agentes (ou seja, *execution harnesses*). Experimentos revelam um pronunciado precipício de capacidade: enquanto os modelos de fronteira já lutam em tarefas atômicas (abaixo de 50%), eles falham amplamente em fluxos de trabalho, com os melhores modelos alcançando apenas 14,39% de sucesso. Análises adicionais mostram que o *feedback* guiado por *checkpoints* melhora o desempenho, enquanto frameworks avançados como Manus e OpenClaw melhoram substancialmente a conclusão do fluxo de trabalho, destacando a importância do projeto do *execution harness* além da capacidade do modelo subjacente. Essas descobertas fornecem orientação para o desenvolvimento de assistentes pessoais e profissionais confiáveis. O conjunto de dados e o código estarão disponíveis em https://github.com/open-compass/GTA.
A aprendizagem federada (FL) permite a detecção colaborativa de intrusões sem troca de dados brutos, mas a FL convencional incorre em alta sobrecarga de comunicação devido à transmissão de gradientes de precisão total e permanece vulnerável a ataques de inferência de gradientes. Este artigo apresenta o EdgeDetect, um Sistema de Detecção de Intrusões federado eficiente em comunicação e consciente da privacidade para ambientes 6G-IoT com restrição de largura de banda. O EdgeDetect introduz a "gradient smartification", uma binarização estatística baseada em mediana que comprime as atualizações locais para representações {+1,-1}, reduzindo a carga útil de uplink em 32 vezes enquanto preserva a convergência. Integramos ainda a criptografia homomórfica de Paillier sobre os gradientes binarizados, protegendo contra servidores honestos mas curiosos sem expor atualizações individuais. Experimentos no conjunto CIC-IDS2017 (2,8M fluxos, 7 classes de ataque) demonstram 98,0% de acurácia multiclasse e 97,9% de F1-score macro, equiparando-se a linhas de base centralizadas, enquanto reduzem a comunicação por rodada de 450 MB para 14 MB (redução de 96,9%). A implantação em Raspberry Pi-4 confirma a viabilidade na borda: 4,2 MB de memória, latência de 0,8 ms e 12 mJ por inferência com perda de acurácia <0,5%. Sob ataques de envenenamento de 5% e desbalanceamento severo, o EdgeDetect mantém 87% de acurácia e F1 de 0,95 para a classe minoritária (p<0,001), estabelecendo um equilíbrio prático entre acurácia, comunicação e privacidade para a próxima geração de detecção de intrusões na borda.
Apresentamos o AccelOpt, um sistema agente de modelo de linguagem de grande escala (LLM) com capacidade de autoaprimoramento que otimiza kernels de forma autónoma para aceleradores de IA emergentes, eliminando a necessidade de conhecimento de otimização específico de hardware fornecido por especialistas. O AccelOpt explora o espaço de otimização de kernels através de geração iterativa, orientado por uma memória de otimização que seleciona experiências e insights de pares de kernels lentos-rápidos previamente encontrados. Construímos o NKIBench, um novo conjunto de benchmarks de kernels do acelerador AWS Trainium com complexidade variada, extraídos de cargas de trabalho reais de LLM, para avaliar a eficácia do AccelOpt. Nossa avaliação confirma que a capacidade do AccelOpt melhora ao longo do tempo, aumentando o percentual médio de taxa de transferência de pico de 49% para 61% no Trainium 1 e de 45% para 59% no Trainium 2 para os kernels do NKIBench. Além disso, o AccelOpt é altamente rentável: utilizando modelos de código aberto, ele iguala as melhorias de kernel do Claude Sonnet 4 enquanto é 26 vezes mais barato. O código é de código aberto em https://github.com/zhang677/AccelOpt.
A geração de Vídeo-para-Fala (VTS) tem como objetivo sintetizar fala a partir de um vídeo silencioso, sem sinais auditivos. No entanto, os métodos VTS existentes ignoram a natureza hierárquica da fala, que abrange desde semântica de baixo nível, consciente do locutor, até detalhes prosódicos de alto nível. Esta omissão dificulta o alinhamento direto entre características visuais e de fala em níveis hierárquicos específicos durante a correspondência de propriedades. Neste artigo, aproveitando a estrutura hierárquica de codecs baseados em Quantização Vetorial Residual (RVQ), propomos o HiCoDiT, um novo *Transformer* de Difusão de Codec Hierárquico que explora a hierarquia inerente dos *tokens* de fala discretos para alcançar um forte alinhamento áudio-visual. Especificamente, uma vez que os *tokens* de nível inferior codificam semântica de baixo nível consciente do locutor e os *tokens* de nível superior capturam prosódia de alto nível, o HiCoDiT emprega blocos de baixo e alto nível para gerar *tokens* em diferentes níveis. Os blocos de baixo nível condicionam-se no movimento sincronizado com os lábios e na identidade facial para capturar conteúdo consciente do locutor, enquanto os blocos de alto nível usam a expressão facial para modular a dinâmica prosódica. Finalmente, para permitir um condicionamento mais eficiente do tipo *coarse-to-fine*, propomos uma normalização de camada por instância adaptativa de dupla escala, que captura conjuntamente o estilo vocal global através da normalização por canal e a dinâmica prosódica local através da normalização por temporal. Experimentos extensivos demonstram que o HiCoDiT supera as *baselines* em fidelidade e expressividade, destacando o potencial da modelação discreta para VTS. O código e a demonstração de fala estão disponíveis em https://github.com/Jiaxin-Ye/HiCoDiT.
Testamos se a evolução arquitetural da inteligência artificial obedece às mesmas leis estatísticas da evolução biológica. Compilando 935 experimentos de ablação de 161 publicações, demonstramos que a distribuição dos efeitos de aptidão (DFE) de modificações arquiteturais segue uma distribuição t de Student de cauda pesada, com proporções (68% deletérias, 19% neutras, 13% benéficas para ablações maiores, n=568) que posicionam a IA entre genomas virais compactos e eucariotos simples. A forma da DFE corresponde à de *D. melanogaster* (KS normalizado=0,07) e *S. cerevisiae* (KS=0,09); a fração benéfica elevada (13% vs. 1-6% na biologia) quantifica a vantagem da busca direcionada sobre a busca cega, preservando a forma distribucional. A origem arquitetural segue dinâmicas logísticas (R²=0,994) com equilíbrios pontuados e radiação adaptativa em nichos de domínio. Catorze características arquiteturais foram inventadas independentemente 3-5 vezes, paralelamente a convergências biológicas. Estes resultados demonstram que a estrutura estatística da evolução é independente do substrato, sendo determinada pela topologia da paisagem de aptidão e não pelo mecanismo de seleção.
O paradigma da ciência agencial exige que sistemas de IA realizem raciocínio robusto e se envolvam em exploração autónoma de longo prazo. No entanto, os atuais benchmarks científicos permanecem confinados à compreensão de conhecimento de domínio e ao raciocínio complexo, falhando em avaliar a natureza exploratória e a complexidade processual da investigação do mundo real. Neste trabalho, apresentamos avaliações orientadas para a investigação em física teórica e computacional, um campo de teste natural com conhecimento de domínio abrangente, raciocínio complexo e fluxos de trabalho verificáveis de ponta a ponta, sem dependência de experiências laboratoriais. Apresentamos o PRL-Bench (Physics Research by LLMs), um benchmark concebido para mapear sistematicamente os limites de capacidade dos LLMs na execução de investigação física de ponta a ponta. Construído a partir de 100 artigos selecionados das edições mais recentes da Physical Review Letters desde agosto de 2025 e validado por especialistas de domínio, o PRL-Bench abrange cinco subáreas principais da física moderna intensivas em teoria e computação: astrofísica, física da matéria condensada, física de altas energias, informação quântica e física estatística. Cada tarefa no benchmark foi concebida para replicar as propriedades centrais da investigação científica autêntica, incluindo formulação orientada para a exploração, fluxos de trabalho de longo prazo e verificabilidade objetiva, reconstruindo assim os processos de raciocínio essenciais e os fluxos de trabalho de investigação da física real. A avaliação em modelos de fronteira mostra que o desempenho permanece limitado, com a melhor pontuação geral abaixo de 50, revelando uma lacuna pronunciada entre as capacidades atuais dos LLMs e as exigências da investigação científica real. O PRL-Bench serve como um banco de testes fiável para avaliar a próxima geração de cientistas de IA, avançando os sistemas de IA em direção à descoberta científica autónoma.
A busca por robótica de propósito geral tem produzido modelos-base impressionantes, mas a avaliação comparativa baseada em simulação continua a ser um gargalo devido à rápida saturação de desempenho e à falta de testes de generalização genuínos. Os benchmarks existentes frequentemente exibem uma sobreposição significativa de domínio entre o treinamento e a avaliação, banalizando as taxas de sucesso e obscurecendo insights sobre robustez. Apresentamos o RoboLab, uma estrutura de avaliação comparativa em simulação concebida para enfrentar esses desafios. Concretamente, a nossa estrutura foi desenhada para responder a duas questões: (1) até que ponto podemos compreender o desempenho de uma política do mundo real analisando o seu comportamento em simulação, e (2) quais fatores externos afetam mais fortemente esse comportamento sob perturbações controladas. Em primeiro lugar, o RoboLab permite a geração de cenas e tarefas, criadas por humanos ou habilitadas por LLMs, de uma forma agnóstica em relação ao robô e à política, dentro de uma simulação fisicamente realista e fotorrealista. Com isto, propomos o benchmark RoboLab-120, composto por 120 tarefas categorizadas em três eixos de competência: competência visual, procedural e relacional, distribuídas por três níveis de dificuldade. Em segundo lugar, introduzimos uma análise sistemática de políticas do mundo real que quantifica tanto o seu desempenho como a sensibilidade do seu comportamento a perturbações controladas, indicando que uma simulação de alta fidelidade pode servir como um proxy para analisar o desempenho e a sua dependência de fatores externos. A avaliação com o RoboLab expõe uma lacuna de desempenho significativa nos modelos state-of-the-art atuais. Ao fornecer métricas granulares e um conjunto de ferramentas escalável, o RoboLab oferece uma estrutura escalável para avaliar as verdadeiras capacidades de generalização de políticas robóticas generalistas para tarefas.
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) catalisou avanços significativos nas capacidades de raciocínio de Modelos de Linguagem de Grande Porte (LLMs). No entanto, gerir eficazmente o equilíbrio entre exploração e exploração permanece um desafio crítico. Neste artigo, analisamos profundamente o dilema de exploração e exploração de amostras extremamente difíceis e fáceis durante o treinamento e propomos um novo mecanismo de equilíbrio de granularidade fina. Concretamente, introduzimos uma estratégia de desagregação do espaço de perplexidade que divide o espaço de amostras em subespaços distintos de exploração (alta perplexidade) e exploração (baixa perplexidade, permitindo assim a mineração de amostras de granularidade fina que requerem um equilíbrio entre exploração e exploração. Subsequentemente, propomos um mecanismo de alocação de recompensa bidirecional com impacto mínimo nas recompensas de verificação para implementar a exploração e exploração guiadas pela perplexidade, permitindo uma otimização de política mais estável. Por fim, avaliamos nosso método em duas tarefas principais: raciocínio matemático e chamada de funções, e os resultados experimentais demonstram a superioridade do método proposto, confirmando sua eficácia na melhoria do desempenho do LLM através de um equilíbrio de granularidade fina entre exploração e exploração.
Os benchmarks existentes para avaliação do uso de ferramentas por agentes de LLM são maciçamente lineares: nossa análise de seis benchmarks mostra que 55 a 100% das instâncias são cadeias simples de 2 a 5 etapas. Apresentamos The Amazing Agent Race (AAR), um benchmark que apresenta quebra-cabeças de grafo acíclico direcionado (DAG) (ou "pernas") com cadeias de ferramentas do tipo fork-merge. Disponibilizamos 1.400 instâncias em duas variantes: sequencial (800 pernas) e composicional (600 pernas DAG). Os agentes devem navegar pela Wikipedia, executar cadeias de ferramentas de múltiplas etapas e agregar os resultados em uma resposta verificável. As pernas são geradas proceduralmente a partir de sementes da Wikipedia em quatro níveis de dificuldade, com validação via API ao vivo. Três métricas complementares (precisão na linha de chegada, taxa de visita ao pit-stop e taxa de conclusão de obstáculos) diagnosticam separadamente falhas de navegação, uso de ferramentas e aritméticas. Avaliando três frameworks de agentes em 1.400 pernas, o melhor alcança apenas 37,2% de precisão. Erros de navegação predominam (27 a 52% dos testes), enquanto erros de uso de ferramentas ficam abaixo de 17%, e a arquitetura do agente importa tanto quanto a escala do modelo (Claude Code empata com Codex CLI em 37%, usando 6 vezes menos tokens). A estrutura composicional do AAR revela que os agentes falham não em chamar ferramentas, mas em navegar para as páginas corretas, um ponto cego invisível para benchmarks lineares. A página do projeto pode ser acessada em: https://minnesotanlp.github.io/the-amazing-agent-race
Este artigo apresenta uma visão geral do Desafio NTIRE 2026 sobre Predição de Salitência em Vídeo. O objetivo dos participantes do desafio foi desenvolver métodos automáticos de predição de mapas de saliência para as sequências de vídeo fornecidas. Um novo conjunto de dados com 2.000 vídeos diversos e licença aberta foi preparado para este desafio. As fixações e os mapas de saliência correspondentes foram coletados por meio de rastreamento de mouse *crowdsourced* e contêm dados de visualização de mais de 5.000 avaliadores. A avaliação foi realizada em um subconjunto de 800 vídeos de teste utilizando métricas de qualidade geralmente aceitas. O desafio atraiu a participação de mais de 20 equipes com submissões, e 7 equipes passaram pela fase final, que incluiu revisão de código. Todos os dados utilizados neste desafio estão disponíveis publicamente em https://github.com/msu-video-group/NTIRE26_Saliency_Prediction.
A segmentação do adenocarcinoma ductal pancreático (PDAC) em tomografia computadorizada com contraste é inerentemente ambígua: a discordância entre avaliadores especialistas reflete uma genuína incerteza, e não ruído na anotação. As abordagens padrão de aprendizagem profunda pressupõem uma única verdade fundamental, produzindo saídas probabilísticas que podem ser mal calibradas e de difícil interpretação sob tal ambiguidade. Apresentamos o TwinTrack, uma estrutura que aborda esta lacuna através da calibração *post-hoc* das probabilidades de segmentação de *ensemble* para a resposta humana média empírica (MHR) - a fração de anotadores especialistas que classificam um voxel como tumor. As probabilidades calibradas são, portanto, diretamente interpretáveis como a proporção esperada de anotadores que atribuem o rótulo de tumor, modelando explicitamente a discordância entre avaliadores. O procedimento de calibração *post-hoc* proposto é simples e requer apenas um pequeno conjunto de calibração com múltiplos avaliadores. Ele melhora consistentemente as métricas de calibração em relação às abordagens padrão quando avaliado no benchmark multi-avaliador CURVAS-PDACVI da MICCAI 2025.
À medida que a criação de vídeos assistida por IA se torna cada vez mais prática, a edição de vídeo guiada por instruções tornou-se essencial para refinar filmagens geradas ou capturadas, a fim de atender a requisitos profissionais. No entanto, a área ainda carece tanto de um conjunto de dados em larga escala anotado por humanos, com exemplos completos de edição, quanto de um avaliador padronizado para comparar sistemas de edição. Os recursos existentes são limitados pela pequena escala, pela ausência de resultados editados ou pela falta de rótulos humanos de qualidade, enquanto a avaliação atual frequentemente depende de inspeção manual dispendiosa ou de modelos genéricos de juízes de visão e linguagem que não são especializados em qualidade de edição. Apresentamos o VEFX-Dataset, um conjunto de dados anotado por humanos contendo 5.049 exemplos de edição de vídeo em 9 categorias principais de edição e 32 subcategorias, cada um rotulado ao longo de três dimensões dissociadas: Seguimento da Instrução, Qualidade de Renderização e Exclusividade da Edição. Com base no VEFX-Dataset, propomos o VEFX-Reward, um modelo de recompensa projetado especificamente para avaliação da qualidade de edição de vídeo. O VEFX-Reward processa conjuntamente o vídeo de origem, a instrução de edição e o vídeo editado, e prevê pontuações de qualidade por dimensão via regressão ordinal. Liberamos ainda o VEFX-Bench, um benchmark de 300 pares de vídeo-instrução selecionados para comparação padronizada de sistemas de edição. Experimentos mostram que o VEFX-Reward se alinha mais fortemente com os julgamentos humanos do que juízes de VLM genéricos e modelos de recompensa anteriores, tanto em métricas padrão de IQA/VQA quanto em avaliação de preferência por grupo. Usando o VEFX-Reward como avaliador, analisamos sistemas representativos de edição de vídeo comerciais e de código aberto, revelando uma lacuna persistente entre plausibilidade visual, seguimento da instrução e localidade da edição nos modelos atuais.
Apresentamos o ArtifactNet, uma estrutura leve que detecta música gerada por IA reformulando o problema como física forense — extraindo e analisando os artefatos físicos que os codecs neurais de áudio imprimem inevitavelmente no áudio gerado. Uma UNet com máscara limitada (ArtifactUNet, 3,6M de parâmetros) extrai resíduos do codec de espectrogramas de magnitude, que são então decompostos via HPSS em características forenses de 7 canais para classificação por uma CNN compacta (0,4M de parâmetros; 4,0M no total). Introduzimos o ArtifactBench, um benchmark de avaliação multi-gerador composto por 6.183 faixas (4.383 de IA de 22 geradores e 1.800 reais de 6 fontes diversas). Cada faixa é etiquetada com `bench_origin` para avaliação zero-shot justa. Na partição de teste não vista (n=2.263), o ArtifactNet atinge F1 = 0,9829 com FPR = 1,49%, comparado ao CLAM (F1 = 0,7576, FPR = 69,26%) e ao SpecTTTra (F1 = 0,7713, FPR = 19,43%) avaliados sob condições idênticas com checkpoints publicados. O treinamento com consciência do codec (aumento de dados em 4 vias: WAV/MP3/AAC/Opus) reduz ainda mais o *drift* de probabilidade entre codecs em 83% (Delta = 0,95 -> 0,16), resolvendo o principal modo de falha de invariância do codec. Estes resultados estabelecem a física forense — extração direta de artefatos a nível de codec — como um paradigma mais generalizável e eficiente em parâmetros para detecção de música IA do que a aprendizagem de representação, usando 49x menos parâmetros que o CLAM e 4,8x menos que o SpecTTTra.