Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o TurboDiffusion, uma estrutura de aceleração de geração de vídeo que pode acelerar a geração por difusão de ponta a ponta em 100 a 200 vezes, mantendo a qualidade do vídeo. O TurboDiffusion baseia-se principalmente em vários componentes para a aceleração: (1) Aceleração de atenção: o TurboDiffusion utiliza SageAttention de baixo bit e Atenção Esparsa Linear (SLA) treinável para acelerar o cálculo de atenção. (2) Destilação de passos: o TurboDiffusion adota o rCM para uma destilação de passos eficiente. (3) Quantização W8A8: o TurboDiffusion quantiza os parâmetros do modelo e as ativações para 8 bits para acelerar as camadas lineares e comprimir o modelo. Além disso, o TurboDiffusion incorpora várias outras otimizações de engenharia. Realizamos experimentos nos modelos Wan2.2-I2V-14B-720P, Wan2.1-T2V-1.3B-480P, Wan2.1-T2V-14B-720P e Wan2.1-T2V-14B-480P. Os resultados experimentais mostram que o TurboDiffusion alcança uma aceleração de 100 a 200 vezes na geração de vídeo, mesmo em uma única GPU RTX 5090, mantendo uma qualidade de vídeo comparável. O repositório GitHub, que inclui *checkpoints* do modelo e código de fácil utilização, está disponível em https://github.com/thu-ml/TurboDiffusion.
Os modelos visão-linguagem (VLM) destacam-se na compreensão geral, mas permanecem fracos no raciocínio espacial dinâmico (DSR), ou seja, no raciocínio sobre a evolução da geometria e das relações dos objetos no espaço 3D ao longo do tempo, em grande parte devido à escassez de recursos de treinamento escaláveis e conscientes da 4D. Para preencher esta lacuna nos aspetos de conjunto de dados, benchmark e modelo, apresentamos a DSR Suite. Primeiro, propomos um pipeline automatizado que gera pares de perguntas-respostas de múltipla escolha a partir de vídeos do mundo real para DSR. Ao alavancar modelos de base de visão modernos, o pipeline extrai informações ricas de geometria e movimento, incluindo poses de câmara, nuvens de pontos locais, máscaras de objetos, orientações e trajetórias 3D. Estas pistas geométricas permitem a construção do DSR-Train para aprendizagem e do DSR-Bench, refinado posteriormente por humanos, para avaliação. Em comparação com trabalhos anteriores, os nossos dados enfatizam (i) fontes de vídeo do mundo real, (ii) requisitos 3D a nível de objeto e de cena, (iii) transformações de ponto de vista, (iv) interações multiobjeto e (v) respostas processuais e de granularidade fina. Para além dos dados, propomos um módulo leve de Seleção de Geometria (GSM) para integrar perfeitamente conhecimentos prévios de geometria em VLMs, que condensa a semântica da pergunta e extrai conhecimentos relevantes para a pergunta a partir de conhecimentos prévios de reconstrução 4D pré-treinados num conjunto compacto de tokens de geometria. Esta extração direcionada evita sobrecarregar o modelo com conhecimento irrelevante. Experiências mostram que a integração do DSR-Train e do GSM no Qwen2.5-VL-7B melhora significativamente a sua capacidade de raciocínio espacial dinâmico, mantendo a precisão em benchmarks de compreensão geral de vídeo.
Apresentamos o Nemotron 3 Nano 30B-A3B, um modelo de linguagem híbrido Mamba-Transformer do tipo Mistura de Especialistas. O Nemotron 3 Nano foi pré-treinado em 25 trilhões de tokens de texto, incluindo mais de 3 trilhões de tokens únicos novos em relação ao Nemotron 2, seguido por ajuste fino supervisionado e RL em larga escala em ambientes diversos. O Nemotron 3 Nano atinge uma precisão superior à nossa geração anterior, Nemotron 2 Nano, enquanto ativa menos da metade dos parâmetros por passagem forward. Ele alcança um throughput de inferência até 3,3 vezes maior do que modelos abertos de tamanho similar, como o GPT-OSS-20B e o Qwen3-30B-A3B-Thinking-2507, além de ser mais preciso em benchmarks populares. O Nemotron 3 Nano demonstra capacidades aprimoradas de agentes, raciocínio e conversação, e suporta contextos de até 1 milhão de tokens. Disponibilizamos tanto o checkpoint Base pré-treinado Nemotron 3 Nano 30B-A3B quanto o checkpoint pós-treinado Nemotron 3 Nano 30B-A3B no Hugging Face.
Apresentamos a família de modelos Nemotron 3 - Nano, Super e Ultra. Estes modelos oferecem capacidades robustas de agência, raciocínio e conversação. A família Nemotron 3 utiliza uma arquitetura híbrida *Mixture-of-Experts* Mamba-Transformer para proporcionar um *throughput* de classe superior e contextos de até 1 milhão de *tokens*. Os modelos Super e Ultra são treinados com NVFP4 e incorporam o LatentMoE, uma abordagem inovadora que melhora a qualidade do modelo. Os dois modelos maiores também incluem camadas MTP para uma geração de texto mais rápida. Todos os modelos Nemotron 3 são pós-treinados usando aprendizagem por reforço multiambiente, permitindo raciocínio, uso de ferramentas em múltiplas etapas e suporte a um controlo granular do orçamento de raciocínio. O Nano, o modelo mais pequeno, supera modelos comparáveis em precisão, mantendo-se extremamente económico para inferência. O Super é otimizado para agentes colaborativos e cargas de trabalho de alto volume, como a automação de *tickets* de TI. O Ultra, o maior modelo, oferece precisão e desempenho de raciocínio de última geração. O Nano é lançado em conjunto com o seu relatório técnico e este *white paper*, enquanto o Super e o Ultra seguir-se-ão nos próximos meses. Disponibilizaremos abertamente os pesos dos modelos, o *software* de pré e pós-treinamento, as receitas e todos os dados para os quais detemos direitos de redistribuição.
A técnica "one-shot" representa uma estética distinta e sofisticada na realização cinematográfica. No entanto, a sua realização prática é frequentemente dificultada por custos proibitivos e complexas restrições do mundo real. Embora os modelos emergentes de geração de vídeo ofereçam uma alternativa virtual, as abordagens existentes normalmente dependem de uma concatenação ingénua de clipes, que frequentemente falha em manter a suavidade visual e a coerência temporal. Neste artigo, introduzimos o DreaMontage, um framework abrangente concebido para geração guiada por frames arbitrários, capaz de sintetizar vídeos "one-shot" contínuos, expressivos e de longa duração a partir de diversas entradas fornecidas pelo utilizador. Para alcançar este objetivo, abordamos o desafio através de três dimensões principais. (i) Integramos um mecanismo de condicionamento intermédio de baixo custo computacional na arquitetura DiT. Ao empregar uma estratégia de Sintonização Adaptativa que aproveita eficazmente os dados de treino base, desbloqueamos capacidades robustas de controlo por frames arbitrários. (ii) Para melhorar a fidelidade visual e a expressividade cinematográfica, reunimos um conjunto de dados de alta qualidade e implementámos uma fase de SFT de Expressão Visual. Ao abordar questões críticas como a racionalidade do movimento do sujeito e a suavidade das transições, aplicámos um esquema DPO Personalizado, que melhora significativamente a taxa de sucesso e a usabilidade do conteúdo gerado. (iii) Para facilitar a produção de sequências estendidas, concebemos uma estratégia de inferência Autorregressiva por Segmentos que opera de forma eficiente em termos de memória. Experiências extensivas demonstram que a nossa abordagem alcança efeitos "one-shot" visualmente impressionantes e perfeitamente coerentes, mantendo a eficiência computacional, capacitando os utilizadores a transformar materiais visuais fragmentados em experiências cinematográficas "one-shot" vívidas e coesas.
Expomos um viés significativo de popularidade em modelos estado da arte de visão e linguagem (VLMs), que atingem até 34% maior precisão em edifícios famosos em comparação com edifícios comuns, indicando uma dependência de memorização em vez de compreensão generalizável. Para investigar isso sistematicamente, introduzimos o maior benchmark aberto para esta tarefa: o conjunto de dados YearGuessr, uma coleção de 55.546 imagens de edifícios com atributos multimodais de 157 países, anotadas com rótulos ordinais contínuos do seu ano de construção (1001-2024), dados GPS e contagens de visualização de página como um *proxy* para popularidade. Utilizando este conjunto de dados, enquadramos a tarefa de previsão do ano de construção como uma regressão ordinal e introduzimos métricas de precisão de intervalo sensíveis à popularidade para quantificar este viés. O nosso *benchmark* resultante de 30+ modelos, incluindo o nosso modelo YearCLIP, confirma que os VLMs se destacam em itens populares e memorizados, mas têm dificuldades significativas com sujeitos não reconhecidos, expondo uma falha crítica nas suas capacidades de raciocínio. Página do projeto: https://sytwu.github.io/BeyondMemo/
A geração Texto-para-Áudio-Vídeo (T2AV) tem como objetivo sintetizar vídeo temporalmente coerente e áudio semanticamente sincronizado a partir de linguagem natural, mas a sua avaliação permanece fragmentada, frequentemente dependendo de métricas unimodais ou benchmarks de escopo restrito que não capturam o alinhamento cross-modal, a aderência a instruções e o realismo perceptual sob prompts complexos. Para enfrentar esta limitação, apresentamos o T2AV-Compass, um benchmark unificado para avaliação abrangente de sistemas T2AV, composto por 500 prompts diversos e complexos construídos através de um *pipeline* orientado por taxonomia para garantir riqueza semântica e plausibilidade física. Além disso, o T2AV-Compass introduz um quadro de avaliação de duplo nível que integra métricas objetivas de nível de sinal para qualidade de vídeo, qualidade de áudio e alinhamento cross-modal com um protocolo subjetivo MLLM-como-Juiz para avaliação da aderência a instruções e do realismo. Uma avaliação extensiva de 11 sistemas T2AV representativos revela que mesmo os modelos mais fortes ficam substancialmente aquém do realismo e da consistência cross-modal de nível humano, com falhas persistentes no realismo do áudio, sincronização de granularidade fina, aderência a instruções, etc. Estes resultados indicam um espaço significativo de melhoria para modelos futuros e destacam o valor do T2AV-Compass como um banco de testes desafiador e diagnóstico para o avanço da geração texto-para-áudio-vídeo.
A geração de vídeo de alta resolução, embora crucial para a mídia digital e o cinema, enfrenta um estrangulamento computacional devido à complexidade quadrática dos modelos de difusão, tornando a inferência prática inviável. Para resolver isso, introduzimos o HiStream, uma estrutura autoregressiva eficiente que reduz sistematicamente a redundância em três eixos: i) Compressão Espacial: remoção de ruído em baixa resolução antes do refinamento em alta resolução com características em cache; ii) Compressão Temporal: uma estratégia de bloco a bloco com um cache de âncora de tamanho fixo, garantindo velocidade de inferência estável; e iii) Compressão de Passos Temporais: aplicação de menos etapas de remoção de ruído aos blocos subsequentes, condicionados pelo cache. Em benchmarks de 1080p, nosso modelo principal HiStream (i+ii) atinge qualidade visual de última geração enquanto demonstra uma remoção de ruído até 76,2x mais rápida em comparação com a linha de base Wan2.1 e uma perda de qualidade insignificante. Nossa variante mais rápida, HiStream+, aplica todas as três otimizações (i+ii+iii), alcançando uma aceleração de 107,5x sobre a linha de base, oferecendo uma relação convincente entre velocidade e qualidade, tornando assim a geração de vídeo de alta resolução prática e escalável.
Os tokenizadores fornecem a base fundamental através da qual o texto é representado e processado por modelos de linguagem (ML). Apesar da importância da tokenização, seu papel no desempenho e comportamento dos ML é pouco compreendido devido ao desafio de medir o impacto da tokenização de forma isolada. Para suprir esta necessidade, apresentamos o TokSuite, uma coleção de modelos e um benchmark que apoia a investigação sobre a influência da tokenização nos ML. Especificamente, treinamos catorze modelos que utilizam diferentes tokenizadores, mas que são idênticos em todos os outros aspetos, usando a mesma arquitetura, conjunto de dados, orçamento de treino e inicialização. Adicionalmente, curamos e disponibilizamos um novo benchmark que mede especificamente o desempenho do modelo sujeito a perturbações do mundo real que provavelmente influenciam a tokenização. Em conjunto, o TokSuite permite uma dissociação robusta da influência do tokenizador de um modelo, apoiando uma série de descobertas novas que elucidam os benefícios e limitações respetivos de uma ampla gama de tokenizadores populares.
A continuação de roteiros dramáticos exige que os modelos mantenham a consistência dos personagens, avancem a trama de forma coerente e preservem a estrutura dramática - capacidades que os *benchmarks* existentes não avaliam de forma abrangente. Apresentamos o DramaBench, o primeiro *benchmark* em larga escala para avaliar a continuação de roteiros dramáticos em seis dimensões independentes: Padrões de Formatação, Eficiência Narrativa, Consistência de Personagens, Profundidade Emocional, Consistência Lógica e Manipulação de Conflitos. Nosso *framework* combina análise baseada em regras com rotulagem baseada em LLM e métricas estatísticas, garantindo uma avaliação objetiva e reproduzível. Realizamos uma avaliação abrangente de 8 modelos de linguagem state-of-the-art em 1.103 roteiros (8.824 avaliações no total), com testes rigorosos de significância estatística (252 comparações pareadas, 65,9% significativas) e validação humana (188 roteiros, concordância substancial em 3/5 dimensões). Nossos estudos de ablação confirmam que todas as seis dimensões capturam aspectos de qualidade independentes (média | r | = 0,020). O DramaBench fornece *feedback* acionável e específico por dimensão para o aprimoramento de modelos e estabelece um padrão rigoroso para a avaliação da escrita criativa.
O aprendizado por reforço agentístico depende cada vez mais de escalonamento orientado por experiência, mas os ambientes do mundo real permanecem não adaptativos, limitados em cobertura e difíceis de escalar. Os modelos de mundo oferecem uma forma potencial de melhorar a eficiência de aprendizado por meio de experiência simulada, mas ainda não está claro se os modelos de linguagem de grande escala podem desempenhar esse papel de forma confiável e sob quais condições eles beneficiam significativamente os agentes. Estudamos essas questões em ambientes baseados em texto, que fornecem um ambiente controlado para reinterpretar a modelagem de linguagem como previsão de próximo estado sob interação. Introduzimos uma estrutura de três níveis para avaliar modelos de mundo baseados em LLM: (i) fidelidade e consistência, (ii) escalabilidade e robustez, e (iii) utilidade para o agente. Em cinco ambientes representativos, descobrimos que modelos de mundo suficientemente treinados mantêm estado latente coerente, escalam de forma previsível com dados e tamanho do modelo, e melhoram o desempenho do agente por meio de verificação de ação, geração de trajetória sintética e inicialização antecipada do aprendizado por reforço. Entretanto, esses ganhos dependem criticamente da cobertura comportamental e da complexidade do ambiente, delimitando um limite claro sobre quando a modelagem de mundo apoia efetivamente o aprendizado do agente.
Os recentes avanços no pré-treinamento de modelos de base gerais melhoraram significativamente o desempenho em diversas tarefas subsequentes. Embora modelos generativos autorregressivos (AR) como o GPT tenham revolucionado o PLN, a maioria dos métodos de pré-treinamento generativo visual ainda depende da modelagem mascarada no estilo BERT, que frequentemente desconsidera a informação temporal essencial para a análise de vídeos. Os poucos métodos de pré-treinamento visual autorregressivo existentes sofrem de problemas como localização semântica imprecisa e baixa qualidade de geração, resultando em semântica deficiente. Neste trabalho, propomos o NExT-Vid, uma nova estrutura de pré-treinamento generativo visual autorregressivo que utiliza a previsão mascarada do quadro seguinte para modelar conjuntamente imagens e vídeos. O NExT-Vid introduz um preditor autorregressivo de contexto isolado para desacoplar a representação semântica da decodificação do alvo, e um decodificador de correspondência de fluxo condicionado para melhorar a qualidade e a diversidade da geração. Através do pré-treinamento de correspondência de fluxo com contexto isolado, nossa abordagem alcança representações robustas. Experimentos extensivos com modelos de grande escala pré-treinados demonstram que nosso método proposto supera consistentemente os métodos de pré-treinamento generativo anteriores para a aprendizagem de representação visual por meio de sondagem atenta na classificação de tarefas subsequentes.
Os benchmarks existentes para agentes de IA de codificação concentram-se em tarefas isoladas e de problema único, como corrigir um bug ou implementar uma pequena funcionalidade. No entanto, a engenharia de software do mundo real é fundamentalmente uma atividade de longo prazo: os desenvolvedores devem interpretar requisitos de alto nível, planejar alterações coordenadas em muitos arquivos e evoluir bases de código ao longo de múltiplas iterações, preservando a funcionalidade existente. Apresentamos o SWE-EVO, um benchmark que avalia os agentes neste desafio de evolução de software de longo prazo. Construído a partir de notas de versão e históricos de versão de sete projetos Python de código aberto maduros, o SWE-EVO compreende 48 tarefas de evolução que exigem que os agentes implementem modificações de múltiplas etapas abrangendo uma média de 21 arquivos, validadas por conjuntos de testes abrangentes com uma média de 874 testes por instância. Experimentos com modelos state-of-the-art revelam uma lacuna de capacidade gritante: mesmo o GPT-4 com OpenHands atinge apenas uma taxa de resolução de 21% no SWE-EVO, em comparação com 65% no SWE-Bench Verified (de problema único). Isso demonstra que os agentes atuais lutam com o raciocínio sustentado e multiarquivo. Também propomos a Taxa de Correção (Fix Rate), uma métrica granular que captura o progresso parcial na resolução dessas tarefas complexas e de longo prazo.
Apresentamos o Streamo, um modelo de linguagem de grande escala (LLM) para vídeo em tempo real que funciona como um assistente interativo de propósito geral. Diferente dos modelos de vídeo online existentes, que se concentram de forma restrita em resposta a perguntas ou legendagem, o Streamo executa uma ampla gama de tarefas de vídeo em fluxo contínuo, incluindo narração em tempo real, compreensão de ações, legendagem de eventos, localização temporal de eventos e resposta a perguntas sensíveis ao tempo. Para desenvolver essa versatilidade, construímos o Streamo-Instruct-465K, um conjunto de dados de larga escala de instruções personalizado para a compreensão de vídeo em streaming. O conjunto de dados abrange diversos contextos temporais e supervisão multitarefa, permitindo um treinamento unificado em tarefas heterogêneas de streaming. Após o treinamento de ponta a ponta no conjunto de dados de instruções por meio de um pipeline simplificado, o Streamo exibe forte raciocínio temporal, interação ágil e ampla generalização em uma variedade de benchmarks de streaming. Experimentos extensivos mostram que o Streamo preenche a lacuna entre modelos de percepção de vídeo offline e assistentes multimodais em tempo real, dando um passo em direção a uma compreensão de vídeo unificada e inteligente em fluxos de vídeo contínuos.
A Geração Aumentada por Recuperação (RAG) emergiu como um paradigma poderoso para Modelos de Linguagem de Grande Porte (LLMs) abordarem consultas intensivas em conhecimento que requerem informações específicas de domínio ou atualizadas. Para lidar com questões complexas de múltiplos saltos, que são desafiadoras para a recuperação em etapa única, foram propostas abordagens RAG iterativas que incorporam aprendizagem por reforço. No entanto, os sistemas RAG iterativos existentes normalmente planejam decompor questões sem aproveitar informações sobre o corpus de recuperação disponível, levando a recuperações ineficientes e cadeias de raciocínio que se propagam em cascata para um desempenho subótimo. Neste artigo, introduzimos o Alinhamento Antecipado de Conhecimento (EKA), um módulo simples mas eficaz que alinha os LLMs com o conjunto de recuperação antes do planeamento em sistemas RAG iterativos, utilizando conhecimento recuperado contextualmente relevante. Extensos experimentos em seis conjuntos de dados RAG padrão demonstram que, ao estabelecer uma base de raciocínio mais sólida, o EKA melhora significativamente a precisão da recuperação, reduz erros em cascata e aumenta tanto o desempenho quanto a eficiência. A nossa análise a partir de uma perspetiva de entropia demonstra que a incorporação de conhecimento antecipado reduz a exploração desnecessária durante o processo de raciocínio, permitindo que o modelo se concentre de forma mais eficaz em subconjuntos de informação relevantes. Além disso, o EKA mostra-se eficaz como uma estratégia de inferência versátil e livre de treino, que escala perfeitamente para modelos grandes. Testes de generalização em diversos conjuntos de dados e corpora de recuperação confirmam a robustez da nossa abordagem. No geral, o EKA avança o estado da arte em sistemas RAG iterativos, ao mesmo tempo que ilumina a interação crítica entre o raciocínio estruturado e a exploração eficiente em frameworks aumentados por aprendizagem por reforço. O código está disponível em https://github.com/yxzwang/EarlyKnowledgeAlignment{Github}.
A rápida proliferação de Modelos de Linguagem de Grande Porte (LLMs) e de diversos benchmarks especializados exige uma mudança de métricas fragmentadas e específicas por tarefa para um sistema de classificação competitivo e holístico que agregue eficazmente o desempenho em múltiplas dimensões de capacidade. Utilizando principalmente pontuação estática, os métodos atuais de avaliação são fundamentalmente limitados. Eles lutam para determinar a proporção de mistura adequada entre benchmarks diversos e, criticalmente, falham em capturar a aptidão competitiva dinâmica de um modelo ou sua vulnerabilidade quando confrontado com tarefas sequenciais de alto risco. Para resolver isso, introduzimos a nova estrutura de Dinâmica Competitiva do Sistema Suíço (CSD). A CSD simula uma competição sequencial de múltiplas rodadas onde os modelos são emparelhados dinamicamente através de uma sequência curada de benchmarks com base no seu histórico acumulado de vitórias e derrotas. E a Simulação de Monte Carlo (N=100.000 iterações) é usada para aproximar a Pontuação Esperada de Vitórias (E[S_m]) estatisticamente robusta, que elimina o ruído do emparelhamento aleatório e da sorte nas rodadas iniciais. Além disso, implementamos uma Análise de Sensibilidade à Falha parametrizando a quantidade de eliminação por rodada (T_k), o que nos permite traçar o perfil dos modelos com base no seu apetite ao risco - distinguindo entre generalistas robustos e especialistas agressivos. Demonstramos que a CSD fornece uma classificação mais matizada e consciente do contexto do que a pontuação agregada tradicional e os modelos de pares estáticos, representando um passo vital para a avaliação de próxima geração de LLMs baseada em risco.
Neste trabalho, apresentamos o PhononBench, o primeiro benchmark em larga escala para estabilidade dinâmica em cristais gerados por IA. Utilizando o potencial interatômico MatterSim, recentemente desenvolvido, que alcança precisão ao nível do DFT em previsões de fónons para mais de 10.000 materiais, o PhononBench permite cálculos eficientes de fónons em larga escala e análise de estabilidade dinâmica para 108.843 estruturas cristalinas geradas por seis modelos líderes de geração de cristais. O PhononBench revela uma limitação generalizada dos modelos generativos atuais em garantir a estabilidade dinâmica: a taxa média de estabilidade dinâmica em todas as estruturas geradas é de apenas 25,83%, com o modelo de melhor desempenho, o MatterGen, atingindo apenas 41,0%. Estudos de caso adicionais mostram que, na geração direcionada por propriedades – ilustrada aqui pelo condicionamento do *band gap* com o MatterGen – a taxa de estabilidade dinâmica permanece tão baixa quanto 23,5%, mesmo na condição ótima de *band gap* de 0,5 eV. Na geração controlada por grupo espacial, cristais com simetria mais elevada exibem melhor estabilidade (por exemplo, sistemas cúbicos atingem taxas de até 49,2%), mas a estabilidade média em todas as gerações controladas é de apenas 34,4%. Um resultado adicional importante deste estudo é a identificação de 28.119 estruturas cristalinas que são fononicamente estáveis em toda a zona de Brillouin, fornecendo um conjunto substancial de candidatos confiáveis para futura exploração de materiais. Ao estabelecer o primeiro benchmark de estabilidade dinâmica em larga escala, este trabalho destaca sistematicamente as limitações atuais dos modelos de geração de cristais e oferece critérios de avaliação e orientação essenciais para o seu desenvolvimento futuro em direção ao projeto e descoberta de materiais fisicamente viáveis. Todas as estruturas cristalinas geradas pelos modelos, os resultados dos cálculos de fónons e os fluxos de trabalho de avaliação de alto rendimento desenvolvidos no PhononBench serão disponibilizados publicamente em https://github.com/xqh19970407/PhononBench.