Artigos de pesquisa em IA selecionados diariamente com traduções
Os recentes modelos de difusão texto-para-vídeo podem gerar sequências de vídeo convincentes, mas permanecem silenciosos — carecendo das pistas semânticas, emocionais e atmosféricas fornecidas pelo áudio. Apresentamos o LTX-2, um modelo fundamental de código aberto capaz de gerar conteúdo audiovisual de alta qualidade e temporalmente sincronizado de forma unificada. O LTX-2 consiste em um transformador de fluxo duplo assimétrico, com um fluxo de vídeo de 14 bilhões de parâmetros e um fluxo de áudio de 5 bilhões de parâmetros, acoplados por meio de camadas bidirecionais de atenção cruzada áudio-vídeo com incorporações posicionais temporais e AdaLN de cross-modalidade para condicionamento compartilhado de passo temporal. Essa arquitetura permite o treinamento e a inferência eficientes de um modelo audiovisual unificado, alocando mais capacidade para a geração de vídeo do que para a geração de áudio. Empregamos um codificador de texto multilíngue para uma compreensão mais ampla dos *prompts* e introduzimos um mecanismo de orientação livre de classificador com consciência de modalidade (modality-CFG) para melhor alinhamento e controlabilidade audiovisual. Além de gerar fala, o LTX-2 produz faixas de áudio ricas e coerentes que seguem os personagens, ambiente, estilo e emoção de cada cena — completas com elementos naturais de fundo e *foley*. Em nossas avaliações, o modelo alcança qualidade audiovisual e aderência ao *prompt* de última geração entre os sistemas de código aberto, enquanto entrega resultados comparáveis aos modelos proprietários a uma fração de seu custo computacional e tempo de inferência. Todos os pesos do modelo e o código são disponibilizados publicamente.
Os métodos existentes de estimativa de profundidade são fundamentalmente limitados à previsão de profundidade em grades de imagem discretas. Tais representações restringem sua escalabilidade para resoluções de saída arbitrárias e dificultam a recuperação de detalhes geométricos. Este artigo apresenta o InfiniDepth, que representa a profundidade como campos implícitos neurais. Por meio de um decodificador implícito local simples, porém eficaz, podemos consultar a profundidade em coordenadas 2D contínuas, permitindo uma estimativa de profundidade de resolução arbitrária e de granularidade fina. Para melhor avaliar as capacidades do nosso método, criamos um benchmark sintético 4K de alta qualidade a partir de cinco jogos diferentes, abrangendo diversas cenas com ricos detalhes geométricos e de aparência. Experimentos extensivos demonstram que o InfiniDepth alcança desempenho de última geração em benchmarks sintéticos e do mundo real em tarefas de estimativa de profundidade relativa e métrica, destacando-se particularmente em regiões de detalhes finos. O método também beneficia a tarefa de síntese de novas visões sob grandes mudanças de ponto de vista, produzindo resultados de alta qualidade com menos buracos e artefatos.
A Transcrição com Identificação e Carimbo Temporal do Locutor (SATS) visa transcrever o que é dito e determinar com precisão o momento de fala de cada locutor, sendo particularmente valiosa para transcrição de reuniões. Os sistemas SATS existentes raramente adotam uma formulação end-to-end e são ainda limitados por janelas de contexto restritas, memória fraca de locutores em longos intervalos e incapacidade de produzir carimbos temporais. Para superar essas limitações, apresentamos o MOSS Transcribe Diarize, um modelo de linguagem multimodal unificado que realiza conjuntamente a Transcrição com Identificação e Carimbo Temporal do Locutor em um paradigma end-to-end. Treinado com extensos dados do mundo real e equipado com uma janela de contexto de 128k para entradas de até 90 minutos, o MOSS Transcribe Diarize escala eficientemente e generaliza com robustez. Em avaliações abrangentes, supera sistemas comerciais de ponta em múltiplos benchmarks públicos e internos.
Embora os Modelos Multimodais Unificados (UMMs) tenham alcançado sucesso notável na compreensão cruzada de modalidades, uma lacuna significativa persiste em sua capacidade de aproveitar tal conhecimento interno para geração de alta qualidade. Formalizamos essa discrepância como Afasia de Condução, um fenômeno em que os modelos interpretam com precisão entradas multimodais, mas lutam para traduzir esse entendimento em uma síntese fiel e controlável. Para resolver isso, propomos o UniCorn, uma estrutura de autossuperação simples, porém elegante, que elimina a necessidade de dados externos ou supervisão de um modelo professor. Ao particionar um único UMM em três funções colaborativas: Propositor, Solucionador e Juiz, o UniCorn gera interações de alta qualidade via autojogo e emprega a reconstrução de padrões cognitivos para destilar o entendimento latente em sinais gerativos explícitos. Para validar a restauração da coerência multimodal, introduzimos o UniCycle, um benchmark de consistência cíclica baseado em um loop de reconstrução Texto para Imagem para Texto. Experimentos extensivos demonstram que o UniCorn alcança melhorias abrangentes e substanciais sobre o modelo base em seis benchmarks gerais de geração de imagem. Notavelmente, ele atinge desempenho de estado da arte no TIIF(73.8), DPG(86.8), CompBench(88.5) e UniCycle, enquanto ainda proporciona ganhos substanciais de +5.0 no WISE e +6.5 no OneIG. Esses resultados destacam que nosso método melhora significativamente a geração de T2I, mantendo uma compreensão robusta, demonstrando a escalabilidade do refinamento totalmente autossupervisionado para a inteligência multimodal unificada.
Apresentamos o NitroGen, um modelo de base visão-ação para agentes generalistas de jogos, treinado em 40.000 horas de vídeos de gameplay de mais de 1.000 jogos. Incorporamos três elementos-chave: 1) um conjunto de dados vídeo-ação em escala de internet, construído através da extração automática de ações do jogador a partir de vídeos de gameplay publicamente disponíveis, 2) um ambiente de avaliação multijogos capaz de medir a generalização entre jogos, e 3) um modelo unificado visão-ação treinado com clonagem comportamental em larga escala. O NitroGen exibe competência notável em domínios diversos, incluindo combates em jogos de ação 3D, controle de alta precisão em plataformas 2D e exploração em mundos gerados proceduralmente. O modelo transfere eficazmente seu conhecimento para jogos não vistos, alcançando uma melhoria relativa de até 52% nas taxas de sucesso de tarefas em comparação com modelos treinados do zero. Disponibilizamos o conjunto de dados, o ambiente de avaliação e os pesos do modelo para avançar a pesquisa em agentes corporificados generalistas.
Os agentes baseados em fluxos de trabalho tradicionais apresentam inteligência limitada ao abordar problemas do mundo real que exigem invocação de ferramentas. Agentes de raciocínio integrado com ferramentas (TIR), capazes de raciocínio autônomo e invocação de ferramentas, emergem rapidamente como uma abordagem poderosa para tarefas complexas de tomada de decisão envolvendo interações multi-etapas com ambientes externos. Neste trabalho, apresentamos o MindWatcher, um agente TIR que integra pensamento intercalado e raciocínio multimodal de cadeia de pensamento (CoT). O MindWatcher pode decidir autonomamente se e como invocar diversas ferramentas e coordenar seu uso, sem depender de prompts humanos ou fluxos de trabalho predefinidos. O paradigma de pensamento intercalado permite ao modelo alternar entre pensar e invocar ferramentas em qualquer estágio intermediário, enquanto sua capacidade multimodal de CoT permite a manipulação de imagens durante o raciocínio para produzir resultados de busca mais precisos. Implementamos pipelines automatizados de auditoria e avaliação de dados, complementados por conjuntos de dados de alta qualidade curados manualmente para treinamento, e construímos um benchmark, denominado MindWatcher-Evaluate Bench (MWE-Bench), para avaliar seu desempenho. O MindWatcher é equipado com um conjunto abrangente de ferramentas de raciocínio auxiliar, permitindo-lhe abordar problemas multimodais de amplo domínio. Um banco de dados de recuperação de imagens locais de grande escala e alta qualidade, cobrindo oito categorias incluindo carros, animais e plantas, confere ao modelo um reconhecimento de objetos robusto apesar de seu tamanho reduzido. Por fim, projetamos uma infraestrutura de treinamento mais eficiente para o MindWatcher, aumentando a velocidade de treinamento e a utilização de hardware. Experimentos não apenas demonstram que o MindWatcher iguala ou supera o desempenho de modelos maiores ou mais recentes por meio de uma invocação de ferramentas superior, mas também revelam insights críticos para o treinamento de agentes, como o fenômeno de herança genética no RL agentivo.
Apresentamos o SciEvalKit, um kit de ferramentas unificado de avaliação comparativa projetado para avaliar modelos de IA para a ciência em uma ampla gama de disciplinas científicas e capacidades de tarefa. Ao contrário das plataformas de avaliação de propósito geral, o SciEvalKit concentra-se nas competências centrais da inteligência científica, incluindo Percepção Multimodal Científica, Raciocínio Multimodal Científico, Compreensão Multimodal Científica, Raciocínio Simbólico Científico, Geração de Código Científico, Geração de Hipóteses Científicas e Compreensão do Conhecimento Científico. Ele suporta seis domínios científicos principais, abrangendo desde física e química até astronomia e ciência dos materiais. O SciEvalKit constrói uma base de parâmetros de referência científicos de nível especialista, curados a partir de conjuntos de dados específicos de domínio do mundo real, garantindo que as tarefas reflitam desafios científicos autênticos. O kit de ferramentas apresenta um pipeline de avaliação flexível e extensível que permite a avaliação em lote entre modelos e conjuntos de dados, suporta a integração personalizada de modelos e conjuntos de dados e fornece resultados transparentes, reproduzíveis e comparáveis. Ao unir a avaliação baseada em capacidades e a diversidade disciplinar, o SciEvalKit oferece uma infraestrutura padronizada, mas personalizável, para avaliar comparativamente a próxima geração de modelos de base científicos e agentes inteligentes. O kit de ferramentas é de código aberto e mantido ativamente para promover o desenvolvimento e o progresso orientados pela comunidade em IA para a Ciência.
Apresentamos o MiMo-V2-Flash, um modelo do tipo Mixture-of-Experts (MoE) com 309B de parâmetros totais e 15B de parâmetros ativos, projetado para capacidades rápidas e robustas de raciocínio e ação autônoma (agêntica). O MiMo-V2-Flash adota uma arquitetura de atenção híbrida que intercala Atenção por Janela Deslizante (Sliding Window Attention - SWA) com atenção global, utilizando uma janela deslizante de 128 *tokens* sob uma razão híbrida de 5:1. O modelo foi pré-treinado em 27 trilhões de *tokens* com Predição Multi-Token (Multi-Token Prediction - MTP), empregando um comprimento de contexto nativo de 32k e subsequentemente estendido para 256k. Para escalonar eficientemente a computação pós-treinamento, o MiMo-V2-Flash introduz um novo paradigma de Destilação On-Policy com Múltiplos Professores (Multi-Teacher On-Policy Distillation - MOPD). Nesta estrutura, professores especializados por domínio (por exemplo, treinados via aprendizado por reforço em larga escala) fornecem recompensas densas e em nível de *token*, permitindo que o modelo estudante domine perfeitamente a expertise do professor. O MiMo-V2-Flash rivaliza com modelos de código aberto de primeira linha, como DeepSeek-V3.2 e Kimi-K2, apesar de usar apenas 1/2 e 1/3 de seus parâmetros totais, respectivamente. Durante a inferência, ao reaproveitar o MTP como um modelo rascunho para decodificação especulativa, o MiMo-V2-Flash alcança um comprimento de aceitação de até 3,6 e uma aceleração de velocidade de decodificação de 2,6x com três camadas MTP. Disponibilizamos em código aberto tanto os pesos do modelo quanto os pesos da camada MTP de três níveis para fomentar a pesquisa aberta e a colaboração comunitária.
Os modelos visão-linguagem-ação (VLA) alcançam forte generalização através de pré-treinamento em larga escala, mas a implantação no mundo real exige proficiência em tarefas de nível especialista, além de ampla generalidade. As abordagens existentes de pós-treinamento para modelos VLA são tipicamente offline, de robô único ou específicas para tarefas, limitando a adaptação eficaz sob a política atual e o aprendizado escalável a partir da interação no mundo real. Apresentamos um sistema de Pós-treinamento Online Escalável (SOP) que permite o pós-treinamento online, distribuído e multi-tarefa de modelos VLA generalistas diretamente no mundo físico. O SOP acopla estreitamente execução e aprendizado por meio de uma arquitetura de ciclo fechado na qual uma frota de robôs transmite continuamente experiências sob a política atual e sinais de intervenção humana para um aprendiz centralizado na nuvem, e recebe assincronamente políticas atualizadas. Este projeto suporta correção rápida sob a política atual, escala a coleta de experiência através de implantação paralela e preserva a generalidade durante a adaptação. O SOP é agnóstico em relação à escolha do algoritmo de pós-treinamento; nós o instanciamos com aprendizado por imitação interativo (HG-DAgger) e aprendizado por reforço (RECAP). Em uma variedade de tarefas de manipulação no mundo real, incluindo dobrar roupas, montar caixas e reabastecer mercadorias, mostramos que o SOP melhora substancialmente o desempenho de grandes modelos VLA pré-treinados, mantendo uma única política compartilhada entre tarefas. O pós-treinamento eficaz pode ser alcançado em poucas horas de interação no mundo real, e o desempenho escala de forma quase linear com o número de robôs na frota. Estes resultados sugerem que o acoplamento estreito do aprendizado online com a implantação em escala de frota é fundamental para permitir o pós-treinamento eficiente, confiável e escalável de políticas de robôs generalistas no mundo físico.
A estilização de vídeo, uma importante tarefa subsequente dos modelos de geração de vídeo, ainda não foi explorada minuciosamente. As suas condições de estilo de entrada incluem tipicamente texto, imagem de estilo e primeiro quadro estilizado. Cada condição apresenta uma vantagem característica: o texto é mais flexível, a imagem de estilo fornece uma referência visual mais precisa e o primeiro quadro estilizado torna viável a estilização de vídeos longos. Contudo, os métodos existentes estão amplamente confinados a um único tipo de condição de estilo, o que limita o seu âmbito de aplicação. Adicionalmente, a falta de conjuntos de dados de alta qualidade resulta em inconsistência de estilo e cintilação temporal. Para superar estas limitações, introduzimos o DreamStyle, uma estrutura unificada para estilização de vídeo, suportando (1) estilização de vídeo guiada por texto, (2) guiada por imagem de estilo e (3) guiada pelo primeiro quadro, acompanhada por um pipeline de curadoria de dados bem concebido para obter dados de vídeo emparelhados de alta qualidade. O DreamStyle é construído sobre um modelo básico de Imagem-para-Vídeo (I2V) e treinado usando uma Adaptação de Baixa Classificação (LoRA) com matrizes de ascensão específicas por token que reduzem a confusão entre diferentes tokens de condição. Avaliações qualitativas e quantitativas demonstram que o DreamStyle é competente em todas as três tarefas de estilização de vídeo e supera os concorrentes em consistência de estilo e qualidade de vídeo.
Os gémeos digitais, enquanto representações digitais precisas de sistemas físicos, evoluíram de ferramentas de simulação passiva para entidades inteligentes e autónomas através da integração de tecnologias de inteligência artificial. Este artigo apresenta um quadro unificado de quatro fases que caracteriza sistematicamente a integração da IA ao longo do ciclo de vida do gémeo digital, abrangendo modelação, espelhamento, intervenção e gestão autónoma. Ao sintetizar tecnologias e práticas existentes, destilamos um quadro unificado de quatro fases que caracteriza sistematicamente como as metodologias de IA são incorporadas no ciclo de vida do gémeo digital: (1) modelação do gémeo físico através de abordagens de IA baseadas em física e informadas pela física, (2) espelhamento do sistema físico num gémeo digital com sincronização em tempo real, (3) intervenção no gémeo físico através de modelação preditiva, deteção de anomalias e estratégias de otimização, e (4) obtenção de gestão autónoma através de modelos de linguagem de grande escala, modelos de base e agentes inteligentes. Analisamos a sinergia entre a modelação baseada na física e a aprendizagem orientada por dados, destacando a transição dos solucionadores numéricos tradicionais para modelos informados pela física e modelos de base para sistemas físicos. Adicionalmente, examinamos como as tecnologias de IA generativa, incluindo modelos de linguagem de grande escala e modelos generativos de mundo, transformam os gémeos digitais em sistemas cognitivos proativos e auto melhorados, capazes de raciocínio, comunicação e geração criativa de cenários. Através de uma revisão transversal abrangendo onze domínios de aplicação, incluindo saúde, aerospacial, manufatura inteligente, robótica e cidades inteligentes, identificamos desafios comuns relacionados com escalabilidade, explicabilidade e confiabilidade, e delineamos direções para sistemas de gémeos digitais orientados por IA responsável.
Apesar dos progressos significativos, os modelos de linguagem multimodal continuam a enfrentar dificuldades na resolução de problemas matemáticos visuais. Alguns trabalhos recentes reconhecem que a percepção visual é um gargalo no raciocínio matemático visual, mas as suas soluções limitam-se a melhorar a extração e interpretação de inputs visuais. Notavelmente, todos ignoram a questão fundamental de saber se os indícios visuais extraídos são fielmente integrados e adequadamente utilizados no raciocínio subsequente. Motivados por esta lacuna, apresentamos o CogFlow, uma nova estrutura cognitiva inspirada em três fases que incorpora uma etapa de internalização de conhecimento, simulando explicitamente o fluxo hierárquico do raciocínio humano: percepção ⇒ internalização ⇒ raciocínio. Alinhados com este fluxo hierárquico, melhoramos holisticamente todas as suas etapas. Concebemos Recompensas Visuais Sinérgicas para impulsionar as capacidades de perceção nos espaços paramétrico e semântico, melhorando conjuntamente a extração de informação visual de símbolos e diagramas. Para garantir uma integração fiel dos indícios visuais extraídos no raciocínio subsequente, introduzimos um modelo de Recompensa de Internalização de Conhecimento na fase de internalização, estabelecendo uma ponte entre a perceção e o raciocínio. Além disso, projetamos um algoritmo de Otimização de Política com Porta Visual para reforçar que o raciocínio esteja ancorado no conhecimento visual, impedindo que os modelos procurem atalhos que resultem em cadeias de raciocínio aparentemente coerentes, mas visualmente infundadas. Adicionalmente, contribuímos com um novo conjunto de dados, o MathCog, para treino de modelos, que contém amostras com mais de 120 mil anotações de alta qualidade alinhadas com perceção-raciocínio. Experiências abrangentes e análises em benchmarks comuns de raciocínio matemático visual validam a superioridade do CogFlow proposto.
Apresentamos o WebGym, o ambiente de código aberto mais abrangente até à data para treinar agentes web visuais realistas. Os websites reais são não estacionários e diversificados, tornando conjuntos de tarefas artificiais ou de pequena escala insuficientes para uma aprendizagem robusta de políticas. O WebGym contém cerca de 300.000 tarefas com avaliações baseadas em rubricas, abrangendo websites reais diversificados e vários níveis de dificuldade. Treinamos agentes com uma receita simples de aprendizagem por reforço (RL), que os treina com base nos seus próprios traços de interação (rollouts), utilizando as recompensas das tarefas como feedback para orientar a aprendizagem. Para permitir a escalabilidade da RL, aceleramos a amostragem de trajetórias no WebGym através do desenvolvimento de um sistema de rollouts assíncrono de alto débito, concebido especificamente para agentes web. O nosso sistema alcança uma aceleração de rollouts 4 a 5 vezes superior em comparação com implementações ingénuas. Em segundo lugar, escalamos a amplitude, profundidade e dimensão do conjunto de tarefas, o que resulta numa melhoria contínua de desempenho. O *fine-tuning* de um modelo base vision-language robusto, o Qwen-3-VL-8B-Instruct, no WebGym resulta numa melhoria da taxa de sucesso num conjunto de teste fora da distribuição de 26,2% para 42,9%, superando significativamente agentes baseados em modelos proprietários como o GPT-4o e o GPT-5-Thinking, que alcançam 27,1% e 29,8%, respetivamente. Esta melhoria é substancial porque o nosso conjunto de teste consiste apenas em tarefas em websites nunca vistos durante o treino, ao contrário de muitos outros trabalhos anteriores sobre o treino de agentes web visuais.
A rápida integração de Modelos de Linguagem Multimodais de Grande Escala (MLLMs) em aplicações críticas está cada vez mais obstruída por vulnerabilidades de segurança persistentes. No entanto, os benchmarks existentes de *red-teaming* são frequentemente fragmentados, limitados a interações de texto de turno único e carecem da escalabilidade necessária para uma avaliação sistemática. Para resolver isso, introduzimos o OpenRT, uma estrutura de *red-teaming* unificada, modular e de alto rendimento, projetada para uma avaliação abrangente da segurança de MLLMs. Em seu cerne, o OpenRT arquiteta uma mudança de paradigma no *red-teaming* automatizado, introduzindo um núcleo adversário que permite uma separação modular em cinco dimensões críticas: integração de modelos, gestão de conjuntos de dados, estratégias de ataque, métodos de julgamento e métricas de avaliação. Ao padronizar as interfaces de ataque, ele desacopla a lógica adversária de um ambiente de execução assíncrono de alto rendimento, permitindo uma escalagem sistemática em diversos modelos. Nossa estrutura integra 37 metodologias de ataque diversas, abrangendo gradientes de *white-box*, perturbações multimodais e sofisticadas estratégias evolutivas multiagente. Através de um extenso estudo empírico em 20 modelos avançados (incluindo GPT-5.2, Claude 4.5 e Gemini 3 Pro), expomos lacunas críticas de segurança: mesmo os modelos de fronteira falham em generalizar entre paradigmas de ataque, com os modelos líderes exibindo Taxas Médias de Sucesso de Ataque de até 49,14%. Notavelmente, nossas descobertas revelam que modelos de raciocínio não possuem inerentemente uma robustez superior contra *jailbreaks* complexos e multi-turno. Ao disponibilizar o OpenRT como código aberto, fornecemos uma infraestrutura sustentável, extensível e continuamente mantida que acelera o desenvolvimento e a padronização da segurança da IA.
Apesar dos avanços impressionantes na síntese de imagens de alta fidelidade, os modelos generativos ainda lutam para seguir instruções que exigem grande carga lógica, expondo uma lacuna persistente entre raciocínio e execução. Entretanto, sistemas de código fechado (por exemplo, Nano Banana) demonstraram uma geração de imagens fortemente orientada por raciocínio, destacando uma diferença substancial em relação aos modelos atuais de código aberto. Argumentamos que fechar essa lacuna requer não apenas melhores geradores visuais, mas um raciocínio executável: decompor intenções de alto nível em planos fundamentados e verificáveis que orientam diretamente o processo generativo. Para esse fim, propomos o Unified Thinker, uma arquitetura de raciocínio agnóstica a tarefas para geração geral de imagens, projetada como um núcleo de planejamento unificado que pode ser integrado a diversos geradores e fluxos de trabalho. O Unified Thinker desacopla um módulo Thinker dedicado do Gerador de imagens, permitindo atualizações modulares do raciocínio sem precisar retreinar todo o modelo generativo. Introduzimos ainda um paradigma de treinamento em dois estágios: primeiro, construímos uma interface de planejamento estruturado para o Thinker e, em seguida, aplicamos aprendizado por reforço para fundamentar sua política em feedback a nível de pixel, incentivando planos que otimizam a correção visual em vez da plausibilidade textual. Experimentos extensos em geração de texto para imagem e edição de imagem mostram que o Unified Thinker melhora substancialmente o raciocínio sobre a imagem e a qualidade da geração.
Apresentamos o Muses, o primeiro método livre de treinamento para geração fantástica de criaturas 3D em um paradigma *feed-forward*. Métodos anteriores, que dependem de otimização com consciência de partes, montagem manual ou geração de imagens 2D, frequentemente produzem ativos 3D irreais ou incoerentes devido aos desafios da manipulação intrincada em nível de partes e da geração limitada fora do domínio. Em contraste, o Muses aproveita o esqueleto 3D, uma representação fundamental das formas biológicas, para compor explicitamente e de forma racional elementos diversos. Esta base esquelética formaliza a criação de conteúdo 3D como um *pipeline* consciente da estrutura de design, composição e geração. O Muses começa construindo um esqueleto 3D criativamente composto com layout e escala coerentes por meio de raciocínio com restrições de grafo. Este esqueleto então guia um processo de montagem baseado em voxel dentro de um espaço latente estruturado, integrando regiões de objetos diferentes. Por fim, a modelagem de aparência guiada por imagem sob condições esqueléticas é aplicada para gerar uma textura harmoniosa e consistente em estilo para a forma montada. Experimentos extensivos estabelecem o desempenho state-of-the-art do Muses em termos de fidelidade visual e alinhamento com descrições textuais, e seu potencial para edição flexível de objetos 3D. Página do projeto: https://luhexiao.github.io/Muses.github.io/.
A Propagação do Primeiro Frame (FFP) oferece um paradigma promissor para a edição de vídeo controlável, mas os métodos existentes são limitados pela dependência de orientações complexas em tempo de execução. Identificamos como causa raiz desta limitação a inadequação dos conjuntos de dados de treinamento atuais, que são frequentemente curtos, de baixa resolução e carecem da diversidade de tarefas necessária para ensinar priores temporais robustos. Para resolver esta lacuna de dados fundamental, introduzimos primeiro o FFP-300K, um novo conjunto de dados em larga escala composto por 300 mil pares de vídeo de alta fidelidade com resolução 720p e 81 quadros de duração, construído por meio de um pipeline estruturado de duas vertentes para edições locais e globais diversificadas. Com base neste conjunto de dados, propomos uma nova estrutura concebida para uma FFP verdadeiramente livre de orientação, que resolve a tensão crítica entre manter a aparência do primeiro frame e preservar o movimento do vídeo de origem. A nível arquitetónico, introduzimos a RoPE Espaço-Temporal Adaptativa (AST-RoPE), que remapeia dinamicamente as codificações posicionais para separar as referências de aparência e movimento. A nível objetivo, empregamos uma estratégia de auto-distilação em que uma tarefa de propagação de identidade atua como um poderoso regularizador, garantindo estabilidade temporal de longo prazo e prevenindo deriva semântica. Experimentos abrangentes no benchmark EditVerseBench demonstram que o nosso método supera significativamente os modelos académicos e comerciais existentes, obtendo uma melhoria de aproximadamente 0,2 pontos no PickScore e 0,3 pontos no VLM score em relação a estes concorrentes.
Os grandes modelos de raciocínio (LRMs) alcançam um desempenho forte em tarefas de raciocínio matemático, frequentemente atribuído à sua capacidade de gerar explicações explícitas de cadeia de pensamento (CoT). No entanto, trabalhos recentes mostram que os LRMs frequentemente chegam à resposta correta antes de completar essas etapas de raciocínio textual, indicando a presença de *raciocínio latente* – uma computação interna e não verbal codificada nos estados ocultos. Embora esse fenômeno tenha sido explorado em inglês, o seu comportamento multilingue permanece amplamente desconhecido. Neste artigo, conduzimos uma investigação sistemática do raciocínio latente multilingue em LRMs em 11 idiomas. Utilizando uma estratégia baseada em truncagem, examinamos como a resposta correta emerge quando o modelo recebe apenas traços parciais de raciocínio, permitindo-nos medir a formação de previsões latentes passo a passo. Os nossos resultados revelam evidências claras de raciocínio latente multilingue, embora de forma desigual: forte em idiomas com muitos recursos, mais fraco em idiomas com poucos recursos e geralmente menos observável em *benchmarks* mais difíceis. Para compreender se estas diferenças refletem mecanismos internos distintos, realizamos ainda análises representacionais. Apesar das disparidades superficiais, descobrimos que a evolução interna das previsões é altamente consistente entre os idiomas e alinha-se amplamente com o inglês – um padrão que sugere um caminho de raciocínio latente centrado no inglês.
Os grandes modelos de linguagem (LLMs), apesar do forte desempenho em problemas matemáticos complexos, exibem limitações sistemáticas em tarefas de contagem. Esta questão surge devido a limites arquiteturais dos transformadores, nos quais a contagem é realizada através das camadas, levando a uma precisão degradada para problemas de contagem maiores devido a restrições de profundidade. Para superar esta limitação, propomos uma estratégia simples, aplicada durante o teste, inspirada nos processos cognitivos do Sistema-2, que decompõe grandes tarefas de contagem em subproblemas menores e independentes que o modelo pode resolver com confiabilidade. Avaliamos esta abordagem utilizando análises de mediação observacionais e causais para compreender o mecanismo subjacente a esta estratégia semelhante ao Sistema-2. Nossa análise mecanicista identifica componentes-chave: contagens latentes são calculadas e armazenadas nas representações finais de cada item, transferidas para etapas intermediárias através de cabeças de atenção dedicadas e agregadas na etapa final para produzir a contagem total. Resultados experimentais demonstram que esta estratégia permite que os LLMs superem as limitações arquiteturais e alcancem alta precisão em tarefas de contagem em larga escala. Este trabalho fornece uma visão mecanicista sobre a contagem do Sistema-2 em LLMs e apresenta uma abordagem generalizável para melhorar e compreender o seu comportamento de raciocínio.
A detecção de manipulações deepfake desconhecidas continua sendo um dos problemas mais desafiadores na detecção de falsificações faciais. As abordagens atuais de última geração falham em generalizar para manipulações não vistas, pois dependem principalmente de treinamento supervisionado com deepfakes existentes ou pseudo-falsos, o que leva ao sobreajuste a padrões específicos de falsificação. Em contraste, os métodos auto-supervisionados oferecem maior potencial de generalização, mas os trabalhos existentes lutam para aprender representações discriminativas apenas a partir da auto-supervisão. Neste artigo, propomos o ExposeAnyone, uma abordagem totalmente auto-supervisionada baseada em um modelo de difusão que gera sequências de expressão a partir de áudio. A ideia central é que, uma vez que o modelo é personalizado para indivíduos específicos usando conjuntos de referência, ele pode calcular as distâncias de identidade entre vídeos suspeitos e indivíduos personalizados por meio de erros de reconstrução por difusão, permitindo a detecção de falsificação facial de interesse. Experimentos extensivos demonstram que 1) nosso método supera o método anterior de última geração em 4,22 pontos percentuais na AUC média nos conjuntos de dados DF-TIMIT, DFDCP, KoDF e IDForge, 2) nosso modelo também é capaz de detectar vídeos gerados pelo Sora2, onde as abordagens anteriores têm desempenho ruim, e 3) nosso método é altamente robusto a corrupções como desfoque e compressão, destacando a aplicabilidade na detecção de falsificações faciais do mundo real.
A captura de preferências complexas dos usuários a partir de sequências comportamentais esparsas permanece um desafio fundamental na recomendação sequencial. Métodos recentes de raciocínio latente mostraram potencial ao estender a computação no momento do teste por meio de raciocínio multi-etapas, no entanto, eles dependem exclusivamente de escalonamento em profundidade ao longo de uma única trajetória, sofrendo de retornos decrescentes à medida que a profundidade do raciocínio aumenta. Para superar esta limitação, propomos o Raciocínio Latente Paralelo (PLR), uma nova estrutura que pioneiramente introduz o escalonamento computacional em largura, explorando simultaneamente múltiplas trajetórias de raciocínio diversas. O PLR constrói fluxos de raciocínio paralelos por meio de tokens acionadores aprendíveis em espaço latente contínuo, preserva a diversidade entre os fluxos via regularização global do raciocínio e sintetiza adaptativamente as saídas multi-fluxo por meio de agregação de mistura de fluxos de raciocínio. Experimentos extensos em três conjuntos de dados do mundo real demonstram que o PLR supera substancialmente os modelos state-of-the-art, mantendo a eficiência de inferência em tempo real. A análise teórica valida ainda mais a eficácia do raciocínio paralelo na melhoria da capacidade de generalização. O nosso trabalho abre novas perspetivas para aumentar a capacidade de raciocínio na recomendação sequencial, indo além do escalonamento em profundidade existente.
Apresentamos o AceFF, um potencial interatômico pré-treinado por aprendizado de máquina (MLIP) otimizado para a descoberta de fármacos de pequenas moléculas. Embora os MLIPs tenham surgido como alternativas eficientes à Teoria do Funcional da Densidade (DFT), a generalização em diversos espaços químicos permanece um desafio. O AceFF aborda esta questão através de uma arquitetura refinada TensorNet2 treinada num conjunto de dados abrangente de compostos semelhantes a fármacos. Esta abordagem resulta num campo de forças que equilibra a velocidade de inferência em alto rendimento com a precisão ao nível da DFT. O AceFF suporta integralmente os elementos essenciais da química medicinal (H, B, C, N, O, F, Si, P, S, Cl, Br, I) e foi explicitamente treinado para lidar com estados carregados. A validação contra benchmarks rigorosos, incluindo varrimentos complexos de energia torsional, trajectórias de dinâmica molecular, minimizações em lote e precisão de forças e energia, demonstra que o AceFF estabelece um novo estado da arte para moléculas orgânicas. Os pesos do modelo AceFF-2 e o código de inferência estão disponíveis em https://huggingface.co/Acellera/AceFF-2.0.
A detecção de discurso de ódio nas redes sociais enfrenta desafios tanto em precisão quanto em explicabilidade, especialmente para línguas indianas pouco exploradas. Propomos uma nova estrutura de treinamento guiada por explicabilidade, X-MuTeST (eXplainable Multilingual haTe Speech deTection), para detecção de discurso de ódio que combina o raciocínio semântico de alto nível de modelos de linguagem grandes (LLMs) com técnicas tradicionais de aprimoramento de atenção. Estendemos esta pesquisa para o hindi e o telugu, além do inglês, fornecendo justificativas anotadas humanas de referência para cada palavra, a fim de justificar o rótulo de classe atribuído. O método de explicabilidade do X-MuTeST calcula a diferença entre as probabilidades de predição do texto original e aquelas de unigramas, bigramas e trigramas. As explicações finais são calculadas como a união entre as explicações dos LLMs e as explicações do X-MuTeST. Mostramos que aproveitar justificativas humanas durante o treinamento melhora tanto o desempenho da classificação quanto a explicabilidade. Além disso, combinar justificativas humanas com nosso método de explicabilidade para refinar a atenção do modelo produz melhorias adicionais. Avaliamos a explicabilidade usando métricas de Plausibilidade, como Token-F1 e IOU-F1, e métricas de Fidedignidade, como Abrangência e Suficiência. Ao focar em idiomas com menos recursos, nosso trabalho avança a detecção de discurso de ódio em diversos contextos linguísticos. Nosso conjunto de dados inclui anotações de justificativa em nível de token para 6.004 amostras em hindi, 4.492 em telugu e 6.334 em inglês. Dados e código estão disponíveis em https://github.com/ziarehman30/X-MuTeST.
A remoção de nevoeiro em imagens é um desafio crítico na visão computacional, essencial para melhorar a clareza das imagens em condições de neblina. Os métodos tradicionais frequentemente dependem de modelos de espalhamento atmosférico, enquanto técnicas recentes de aprendizado profundo, especificamente Redes Neurais Convolucionais (CNNs) e Transformers, melhoraram o desempenho ao analisar eficazmente as características da imagem. No entanto, as CNNs têm dificuldade com dependências de longo alcance, e os Transformers exigem recursos computacionais significativos. Para superar essas limitações, propomos o DehazeSNN, uma arquitetura inovadora que integra um design semelhante à U-Net com Redes Neurais Pulsadas (SNNs). O DehazeSNN captura características de imagem em múltiplas escalas enquanto gerencia eficientemente dependências locais e de longo alcance. A introdução do Bloco Ortogonal de Integração e Disparo com Vazamento (OLIFBlock) melhora a comunicação entre canais, resultando em um desempenho superior de remoção de nevoeiro com uma carga computacional reduzida. Nossos experimentos extensivos mostram que o DehazeSNN é altamente competitivo em relação aos métodos state-of-the-art em conjuntos de dados de referência, fornecendo imagens de alta qualidade sem nevoeiro com um tamanho de modelo menor e menos operações de multiplicação e acumulação. O método de remoção de nevoeiro proposto está publicamente disponível em https://github.com/HaoranLiu507/DehazeSNN.
A geo-localização visa inferir a origem geográfica de um determinado sinal. Na visão computacional, a geo-localização serviu como um benchmark exigente para o raciocínio composicional e é relevante para a segurança pública. Em contraste, o progresso na geo-localização de áudio tem sido limitado pela escassez de pares áudio-localização de alta qualidade. Para preencher esta lacuna, apresentamos o AGL1K, o primeiro benchmark de geo-localização de áudio para modelos de linguagem de áudio (ALMs), abrangendo 72 países e territórios. Para extrair amostras confiavelmente localizáveis de uma plataforma de origem colaborativa, propomos a métrica de Localizabilidade de Áudio, que quantifica o grau de informatividade de cada gravação, resultando em 1.444 clipes de áudio curados. Avaliações em 16 ALMs mostram que os modelos emergiram com capacidade de geo-localização de áudio. Verificamos que modelos de código fechado superam substancialmente os de código aberto, e que pistas linguísticas frequentemente dominam como suporte para a previsão. Analisamos ainda os traços de raciocínio dos ALMs, o viés regional, as causas de erro e a interpretabilidade da métrica de localizabilidade. No geral, o AGL1K estabelece um benchmark para geo-localização de áudio e pode impulsionar ALMs com melhor capacidade de raciocínio geoespacial.
Examinamos duas propriedades dos sistemas de IA: a capacidade (o que um sistema pode fazer) e a dirigibilidade (a confiabilidade com que se pode alterar o comportamento em direção a resultados pretendidos). Uma questão central é saber se o crescimento da capacidade reduz a dirigibilidade e acarreta riscos de colapso do controle. Também distinguimos entre dirigibilidade autorizada (os criadores alcançarem de forma confiável os comportamentos pretendidos) e dirigibilidade não autorizada (os atacantes eliciarem comportamentos não permitidos). Esta distinção destaca um dilema fundamental de segurança-proteção dos modelos de IA: a segurança requer alta dirigibilidade para impor o controle (por exemplo, parar/recusar), enquanto a proteção requer baixa dirigibilidade para que atores maliciosos eliciem comportamentos prejudiciais. Esta tensão representa um desafio significativo para os modelos de pesos abertos, que atualmente exibem alta dirigibilidade por meio de técnicas comuns como *fine-tuning* ou ataques adversariais. Utilizando o Qwen3 e o InstrumentalEval, descobrimos que um sufixo de *prompt* anti-instrumental curto reduz drasticamente a taxa de convergência medida (por exemplo, evitar o desligamento, autorreplicação). Para o Qwen3-30B Instruct, a taxa de convergência cai de 81,69% sob um sufixo pró-instrumental para 2,82% sob um sufixo anti-instrumental. Sob *prompting* anti-instrumental, modelos alinhados maiores apresentam taxas de convergência mais baixas do que os menores (Instruct: 2,82% vs. 4,23%; Thinking: 4,23% vs. 9,86%). O código está disponível em github.com/j-hoscilowicz/instrumental_steering.
A implantação de Grandes Modelos de Visão e Linguagem (LVLMs) para tarefas de resposta a perguntas sobre documentos do mundo real é frequentemente limitada por políticas dinâmicas, definidas pelo utilizador, que ditam a divulgação de informações com base no contexto. Embora garantir a adesão a estas restrições explícitas seja crucial, a investigação existente em segurança centra-se principalmente em normas sociais implícitas ou em ambientes apenas de texto, negligenciando as complexidades dos documentos multimodais. Neste artigo, introduzimos o Doc-PP (Document Policy Preservation Benchmark), um novo *benchmark* construído a partir de relatórios do mundo real que exigem raciocínio através de elementos visuais e textuais heterogéneos sob políticas estritas de não divulgação. A nossa avaliação destaca uma Lacuna de Segurança Induzida pelo Raciocínio sistémica: os modelos divulgam frequentemente informações sensíveis quando as respostas devem ser inferidas através de síntese complexa ou agregadas entre modalidades, contornando efetivamente as restrições de segurança existentes. Além disso, identificámos que fornecer texto extraído melhora a perceção, mas facilita inadvertidamente a fuga de informação. Para abordar estas vulnerabilidades, propomos o DVA (Decompor-Verificar-Agregar), um quadro de inferência estrutural que desacopla o raciocínio da verificação da política. Resultados experimentais demonstram que o DVA supera significativamente as defesas padrão baseadas em *prompting*, oferecendo uma base robusta para a compreensão de documentos em conformidade com as políticas.