Artigos de pesquisa em IA selecionados diariamente com traduções
Embora os Modelos de Linguagem Multimodais de Grande Escala demonstrem capacidades semânticas impressionantes, eles frequentemente sofrem de cegueira espacial, lutando com raciocínio geométrico de granularidade fina e dinâmicas físicas. As soluções existentes normalmente dependem de modalidades 3D explícitas ou de arcabouços geométricos complexos, que são limitados pela escassez de dados e desafios de generalização. Neste trabalho, propomos uma mudança de paradigma ao aproveitar o conhecimento prévio espacial implícito dentro de modelos de geração de vídeo em larga escala. Postulamos que, para sintetizar vídeos temporalmente coerentes, esses modelos aprendem inerentemente conhecimentos prévios robustos de estrutura 3D e leis físicas. Introduzimos o VEGA-3D (Video Extracted Generative Awareness), um framework plug-and-play que redireciona um modelo de difusão de vídeo pré-treinado como um Simulador de Mundo Latente. Ao extrair características espaço-temporais de níveis intermediários de ruído e integrá-las com representações semânticas por meio de um mecanismo de fusão adaptativa com portão em nível de token, enriquecemos os MLLMs com pistas geométricas densas sem supervisão 3D explícita. Experimentos extensos em benchmarks de compreensão de cena 3D, raciocínio espacial e manipulação embodida demonstram que nosso método supera os baselines state-of-the-art, validando que conhecimentos prévios generativos fornecem uma base escalável para a compreensão do mundo físico. O código está publicamente disponível em https://github.com/H-EmbodVis/VEGA-3D.
Os modelos atuais de edição de vídeo guiada por instrução lutam para equilibrar simultaneamente modificações semânticas precisas com a preservação fiel do movimento. Embora as abordagens existentes dependam da injeção de *priors* externos explícitos (por exemplo, características de VLM ou condições estruturais) para mitigar esses problemas, essa dependência limita severamente a robustez e a generalização do modelo. Para superar essa limitação, apresentamos o SAMA (*factorized Semantic Anchoring and Motion Alignment*), uma estrutura que fatoriza a edição de vídeo em ancoragem semântica e modelagem de movimento. Primeiro, introduzimos a Ancoragem Semântica, que estabelece uma âncora visual confiável através da previsão conjunta de *tokens* semânticos e *latents* de vídeo em *frames* de ancoragem esparsos, permitindo um planejamento estrutural puramente consciente da instrução. Em segundo lugar, o Alinhamento de Movimento pré-treina a mesma *backbone* em tarefas de pretexto de restauração de vídeo centradas no movimento (preenchimento de cubo, perturbação de velocidade e embaralhamento de tubo), permitindo que o modelo internalize a dinâmica temporal diretamente a partir de vídeos brutos. O SAMA é otimizado com um *pipeline* de dois estágios: um estágio de pré-treinamento fatorizado que apreende representações semântico-motoras inerentes sem dados pareados de edição vídeo-instrução, seguido por um ajuste fino supervisionado em dados de edição pareados. Notavelmente, apenas o pré-treinamento fatorizado já produz uma forte capacidade de edição de vídeo *zero-shot*, validando a fatorização proposta. O SAMA alcança desempenho de ponta entre os modelos de código aberto e é competitivo com os principais sistemas comerciais (por exemplo, Kling-Omni). Código, modelos e conjuntos de dados serão liberados.
A criação de vídeos dinâmicos e visualmente consistentes de objetos personalizados é altamente desejada para uma ampla gama de aplicações emergentes, incluindo VR/AR imersiva, produção virtual e comércio eletrónico de próxima geração. No entanto, apesar do rápido progresso na geração de vídeos orientada por objetos, os métodos existentes tratam predominantemente os objetos como entidades 2D, concentrando-se na transferência de identidade através de características visuais de vista única ou instruções textuais. Como os objetos do mundo real são inerentemente 3D, a aplicação destas abordagens centradas em 2D à personalização de objetos 3D revela uma limitação fundamental: falta-lhes os conhecimentos espaciais abrangentes necessários para reconstruir a geometria 3D. Consequentemente, ao sintetizar novos pontos de vista, estes métodos têm de depender da geração de detalhes plausíveis, mas arbitrários, para regiões não visíveis, em vez de preservar a verdadeira identidade 3D. Atingir uma personalização genuinamente consciente da 3D continua a ser um desafio devido à escassez de conjuntos de dados de vídeo multivista. Embora se possa tentar ajustar modelos em sequências de vídeo limitadas, isto frequentemente leva a um sobre-ajustamento temporal. Para resolver estas questões, introduzimos uma nova estrutura para personalização de vídeo consciente da 3D, composta por 3DreamBooth e 3Dapter. O 3DreamBooth desacopla a geometria espacial do movimento temporal através de um paradigma de otimização de 1 fotograma. Ao restringir as atualizações às representações espaciais, ele efetivamente incorpora um conhecimento prévio 3D robusto no modelo sem a necessidade de um treino exaustivo baseado em vídeo. Para melhorar as texturas de alto detalhe e acelerar a convergência, incorporamos o 3Dapter, um módulo de condicionamento visual. Após o pré-treino de vista única, o 3Dapter sofre uma otimização conjunta multivista com o ramo principal de geração através de uma estratégia de condicionamento assimétrica. Este projeto permite que o módulo atue como um router seletivo dinâmico, consultando pistas geométricas específicas da vista a partir de um conjunto de referência mínimo. Página do projeto: https://ko-lani.github.io/3DreamBooth/
A execução em tempo real é crucial para a implantação de modelos Visão-Linguagem-Ação (VLA) no mundo físico. Os métodos de inferência assíncrona existentes otimizam principalmente a suavidade da trajetória, mas negligenciam a latência crítica na reação a mudanças ambientais. Ao repensar a noção de reação nas políticas de agrupamento de ações, este artigo apresenta uma análise sistemática dos fatores que regem o tempo de reação. Mostramos que o tempo de reação segue uma distribuição uniforme determinada conjuntamente pelo Tempo até a Primeira Ação (TTFA) e pelo horizonte de execução. Além disso, revelamos que a prática padrão de aplicar um cronograma constante em VLAs baseados em fluxo pode ser ineficiente e força o sistema a concluir todas as etapas de amostragem antes que qualquer movimento possa iniciar, formando o gargalo na latência de reação. Para superar este problema, propomos a Amostragem Rápida de Ação para Reação Imediata (FASTER). Ao introduzir um Cronograma Consciente do Horizonte, o FASTER prioriza adaptativamente as ações de curto prazo durante a amostragem de fluxo, comprimindo a remoção de ruído da reação imediata em dez vezes (por exemplo, em π_{0.5} e X-VLA) em uma única etapa, preservando a qualidade da trajetória de longo horizonte. Aliado a um pipeline cliente-servor de transmissão contínua, o FASTER reduz substancialmente a latência efetiva de reação em robôs reais, especialmente quando implantado em GPUs de nível consumer. Experimentos no mundo real, incluindo uma tarefa altamente dinâmica de tênis de mesa, comprovam que o FASTER desbloqueia uma capacidade de resposta em tempo real sem precedentes para políticas generalistas, permitindo a geração rápida de trajetórias precisas e suaves.
Apresentamos o Nemotron-Cascade 2, um modelo aberto de 30B MoE com 3B de parâmetros ativados que oferece capacidades de raciocínio de classe mundial e fortes capacidades agentivas. Apesar do seu tamanho compacto, o seu desempenho em raciocínio matemático e de codificação aproxima-se ao dos modelos abertos de fronteira. É o segundo LLM de pesos abertos, após o DeepSeekV3.2-Speciale-671B-A37B, a alcançar um desempenho de nível Medalha de Ouro na Olimpíada Internacional de Matemática (IMO) de 2025, na Olimpíada Internacional de Informática (IOI) e nas Finais Mundiais da ICPC, demonstrando uma densidade de inteligência notavelmente alta com 20 vezes menos parâmetros. Em contraste com o Nemotron-Cascade 1, os principais avanços técnicos são os seguintes. Após o SFT num conjunto de dados meticulosamente curado, expandimos substancialmente o Cascade RL para cobrir um espectro muito mais amplo de domínios de raciocínio e agentivos. Além disso, introduzimos uma destilação *on-policy* multidisciplinar a partir dos modelos de professor intermediários mais fortes para cada domínio ao longo do processo Cascade RL, permitindo-nos recuperar eficientemente regressões em benchmarks e sustentar ganhos sólidos de desempenho ao longo do caminho. Disponibilizamos a coleção do *checkpoint* do modelo e dos dados de treinamento.
Apresentamos o Memento-Skills, um sistema de agente LLM generalista e de aprendizado contínuo que funciona como um agente projetador de agentes: ele constrói, adapta e melhora agentes específicos para tarefas de forma autônoma por meio da experiência. O sistema é construído sobre uma estrutura de aprendizado por reforço baseada em memória com *prompts* com estado, onde habilidades reutilizáveis (armazenadas como arquivos estruturados em markdown) servem como memória persistente e em evolução. Essas habilidades codificam tanto o comportamento quanto o contexto, permitindo que o agente transporte conhecimento através das interações. Partindo de habilidades elementares simples (como pesquisa na Web e operações de terminal), o agente melhora continuamente por meio do mecanismo de Aprendizado Reflexivo de Leitura-Gravação introduzido no Memento~2~wang2025memento2. Na fase de leitura, um roteador de habilidades treinável para comportamento seleciona a habilidade mais relevante condicionada ao *prompt* com estado atual; na fase de gravação, o agente atualiza e expande sua biblioteca de habilidades com base na nova experiência. Este projeto em *loop* fechado permite o aprendizado contínuo sem a atualização dos parâmetros do LLM, uma vez que toda a adaptação é realizada através da evolução das habilidades e *prompts* externalizados. Diferentemente de abordagens anteriores que dependem de agentes projetados por humanos, o Memento-Skills permite que um agente generalista projete agentes de ponta a ponta para novas tarefas. Por meio da geração e refinamento iterativos de habilidades, o sistema melhora progressivamente suas próprias capacidades. Experimentos no benchmark *General AI Assistants* e no *Humanity's Last Exam* demonstram ganhos sustentados, alcançando melhorias relativas de 26,2% e 116,2% na precisão geral, respectivamente. O código está disponível em https://github.com/Memento-Teams/Memento-Skills.
A geração de movimento prévia segue amplamente dois paradigmas: modelos de difusão contínua que se destacam no controle cinemático e geradores baseados em tokens discretos que são eficazes para condicionamento semântico. Para combinar seus pontos fortes, propomos uma estrutura de três estágios que compreende extração de características de condição (Percepção), geração de tokens discretos (Planejamento) e síntese de movimento baseada em difusão (Controle). Central a esta estrutura está o MoTok, um tokenizador de movimento discreto baseado em difusão que desacopla a abstração semântica da reconstrução de alto detalhe, delegando a recuperação do movimento a um decodificador de difusão, permitindo tokens compactos de camada única enquanto preserva a fidelidade do movimento. Para condições cinemáticas, restrições grosseiras orientam a geração de tokens durante o planejamento, enquanto restrições de alto detalhe são aplicadas durante o controle por meio de otimização baseada em difusão. Este projeto impede que detalhes cinemáticos perturbem o planejamento de tokens semânticos. No HumanML3D, nosso método melhora significativamente a controlabilidade e fidelidade em relação ao MaskControl, usando apenas um sexto dos tokens, reduzindo o erro de trajetória de 0,72 cm para 0,08 cm e o FID de 0,083 para 0,029. Diferente de métodos anteriores que se degradam sob restrições cinemáticas mais fortes, o nosso melhora a fidelidade, reduzindo o FID de 0,033 para 0,014.
A reconstrução de objetos 3D articulados a partir de uma única imagem requer a inferência conjunta da geometria do objeto, da estrutura das partes e dos parâmetros de movimento com base em evidências visuais limitadas. Uma dificuldade fundamental reside no entrelaçamento entre os indícios de movimento e a estrutura do objeto, o que torna a regressão direta da articulação instável. Os métodos existentes abordam este desafio através de supervisão multi-visual, montagem baseada em recuperação ou geração auxiliar de vídeo, frequentemente sacrificando escalabilidade ou eficiência. Apresentamos o MonoArt, uma estrutura unificada baseada em raciocínio estrutural progressivo. Em vez de prever a articulação diretamente a partir de características da imagem, o MonoArt transforma progressivamente as observações visuais em geometria canónica, representações estruturadas de partes e *embeddings* conscientes do movimento dentro de uma única arquitetura. Este processo de raciocínio estruturado permite uma inferência de articulação estável e interpretável, sem modelos de movimento externos ou *pipelines* multiestágio. Experimentos extensivos no PartNet-Mobility demonstram que o MonoArt alcança um desempenho de ponta tanto na precisão da reconstrução quanto na velocidade de inferência. A estrutura generaliza-se ainda para a manipulação robótica e para a reconstrução de cenas articuladas.
A geração visual com tokens discretos tem ganhado atenção significativa, pois permite um paradigma unificado de previsão de tokens compartilhado com modelos de linguagem, prometendo arquiteturas multimodais contínuas. No entanto, os métodos atuais de geração discreta permanecem limitados a tokens latentes de baixa dimensionalidade (tipicamente 8-32 dimensões), sacrificando a riqueza semântica essencial para a compreensão. Embora representações pré-treinadas de alta dimensionalidade (768-1024 dimensões) possam preencher essa lacuna, a sua geração discreta apresenta desafios fundamentais. Neste artigo, apresentamos a Difusão Discreta Cúbica (CubiD), o primeiro modelo de geração discreta para representações de alta dimensionalidade. A CubiD realiza um mascaramento granular em toda a representação discreta de alta dimensionalidade — qualquer dimensão em qualquer posição pode ser mascarada e prevista a partir de observações parciais. Isso permite que o modelo aprenda correlações ricas tanto dentro quanto entre posições espaciais, com o número de etapas de geração fixado em T, independentemente da dimensionalidade das características, onde T ≪ hwd. No ImageNet-256, a CubiD alcança a geração discreta de última geração com um forte comportamento de escalabilidade de 900M para 3,7B de parâmetros. Crucialmente, validamos que esses tokens discretizados preservam as capacidades de representação originais, demonstrando que os mesmos tokens discretos podem servir efetivamente tanto para tarefas de compreensão quanto de geração. Esperamos que este trabalho inspire pesquisas futuras rumo a arquiteturas multimodais unificadas. O código está disponível em: https://github.com/YuqingWang1029/CubiD.
Os recentes avanços nos modelos de linguagem grandes omnimodais (OmniLLMs) melhoraram significativamente a compreensão de entradas de áudio e vídeo. No entanto, as avaliações atuais concentram-se principalmente em clipes de áudio e vídeo curtos, variando de 10 segundos a 5 minutos, não refletindo as demandas de aplicações do mundo real, onde os vídeos normalmente duram dezenas de minutos. Para colmatar esta lacuna crítica, introduzimos o LVOmniBench, um novo benchmark concebido especificamente para a compreensão cross-modal de áudio e vídeo de longa duração. Este conjunto de dados compreende vídeos de alta qualidade provenientes de plataformas abertas que apresentam dinâmicas audiovisuais ricas. Através de uma rigorosa seleção e anotação manual, o LVOmniBench é composto por 275 vídeos, com durações entre 10 e 90 minutos, e 1.014 pares de pergunta-resposta (QA). O LVOmniBench visa avaliar rigorosamente as capacidades dos OmniLLMs em vários domínios, incluindo memória de longo prazo, localização temporal, compreensão refinada e perceção multimodal. A nossa avaliação extensiva revela que os OmniLLMs atuais enfrentam desafios significativos ao processar entradas audiovisuais extensas. Os modelos de código aberto geralmente atingem precisões abaixo de 35%, enquanto o Gemini 3 Pro atinge uma precisão máxima de aproximadamente 65%. Antecipamos que este conjunto de dados, juntamente com as nossas descobertas empíricas, irá estimular mais investigação e o desenvolvimento de modelos avançados capazes de resolver problemas complexos de compreensão cross-modal em contextos de áudio e vídeo de longa duração.
Apresentamos o F2LLM-v2, uma nova família de modelos de incorporação multilingues de propósito geral em 8 tamanhos distintos, variando de 80M a 14B de parâmetros. Treinado em uma nova composição curada de 60 milhões de amostras de dados públicos de alta qualidade, o F2LLM-v2 suporta mais de 200 idiomas, com ênfase particular em línguas de recursos médios e baixos previamente subatendidas. Ao integrar um pipeline de treinamento de incorporação baseado em LLM em dois estágios com técnicas de aprendizado *matryoshka*, poda de modelos e destilação de conhecimento, apresentamos modelos muito mais eficientes do que os modelos de incorporação baseados em LLM anteriores, mantendo desempenhos competitivos. Avaliações extensivas confirmam que o F2LLM-v2-14B ocupa a primeira posição em 11 benchmarks do MTEB, enquanto os modelos menores da família também estabelecem um novo estado da arte para aplicações com restrições de recursos. Para facilitar a pesquisa de modelos de incorporação de código aberto, disponibilizamos todos os modelos, dados, códigos e *checkpoints* intermediários.
Neste artigo, introduzimos uma nova tarefa, a Geração de Movimentos do Ouvinte Reativo a partir do Discurso do Locutor, que visa gerar movimentos corporais naturalísticos do ouvinte que respondam adequadamente ao discurso do locutor. No entanto, modelar tais comportamentos não-verbais do ouvinte permanece pouco explorado e desafiador devido à natureza inerentemente não determinística das reações humanas. Para facilitar essa tarefa, apresentamos o ReactMotionNet, um conjunto de dados em larga escala que emparelha discursos do locutor com múltiplos movimentos candidatos do ouvinte, anotados com diferentes graus de adequação. Este desenho do conjunto de dados captura explicitamente a natureza um-para-muitos do comportamento do ouvinte e fornece supervisão além de um único movimento de referência. Com base neste desenho do conjunto de dados, desenvolvemos protocolos de avaliação orientados por preferência, adaptados para avaliar a adequação reativa, os quais as métricas convencionais de movimento, focadas no alinhamento entrada-movimento, ignoram. Propomos ainda o ReactMotion, um framework generativo unificado que modela conjuntamente texto, áudio, emoção e movimento, e é treinado com objetivos baseados em preferência para incentivar respostas do ouvinte tanto adequadas quanto diversificadas. Experimentos extensivos mostram que o ReactMotion supera baselines de recuperação e pipelines em cascata baseados em LLM, gerando movimentos do ouvinte mais naturais, diversificados e apropriados.
Os agentes de GUI de longo horizonte são um passo crucial para a implantação no mundo real, mas a memória de interação eficaz sob os paradigmas predominantes permanece pouco explorada. A reprodução de sequências completas de interação é redundante e amplifica o ruído, enquanto os resumos frequentemente apagam informações críticas de dependência e a rastreabilidade. Apresentamos o AndroTMem, uma estrutura de diagnóstico para memória ancorada em agentes de GUI Android de longo horizonte. Seu principal benchmark, o AndroTMem-Bench, compreende 1.069 tarefas com 34.473 etapas de interação (média de 32,1 por tarefa, máximo de 65). Avaliamos os agentes com a TCR (Taxa de Conclusão de Tarefas), focando em tarefas cuja conclusão requer o transporte de estados intermediários críticos; o AndroTMem-Bench foi projetado para impor fortes dependências causais passo a passo, tornando estados intermediários esparsos, porém essenciais, decisivos para ações subsequentes e colocando a memória de interação no centro da avaliação. Em agentes de GUI de código aberto e proprietários, observamos um padrão consistente: à medida que as sequências de interação se tornam mais longas, as quedas de desempenho são impulsionadas principalmente por falhas de memória dentro da tarefa, e não por erros isolados de percepção ou erros de ação local. Guiados por este diagnóstico, propomos a Memória de Estado Ancorada (ASM), que representa sequências de interação como um conjunto compacto de âncoras de estado intermediário causalmente ligadas para permitir a recuperação direcionada a subobjetivos e a tomada de decisão com consciência de atribuição. Em múltiplos ambientes e 12 agentes de GUI avaliados, a ASM supera consistentemente as linhas de base baseadas em reprodução de sequência completa e em resumos, melhorando a TCR em 5%-30,16% e a AMS em 4,93%-24,66%, indicando que a memória estruturada e ancorada mitiga efetivamente o gargalo da memória de interação em tarefas de GUI de longo horizonte. O código, o benchmark e os recursos relacionados estão publicamente disponíveis em [https://github.com/CVC2233/AndroTMem](https://github.com/CVC2233/AndroTMem).
Embora os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) tenham alcançado sucesso notável na interpretação de cenas naturais, sua capacidade de processar símbolos discretos – os blocos fundamentais da cognição humana – permanece uma questão crítica em aberto. Diferentemente de dados visuais contínuos, símbolos como fórmulas matemáticas, estruturas químicas e caracteres linguísticos exigem uma interpretação mais profunda e precisa. Este artigo introduz um benchmark abrangente para avaliar como os MLLMs de ponta navegam por esses "espaços semânticos discretos" em cinco domínios: linguagem, cultura, matemática, física e química. Nossa investigação revela um fenômeno contraintuitivo: os modelos frequentemente falham no reconhecimento básico de símbolos, mas têm sucesso em tarefas de raciocínio complexo, sugerindo que eles dependem mais de probabilidade linguística do que de uma verdadeira percepção visual. Ao expor esse "descompasso cognitivo", destacamos uma lacuna significativa nas capacidades atuais da IA: a dificuldade em perceber e compreender verdadeiramente as linguagens simbólicas que fundamentam a descoberta científica e o pensamento abstrato. Este trabalho oferece um roteiro para o desenvolvimento de sistemas inteligentes mais rigorosos e alinhados com a cognição humana.
Avanços recentes estendem os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) além da tarefa padrão de resposta a perguntas visuais, permitindo o uso de ferramentas externas para tarefas visuais avançadas. Apesar desse progresso, a execução precisa e a composição eficaz de diversas ferramentas para tarefas complexas permanecem um gargalo persistente. Limitados por conjuntos de ferramentas esparsos e trajetórias de uso de ferramentas simples, os benchmarks existentes não conseguem capturar interações complexas e diversificadas entre ferramentas, ficando aquém na avaliação do desempenho dos modelos sob condições práticas do mundo real. Para preencher essa lacuna, introduzimos o *VisualToolChain-Bench* (VTC-Bench), um benchmark abrangente projetado para avaliar a proficiência no uso de ferramentas em MLLMs. Para se alinhar com os fluxos de trabalho realistas de visão computacional, nossa estrutura apresenta 32 operações visuais diversificadas baseadas em OpenCV. Este conjunto rico de ferramentas permite combinações extensivas, permitindo que o VTC-Bench avalie rigorosamente a composição de múltiplas ferramentas e a execução de planos de longo horizonte e múltiplos passos. Para uma avaliação precisa, fornecemos 680 problemas selecionados, estruturados em uma hierarquia cognitiva de nove categorias, cada um com trajetórias de execução de referência (ground-truth). Experimentos extensos em 19 MLLMs líderes revelam limitações críticas nas capacidades de agência visual dos modelos atuais. Especificamente, os modelos lutam para se adaptar a conjuntos de ferramentas diversificados e generalizar para operações não vistas, com o modelo líder Gemini-3.0-Pro atingindo apenas 51% em nosso benchmark. Além disso, a composição de múltiplas ferramentas permanece um desafio persistente. Ao enfrentar tarefas complexas, os modelos têm dificuldade em formular planos de execução eficientes, dependendo fortemente de um subconjunto estreito e subótimo de funções familiares, em vez de selecionar as ferramentas ótimas. Ao identificar esses desafios fundamentais, o VTC-Bench estabelece uma linha de base rigorosa para orientar o desenvolvimento de modelos de agência visual mais generalizados.
A remoção de objetos em vídeo tem como objetivo eliminar objetos-alvo dinâmicos e seus efeitos visuais, como deformação, sombras e reflexos, restaurando simultaneamente fundos contínuos. Métodos recentes de preenchimento de vídeo e remoção de objetos baseados em difusão conseguem remover os objetos, mas frequentemente têm dificuldade em apagar esses efeitos e sintetizar fundos coerentes. Para além das limitações metodológicas, o progresso é ainda dificultado pela falta de um conjunto de dados abrangente que capture sistematicamente os efeitos comuns de objetos em diversos ambientes para treino e avaliação. Para resolver esta questão, apresentamos o VOR (Video Object Removal), um conjunto de dados em larga escala que fornece vídeos emparelhados diversificados. Cada par consiste num vídeo onde o objeto-alvo está presente com os seus efeitos e numa contraparte onde o objeto e os efeitos estão ausentes, com máscaras de objeto correspondentes. O VOR contém 60 mil pares de vídeos de alta qualidade de fontes capturadas e sintéticas, abrange cinco tipos de efeitos e inclui uma ampla gama de categorias de objetos, bem como cenas dinâmicas e complexas com múltiplos objetos. Com base no VOR, propomos o EffectErase, um método de remoção de objetos em vídeo consciente dos efeitos, que trata a inserção de vídeo como a tarefa auxiliar inversa dentro de um esquema de aprendizagem recíproca. O modelo inclui uma orientação de região consciente da tarefa que concentra a aprendizagem nas áreas afetadas e permite uma comutação flexível de tarefas. Em seguida, um objetivo de consistência inserção-remoção que incentiva comportamentos complementares e a localização partilhada de regiões de efeito e pistas estruturais. Treinado no VOR, o EffectErase alcança um desempenho superior em experiências extensivas, proporcionando uma eliminação de alta qualidade de efeitos de objetos em vídeo em diversos cenários.
A tradução simultânea de fala para fala (SimulS2S) é essencial para a comunicação multilingue em tempo real, com uma integração crescente em plataformas de reuniões e streaming. Apesar disso, a SimulS2S permanece pouco explorada na investigação, onde as soluções atuais frequentemente dependem de procedimentos de treino intensivos em recursos e operam em enunciados curtos e pré-segmentados, não conseguindo generalizar para a fala contínua. Para colmatar esta lacuna, propomos o SimulU, a primeira política sem necessidade de treino para SimulS2S de longa duração. O SimulU adota estratégias de gestão de histórico e seleção de saída de fala que exploram a atenção cruzada em modelos pré-treinados de ponta a ponta para regular tanto o histórico de entrada como a geração de saída. As avaliações no MuST-C em 8 idiomas mostram que o SimulU alcança um equilíbrio qualidade-latência melhor ou comparável face a fortes modelos em cascata. Ao eliminar a necessidade de treino específico, o SimulU oferece um caminho promissor para a SimulS2S de ponta a ponta em cenários realistas e de longa duração.
Os Modelos de Visão e Linguagem (VLMs) têm demonstrado ser "cegos", frequentemente subutilizando seus inputs visuais mesmo em tarefas que exigem raciocínio visual. Neste trabalho, demonstramos que os VLMs são seletivamente cegos. Eles modulam a quantidade de atenção aplicada aos inputs visuais com base no enquadramento linguístico, mesmo quando enquadramentos alternativos exigem um raciocínio visual idêntico. Usando a atenção visual como uma sonda, quantificamos como o enquadramento altera tanto a quantidade quanto a distribuição da atenção sobre a imagem. Enquadramentos restritivos, como múltipla escolha e sim/não, induzem uma atenção substancialmente menor ao contexto da imagem em comparação com formatos abertos, reduzem o foco em regiões relevantes para a tarefa e desviam a atenção para tokens não informativos. Demonstramos ainda que essa má alocação de atenção é a principal causa da degradação da precisão e da inconsistência entre diferentes enquadramentos. Com base nessa compreensão mecanicista, introduzimos um método leve de ajuste de prompt usando tokens aprendíveis que incentiva os padrões de atenção robustos e visualmente fundamentados observados em configurações abertas, melhorando a fundamentação visual e o desempenho em todos os enquadramentos.
Os Modelos de Linguagem de Grande Porte Multimodais (MLLMs) têm feito progressos impressionantes na conexão entre visão e linguagem, mas ainda lutam com a compreensão espacial e o raciocínio consciente do ponto de vista. Esforços recentes visam aumentar as representações de entrada com pistas geométricas, em vez de ensinar explicitamente os modelos a raciocinar no espaço 3D. Apresentamos o Loc3R-VLM, uma estrutura que equipa os Modelos de Linguagem de Visão 2D com capacidades avançadas de compreensão 3D a partir de entrada de vídeo monocular. Inspirado pela cognição espacial humana, o Loc3R-VLM baseia-se em dois objetivos conjuntos: a reconstrução do layout global para construir uma representação holística da estrutura da cena e a modelagem explícita da situação para ancorar a perspectiva egocêntrica. Esses objetivos fornecem supervisão espacial direta que ancora tanto a percepção quanto a linguagem em um contexto 3D. Para garantir consistência geométrica e alinhamento em escala métrica, aproveitamos *priors* de pose de câmera leves extraídos de um modelo de fundação 3D pré-treinado. O Loc3R-VLM atinge um desempenho de ponta em localização baseada em linguagem e supera as abordagens existentes baseadas em 2D e vídeo em *benchmarks* de questionamento e resposta 3D geral e situado, demonstrando que nossa estrutura de supervisão espacial permite uma forte compreensão 3D. Página do projeto: https://kevinqu7.github.io/loc3r-vlm
Este relatório técnico apresenta o MOSS-TTS, um modelo de base para geração de fala construído sobre uma receita escalável: tokens de áudio discretos, modelagem autoregressiva e pré-treinamento em larga escala. Baseado no MOSS-Audio-Tokenizer, um tokenizador Transformer causal que comprime áudio de 24 kHz para 12,5 fps com RVQ de taxa de bits variável e representações semântico-acústicas unificadas, lançamos dois geradores complementares: o MOSS-TTS, que enfatiza a simplicidade estrutural, escalabilidade e implantação orientada para contexto longo/controle, e o MOSS-TTS-Local-Transformer, que introduz um módulo autoregressivo local por quadro para maior eficiência de modelagem, melhor preservação do locutor e um tempo mais curto para o primeiro áudio. Em configurações multilíngues e de domínio aberto, o MOSS-TTS suporta clonagem de voz *zero-shot*, controle de duração a nível de *token*, controle de pronúncia a nível de fonema/pinyin, comutação de código suave e geração de longa duração estável. Este relatório resume o projeto, a receita de treinamento e as características empíricas dos modelos lançados.
A capacidade de renderizar cenas com fidelidade ajustável a partir de um único modelo, conhecida como nível de detalhe (LoD), é crucial para a implantação prática do *3D Gaussian Splatting* (3DGS). Os métodos discretos de LoD existentes expõem apenas um conjunto limitado de pontos de operação, enquanto as abordagens concorrentes de LoD contínuo permitem uma escala mais suave, mas frequentemente sofrem com degradação perceptível da qualidade na capacidade máxima, tornando o LoD uma decisão de projeto custosa. Apresentamos o *Matryoshka Gaussian Splatting* (MGS), uma estrutura de treinamento que permite LoD contínuo para os *pipelines* padrão do 3DGS sem sacrificar a qualidade de renderização em capacidade máxima. O MGS aprende um único conjunto ordenado de Gaussianas, de modo que a renderização de qualquer prefixo - os primeiros k *splats* - produz uma reconstrução coerente cuja fidelidade melhora suavemente com o aumento do orçamento (*budget*). Nossa ideia principal é o treinamento estocástico com orçamento: cada iteração amostra um orçamento de *splat* aleatório e otimiza tanto o prefixo correspondente quanto o conjunto completo. Esta estratégia requer apenas duas passagens diretas (*forward passes*) e não introduz modificações arquiteturais. Experimentos em quatro *benchmarks* e seis *baselines* mostram que o MGS corresponde ao desempenho em capacidade máxima de sua estrutura base, ao mesmo tempo que permite um compromisso contínuo entre velocidade e qualidade a partir de um único modelo. Ablações extensas sobre estratégias de ordenação, objetivos de treinamento e capacidade do modelo validam ainda mais os projetos.
Os agentes de LLM multi-turn são cada vez mais importantes para resolver tarefas complexas e interativas, e o aprendizado por reforço (RL) é um componente fundamental para melhorar seu comportamento de longo prazo. No entanto, o treinamento de RL requer a geração de um grande número de trajetórias de rollout em ambientes isolados (sandboxed), e as infraestruturas existentes frequentemente acoplam a orquestração do rollout com o loop de treinamento, tornando os sistemas difíceis de migrar e manter. Sob a filosofia de rollout como serviço, apresentamos o ProRL Agent, uma infraestrutura escalável que atende todo o ciclo de vida do rollout agêntico por meio de um serviço de API. O ProRL Agent também fornece ambientes sandbox padronizados e extensíveis que suportam diversas tarefas agênticas em configurações HPC sem privilégios de root (rootless). Validamos o ProRL Agent por meio de treinamento de RL em tarefas de engenharia de software, matemática, STEM e programação. O ProRL Agent é de código aberto e integrado como parte do NVIDIA NeMo Gym.
A regulação da razão de importância é crítica para a estabilidade do treinamento de estruturas baseadas na Otimização de Política Relativa de Grupo (GRPO). No entanto, os métodos predominantes de controle de razão, como o corte rígido (hard clipping), sofrem com limites não diferenciáveis e regiões de gradiente vanishing, falhando em manter a fidelidade do gradiente. Além disso, esses métodos carecem de um mecanismo consciente do risco (hazard-aware) para suprimir adaptativamente desvios extremos, deixando o processo de otimização vulnerável a mudanças abruptas de política. Para enfrentar esses desafios, propomos a Otimização de Política Modulada e Consciente do Risco (MHPO), uma nova estrutura concebida para aprendizagem por reforço robusta e estável. A MHPO proposta introduz um Modulador de Log-Fidelidade (LFM) para mapear razões de importância ilimitadas para um domínio limitado e diferenciável. Este mecanismo impede eficazmente que tokens outliers de alta variância desestabilizem o panorama (landscape) de perda, garantindo ao mesmo tempo a estabilidade global do gradiente. De forma complementar, uma Penalidade de Risco Desacoplada (DHP) integra funções de risco cumulativo da análise de sobrevivência para regular independentemente os desvios de política positivos e negativos. Ao moldar o panorama de otimização com penalidades conscientes do risco, a MHPO proposta alcança uma regulação de granularidade fina dos desvios de política assimétricos, mitigando simultaneamente o colapso modal (mode collapse) devido à super-expansão e prevenindo a erosão da política devido a uma contração catastrófica, dentro de uma região de confiança estabilizada. Extensivas avaliações em diversos benchmarks de raciocínio, abrangendo tarefas baseadas em texto e de linguagem visual, demonstram que a MHPO supera consistentemente os métodos existentes, alcançando um desempenho superior enquanto melhora significativamente a estabilidade do treinamento.
Os Modelos de Visão-Linguagem (VLMs) adaptados para sensoriamento remoto dependem fortemente de supervisão imagem-texto específica do domínio, no entanto, anotações de alta qualidade para imagens de satélite e aéreas permanecem escassas e caras para produzir. Os *pipelines* de pseudo-rotulação predominantes abordam essa lacuna destilando conhecimento de grandes modelos de fronteira, mas essa dependência de grandes modelos "professores" é custosa, limita a escalabilidade e restringe o desempenho máximo alcançável ao teto do modelo professor. Propomos o OSMDA: uma estrutura de adaptação de domínio autossuficiente que elimina essa dependência. Nossa principal percepção é que um VLM base capaz pode servir como seu próprio mecanismo de anotação: ao emparelhar imagens aéreas com *tiles* renderizados do OpenStreetMap (OSM), aproveitamos as capacidades de reconhecimento óptico de caracteres e compreensão de gráficos do modelo para gerar legendas enriquecidas pelos vastos metadados auxiliares do OSM. O modelo é então ajustado (*fine-tuned*) no corpus resultante usando apenas imagens de satélite, produzindo o OSMDA-VLM, um VLM adaptado ao domínio que não requer rotulagem manual nem um modelo externo mais forte. Realizamos avaliações exaustivas abrangendo 10 *benchmarks* em tarefas de imagem-texto-para-texto e comparamos com 9 linhas de base competitivas. Quando igualmente misturado com dados reais, nosso método alcança resultados de última geração (*state-of-the-art*), sendo substancialmente mais barato de treinar do que alternativas dependentes de modelos professores. Esses resultados sugerem que, dado um modelo de base forte, o alinhamento com dados geográficos de *crowdsourcing* é um caminho prático e escalável para a adaptação de domínio em sensoriamento remoto. O conjunto de dados e os pesos do modelo serão disponibilizados publicamente.
A capacidade de derivar objetos matemáticos com precisão é um requisito fundamental para aplicações STEM subsequentes, incluindo matemática, física e química, onde o raciocínio deve culminar em expressões formalmente estruturadas. No entanto, as avaliações atuais de modelos de linguagem (LM) sobre raciocínio matemático e científico dependem fortemente de formatos de resposta simplificados, como valores numéricos ou opções de múltipla escolha, devido à conveniência da avaliação automatizada. Neste artigo, fornecemos três contribuições para melhorar o raciocínio sobre objetos matemáticos: (i) construímos e disponibilizamos dados de treinamento e benchmarks para derivação de objetos matemáticos, o conjunto *Principia*; (ii) fornecemos receitas de treinamento com *LLM-judges* e verificadores robustos, onde demonstramos que o treinamento *on-policy* do *judge* aumenta o desempenho; (iii) mostramos como o treinamento *on-policy* também pode ser usado para escalar o cálculo em tempo de teste via agregação. Constatamos que LMs robustos, como Qwen3-235B e o3, apresentam dificuldades no *Principia*, enquanto nossas receitas de treinamento podem trazer melhorias significativas em diferentes arquiteturas de LLM, melhorando simultaneamente os resultados em tarefas numéricas e de MCQA existentes, demonstrando a generalização transversal de formatos das habilidades de raciocínio.
A identificação de objetos potenciais é crucial para o reconhecimento e análise de objetos em diversas aplicações de visão computacional. Os métodos existentes normalmente localizam objetos potenciais com base em imagens exemplares, categorias predefinidas ou descrições textuais. No entanto, a sua dependência de *prompts* de imagem e texto frequentemente limita a flexibilidade, restringindo a adaptabilidade em cenários do mundo real. Neste artigo, introduzimos uma nova Rede Neural de Proposta de Região Universal Livre de *Prompts* (PF-RPN), que identifica objetos potenciais sem depender de *prompts* externos. Primeiro, o módulo Adaptador Esparso com Consciência de Imagem (SIA) realiza a localização inicial de objetos potenciais usando um *embedding* de consulta aprendível, atualizado dinamicamente com características visuais. Em seguida, o módulo de Auto-*Prompt* em Cascata (CSP) identifica os objetos potenciais remanescentes aproveitando o *embedding* aprendível auto-promptado, agregando de forma autónoma características visuais informativas de maneira encadeada. Por fim, o módulo de Seleção de Consulta Guiada por Centralidade (CG-QS) facilita a seleção de *embeddings* de consulta de alta qualidade usando uma rede de pontuação de centralidade. O nosso método pode ser otimizado com dados limitados (por exemplo, 5% dos dados do MS COCO) e aplicado diretamente a vários domínios de aplicação de deteção de objetos para identificar objetos potenciais sem afinação fina, como deteção de objetos subaquáticos, deteção de defeitos industriais e deteção de objetos em imagens de deteção remota. Resultados experimentais em 19 conjuntos de dados validam a eficácia do nosso método. O código está disponível em https://github.com/tangqh03/PF-RPN.
A detecção de anomalias lógicas na inspeção industrial continua a ser um desafio devido a variações na aparência visual (por exemplo, desordem do fundo, variação de iluminação e desfoque), que frequentemente distraem os detectores centrados na visão da identificação de violações a nível de regras. No entanto, os *benchmarks* existentes raramente fornecem configurações controladas onde os estados lógicos são fixos enquanto esses fatores de interferência variam. Para colmatar esta lacuna, introduzimos o VID-AD, um conjunto de dados para detecção de anomalias lógicas sob distração induzida por visão. Ele compreende 10 cenários de fabrico e cinco condições de captura, totalizando 50 tarefas de classe única e 10.395 imagens. Cada cenário é definido por duas restrições lógicas selecionadas entre quantidade, comprimento, tipo, posicionamento e relação, com as anomalias a incluírem violações de restrição única e violações combinadas. Propomos ainda uma estrutura de detecção de anomalias baseada em linguagem que depende exclusivamente de descrições textuais geradas a partir de imagens normais. Utilizando aprendizagem por contraste com textos positivos e textos negativos baseados em contradição sintetizados a partir destas descrições, o nosso método aprende incorporações (*embeddings*) que capturam atributos lógicos em vez de características de baixo nível. Experiências extensivas demonstram melhorias consistentes face às linhas de base em todas as configurações avaliadas. O conjunto de dados está disponível em: https://github.com/nkthiroto/VID-AD.
Apresentamos o MultiTempBench, um benchmark multilingue de raciocínio temporal que abrange três tarefas — aritmética de datas, conversão de fusos horários e extração de relações temporais — em cinco idiomas (Inglês, Alemão, Chinês, Árabe e Hausa) e múltiplas convenções de calendário (Gregoriano, Hijri e Lunar Chinês). O MultiTempBench contém 15.000 exemplos construídos através da tradução de 750 questões em Inglês criteriosamente selecionadas e da expansão de cada uma em variantes controladas de formato de data. Avaliamos 20 LLMs e introduzimos o Índice de Fragmentação de Datas Multilingue (mDFR), calibrado com classificações de severidade humana, juntamente com análises de *geometric probing* de representações temporais internas. Constatamos que a qualidade da tokenização de artefactos temporais é um estrangulamento dependente de recursos: em idiomas de baixos recursos e formatos de calendário mais raros, a fragmentação perturba a separação Ano/Mês/Dia e a precisão colapsa, enquanto contextos de altos recursos são frequentemente robustos face à divisão ao nível dos dígitos. Para além da tokenização, uma regressão de efeitos mistos cruzados mostra que a linearidade temporal é o preditor mais forte do raciocínio temporal em idiomas de altos recursos, enquanto a fragmentação é o preditor mais forte em idiomas de baixos recursos. O código está disponível em: https://github.com/gagan3012/mtb
O persa apresenta desafios únicos de compreensão auditiva através de sua poesia clássica, música tradicional e code-switching generalizado – nenhum deles capturado por benchmarks existentes. Apresentamos o PARSA-Bench (Persian Audio Reasoning and Speech Assessment Benchmark), o primeiro benchmark para avaliar grandes modelos de áudio e linguagem na língua e cultura persa, compreendendo 16 tarefas e mais de 8.000 amostras em compreensão de fala, análise paralinguística e compreensão de áudio cultural. Dez tarefas são recém-introduzidas, incluindo detecção de métrica e estilo poético, compreensão de música tradicional persa e detecção de code-switching. Linhas de base baseadas apenas em texto superam consistentemente as contrapartes de áudio, sugerindo que os modelos podem não aproveitar informações específicas do áudio além do que a transcrição por si só fornece. Tarefas com base cultural expõem um modo de falha qualitativamente distinto: todos os modelos apresentam desempenho próximo ao acaso aleatório na detecção de vazn, independentemente da escala, sugerindo que a percepção prosódica permanece fora do alcance dos modelos atuais. O conjunto de dados está publicamente disponível em https://huggingface.co/datasets/MohammadJRanjbar/PARSA-Bench.
Apresentamos o COT-FM, uma estrutura geral que remodela o caminho de probabilidade no Flow Matching (FM) para alcançar uma geração mais rápida e confiável. Os modelos FM frequentemente produzem trajetórias curvas devido a acoplamentos aleatórios ou por lotes, o que aumenta o erro de discretização e reduz a qualidade da amostra. O COT-FM corrige isso agrupando amostras-alvo e atribuindo a cada cluster uma distribuição de origem dedicada, obtida pela reversão de modelos FM pré-treinados. Esta estratégia de dividir e conquistar resulta em um transporte local mais preciso e campos vetoriais significativamente mais retos, tudo sem alterar a arquitetura do modelo. Como uma abordagem plug-and-play, o COT-FM acelera consistentemente a amostragem e melhora a qualidade da geração em conjuntos de dados 2D, benchmarks de geração de imagens e tarefas de manipulação robótica.
Compreender e gerar objetos 3D como composições de partes significativas é fundamental para a percepção e raciocínio humanos. No entanto, a maioria dos métodos de texto-para-3D ignora a estrutura semântica e funcional das partes. Embora abordagens recentes com consciência de partes introduzam decomposição, elas permanecem amplamente focadas na geometria, carecendo de fundamentação semântica e falhando em modelar como as partes se alinham com descrições textuais ou suas relações interpartes. Propomos o DreamPartGen, uma estrutura para geração texto-para-3D com consciência de partes e fundamentação semântica. O DreamPartGen introduz *Latentes de Parte Duplex (LPDs)* que modelam conjuntamente a geometria e a aparência de cada parte, e *Latentes Semânticos Relacionais (LSRs)* que capturam dependências interpartes derivadas da linguagem. Um processo sincronizado de co-desruição de ruído impõe consistência geométrica e semântica mútua, permitindo uma síntese 3D coerente, interpretável e alinhada com o texto. Em múltiplos benchmarks, o DreamPartGen oferece desempenho state-of-the-art em fidelidade geométrica e alinhamento texto-forma.
Os Grandes Modelos de Linguagem (LLMs) demonstraram capacidade notável na tradução automática de pares linguísticos de alto recurso, mas o seu desempenho na tradução de baixo recurso ainda fica aquém. Os métodos existentes de pós-treinamento dependem fortemente de dados paralelos de alta qualidade, que são frequentemente escassos ou indisponíveis para línguas de baixo recurso. Neste artigo, introduzimos o WALAR, um método de treinamento por reforço que utiliza apenas texto monolíngue para elevar as capacidades de tradução dos LLMs em línguas de baixo recurso em massa, mantendo o seu desempenho em línguas de alto recurso. A nossa principal perceção baseia-se na observação de modos de falha (ou "lacunas") nos modelos existentes de estimação de qualidade multilingue baseada na fonte (QE). A aprendizagem por reforço (RL) que utiliza estes modelos QE tende a amplificar tais lacunas, resultando em LLMs multilingues mais fracos. Desenvolvemos técnicas, incluindo alinhamento de palavras e alinhamento linguístico, para mitigar essas lacunas na recompensa do WALAR para o treino de RL. Treinámos continuamente um LLM que suporta a tradução de 101 línguas usando o WALAR. As experiências mostram que o nosso novo modelo supera largamente o LLaMAX, um dos LLMs multilingues de código aberto mais robustos, em 1400 direções linguísticas no conjunto de dados Flores-101.