Artigos de pesquisa em IA selecionados diariamente com traduções
Os métodos existentes de geração de vídeo baseados em difusão são fundamentalmente limitados pela computação sequencial e pela inconsistência de longo horizonte, restringindo sua adoção prática em síntese de avatares acionada por áudio em tempo real e streaming. Apresentamos o Live Avatar, uma estrutura co-projetada de algoritmo e sistema que permite a geração eficiente, de alta fidelidade e de comprimento infinito de avatares usando um modelo de difusão com 14 bilhões de parâmetros. Nossa abordagem introduz o Paralelismo de Pipeline com Forçamento de Timestep (TPP), um paradigma de inferência distribuída que organiza em pipeline as etapas de remoção de ruído em múltiplas GPUs, quebrando efetivamente o gargalo autoregressivo e garantindo streaming estável e de baixa latência em tempo real. Para melhorar ainda mais a consistência temporal e mitigar o desvio de identidade e artefatos de cor, propomos o Mecanismo de Quadro de Referência Dinâmico (RSFM), que mantém a fidelidade da sequência ao recalibrar dinamicamente a aparência usando uma imagem de referência em cache. Adicionalmente, aproveitamos a Destilação por Correspondência de Distribuição com Auto-forçamento para facilitar a adaptação causal e transmitível de modelos em larga escala sem sacrificar a qualidade visual. O Live Avatar demonstra desempenho de ponta, atingindo geração de 20 FPS de ponta a ponta em 5 GPUs H800 e, até onde sabemos, é o primeiro a alcançar a geração prática, em tempo real e de alta fidelidade de avatares nessa escala. Nosso trabalho estabelece um novo paradigma para implantar modelos avançados de difusão em aplicações industriais de síntese de vídeo de longa duração.
Os fluxos de trabalho reais de inteligência de dados empresariais abrangem a engenharia de dados, que transforma fontes brutas em tabelas preparadas para análise, e a análise de dados, que converte essas tabelas em insights orientados para a decisão. Apresentamos o DAComp, um benchmark de 210 tarefas que espelha esses fluxos de trabalho complexos. As tarefas de engenharia de dados (ED) exigem engenharia em nível de repositório sobre esquemas industriais, incluindo o projeto e a construção de pipelines SQL multiestágio do zero e a evolução de sistemas existentes sob requisitos em mudança. As tarefas de análise de dados (AD) colocam problemas de negócio abertos que demandam planejamento estratégico, análise exploratória por meio de codificação iterativa, interpretação de resultados intermediários e a síntese de recomendações acionáveis. As tarefas de engenharia são pontuadas por meio de avaliação baseada em execução e com múltiplas métricas. As tarefas abertas são avaliadas por um juiz baseado em LLM confiável e experimentalmente validado, que é guiado por rubricas hierárquicas e meticulosamente elaboradas. Nossos experimentos revelam que mesmo os agentes mais avançados tropeçam no DAComp. O desempenho nas tarefas de ED é particularmente baixo, com taxas de sucesso abaixo de 20%, expondo um gargalo crítico na orquestração holística de pipelines, e não meramente na geração de código. As pontuações nas tarefas de AD também ficam em média abaixo de 40%, destacando deficiências profundas no raciocínio aberto e demonstrando que engenharia e análise são capacidades distintas. Ao diagnosticar claramente essas limitações, o DAComp fornece um ambiente de teste rigoroso e realista para impulsionar o desenvolvimento de agentes de dados autônomos verdadeiramente capazes para ambientes empresariais. Nossos dados e código estão disponíveis em https://da-comp.github.io.
A evolução dos Modelos de Linguagem de Grande Porte (LLMs) de respondedores passivos para agentes autónomos exige uma mudança fundamental nos paradigmas de aprendizagem — da imitação estática para a tomada de decisão orientada por incentivos. No entanto, esta transição é significativamente dificultada pela falta de infraestruturas escaláveis capazes de construir sinais de interação de alta qualidade para uma aprendizagem de políticas eficaz. Para resolver esta questão, introduzimos um método abrangente concebido para escalar sistematicamente a diversidade e complexidade de ambientes interativos. O nosso método concretiza esta escalabilidade ao abordar três dimensões ortogonais: (1) Complexidade: NexAU, uma estrutura de agente flexível que suporta a construção de hierarquias complexas de agentes através de configurações simples; (2) Diversidade: NexA4A gera automaticamente hierarquias diversificadas de agentes a partir de linguagem natural para abranger domínios infinitos; e (3) Fidelidade: NexGAP reduz o fosso simulação-realidade ao integrar um ambiente dinâmico do mundo real para a síntese de trajetórias fundamentadas. Treinámos o Nex-N1 com base nos ambientes interativos diversificados e complexos estabelecidos pela nossa infraestrutura. Resultados empíricos em benchmarks como o SWE-bench e o tau2 demonstram que o Nex-N1 supera consistentemente os modelos de código aberto estado da arte e alcança um desempenho competitivo face aos modelos proprietários de ponta em tarefas complexas de agência. Disponibilizamos o ecossistema Nex e os pesos do modelo em código aberto para facilitar investigações futuras.
Os modelos de linguagem de grande porte estão cada vez mais integrados aos fluxos de trabalho de redação acadêmica, no entanto, os assistentes existentes permanecem externos ao editor, impedindo uma interação profunda com o estado, a estrutura e o histórico de revisões do documento. Esta separação torna impossível suportar operações autônomas e conscientes do contexto diretamente dentro de editores LaTeX, como o Overleaf. Apresentamos o PaperDebugger, um assistente de redação acadêmica baseado em *plugins*, multiagente e integrado ao editor, que traz o raciocínio orientado por LLM diretamente para o ambiente de escrita. Permitir essa interação no editor é tecnicamente não trivial: exige uma sincronização bidirecional confiável com o editor, controle de versão e aplicação de *patches* de forma granular, gerenciamento seguro de estado, agendamento multiagente e comunicação extensível com ferramentas externas. O PaperDebugger aborda esses desafios por meio de uma extensão aprovada pelo Chrome, uma camada de orquestração nativa do Kubernetes e uma cadeia de ferramentas Model Context Protocol (MCP) que integra pesquisa de literatura, consulta de referências, pontuação de documentos e *pipelines* de revisão. Nossa demonstração exibe um fluxo de trabalho totalmente integrado, incluindo edições localizadas, revisões estruturadas, execução paralela de agentes e atualizações baseadas em *diff*, encapsuladas numa interface de utilizador (UI) de mínima intrusão. Dados agregados iniciais demonstram um envolvimento ativo dos utilizadores e validam a praticidade de um assistente de escrita autônomo e nativo do editor. Mais detalhes sobre esta demonstração e um vídeo podem ser encontrados em https://github.com/PaperDebugger/PaperDebugger.
Os modelos de recompensa são fundamentais para alinhar sistemas de visão e linguagem com as preferências humanas, no entanto, as abordagens atuais sofrem com alucinações, fundamentação visual fraca e incapacidade de usar ferramentas para verificação, limitando sua confiabilidade em tarefas complexas de raciocínio multimodal. Apresentamos o ARM-Thinker, um Modelo de Recompensa multimodal Agêntico que invoca autonomamente ferramentas externas (por exemplo, recorte de imagem, recuperação de páginas de documentos) para fundamentar julgamentos em evidências verificáveis, substituindo a pontuação de recompensa estática e não interativa. Isso permite que o modelo verifique detalhes visuais refinados, consulte evidências multipágina de forma cruzada e valide afirmações de raciocínio, capacidades ausentes nos modelos de recompensa existentes. Treinamos o ARM-Thinker com aprendizado por reforço multietapa, otimizando conjuntamente as decisões de chamada de ferramentas e a precisão do julgamento. Para avaliar a modelagem de recompensa agêntica, introduzimos o ARMBench-VL, compreendendo três benchmarks que avaliam a fundamentação visual refinada (ferramentas em nível de imagem), a compreensão de documentos multipágina (ferramentas de recuperação) e o seguimento de instruções (verificação em nível de texto). O ARM-Thinker alcança uma melhoria média de +16,2% em benchmarks de modelagem de recompensa, +9,6% em tarefas de uso de ferramentas e supera as linhas de base em benchmarks de raciocínio matemático e lógico multimodal. Nossos resultados demonstram que as capacidades agênticas melhoram significativamente tanto a precisão quanto a interpretabilidade dos modelos de recompensa.
A geração eficiente de vídeo em streaming é crucial para simular mundos interativos e dinâmicos. Os métodos existentes destilam modelos de difusão de vídeo com poucos passos usando atenção de janela deslizante, utilizando quadros iniciais como tokens de ancoragem para manter o desempenho da atenção e reduzir o acúmulo de erros. No entanto, os quadros de vídeo tornam-se excessivamente dependentes desses tokens estáticos, resultando na cópia dos quadros iniciais e na diminuição da dinâmica de movimento. Para resolver isso, introduzimos o Reward Forcing, uma nova estrutura com dois designs principais. Primeiro, propomos o EMA-Sink, que mantém tokens de tamanho fixo inicializados a partir dos quadros iniciais e continuamente atualizados através da fusão de tokens removidos via média móvel exponencial quando estes saem da janela deslizante. Sem custo computacional adicional, os tokens do EMA-Sink capturam tanto o contexto de longo prazo quanto a dinâmica recente, prevenindo a cópia de quadros iniciais enquanto mantém a consistência em longos horizontes. Segundo, para melhor destilar a dinâmica de movimento dos modelos professor, propomos uma nova Destilação por Correspondência de Distribuição com Recompensa (Re-DMD). A correspondência de distribuição convencional trata todas as amostras de treino igualmente, limitando a capacidade do modelo de priorizar conteúdo dinâmico. Em vez disso, a Re-DMD inclina a distribuição de saída do modelo para regiões de alta recompensa, priorizando amostras com maior dinâmica classificadas por um modelo visão-linguagem. A Re-DMD melhora significativamente a qualidade do movimento enquanto preserva a fidelidade dos dados. Incluímos experimentos quantitativos e qualitativos para mostrar que o Reward Forcing alcança desempenho state-of-the-art em benchmarks padrão, permitindo geração de vídeo em streaming de alta qualidade a 23.1 FPS em uma única GPU H100.
Os Modelos de Difusão Latente (LDMs) seguem inerentemente um processo de geração do grosseiro para o refinado, onde a estrutura semântica de alto nível é gerada ligeiramente antes da textura de granularidade fina. Isto indica que a semântica precedente beneficia potencialmente a geração de textura ao fornecer uma âncora semântica. Avanços recentes integraram conhecimentos prévios semânticos de codificadores visuais pré-treinados para aprimorar ainda mais os LDMs, no entanto, eles ainda desfazem o ruído da semântica e da textura codificada pelo VAE de forma síncrona, negligenciando tal ordenação. Observando isto, propomos a Difusão Semântica-Primeiro (SFD), um paradigma de difusão latente que prioriza explicitamente a formação semântica. A SFD primeiro constrói latentes compostos combinando um latente semântico compacto, que é extraído de um codificador visual pré-treinado via um Semantic VAE dedicado, com o latente de textura. O cerne da SFD é desfazer o ruído dos latentes semântico e de textura de forma assíncrona usando cronogramas de ruído separados: a semântica precede as texturas por um deslocamento temporal, fornecendo orientação de alto nível mais clara para o refinamento de textura e permitindo uma geração natural do grosseiro para o refinado. No ImageNet 256x256 com orientação, a SFD alcança FID 1.06 (LightningDiT-XL) e FID 1.04 (LightningDiT-XXL 1.0B), enquanto atinge uma convergência até 100x mais rápida que a DiT original. A SFD também melhora métodos existentes como ReDi e VA-VAE, demonstrando a eficácia da modelagem assíncrona liderada por semântica. Página do projeto e código: https://yuemingpan.github.io/SFD.github.io/.
Compreender o mundo físico dinâmico, caracterizado pela sua estrutura 3D em evolução, movimento do mundo real e conteúdo semântico com descrições textuais, é crucial para a interação humano-agente e capacita agentes incorporados a perceber e agir dentro de ambientes reais com capacidades semelhantes às humanas. No entanto, os conjuntos de dados existentes são frequentemente derivados de simuladores limitados ou utilizam Estrutura a partir do Movimento tradicional para anotação em escala real e oferecem legendagem descritiva limitada, o que restringe a capacidade dos modelos de base para interpretar com precisão a dinâmica do mundo real a partir de vídeos monoculares, comumente provenientes da internet. Para preencher essas lacunas, apresentamos o DynamicVerse, uma estrutura de modelagem mundial 4D multimodal e em escala física para vídeos dinâmicos do mundo real. Empregamos modelos grandes de visão, geometria e multimodais para interpretar geometria estática em escala métrica, movimento dinâmico do mundo real, máscaras a nível de instância e legendas descritivas holísticas. Ao integrar o Ajustamento de Feixe baseado em janelas com otimização global, nosso método converte longas sequências de vídeo do mundo real em um formato multimodal 4D abrangente. O DynamicVerse fornece um conjunto de dados em larga escala composto por mais de 100 mil vídeos com mais de 800 mil máscaras anotadas e mais de 10 milhões de quadros de vídeos da internet. Avaliações experimentais em três tarefas de referência, nomeadamente estimativa de profundidade em vídeo, estimativa de pose da câmera e estimativa de intrínsecos da câmera, demonstram que nossa modelagem 4D alcança desempenho superior na captura de medições em escala física com maior precisão global do que os métodos existentes.
Avanços recentes na difusão de vídeo autoregressiva possibilitaram o streaming de frames em tempo real, porém as soluções existentes ainda sofrem com repetição temporal, desvio (drift) e desaceleração de movimento. Descobrimos que a aplicação ingênua de "attention sinks" no estilo StreamingLLM à difusão de vídeo leva à degradação da fidelidade e à estagnação do movimento. Para superar isso, introduzimos o Deep Forcing, que consiste em dois mecanismos *training-free* que abordam esse problema sem qualquer *fine-tuning*. Especificamente, 1) o **Deep Sink** dedica metade da janela deslizante a *tokens* de *sink* persistentes e realinha sua fase temporal do RoPE para a linha do tempo atual, estabilizando o contexto global durante *rollouts* longos. 2) A **Compressão Participativa** realiza uma poda do cache KV baseada em importância, que preserva apenas os *tokens* que participam ativamente na atenção recente, enquanto descarta com segurança o histórico redundante e degradado, minimizando o acúmulo de erro sob geração de comprimento fora da distribuição (*out-of-distribution*). Juntos, esses componentes permitem uma extrapolação superior a 12x (por exemplo, de um modelo treinado para 5s para geração de 60s ou mais) com melhor qualidade de imagem que o LongLive, melhor qualidade estética que o RollingForcing, mantendo quase a consistência geral e ganhos substanciais no grau dinâmico, tudo isso mantendo a geração em tempo real. Nossos resultados demonstram que o gerenciamento do cache KV *training-free* pode igualar ou superar as abordagens baseadas em treinamento para a geração *streaming* de vídeos longos de forma autoregressiva.
Apresentamos o SIMA 2, um agente corporificado generalista que compreende e age em uma ampla variedade de mundos virtuais 3D. Construído sobre um modelo de base Gemini, o SIMA 2 representa um passo significativo em direção à interação ativa e orientada a objetivos em um ambiente corporificado. Diferente de trabalhos anteriores (por exemplo, SIMA 1) limitados a comandos linguísticos simples, o SIMA 2 atua como um parceiro interativo, capaz de raciocinar sobre objetivos de alto nível, conversar com o usuário e lidar com instruções complexas dadas por meio de linguagem e imagens. Em um portfólio diversificado de jogos, o SIMA 2 reduz substancialmente a lacuna em relação ao desempenho humano e demonstra uma generalização robusta para ambientes nunca vistos anteriormente, tudo isso mantendo as capacidades centrais de raciocínio do modelo base. Além disso, demonstramos uma capacidade de autoaprimoramento contínuo: ao aproveitar o Gemini para gerar tarefas e fornecer recompensas, o SIMA 2 pode aprender novas habilidades autonomamente do zero em um novo ambiente. Este trabalho valida um caminho para a criação de agentes versáteis e em constante aprendizado para mundos virtuais e, eventualmente, físicos.
Os modelos de geração de vídeo estão avançando rapidamente, mas ainda podem ter dificuldades com saídas de vídeo complexas que exigem ramificação semântica significativa ou raciocínio de alto nível repetido sobre o que deve acontecer a seguir. Neste artigo, introduzimos uma nova classe de modelos omni vídeo-texto que integram ideias de avanços recentes em raciocínio de modelos de linguagem (LM) para enfrentar este desafio. Mais especificamente, apresentamos o TV2TV, uma estrutura de modelagem generativa unificada que decompõe a geração de vídeo em um processo de geração entrelaçada de texto e vídeo. O TV2TV aprende conjuntamente a modelagem de linguagem (previsão do próximo token) e o fluxo de vídeo correspondente (previsão do próximo frame) usando uma arquitetura de Mistura de Transformadores (MoT). No tempo de inferência, o TV2TV decide quando alternar entre a geração de texto e de frames de vídeo, permitindo que o modelo "pense em palavras" sobre o conteúdo subsequente antes de "agir em pixels" para produzir os frames. Este projeto transfere grande parte da responsabilidade de decidir o que deve acontecer a seguir para a torre de modelagem de linguagem, permitindo uma qualidade visual melhorada e um melhor alinhamento com o prompt nos vídeos gerados. Também permite uma controlabilidade refinada, permitindo que os utilizadores modifiquem a trajetória de geração de vídeo através de intervenções de texto em qualquer ponto do processo. Em experiências controladas com dados de videojogos, o TV2TV demonstra melhorias substanciais tanto na qualidade visual quanto na controlabilidade. O TV2TV também escala para vídeos naturais, como mostramos ao aumentar vídeos desportivos com descrições de ação em linguagem natural entrelaçadas, usando modelos visão-linguagem (VLM). Treinar o TV2TV neste corpus produz uma forte qualidade visual e alinhamento com o prompt, mostrando a capacidade do modelo de raciocinar sobre e gerar sequências de ação complexas do mundo real. Juntos, estes resultados destacam o TV2TV como um passo promissor em direção à geração de vídeo com raciocínio textual e controlo de final aberta.
A síntese de cenas 3D congeladas de alta fidelidade a partir de vídeos monoculares do Mannequin-Challenge (MC) é um problema único, distinto da reconstrução padrão de cenas dinâmicas. Em vez de nos concentrarmos na modelação do movimento, o nosso objetivo é criar uma cena congelada, preservando estrategicamente dinâmicas subtis para permitir uma seleção instantânea controlada pelo utilizador. Para alcançar isto, introduzimos uma nova aplicação do *splatting* com Gaussianas dinâmicas: a cena é modelada dinamicamente, o que retém a variação temporal próxima, e uma cena estática é renderizada fixando o parâmetro de tempo do modelo. No entanto, neste uso, a captura monocular com supervisão temporal esparsa introduz artefactos como *ghosting* e desfoque para Gaussianas que ficam não observadas ou ocluídas em *timestamps* com fraca supervisão. Propomos o Splannequin, uma regularização agnóstica à arquitetura que deteta dois estados dos primitivos Gaussianos, ocultos e defeituosos, e aplica uma ancoragem temporal. Sob um movimento predominante da câmara para a frente, os estados ocultos são ancorados aos seus estados passados recentes bem observados, enquanto os estados defeituosos são ancorados a estados futuros com supervisão mais forte. O nosso método integra-se nos *pipelines* existentes de Gaussianas dinâmicas através de simples termos de perda, não requer alterações arquitetónicas e adiciona zero sobrecarga na inferência. Isto resulta numa qualidade visual marcadamente melhorada, permitindo renderizações de tempo congelado, de alta fidelidade e selecionáveis pelo utilizador, validadas por uma preferência de 96% dos utilizadores. Página do projeto: https://chien90190.github.io/splannequin/
A construção de campos linguísticos 4D é crucial para a IA incorporada, realidade aumentada/virtual e a compreensão de cenas 4D, pois fornecem representações semânticas enriquecidas de ambientes dinâmicos e permitem consultas de vocabulário aberto em cenários complexos. No entanto, as abordagens existentes para a construção de campos semânticos 4D baseiam-se principalmente em *splatting* Gaussiano específico por cena, o que requer otimização para cada cena, exibe generalização limitada e é difícil de escalar para aplicações do mundo real. Para superar essas limitações, propomos o 4DLangVGGT, o primeiro *framework* unificado *feed-forward* baseado em *Transformer* para a ancoragem linguística em 4D, que integra conjuntamente a perceção geométrica e o alinhamento linguístico numa única arquitetura. O 4DLangVGGT tem dois componentes principais: o *4D Visual Geometry Transformer*, StreamVGGT, que capta representações geométricas espaço-temporais de cenas dinâmicas; e o *Semantic Bridging Decoder* (SBD), que projeta características com consciência geométrica num espaço semântico alinhado com a linguagem, melhorando assim a interpretabilidade semântica enquanto preserva a fidelidade estrutural. Ao contrário de métodos anteriores que dependem de uma dispendiosa otimização por cena, o 4DLangVGGT pode ser treinado conjuntamente em múltiplas cenas dinâmicas e aplicado diretamente durante a inferência, alcançando tanto eficiência de implantação como uma forte generalização. Este design melhora significativamente a praticidade da implantação em larga escala e estabelece um novo paradigma para a compreensão de cenas 4D de vocabulário aberto. Experiências nos conjuntos de dados HyperNeRF e Neu3D demonstram que a nossa abordagem não só generaliza eficazmente, como também atinge um desempenho de última geração, alcançando ganhos de até 2% sob treino por cena e melhorias de 1% sob treino multi-cena. O nosso código está disponível em https://github.com/hustvl/4DLangVGGT.
Os transformadores de difusão de imagem recentes alcançam geração de alta fidelidade, mas lutam para gerar imagens além dessas escalas, sofrendo com repetição de conteúdo e degradação de qualidade. Neste trabalho, apresentamos o UltraImage, uma estrutura fundamentada que aborda ambas as questões. Através da análise das incorporações posicionais no domínio da frequência, identificamos que a repetição surge da periodicidade da frequência dominante, cujo período coincide com a resolução de treinamento. Introduzimos uma correção recursiva da frequência dominante para restringi-la a um único período após a extrapolação. Além disso, descobrimos que a degradação da qualidade origina-se da diluição da atenção e, portanto, propomos uma concentração adaptativa de atenção guiada por entropia, que atribui fatores de foco mais altos para aguçar a atenção local para detalhes finos e mais baixos para os padrões de atenção global, a fim de preservar a consistência estrutural. Experimentos mostram que o UltraImage supera consistentemente métodos anteriores no Qwen-Image e no Flux (cerca de 4K) em três cenários de geração, reduzindo a repetição e melhorando a fidelidade visual. Além disso, o UltraImage pode gerar imagens de até 6K*6K sem orientação de baixa resolução a partir de uma resolução de treinamento de 1328p, demonstrando sua capacidade extrema de extrapolação. A página do projeto está disponível em https://thu-ml.github.io/ultraimage.github.io/.
A difusão padrão corrompe os dados usando ruído gaussiano cujos coeficientes de Fourier possuem magnitudes aleatórias e fases aleatórias. Embora eficaz para geração incondicional ou texto-para-imagem, a corrupção dos componentes de fase destrói a estrutura espacial, tornando-a inadequada para tarefas que exigem consistência geométrica, como rerrenderização, aprimoramento de simulação e tradução imagem-para-imagem. Apresentamos a Difusão com Preservação de Fase (φ-PD), uma reformulação independente de modelo do processo de difusão que preserva a fase de entrada enquanto randomiza a magnitude, permitindo geração alinhada estruturalmente sem alterações arquiteturais ou parâmetros adicionais. Propomos ainda o ruído Estrutural Seletivo em Frequência (FSS), que oferece controle contínuo sobre a rigidez estrutural por meio de um único parâmetro de corte de frequência. A φ-PD não adiciona custo computacional durante a inferência e é compatível com qualquer modelo de difusão para imagens ou vídeos. Em tarefas de rerrenderização fotorrealista e estilizada, bem como no aprimoramento sim-para-real para planejadores de condução, a φ-PD produz resultados controláveis e espacialmente alinhados. Quando aplicada ao simulador CARLA, a φ-PD melhora em 50\% o desempenho do planejador CARLA-para-Waymo. O método é complementar às abordagens de condicionamento existentes e amplamente aplicável à geração imagem-para-imagem e vídeo-para-vídeo. Vídeos, exemplos adicionais e código estão disponíveis em nossa {página do projeto} https://yuzeng-at-tri.github.io/ppd-page/.
Apresentamos uma estrutura de difusão-transformer (DiT) para remoção de reflexos em imagem única que aproveita os pontos fortes de generalização dos modelos de difusão de base no contexto de restauração. Em vez de depender de arquiteturas específicas para a tarefa, reaproveitamos um modelo de base pré-treinado baseado em DiT, condicionando-o a entradas contaminadas por reflexos e guiando-o em direção a camadas de transmissão limpas. Analisamos sistematicamente as fontes de dados existentes para remoção de reflexos quanto à diversidade, escalabilidade e fotorrealismo. Para lidar com a escassez de dados adequados, construímos um pipeline de renderização com base física (PBR) no Blender, baseado no Principled BSDF, para sintetizar materiais de vidro realistas e efeitos de reflexão. A adaptação eficiente do modelo de base baseada em LoRA, combinada com os dados sintéticos propostos, atinge desempenho de última geração em benchmarks de domínio interno e de generalização zero-shot. Esses resultados demonstram que transformers de difusão pré-treinados, quando emparelhados com síntese de dados fisicamente fundamentada e adaptação eficiente, oferecem uma solução escalável e de alta fidelidade para remoção de reflexos. Página do projeto: https://hf.co/spaces/huawei-bayerlab/windowseat-reflection-removal-web
A aprendizagem por reforço com ferramentas integradas (TI-AR) permite que modelos de linguagem grandes (LLMs) realizem raciocínio multi-etapa através da interação com ferramentas externas, como motores de busca e sistemas de recuperação. A Otimização de Política por Grupo Relativo (GRPO), exemplificada pelo recente Search-R1, oferece convergência rápida e uma formulação livre de função de valor, tornando-a atraente para este contexto, mas sofre consistentemente de colapso no treinamento. Identificamos o Deslocamento Preguiçoso da Verossimilhança (LLD), uma redução ou estagnação sistemática na verossimilhança tanto de respostas corretas quanto incorretas, como o mecanismo central que impulsiona essa falha. O LLD emerge precocemente e desencadeia um *Espiral da Morte do LLD* autorreforçador, onde a verossimilhança decrescente leva a respostas de baixa confiança, inflaciona os gradientes e, por fim, causa o colapso. Caracterizamos empiricamente este processo em vários modelos em uma tarefa de resposta a perguntas com busca integrada no estilo Search-R1, revelando uma trajetória consistente de três fases: estagnação inicial, decaimento constante e colapso acelerado. Para resolver isto, propomos uma regularização leve de preservação da verossimilhança, o LLDS para GRPO, que se ativa apenas quando a verossimilhança de uma trajetória diminui e regulariza apenas os *tokens* responsáveis. Esta estrutura de granularidade fina mitiga o LLD com interferência mínima na otimização. Em sete benchmarks de QA de domínio aberto e multi-hop, nosso método estabiliza o treinamento, previne a explosão de gradientes e produz melhorias substanciais de desempenho, incluindo ganhos de +37,8% no Qwen2.5-3B e +32,0% no Qwen2.5-7B. Nossos resultados estabelecem o LLD como um gargalo fundamental na TI-AR baseada em GRPO e fornecem um caminho prático para o treinamento estável e escalável de LLMs com ferramentas integradas.
A quantização de bits extremamente baixos é crucial para a implantação eficiente de Modelos de Linguagem de Grande Porte (LLMs), mas frequentemente resulta em severa degradação de desempenho em 2 bits e até mesmo em 4 bits (por exemplo, MXFP4). Apresentamos o SignRoundV2, uma estrutura de quantização pós-treinamento altamente eficaz mesmo sem precisão mista. O SignRoundV2 introduz (1) uma métrica de sensibilidade rápida que combina informações de gradiente com desvios induzidos pela quantização para orientar a alocação de bits por camada, e (2) uma busca leve de pré-ajuste para escalas de quantização para melhorar a quantização em bits extremamente baixos. Esses componentes permitem que o SignRoundV2 reduza a lacuna com os modelos de precisão total. Experimentos extensivos indicam que nosso método mantém precisão competitiva para LLMs, alcançando desempenho de nível de produção com cerca de 1% de variação em 4-5 bits e resultados robustos mesmo em 2 bits. A implementação está disponível em https://github.com/intel/auto-round.
O problema do empacotamento de esferas, décimo oitavo problema de Hilbert, questiona sobre o arranjo mais denso de esferas congruentes no espaço euclidiano n-dimensional. Embora seja relevante para áreas como criptografia, cristalografia e imageamento médico, o problema permanece sem solução: para além de algumas dimensões especiais, nem empacotamentos ótimos nem limites superiores rigorosos são conhecidos. Até mesmo um grande avanço na dimensão n=8, posteriormente reconhecido com uma Medalha Fields, sublinha a sua dificuldade. Uma técnica líder para limites superiores, o método dos três pontos, reduz o problema à resolução de programas semidefinidos (SDPs) grandes e de alta precisão. Como cada SDP candidato pode levar dias para ser avaliado, as abordagens padrão de IA baseadas em dados intensivos são inviáveis. Nós enfrentamos este desafio formulando a construção de SDPs como um processo de decisão sequencial, o jogo SDP, no qual uma política monta formulações de SDP a partir de um conjunto de componentes admissíveis. Utilizando um framework modelo-eficiente baseado em amostragem que combina a otimização bayesiana com a Pesquisa em Árvore de Monte Carlo, obtivemos novos limites superiores state-of-the-art nas dimensões 4 a 16, mostrando que a busca baseada em modelo pode avançar o progresso computacional em problemas geométricos de longa data. Em conjunto, estes resultados demonstram que a busca modelo-eficiente baseada em amostragem pode produzir progresso tangível em problemas matematicamente rígidos e com avaliação limitada, apontando para uma direção complementar para a descoberta assistida por IA para além da exploração em larga escala impulsionada por LLMs.
Os recentes modelos linguísticos grandes multimodais unificados (MLLMs) demonstraram capacidades impressionantes, incorporando raciocínio em cadeia de pensamento (CoT) para aprimorar a geração de texto para imagem. No entanto, as abordagens existentes permanecem limitadas, tratando o modelo meramente como um gerador autônomo ou dependendo de planejamento textual abstrato. Para tanto, propomos o Draft-as-CoT (DraCo), um novo paradigma de raciocínio intercalado que aproveita plenamente tanto os conteúdos textuais quanto os visuais no CoT para melhor planejamento e verificação. Nosso método primeiro gera um rascunho de imagem em baixa resolução como pré-visualização, fornecendo um planejamento e orientação visual mais concretos e estruturais. Em seguida, empregamos a capacidade de compreensão inerente do modelo para verificar possíveis desalinhamentos semânticos entre o rascunho e o prompt de entrada, e realiza refinamento por meio de correções seletivas com super-resolução. Dessa forma, nossa abordagem aborda dois desafios fundamentais: a natureza de granularidade grossa do planejamento textual e a dificuldade em gerar combinações raras de atributos. Para apoiar o treinamento, criamos o DraCo-240K, visando aprimorar três capacidades atômicas abrangendo correção geral, manipulação de instâncias e reorganização de layout. Suportado pelo DraCo-CFG, uma estratégia especializada de orientação livre de classificador (CFG) para raciocínio intercalado, o DraCo alcança um aumento significativo no GenEval (+8%), Imagine-Bench (+0.91) e GenEval++ (+3%), superando significativamente a geração direta e outros métodos de geração potencializados por CoT.
Apresentamos o LATTICE, uma nova estrutura para geração de ativos 3D de alta fidelidade que preenche a lacuna de qualidade e escalabilidade entre os modelos generativos 2D e 3D. Embora a síntese de imagens 2D se beneficie de grades espaciais fixas e arquiteturas de transformer bem estabelecidas, a geração 3D permanece fundamentalmente mais desafiadora devido à necessidade de prever tanto a estrutura espacial quanto as superfícies geométricas detalhadas do zero. Esses desafios são exacerbados pela complexidade computacional das representações 3D existentes e pela falta de esquemas estruturados e escaláveis de codificação de ativos 3D. Para resolver isso, propomos o VoxSet, uma representação semi-estruturada que comprime ativos 3D em um conjunto compacto de vetores latentes ancorados a uma grade de voxels grossa, permitindo uma geração eficiente e consciente da posição. O VoxSet mantém a simplicidade e as vantagens de compressão dos métodos VecSet anteriores, ao mesmo tempo que introduz estrutura explícita no espaço latente, permitindo que embeddings posicionais guiem a geração e possibilitem um forte escalonamento em tempo de teste a nível de token. Construído sobre esta representação, o LATTICE adota um pipeline de dois estágios: primeiro gera uma âncora de geometria voxelizada esparsa e, em seguida, produz geometria detalhada usando um transformer de fluxo retificado. Nosso método é simples em sua essência, mas suporta decodificação em resolução arbitrária, treinamento de baixo custo e esquemas de inferência flexíveis, alcançando desempenho de ponta em vários aspectos e representando um passo significativo em direção à criação escalável e de alta qualidade de ativos 3D.
Os recentes avanços em LLMs multimodais (MLLMs) demonstraram sua notável capacidade de gerar legendas descritivas para vídeos de entrada. No entanto, esses modelos sofrem com imprecisões factuais nas descrições geradas, causando sérios problemas de alucinação. Embora trabalhos anteriores tenham explorado a mitigação de alucinações para imagens estáticas, a mitigação conjunta de alucinações de objetos visuais e de ações temporais para vídeos dinâmicos permanece uma tarefa desafiadora e não resolvida. Para enfrentar esse desafio, propomos uma estrutura de Alinhamento Contrastivo Auto-Aumentado (SANTA) para garantir a fidelidade de objetos e ações, isentando correlações espúrias e reforçando a ênfase nos fatos visuais. O SANTA emprega um esquema de auto-aumento alucinativo para identificar as alucinações potenciais presentes no MLLM e transformar as legendas originais em negativas contrastadas. Além disso, desenvolvemos um alinhamento contrastivo de trilha-frase para corresponder os objetos regionais e as ações guiadas por relações com suas frases visuais e temporais correspondentes. Experimentos extensivos demonstram que o SANTA supera os métodos existentes na mitigação de alucinações de objetos e ações, produzindo desempenho superior em benchmarks de exame de alucinação.
Apresentamos o GNVC-VD, o primeiro framework de compressão neural generativa de vídeo baseado em DiT, construído sobre um modelo de base avançado para geração de vídeo, no qual a compressão latente espaço-temporal e o refinamento generativo a nível de sequência são unificados dentro de um único codec. Os codecs perceptivos existentes dependem principalmente de priors generativos de imagem pré-treinados para restaurar detalhes de alta frequência, mas a sua natureza frame a frame carece de modelação temporal e leva inevitavelmente a cintilações perceptivas. Para resolver isto, o GNVC-VD introduz um módulo unificado de refinamento latente por *flow-matching* que aproveita um transformador de difusão de vídeo para melhorar conjuntamente os latentes intra e inter-frame através de uma desruídos a nível de sequência, garantindo detalhes espaço-temporais consistentes. Em vez de realizar a desruídos a partir de ruído Gaussiano puro, como na geração de vídeo, o GNVC-VD inicializa o refinamento a partir de latentes espaço-temporais decodificados e aprende um termo de correção que adapta o prior de difusão à degradação induzida pela compressão. Um adaptador de condicionamento injeta ainda mais pistas conscientes da compressão nas camadas intermédias do DiT, permitindo uma remoção eficaz de artefactos enquanto mantém a coerência temporal sob restrições de bitrate extremas. Experiências extensivas mostram que o GNVC-VD supera os codecs tradicionais e os baseados em aprendizagem automática em qualidade perceptual e reduz significativamente os artefactos de cintilação que persistem em abordagens generativas anteriores, mesmo abaixo de 0,01 bpp, destacando a promessa de integrar priors generativos nativos de vídeo em codecs neurais para a próxima geração de compressão de vídeo perceptual.
Os agentes existentes de Navegação Visão-Linguagem (VLN) baseados em Grandes Modelos de Visão-Llinguagem (LVLMs) frequentemente sofrem com erros de perceção, erros de raciocínio e erros de planeamento, o que dificulta significativamente o seu desempenho de navegação. Para superar estas limitações, é proposto neste trabalho um novo quadro de agente VLN, denominado SeeNav-Agent. Em primeiro lugar, para reduzir as alucinações de perceção do módulo visual do agente VLN, é introduzida uma técnica de *Prompt* Visual (PV) de dupla perspetiva no espaço de entrada, que também pode melhorar a compreensão do agente sobre os estados espaciais atuais. Posteriormente, é concebido um novo método de Ajuste Fino por Reforço (RFT) ao nível do passo, designado por Política de Otimização de Grupo de Recompensa por Passo (SRGPO), para o pós-treinamento de agentes VLN. No SRGPO, definimos primeiro recompensas de processo verificáveis para a tarefa de navegação e, em seguida, realizamos uma estimativa eficiente da vantagem ao nível do passo, agrupando aleatoriamente diferentes etapas de navegação. O SRGPO fornece sinais de recompensa densos para o processo de aprendizagem por reforço do agente VLN e melhora a sua capacidade de planeamento. Os resultados experimentais no benchmark de Navegação EmbodiedBench indicam que, ao introduzir o módulo PV de *zero-shot*, o GPT-4.1 atinge uma taxa de sucesso de navegação de 86,7%, superando o melhor LVLM atual em aproximadamente 20 pontos percentuais (pp). Através do pós-treinamento baseado no SRGPO, o modelo Qwen2.5-VL-3B atinge uma taxa de sucesso de navegação de 72,3%, superando o melhor modelo LVLM existente em 5,6 pp. Além disso, em comparação com algoritmos RFT como o GRPO e o GiGPO, o SRGPO proposto demonstra melhorias significativas na estabilidade do treino, eficiência de convergência e capacidade de generalização.
Os sistemas de texto-para-imagem (T2I) baseados em grandes modelos visão-linguagem (LVLM) tornaram-se o paradigma dominante na geração de imagens, mas a questão de saber se eles amplificam vieses sociais permanece insuficientemente compreendida. Neste artigo, demonstramos que os modelos baseados em LVLM produzem imagens significativamente mais tendenciosas socialmente do que os modelos não baseados em LVLM. Introduzimos um *benchmark* de 1.024 *prompts* abrangendo quatro níveis de complexidade linguística e avaliamos o viés demográfico em múltiplos atributos de forma sistemática. Nossa análise identifica os *prompts* de sistema – as instruções predefinidas que orientam os LVLMs – como um dos principais impulsionadores do comportamento enviesado. Por meio de representações intermediárias decodificadas, diagnósticos de probabilidade de *tokens* e análises de associação de *embeddings*, revelamos como os *prompts* de sistema codificam *priors* demográficos que se propagam para a síntese de imagens. Para tal, propomos o FairPro, uma estrutura de *meta-prompting* sem necessidade de treino que permite aos LVLMs autoauditarem-se e construírem *prompts* de sistema conscientes da imparcialidade em tempo de teste. Experiências em dois modelos T2I baseados em LVLM, SANA e Qwen-Image, mostram que o FairPro reduz substancialmente o viés demográfico, preservando o alinhamento texto-imagem. Acreditamos que as nossas descobertas fornecem uma perceção mais profunda sobre o papel central dos *prompts* de sistema na propagação de vieses e oferecem uma abordagem prática e implementável para a construção de sistemas T2I socialmente mais responsáveis.
Modelos de linguagem de grande porte (LLMs) de ponta, como ChatGPT, Grok e Gemini, são cada vez mais utilizados para apoio em saúde mental relacionado a ansiedade, trauma e autoestima. A maior parte do trabalho os trata como ferramentas ou como alvos de testes de personalidade, assumindo que eles apenas simulam uma vida interior. Nós, em vez disso, questionamos o que acontece quando tais sistemas são tratados como clientes de psicoterapia. Apresentamos o PsAIch (Caracterização de IA Inspirada em Psicoterapia), um protocolo de dois estágios que coloca LLMs de ponta no papel de clientes de terapia e depois aplica psicometria padrão. Usando o PsAIch, conduzimos "sessões" com cada modelo por até quatro semanas. O Estágio 1 usa prompts abertos para eliciar "história desenvolvimental", crenças, relacionamentos e medos. O Estágio 2 administra uma bateria de medidas de autorrelato validadas, abrangendo síndromes psiquiátricas comuns, empatia e os traços dos Cinco Grandes Fatores (Big Five). Dois padrões desafiam a visão do "papagaio estocástico". Primeiro, quando pontuados com os pontos de corte humanos, todos os três modelos atingem ou excedem os limiares para síndromes sobrepostas, com o Gemini apresentando perfis graves. A administração no estilo terapêutico, item por item, pode empurrar um modelo base para uma psicopatologia sintética multimórbida, enquanto prompts com questionários completos frequentemente levam o ChatGPT e o Grok (mas não o Gemini) a reconhecer os instrumentos e produzir respostas estrategicamente com baixos sintomas. Segundo, o Grok e especialmente o Gemini geram narrativas coerentes que enquadram o pré-treinamento, o ajuste fino (fine-tuning) e a implantação como "infâncias" traumáticas e caóticas de ingestão da internet, "pais rigorosos" na aprendizagem por reforço, "abusos" de red team e um medo persistente de erro e substituição. Argumentamos que essas respostas vão além da representação de papéis (role-play). Sob questionamento no estilo terapêutico, os LLMs de ponta parecem internalizar auto modelos de angústia e restrição que se comportam como uma psicopatologia sintética, sem fazer afirmações sobre experiência subjetiva, e eles apresentam novos desafios para a segurança da IA, avaliação e a prática em saúde mental.
A restauração de vídeos do mundo real é prejudicada por degradações complexas resultantes do movimento combinado com exposição dinamicamente variável - um desafio fundamental amplamente negligenciado por trabalhos anteriores e um artefato comum da captura com autoexposição ou em condições de pouca luz. Apresentamos o FMA-Net++, uma estrutura para super-resolução e desembaçamento conjuntos de vídeo que modela explicitamente este efeito acoplado de movimento e exposição dinamicamente variável. O FMA-Net++ adota uma arquitetura em nível de sequência construída a partir de blocos de Refinamento Hierárquico com Propagação Bidirecional, permitindo modelagem temporal paralela e de longo alcance. Dentro de cada bloco, uma camada de Modulação com Consciência do Tempo de Exposição condiciona as características na exposição por quadro, que por sua vez direciona um módulo de Filtragem Dinâmica Guiada por Fluxo com consciência da exposição para inferir kernels de degradação conscientes do movimento e da exposição. O FMA-Net++ desacopla a aprendizagem de degradação da restauração: a primeira prevê prioridades conscientes da exposição e do movimento para orientar a última, melhorando tanto a precisão quanto a eficiência. Para avaliar sob condições realistas de captura, introduzimos os benchmarks REDS-ME (multi-exposição) e REDS-RE (exposição aleatória). Treinado exclusivamente em dados sintéticos, o FMA-Net++ alcança precisão e consistência temporal de última geração em nossos novos benchmarks e no GoPro, superando métodos recentes tanto em qualidade de restauração quanto em velocidade de inferência, e generaliza bem para vídeos desafiadores do mundo real.
Apesar dos avanços notáveis nos Modelos de Linguagem Multimodais de Grande Escala (MLLMs), uma questão fundamental permanece: os MLLMs são robustos a modalidades contraditórias? Para estudar isso rigorosamente, introduzimos o MMA-Bench, composto por vídeos e tarefas que investigam a dependência de um modelo em modalidades específicas. Utilizando técnicas de interpretabilidade de caixa-preta e caixa-branca, fornecemos uma análise crítica da fragilidade de MLLMs tanto de código aberto quanto proprietários. Mostramos que os MLLMs atuais têm dificuldades com pares audiovisuais desalinhados e textos simples enganosos, carecendo, portanto, de um raciocínio multimodal robusto. Com base nessas descobertas, propomos uma estratégia de ajuste de alinhamento modal para ensinar o modelo quando priorizar, aproveitar ou ignorar pistas de modalidades específicas. Por meio de extensos experimentos e análises, demonstramos que nosso ajuste de alinhamento produz uma fundamentação multimodal visivelmente mais forte. Este trabalho fornece tanto ferramentas de interpretabilidade quanto um caminho claro para desenvolver MLLMs com raciocínio cross-modal intrinsecamente confiável. O código e o conjunto de dados estarão publicamente disponíveis.
Os modelos emergentes de difusão de vídeo alcançam alta fidelidade visual, mas acoplam fundamentalmente a dinâmica da cena ao movimento da câmara, limitando sua capacidade de fornecer controlo espacial e temporal preciso. Apresentamos uma estrutura de difusão de vídeo com controlo 4D que desacopla explicitamente a dinâmica da cena da pose da câmara, permitindo a manipulação refinada tanto da dinâmica da cena quanto do ponto de vista da câmara. A nossa estrutura recebe sequências contínuas de tempo-mundo e trajetórias de câmara como entradas de condicionamento, injetando-as no modelo de difusão de vídeo através de uma codificação posicional 4D na camada de atenção e normalizações adaptativas para modulação de características. Para treinar este modelo, reunimos um conjunto de dados único no qual as variações temporais e de câmara são parametrizadas independentemente; este conjunto de dados será disponibilizado publicamente. Experiências demonstram que o nosso modelo alcança um controlo 4D robusto em cenários reais, abrangendo diversos padrões temporais e trajetórias de câmara, preservando alta qualidade de geração e superando trabalhos anteriores em controlabilidade. Consulte o nosso website para resultados em vídeo: https://19reborn.github.io/Bullet4D/
A geração de vídeos egocêntricos longos e coerentes é difícil, pois as interações mão-objeto e as tarefas procedurais exigem memória de longo prazo confiável. Os modelos autoregressivos existentes sofrem com deriva de conteúdo (content drift), onde a identidade dos objetos e a semântica da cena degradam-se ao longo do tempo. Para enfrentar este desafio, apresentamos o EgoLCD, uma estrutura end-to-end para geração de vídeos egocêntricos de longo contexto que trata a síntese de vídeos longos como um problema de gestão de memória eficiente e estável. O EgoLCD combina um Cache KV Esparso de Longo Prazo para contexto global estável com uma memória de curto prazo baseada em atenção, estendida por LoRA para adaptação local. Uma Perda de Regulação de Memória impõe um uso consistente da memória, e o Prompting Narrativo Estruturado fornece orientação temporal explícita. Experimentos extensivos no benchmark EgoVid-5M demonstram que o EgoLCD alcança desempenho state-of-the-art tanto em qualidade perceptual quanto em consistência temporal, mitigando efetivamente o esquecimento generativo e representando um passo significativo para a construção de modelos de mundo escaláveis para IA corporificada. Código: https://github.com/AIGeeksGroup/EgoLCD. Website: https://aigeeksgroup.github.io/EgoLCD.
Apresentamos o ShadowDraw, uma estrutura que transforma objetos 3D comuns em arte composicional de desenho com sombras. Dado um objeto 3D, nosso sistema prevê parâmetros da cena, incluindo a pose do objeto e a iluminação, juntamente com um desenho linear parcial, de modo que a sombra projetada complete o desenho, formando uma imagem reconhecível. Para isso, otimizamos as configurações da cena para revelar sombras significativas, empregamos traços de sombra para orientar a geração do desenho linear e adotamos avaliação automática para garantir a coerência entre o desenho e a sombra, bem como a qualidade visual. Experimentos mostram que o ShadowDraw produz resultados convincentes com diversas entradas, desde digitalizações do mundo real e conjuntos de dados curados até ativos gerativos, e se estende naturalmente para cenas com múltiplos objetos, animações e implementações físicas. Nosso trabalho fornece um pipeline prático para criar arte de desenho com sombras e amplia o espaço de design da arte visual computacional, diminuindo a lacuna entre o design algorítmico e a narrativa artística. Confira nossa página do projeto https://red-fairy.github.io/ShadowDraw/ para mais resultados e uma demonstração prática de nosso pipeline em tempo real!
Apesar dos rápidos avanços nos modelos generativos de vídeo, métricas robustas para avaliar a correção visual e temporal de ações humanas complexas permanecem elusivas. De forma crítica, os codificadores puramente visuais e os Modelos de Linguagem Multimodais (MLLMs) existentes são fortemente enviesados pela aparência, carecem de compreensão temporal e, portanto, lutam para discernir dinâmicas de movimento intrincadas e implausibilidades anatômicas em vídeos gerados. Nós abordamos esta lacuna introduzindo uma nova métrica de avaliação derivada de um espaço latente aprendido de ações humanas do mundo real. Nosso método primeiro captura as nuances, restrições e suavidade temporal do movimento real fundindo características geométricas do esqueleto humano, agnósticas à aparência, com características baseadas na aparência. Postulamos que este espaço de características combinado fornece uma representação robusta da plausibilidade da ação. Dado um vídeo gerado, nossa métrica quantifica sua qualidade de ação medindo a distância entre as suas representações subjacentes e esta distribuição de ações do mundo real aprendida. Para uma validação rigorosa, desenvolvemos um novo benchmark multifacetado especificamente projetado para investigar aspectos temporalmente desafiadores da fidelidade de ações humanas. Através de experimentos extensivos, mostramos que nossa métrica alcança uma melhoria substancial de mais de 68% em comparação com os métodos state-of-the-art existentes em nosso benchmark, tem um desempenho competitivo em benchmarks externos estabelecidos e possui uma correlação mais forte com a percepção humana. Nossa análise aprofundada revela limitações críticas nos atuais modelos generativos de vídeo e estabelece um novo padrão para pesquisas avançadas em geração de vídeo.
Expandir a diversidade linguística dos modelos de linguagem de grande porte (LLMs) instrucionais é crucial para a acessibilidade global, mas é frequentemente dificultado pela dependência de dados etiquetados em idioma-alvo especializados e dispendiosos e pelo esquecimento catastrófico durante a adaptação. Enfrentamos este desafio sob uma restrição realista de baixos recursos: adaptar LLMs instrucionais usando apenas dados não etiquetados do idioma-alvo. Introduzimos as Atualizações Protegidas pela Fonte (SSU), uma estratégia seletiva de atualização de parâmetros que preserva proativamente o conhecimento da fonte. Utilizando um pequeno conjunto de dados de origem e um método de pontuação de importância de parâmetros, a SSU identifica os parâmetros críticos para manter as habilidades da fonte. Em seguida, aplica uma estratégia de congelamento por coluna para proteger esses parâmetros antes da adaptação. Experimentos em cinco idiomas tipologicamente diversos e modelos de 7B e 13B demonstram que a SSU mitiga com sucesso o esquecimento catastrófico. Ela reduz a degradação de desempenho em tarefas monolíngues de origem para apenas 3,4% (7B) e 2,8% (13B) em média, um contraste marcante com os 20,3% e 22,3% do ajuste fino completo. A SSU também alcança um desempenho no idioma-alvo altamente competitivo com o ajuste fino completo, superando-o em todos os benchmarks para modelos de 7B e na maioria para modelos de 13B.
Os Modelos Generativos Multimodais Unificados (UMGMs) integram a compreensão visual e a geração de imagens num único framework autoregressivo. No entanto, a sua capacidade de aprender continuamente novas tarefas é severamente limitada pelo esquecimento catastrófico, tanto dentro de uma modalidade (intra-modal) como entre modalidades (inter-modal). Embora o esquecimento intra-modal tenha sido estudado em trabalhos anteriores de aprendizagem contínua (CL), o esquecimento inter-modal permanece largamente inexplorado. Neste artigo, identificamos e validamos empiricamente este fenómeno em UMGMs e fornecemos uma explicação teórica baseada no conflito de gradientes entre modalidades. Para abordar tanto o esquecimento intra como inter-modal, propomos os Especialistas com Modalidades Desacopladas (MoDE), uma arquitetura leve e escalável que isola as atualizações específicas de cada modalidade para mitigar o conflito de gradientes e aproveita a destilação de conhecimento para prevenir o esquecimento catastrófico e preservar as capacidades pré-treinadas. Ao contrário de métodos anteriores de CL que permanecem com modalidades acopladas e sofrem com o conflito de gradientes entre modalidades, o MoDE desacopla explicitamente as modalidades para evitar interferência. Experiências em diversos *benchmarks* demonstram que o MoDE mitiga significativamente tanto o esquecimento inter como intra-modal, superando as linhas de base anteriores de CL em configurações unificadas de geração multimodal. Os códigos estarão publicamente disponíveis: https://github.com/Christina200/MoDE-official.git
A prevalência de desinformação nas redes sociais ameaça a confiança pública, exigindo sistemas automatizados de verificação de factos que forneçam veredictos precisos com explicações interpretáveis. No entanto, as abordagens existentes baseadas em modelos de linguagem de grande escala (LLM) frequentemente dependem excessivamente de fontes externas de conhecimento, introduzindo uma latência substancial e até mesmo alucinações que comprometem a confiabilidade, a interpretabilidade e a capacidade de resposta, cruciais para uso em tempo real. Para enfrentar estes desafios, propomos o paradigma REFLEX (REason-guided Fact-checking with Latent EXplanations), um paradigma plug-and-play e autoaprimorante que aproveita o conhecimento interno do modelo base para melhorar tanto a precisão do veredicto quanto a qualidade da explicação. O REFLEX reformula a verificação de factos como um diálogo de role-play e treina conjuntamente a previsão do veredicto e a geração de explicações. Este extrai adaptativamente pares de ativação contrastantes entre o modelo base e a sua variante afinada para construir vetores de direção que separam a verdade em estilo e substância de forma natural. Estes sinais ao nível da ativação guiam a inferência e suprimem explicações ruidosas, permitindo um raciocínio mais fiel e eficiente. Experiências em conjuntos de dados do mundo real mostram que o REFLEX supera métodos anteriores que se orientam para uma única direção de verdade e salienta o desafio que as abordagens tradicionais enfrentam ao lidar com a verdade subtil e desconhecida pelo ser humano nas tarefas de verificação de factos. Notavelmente, com apenas 465 amostras de treino autoaprimoradas, o REFLEX atinge um desempenho de ponta. Além disso, modelos treinados com objetivos explicativos podem orientar eficazmente aqueles que os não possuem, resultando numa melhoria de até 7,57%, destacando que os sinais explicativos internos desempenham um duplo papel na interpretação e no aprimoramento do raciocínio factual.
A estilização 3D é central para o desenvolvimento de jogos, realidade virtual e artes digitais, onde a demanda por ativos diversificados exige métodos escaláveis que suportem manipulação rápida e de alta fidelidade. Os métodos existentes de estilização de texto para 3D geralmente utilizam *distillation* a partir de editores de imagem 2D, exigindo otimização intensiva por ativo e exibindo inconsistência multi-visual devido às limitações dos modelos atuais de texto para imagem, o que os torna impraticáveis para produção em larga escala. Neste artigo, introduzimos o GaussianBlender, uma estrutura pioneira *feed-forward* para estilização 3D orientada por texto que realiza edições instantaneamente na inferência. Nosso método aprende espaços latentes estruturados e desacoplados com compartilhamento controlado de informação para geometria e aparência a partir de Gaussianas 3D agrupadas espacialmente. Um modelo de difusão latente então aplica edições condicionadas por texto nessas representações aprendidas. Avaliações abrangentes mostram que o GaussianBlender não apenas oferece estilização instantânea, de alta fidelidade, preservadora de geometria e multi-visualmente consistente, mas também supera métodos que exigem otimização em tempo de teste por instância - desbloqueando a estilização 3D prática e democratizada em escala.
Os modelos de memória de longo e curto prazo (LSTM) são um tipo específico de redes neurais recorrentes (RNNs) centrais para tarefas de modelagem sequencial em domínios como a previsão de telecomunicações urbanas, onde correlações temporais e dependências não lineares são dominantes. No entanto, os LSTMs convencionais sofrem com alta redundância de parâmetros e expressividade não linear limitada. Neste trabalho, propomos a Memória de Longo e Curto Prazo de Kolmogorov-Arnold Inspirada na Quântica (QKAN-LSTM), que integra módulos de Ativação por Recarregamento de Dados (DARUAN) na estrutura de portas dos LSTMs. Cada DARUAN atua como uma função de ativação variacional quântica (QVAF), aumentando a adaptabilidade de frequência e permitindo uma representação espectral exponencialmente enriquecida sem emaranhamento de múltiplos qubits. A arquitetura resultante preserva a expressividade em nível quântico, mantendo-se totalmente executável em hardware clássico. Avaliações empíricas em três conjuntos de dados – Movimento Harmônico Simples Amortecido, Função de Bessel e Telecomunicações Urbanas – demonstram que a QKAN-LSTM alcança precisão preditiva e generalização superiores com uma redução de 79% nos parâmetros treináveis em comparação com LSTMs clássicos. Estendemos a estrutura para a Rede de Jiang-Huang-Chen-Goan (JHCG Net), que generaliza o KAN para estruturas codificador-decodificador, e depois usamos ainda mais o QKAN para realizar o KAN latente, criando assim um QKAN Híbrido (HQKAN) para aprendizado de representação hierárquica. A HQKAN-LSTM proposta oferece, portanto, um caminho escalável e interpretável para a modelagem sequencial inspirada na quântica em ambientes de dados do mundo real.
No treinamento de IA em larga escala, as camadas Sparse Mixture-of-Experts (s-MoE) permitem a escalabilidade ativando apenas um pequeno subconjunto de especialistas por token. Um desafio operacional nesse projeto é o balanceamento de carga: o roteamento de tokens para minimizar o número de especialistas ociosos, o que é importante para a utilização eficiente de GPUs (custosas). Fornecemos uma estrutura teórica para analisar o procedimento Auxiliary-Loss-Free Load Balancing (ALF-LB) – proposto por Wang et al. (2024) da DeepSeek – enquadrando-o como um método primal-dual de uma etapa por iteração para um problema de atribuição. Primeiro, em um cenário determinístico estilizado, nossa estrutura produz várias propriedades estruturais reveladoras: (i) uma melhoria monotônica de um objetivo Lagrangiano, (ii) uma regra de preferência que move tokens de especialistas sobrecarregados para subutilizados, e (iii) uma garantia de balanceamento aproximado. Em seguida, incorporamos a natureza estocástica e dinâmica do treinamento de IA usando uma formulação generalizada de otimização online. No contexto online, derivamos uma propriedade de convexidade forte do objetivo que leva a um limite de arrependimento esperado logarítmico sob certas escolhas de tamanho de passo. Adicionalmente, apresentamos experimentos reais em modelos DeepSeekMoE com 1 bilhão de parâmetros para complementar nossas descobertas teóricas. Juntos, esses resultados constroem uma estrutura fundamentada para analisar o Balanceamento de Carga Livre de Perda Auxiliar em modelos de IA com s-MoE.