HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

38 papers found

Avatar Vivo: Geração de Avatares em Tempo Real com Transmissão de Áudio e Duração Infinita
Live Avatar: Streaming Real-time Audio-Driven Avatar Generation with Infinite Length

Dec 4

ByYubo Huang, Hailong Guo, Fangtai Wu, Shifeng Zhang, Shijie Huang, Qijun Gan, Lin Liu, Sirui Zhao, Enhong Chen, Jiaming Liu, Steven Hoi

176

Os métodos existentes de geração de vídeo baseados em difusão são fundamentalmente limitados pela computação sequencial e pela inconsistência de longo horizonte, restringindo sua adoção prática em síntese de avatares acionada por áudio em tempo real e streaming. Apresentamos o Live Avatar, uma estrutura co-projetada de algoritmo e sistema que permite a geração eficiente, de alta fidelidade e de comprimento infinito de avatares usando um modelo de difusão com 14 bilhões de parâmetros. Nossa abordagem introduz o Paralelismo de Pipeline com Forçamento de Timestep (TPP), um paradigma de inferência distribuída que organiza em pipeline as etapas de remoção de ruído em múltiplas GPUs, quebrando efetivamente o gargalo autoregressivo e garantindo streaming estável e de baixa latência em tempo real. Para melhorar ainda mais a consistência temporal e mitigar o desvio de identidade e artefatos de cor, propomos o Mecanismo de Quadro de Referência Dinâmico (RSFM), que mantém a fidelidade da sequência ao recalibrar dinamicamente a aparência usando uma imagem de referência em cache. Adicionalmente, aproveitamos a Destilação por Correspondência de Distribuição com Auto-forçamento para facilitar a adaptação causal e transmitível de modelos em larga escala sem sacrificar a qualidade visual. O Live Avatar demonstra desempenho de ponta, atingindo geração de 20 FPS de ponta a ponta em 5 GPUs H800 e, até onde sabemos, é o primeiro a alcançar a geração prática, em tempo real e de alta fidelidade de avatares nessa escala. Nosso trabalho estabelece um novo paradigma para implantar modelos avançados de difusão em aplicações industriais de síntese de vídeo de longa duração.

DAComp: Avaliação Comparativa de Agentes de Dados em Todo o Ciclo de Vida da Inteligência de Dados
DAComp: Benchmarking Data Agents across the Full Data Intelligence Lifecycle

Dec 3

ByFangyu Lei, Jinxiang Meng, Yiming Huang, Junjie Zhao, Yitong Zhang, Jianwen Luo, Xin Zou, Ruiyi Yang, Wenbo Shi, Yan Gao, Shizhu He, Zuo Wang, Qian Liu, Yang Wang, Ke Wang, Jun Zhao, Kang Liu

159

Os fluxos de trabalho reais de inteligência de dados empresariais abrangem a engenharia de dados, que transforma fontes brutas em tabelas preparadas para análise, e a análise de dados, que converte essas tabelas em insights orientados para a decisão. Apresentamos o DAComp, um benchmark de 210 tarefas que espelha esses fluxos de trabalho complexos. As tarefas de engenharia de dados (ED) exigem engenharia em nível de repositório sobre esquemas industriais, incluindo o projeto e a construção de pipelines SQL multiestágio do zero e a evolução de sistemas existentes sob requisitos em mudança. As tarefas de análise de dados (AD) colocam problemas de negócio abertos que demandam planejamento estratégico, análise exploratória por meio de codificação iterativa, interpretação de resultados intermediários e a síntese de recomendações acionáveis. As tarefas de engenharia são pontuadas por meio de avaliação baseada em execução e com múltiplas métricas. As tarefas abertas são avaliadas por um juiz baseado em LLM confiável e experimentalmente validado, que é guiado por rubricas hierárquicas e meticulosamente elaboradas. Nossos experimentos revelam que mesmo os agentes mais avançados tropeçam no DAComp. O desempenho nas tarefas de ED é particularmente baixo, com taxas de sucesso abaixo de 20%, expondo um gargalo crítico na orquestração holística de pipelines, e não meramente na geração de código. As pontuações nas tarefas de AD também ficam em média abaixo de 40%, destacando deficiências profundas no raciocínio aberto e demonstrando que engenharia e análise são capacidades distintas. Ao diagnosticar claramente essas limitações, o DAComp fornece um ambiente de teste rigoroso e realista para impulsionar o desenvolvimento de agentes de dados autônomos verdadeiramente capazes para ambientes empresariais. Nossos dados e código estão disponíveis em https://da-comp.github.io.

Nex-N1: Modelos Agênicos Treinados por meio de um Ecossistema Unificado para Construção de Ambientes em Larga Escala
Nex-N1: Agentic Models Trained via a Unified Ecosystem for Large-Scale Environment Construction

Dec 4

ByNex-AGI Team, Yuxuan Cai, Lu Chen, Qiaoling Chen, Yuyang Ding, Liwen Fan, Wenjie Fu, Yufei Gao, Honglin Guo, Pinxue Guo, Zhenhua Han, Zhengfu He, Hanglei Hu, Kai Hu, Shengjia Hua, Tianyu Huai, Baodai Huang, Li Ji, Zhen Jiang, Zhikai Lei, Bufan Li, Jiahang Lin, Lizhi Lin, Jinxiu Liu, Shichun Liu, Ziming Liu, Yuchen Ni, Pengfang Qian, Yujiong Shen, Qingyun Shi, Wentao Shu, Peng Sun, Yiran Suo, Tian Tang, Boyu Tian, Guoteng Wang, Junzhe Wang, Peixin Wang, Zhiheng Xi, Hang Yan, Jie Yang, Zhixiong Yang, Tianchu Yao, Guangze Ye, Qianxi Yu, Shuo Zhang, Xinyue Zhang, Yiqi Zhang, Jiarong Zhao, Miao Zheng, Rui Zheng, Enyu Zhou, Jiazheng Zhou, Maosen Zhou, Yuhao Zhou, Tao Gui, Yining Zheng, Xinchi Chen, Jie Zhou, Siyuan Feng, Qin Chen, Liang He, Qi Zhang, Xuanjing Huang, Xipeng Qiu

A evolução dos Modelos de Linguagem de Grande Porte (LLMs) de respondedores passivos para agentes autónomos exige uma mudança fundamental nos paradigmas de aprendizagem — da imitação estática para a tomada de decisão orientada por incentivos. No entanto, esta transição é significativamente dificultada pela falta de infraestruturas escaláveis capazes de construir sinais de interação de alta qualidade para uma aprendizagem de políticas eficaz. Para resolver esta questão, introduzimos um método abrangente concebido para escalar sistematicamente a diversidade e complexidade de ambientes interativos. O nosso método concretiza esta escalabilidade ao abordar três dimensões ortogonais: (1) Complexidade: NexAU, uma estrutura de agente flexível que suporta a construção de hierarquias complexas de agentes através de configurações simples; (2) Diversidade: NexA4A gera automaticamente hierarquias diversificadas de agentes a partir de linguagem natural para abranger domínios infinitos; e (3) Fidelidade: NexGAP reduz o fosso simulação-realidade ao integrar um ambiente dinâmico do mundo real para a síntese de trajetórias fundamentadas. Treinámos o Nex-N1 com base nos ambientes interativos diversificados e complexos estabelecidos pela nossa infraestrutura. Resultados empíricos em benchmarks como o SWE-bench e o tau2 demonstram que o Nex-N1 supera consistentemente os modelos de código aberto estado da arte e alcança um desempenho competitivo face aos modelos proprietários de ponta em tarefas complexas de agência. Disponibilizamos o ecossistema Nex e os pesos do modelo em código aberto para facilitar investigações futuras.

PaperDebugger: Um Sistema Multiagente Baseado em Plugins para Escrita Acadêmica, Revisão e Edição no Editor
PaperDebugger: A Plugin-Based Multi-Agent System for In-Editor Academic Writing, Review, and Editing

Dec 2

ByJunyi Hou, Andre Lin Huikai, Nuo Chen, Yiwei Gong, Bingsheng He

Os modelos de linguagem de grande porte estão cada vez mais integrados aos fluxos de trabalho de redação acadêmica, no entanto, os assistentes existentes permanecem externos ao editor, impedindo uma interação profunda com o estado, a estrutura e o histórico de revisões do documento. Esta separação torna impossível suportar operações autônomas e conscientes do contexto diretamente dentro de editores LaTeX, como o Overleaf. Apresentamos o PaperDebugger, um assistente de redação acadêmica baseado em *plugins*, multiagente e integrado ao editor, que traz o raciocínio orientado por LLM diretamente para o ambiente de escrita. Permitir essa interação no editor é tecnicamente não trivial: exige uma sincronização bidirecional confiável com o editor, controle de versão e aplicação de *patches* de forma granular, gerenciamento seguro de estado, agendamento multiagente e comunicação extensível com ferramentas externas. O PaperDebugger aborda esses desafios por meio de uma extensão aprovada pelo Chrome, uma camada de orquestração nativa do Kubernetes e uma cadeia de ferramentas Model Context Protocol (MCP) que integra pesquisa de literatura, consulta de referências, pontuação de documentos e *pipelines* de revisão. Nossa demonstração exibe um fluxo de trabalho totalmente integrado, incluindo edições localizadas, revisões estruturadas, execução paralela de agentes e atualizações baseadas em *diff*, encapsuladas numa interface de utilizador (UI) de mínima intrusão. Dados agregados iniciais demonstram um envolvimento ativo dos utilizadores e validam a praticidade de um assistente de escrita autônomo e nativo do editor. Mais detalhes sobre esta demonstração e um vídeo podem ser encontrados em https://github.com/PaperDebugger/PaperDebugger.

ARM-Thinker: Reforçando Modelos de Recompensa Generativos Multimodais com Uso de Ferramentas Agênticas e Raciocínio Visual
ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning

Dec 4

ByShengyuan Ding, Xinyu Fang, Ziyu Liu, Yuhang Zang, Yuhang Cao, Xiangyu Zhao, Haodong Duan, Xiaoyi Dong, Jianze Liang, Bin Wang, Conghui He, Dahua Lin, Jiaqi Wang

Os modelos de recompensa são fundamentais para alinhar sistemas de visão e linguagem com as preferências humanas, no entanto, as abordagens atuais sofrem com alucinações, fundamentação visual fraca e incapacidade de usar ferramentas para verificação, limitando sua confiabilidade em tarefas complexas de raciocínio multimodal. Apresentamos o ARM-Thinker, um Modelo de Recompensa multimodal Agêntico que invoca autonomamente ferramentas externas (por exemplo, recorte de imagem, recuperação de páginas de documentos) para fundamentar julgamentos em evidências verificáveis, substituindo a pontuação de recompensa estática e não interativa. Isso permite que o modelo verifique detalhes visuais refinados, consulte evidências multipágina de forma cruzada e valide afirmações de raciocínio, capacidades ausentes nos modelos de recompensa existentes. Treinamos o ARM-Thinker com aprendizado por reforço multietapa, otimizando conjuntamente as decisões de chamada de ferramentas e a precisão do julgamento. Para avaliar a modelagem de recompensa agêntica, introduzimos o ARMBench-VL, compreendendo três benchmarks que avaliam a fundamentação visual refinada (ferramentas em nível de imagem), a compreensão de documentos multipágina (ferramentas de recuperação) e o seguimento de instruções (verificação em nível de texto). O ARM-Thinker alcança uma melhoria média de +16,2% em benchmarks de modelagem de recompensa, +9,6% em tarefas de uso de ferramentas e supera as linhas de base em benchmarks de raciocínio matemático e lógico multimodal. Nossos resultados demonstram que as capacidades agênticas melhoram significativamente tanto a precisão quanto a interpretabilidade dos modelos de recompensa.

Recompensa Forçada: Geração Eficiente de Vídeo em Fluxo Contínuo com Distilação por Correspondência de Distribuição Recompensada
Reward Forcing: Efficient Streaming Video Generation with Rewarded Distribution Matching Distillation

Dec 4

ByYunhong Lu, Yanhong Zeng, Haobo Li, Hao Ouyang, Qiuyu Wang, Ka Leong Cheng, Jiapeng Zhu, Hengyuan Cao, Zhipeng Zhang, Xing Zhu, Yujun Shen, Min Zhang

A geração eficiente de vídeo em streaming é crucial para simular mundos interativos e dinâmicos. Os métodos existentes destilam modelos de difusão de vídeo com poucos passos usando atenção de janela deslizante, utilizando quadros iniciais como tokens de ancoragem para manter o desempenho da atenção e reduzir o acúmulo de erros. No entanto, os quadros de vídeo tornam-se excessivamente dependentes desses tokens estáticos, resultando na cópia dos quadros iniciais e na diminuição da dinâmica de movimento. Para resolver isso, introduzimos o Reward Forcing, uma nova estrutura com dois designs principais. Primeiro, propomos o EMA-Sink, que mantém tokens de tamanho fixo inicializados a partir dos quadros iniciais e continuamente atualizados através da fusão de tokens removidos via média móvel exponencial quando estes saem da janela deslizante. Sem custo computacional adicional, os tokens do EMA-Sink capturam tanto o contexto de longo prazo quanto a dinâmica recente, prevenindo a cópia de quadros iniciais enquanto mantém a consistência em longos horizontes. Segundo, para melhor destilar a dinâmica de movimento dos modelos professor, propomos uma nova Destilação por Correspondência de Distribuição com Recompensa (Re-DMD). A correspondência de distribuição convencional trata todas as amostras de treino igualmente, limitando a capacidade do modelo de priorizar conteúdo dinâmico. Em vez disso, a Re-DMD inclina a distribuição de saída do modelo para regiões de alta recompensa, priorizando amostras com maior dinâmica classificadas por um modelo visão-linguagem. A Re-DMD melhora significativamente a qualidade do movimento enquanto preserva a fidelidade dos dados. Incluímos experimentos quantitativos e qualitativos para mostrar que o Reward Forcing alcança desempenho state-of-the-art em benchmarks padrão, permitindo geração de vídeo em streaming de alta qualidade a 23.1 FPS em uma única GPU H100.

Semântica Mostra o Caminho: Harmonizando a Modelagem Semântica e de Textura com Difusão Latente Assíncrona
Semantics Lead the Way: Harmonizing Semantic and Texture Modeling with Asynchronous Latent Diffusion

Dec 4

ByYueming Pan, Ruoyu Feng, Qi Dai, Yuqi Wang, Wenfeng Lin, Mingyu Guo, Chong Luo, Nanning Zheng

Os Modelos de Difusão Latente (LDMs) seguem inerentemente um processo de geração do grosseiro para o refinado, onde a estrutura semântica de alto nível é gerada ligeiramente antes da textura de granularidade fina. Isto indica que a semântica precedente beneficia potencialmente a geração de textura ao fornecer uma âncora semântica. Avanços recentes integraram conhecimentos prévios semânticos de codificadores visuais pré-treinados para aprimorar ainda mais os LDMs, no entanto, eles ainda desfazem o ruído da semântica e da textura codificada pelo VAE de forma síncrona, negligenciando tal ordenação. Observando isto, propomos a Difusão Semântica-Primeiro (SFD), um paradigma de difusão latente que prioriza explicitamente a formação semântica. A SFD primeiro constrói latentes compostos combinando um latente semântico compacto, que é extraído de um codificador visual pré-treinado via um Semantic VAE dedicado, com o latente de textura. O cerne da SFD é desfazer o ruído dos latentes semântico e de textura de forma assíncrona usando cronogramas de ruído separados: a semântica precede as texturas por um deslocamento temporal, fornecendo orientação de alto nível mais clara para o refinamento de textura e permitindo uma geração natural do grosseiro para o refinado. No ImageNet 256x256 com orientação, a SFD alcança FID 1.06 (LightningDiT-XL) e FID 1.04 (LightningDiT-XXL 1.0B), enquanto atinge uma convergência até 100x mais rápida que a DiT original. A SFD também melhora métodos existentes como ReDi e VA-VAE, demonstrando a eficácia da modelagem assíncrona liderada por semântica. Página do projeto e código: https://yuemingpan.github.io/SFD.github.io/.

DynamicVerse: Uma Estrutura Multimodal Fisicamente Consciente para Modelagem de Mundos 4D
DynamicVerse: A Physically-Aware Multimodal Framework for 4D World Modeling

Dec 2

ByKairun Wen, Yuzhi Huang, Runyu Chen, Hui Zheng, Yunlong Lin, Panwang Pan, Chenxin Li, Wenyan Cong, Jian Zhang, Junbin Lu, Chenguo Lin, Dilin Wang, Zhicheng Yan, Hongyu Xu, Justin Theiss, Yue Huang, Xinghao Ding, Rakesh Ranjan, Zhiwen Fan

Compreender o mundo físico dinâmico, caracterizado pela sua estrutura 3D em evolução, movimento do mundo real e conteúdo semântico com descrições textuais, é crucial para a interação humano-agente e capacita agentes incorporados a perceber e agir dentro de ambientes reais com capacidades semelhantes às humanas. No entanto, os conjuntos de dados existentes são frequentemente derivados de simuladores limitados ou utilizam Estrutura a partir do Movimento tradicional para anotação em escala real e oferecem legendagem descritiva limitada, o que restringe a capacidade dos modelos de base para interpretar com precisão a dinâmica do mundo real a partir de vídeos monoculares, comumente provenientes da internet. Para preencher essas lacunas, apresentamos o DynamicVerse, uma estrutura de modelagem mundial 4D multimodal e em escala física para vídeos dinâmicos do mundo real. Empregamos modelos grandes de visão, geometria e multimodais para interpretar geometria estática em escala métrica, movimento dinâmico do mundo real, máscaras a nível de instância e legendas descritivas holísticas. Ao integrar o Ajustamento de Feixe baseado em janelas com otimização global, nosso método converte longas sequências de vídeo do mundo real em um formato multimodal 4D abrangente. O DynamicVerse fornece um conjunto de dados em larga escala composto por mais de 100 mil vídeos com mais de 800 mil máscaras anotadas e mais de 10 milhões de quadros de vídeos da internet. Avaliações experimentais em três tarefas de referência, nomeadamente estimativa de profundidade em vídeo, estimativa de pose da câmera e estimativa de intrínsecos da câmera, demonstram que nossa modelagem 4D alcança desempenho superior na captura de medições em escala física com maior precisão global do que os métodos existentes.

Deep Forcing: Geração de Vídeos Longos Sem Treinamento com Deep Sink e Compressão Participativa
Deep Forcing: Training-Free Long Video Generation with Deep Sink and Participative Compression

Dec 4

ByJung Yi, Wooseok Jang, Paul Hyunbin Cho, Jisu Nam, Heeji Yoon, Seungryong Kim

Avanços recentes na difusão de vídeo autoregressiva possibilitaram o streaming de frames em tempo real, porém as soluções existentes ainda sofrem com repetição temporal, desvio (drift) e desaceleração de movimento. Descobrimos que a aplicação ingênua de "attention sinks" no estilo StreamingLLM à difusão de vídeo leva à degradação da fidelidade e à estagnação do movimento. Para superar isso, introduzimos o Deep Forcing, que consiste em dois mecanismos *training-free* que abordam esse problema sem qualquer *fine-tuning*. Especificamente, 1) o **Deep Sink** dedica metade da janela deslizante a *tokens* de *sink* persistentes e realinha sua fase temporal do RoPE para a linha do tempo atual, estabilizando o contexto global durante *rollouts* longos. 2) A **Compressão Participativa** realiza uma poda do cache KV baseada em importância, que preserva apenas os *tokens* que participam ativamente na atenção recente, enquanto descarta com segurança o histórico redundante e degradado, minimizando o acúmulo de erro sob geração de comprimento fora da distribuição (*out-of-distribution*). Juntos, esses componentes permitem uma extrapolação superior a 12x (por exemplo, de um modelo treinado para 5s para geração de 60s ou mais) com melhor qualidade de imagem que o LongLive, melhor qualidade estética que o RollingForcing, mantendo quase a consistência geral e ganhos substanciais no grau dinâmico, tudo isso mantendo a geração em tempo real. Nossos resultados demonstram que o gerenciamento do cache KV *training-free* pode igualar ou superar as abordagens baseadas em treinamento para a geração *streaming* de vídeos longos de forma autoregressiva.

SIMA 2: Um Agente Corporificado Generalista para Mundos Virtuais
SIMA 2: A Generalist Embodied Agent for Virtual Worlds

Dec 4

BySIMA team, Adrian Bolton, Alexander Lerchner, Alexandra Cordell, Alexandre Moufarek, Andrew Bolt, Andrew Lampinen, Anna Mitenkova, Arne Olav Hallingstad, Bojan Vujatovic, Bonnie Li, Cong Lu, Daan Wierstra, Daniel P. Sawyer, Daniel Slater, David Reichert, Davide Vercelli, Demis Hassabis, Drew A. Hudson, Duncan Williams, Ed Hirst, Fabio Pardo, Felix Hill, Frederic Besse, Hannah Openshaw, Harris Chan, Hubert Soyer, Jane X. Wang, Jeff Clune, John Agapiou, John Reid, Joseph Marino, Junkyung Kim, Karol Gregor, Kaustubh Sridhar, Kay McKinney, Laura Kampis, Lei M. Zhang, Loic Matthey, Luyu Wang, Maria Abi Raad, Maria Loks-Thompson, Martin Engelcke, Matija Kecman, Matthew Jackson, Maxime Gazeau, Ollie Purkiss, Oscar Knagg, Peter Stys, Piermaria Mendolicchio, Raia Hadsell, Rosemary Ke, Ryan Faulkner, Sarah Chakera, Satinder Singh Baveja, Shane Legg, Sheleem Kashem, Tayfun Terzi, Thomas Keck, Tim Harley, Tim Scholtes, Tyson Roberts, Volodymyr Mnih, Yulan Liu, Zhengdong Wang, Zoubin Ghahramani

Apresentamos o SIMA 2, um agente corporificado generalista que compreende e age em uma ampla variedade de mundos virtuais 3D. Construído sobre um modelo de base Gemini, o SIMA 2 representa um passo significativo em direção à interação ativa e orientada a objetivos em um ambiente corporificado. Diferente de trabalhos anteriores (por exemplo, SIMA 1) limitados a comandos linguísticos simples, o SIMA 2 atua como um parceiro interativo, capaz de raciocinar sobre objetivos de alto nível, conversar com o usuário e lidar com instruções complexas dadas por meio de linguagem e imagens. Em um portfólio diversificado de jogos, o SIMA 2 reduz substancialmente a lacuna em relação ao desempenho humano e demonstra uma generalização robusta para ambientes nunca vistos anteriormente, tudo isso mantendo as capacidades centrais de raciocínio do modelo base. Além disso, demonstramos uma capacidade de autoaprimoramento contínuo: ao aproveitar o Gemini para gerar tarefas e fornecer recompensas, o SIMA 2 pode aprender novas habilidades autonomamente do zero em um novo ambiente. Este trabalho valida um caminho para a criação de agentes versáteis e em constante aprendizado para mundos virtuais e, eventualmente, físicos.

TV2TV: Uma Estrutura Unificada para Geração Entrelaçada de Linguagem e Vídeo
TV2TV: A Unified Framework for Interleaved Language and Video Generation

Dec 4

ByXiaochuang Han, Youssef Emad, Melissa Hall, John Nguyen, Karthik Padthe, Liam Robbins, Amir Bar, Delong Chen, Michal Drozdzal, Maha Elbayad, Yushi Hu, Shang-Wen Li, Sreya Dutta Roy, Jakob Verbeek, XuDong Wang, Marjan Ghazvininejad, Luke Zettlemoyer, Emily Dinan

Os modelos de geração de vídeo estão avançando rapidamente, mas ainda podem ter dificuldades com saídas de vídeo complexas que exigem ramificação semântica significativa ou raciocínio de alto nível repetido sobre o que deve acontecer a seguir. Neste artigo, introduzimos uma nova classe de modelos omni vídeo-texto que integram ideias de avanços recentes em raciocínio de modelos de linguagem (LM) para enfrentar este desafio. Mais especificamente, apresentamos o TV2TV, uma estrutura de modelagem generativa unificada que decompõe a geração de vídeo em um processo de geração entrelaçada de texto e vídeo. O TV2TV aprende conjuntamente a modelagem de linguagem (previsão do próximo token) e o fluxo de vídeo correspondente (previsão do próximo frame) usando uma arquitetura de Mistura de Transformadores (MoT). No tempo de inferência, o TV2TV decide quando alternar entre a geração de texto e de frames de vídeo, permitindo que o modelo "pense em palavras" sobre o conteúdo subsequente antes de "agir em pixels" para produzir os frames. Este projeto transfere grande parte da responsabilidade de decidir o que deve acontecer a seguir para a torre de modelagem de linguagem, permitindo uma qualidade visual melhorada e um melhor alinhamento com o prompt nos vídeos gerados. Também permite uma controlabilidade refinada, permitindo que os utilizadores modifiquem a trajetória de geração de vídeo através de intervenções de texto em qualquer ponto do processo. Em experiências controladas com dados de videojogos, o TV2TV demonstra melhorias substanciais tanto na qualidade visual quanto na controlabilidade. O TV2TV também escala para vídeos naturais, como mostramos ao aumentar vídeos desportivos com descrições de ação em linguagem natural entrelaçadas, usando modelos visão-linguagem (VLM). Treinar o TV2TV neste corpus produz uma forte qualidade visual e alinhamento com o prompt, mostrando a capacidade do modelo de raciocinar sobre e gerar sequências de ação complexas do mundo real. Juntos, estes resultados destacam o TV2TV como um passo promissor em direção à geração de vídeo com raciocínio textual e controlo de final aberta.

Splannequin: Congelamento de Filmagens Monoculares do Desafio do Manequim com Splatting de Dupla Detecção
Splannequin: Freezing Monocular Mannequin-Challenge Footage with Dual-Detection Splatting

Dec 4

ByHao-Jen Chien, Yi-Chuan Huang, Chung-Ho Wu, Wei-Lun Chao, Yu-Lun Liu

A síntese de cenas 3D congeladas de alta fidelidade a partir de vídeos monoculares do Mannequin-Challenge (MC) é um problema único, distinto da reconstrução padrão de cenas dinâmicas. Em vez de nos concentrarmos na modelação do movimento, o nosso objetivo é criar uma cena congelada, preservando estrategicamente dinâmicas subtis para permitir uma seleção instantânea controlada pelo utilizador. Para alcançar isto, introduzimos uma nova aplicação do *splatting* com Gaussianas dinâmicas: a cena é modelada dinamicamente, o que retém a variação temporal próxima, e uma cena estática é renderizada fixando o parâmetro de tempo do modelo. No entanto, neste uso, a captura monocular com supervisão temporal esparsa introduz artefactos como *ghosting* e desfoque para Gaussianas que ficam não observadas ou ocluídas em *timestamps* com fraca supervisão. Propomos o Splannequin, uma regularização agnóstica à arquitetura que deteta dois estados dos primitivos Gaussianos, ocultos e defeituosos, e aplica uma ancoragem temporal. Sob um movimento predominante da câmara para a frente, os estados ocultos são ancorados aos seus estados passados recentes bem observados, enquanto os estados defeituosos são ancorados a estados futuros com supervisão mais forte. O nosso método integra-se nos *pipelines* existentes de Gaussianas dinâmicas através de simples termos de perda, não requer alterações arquitetónicas e adiciona zero sobrecarga na inferência. Isto resulta numa qualidade visual marcadamente melhorada, permitindo renderizações de tempo congelado, de alta fidelidade e selecionáveis pelo utilizador, validadas por uma preferência de 96% dos utilizadores. Página do projeto: https://chien90190.github.io/splannequin/

4DLangVGGT: Transformador com Base em Geometria Visual e Linguagem 4D
4DLangVGGT: 4D Language-Visual Geometry Grounded Transformer

Dec 4

ByXianfeng Wu, Yajing Bai, Minghan Li, Xianzu Wu, Xueqi Zhao, Zhongyuan Lai, Wenyu Liu, Xinggang Wang

A construção de campos linguísticos 4D é crucial para a IA incorporada, realidade aumentada/virtual e a compreensão de cenas 4D, pois fornecem representações semânticas enriquecidas de ambientes dinâmicos e permitem consultas de vocabulário aberto em cenários complexos. No entanto, as abordagens existentes para a construção de campos semânticos 4D baseiam-se principalmente em *splatting* Gaussiano específico por cena, o que requer otimização para cada cena, exibe generalização limitada e é difícil de escalar para aplicações do mundo real. Para superar essas limitações, propomos o 4DLangVGGT, o primeiro *framework* unificado *feed-forward* baseado em *Transformer* para a ancoragem linguística em 4D, que integra conjuntamente a perceção geométrica e o alinhamento linguístico numa única arquitetura. O 4DLangVGGT tem dois componentes principais: o *4D Visual Geometry Transformer*, StreamVGGT, que capta representações geométricas espaço-temporais de cenas dinâmicas; e o *Semantic Bridging Decoder* (SBD), que projeta características com consciência geométrica num espaço semântico alinhado com a linguagem, melhorando assim a interpretabilidade semântica enquanto preserva a fidelidade estrutural. Ao contrário de métodos anteriores que dependem de uma dispendiosa otimização por cena, o 4DLangVGGT pode ser treinado conjuntamente em múltiplas cenas dinâmicas e aplicado diretamente durante a inferência, alcançando tanto eficiência de implantação como uma forte generalização. Este design melhora significativamente a praticidade da implantação em larga escala e estabelece um novo paradigma para a compreensão de cenas 4D de vocabulário aberto. Experiências nos conjuntos de dados HyperNeRF e Neu3D demonstram que a nossa abordagem não só generaliza eficazmente, como também atinge um desempenho de última geração, alcançando ganhos de até 2% sob treino por cena e melhorias de 1% sob treino multi-cena. O nosso código está disponível em https://github.com/hustvl/4DLangVGGT.

UltraImage: Repensando a Extrapolação de Resolução em Transformadores de Difusão de Imagem
UltraImage: Rethinking Resolution Extrapolation in Image Diffusion Transformers

Dec 4

ByMin Zhao, Bokai Yan, Xue Yang, Hongzhou Zhu, Jintao Zhang, Shilong Liu, Chongxuan Li, Jun Zhu

Os transformadores de difusão de imagem recentes alcançam geração de alta fidelidade, mas lutam para gerar imagens além dessas escalas, sofrendo com repetição de conteúdo e degradação de qualidade. Neste trabalho, apresentamos o UltraImage, uma estrutura fundamentada que aborda ambas as questões. Através da análise das incorporações posicionais no domínio da frequência, identificamos que a repetição surge da periodicidade da frequência dominante, cujo período coincide com a resolução de treinamento. Introduzimos uma correção recursiva da frequência dominante para restringi-la a um único período após a extrapolação. Além disso, descobrimos que a degradação da qualidade origina-se da diluição da atenção e, portanto, propomos uma concentração adaptativa de atenção guiada por entropia, que atribui fatores de foco mais altos para aguçar a atenção local para detalhes finos e mais baixos para os padrões de atenção global, a fim de preservar a consistência estrutural. Experimentos mostram que o UltraImage supera consistentemente métodos anteriores no Qwen-Image e no Flux (cerca de 4K) em três cenários de geração, reduzindo a repetição e melhorando a fidelidade visual. Além disso, o UltraImage pode gerar imagens de até 6K*6K sem orientação de baixa resolução a partir de uma resolução de treinamento de 1328p, demonstrando sua capacidade extrema de extrapolação. A página do projeto está disponível em https://thu-ml.github.io/ultraimage.github.io/.

NeuralRemaster: Difusão com Preservação de Fase para Geração com Alinhamento Estrutural
NeuralRemaster: Phase-Preserving Diffusion for Structure-Aligned Generation

Dec 4

ByYu Zeng, Charles Ochoa, Mingyuan Zhou, Vishal M. Patel, Vitor Guizilini, Rowan McAllister

A difusão padrão corrompe os dados usando ruído gaussiano cujos coeficientes de Fourier possuem magnitudes aleatórias e fases aleatórias. Embora eficaz para geração incondicional ou texto-para-imagem, a corrupção dos componentes de fase destrói a estrutura espacial, tornando-a inadequada para tarefas que exigem consistência geométrica, como rerrenderização, aprimoramento de simulação e tradução imagem-para-imagem. Apresentamos a Difusão com Preservação de Fase (φ-PD), uma reformulação independente de modelo do processo de difusão que preserva a fase de entrada enquanto randomiza a magnitude, permitindo geração alinhada estruturalmente sem alterações arquiteturais ou parâmetros adicionais. Propomos ainda o ruído Estrutural Seletivo em Frequência (FSS), que oferece controle contínuo sobre a rigidez estrutural por meio de um único parâmetro de corte de frequência. A φ-PD não adiciona custo computacional durante a inferência e é compatível com qualquer modelo de difusão para imagens ou vídeos. Em tarefas de rerrenderização fotorrealista e estilizada, bem como no aprimoramento sim-para-real para planejadores de condução, a φ-PD produz resultados controláveis e espacialmente alinhados. Quando aplicada ao simulador CARLA, a φ-PD melhora em 50\% o desempenho do planejador CARLA-para-Waymo. O método é complementar às abordagens de condicionamento existentes e amplamente aplicável à geração imagem-para-imagem e vídeo-para-vídeo. Vídeos, exemplos adicionais e código estão disponíveis em nossa {página do projeto} https://yuzeng-at-tri.github.io/ppd-page/.

Remoção de Reflexos por meio da Adaptação Eficiente de Transformadores de Difusão
Reflection Removal through Efficient Adaptation of Diffusion Transformers

Dec 4

ByDaniyar Zakarin, Thiemo Wandel, Anton Obukhov, Dengxin Dai

Apresentamos uma estrutura de difusão-transformer (DiT) para remoção de reflexos em imagem única que aproveita os pontos fortes de generalização dos modelos de difusão de base no contexto de restauração. Em vez de depender de arquiteturas específicas para a tarefa, reaproveitamos um modelo de base pré-treinado baseado em DiT, condicionando-o a entradas contaminadas por reflexos e guiando-o em direção a camadas de transmissão limpas. Analisamos sistematicamente as fontes de dados existentes para remoção de reflexos quanto à diversidade, escalabilidade e fotorrealismo. Para lidar com a escassez de dados adequados, construímos um pipeline de renderização com base física (PBR) no Blender, baseado no Principled BSDF, para sintetizar materiais de vidro realistas e efeitos de reflexão. A adaptação eficiente do modelo de base baseada em LoRA, combinada com os dados sintéticos propostos, atinge desempenho de última geração em benchmarks de domínio interno e de generalização zero-shot. Esses resultados demonstram que transformers de difusão pré-treinados, quando emparelhados com síntese de dados fisicamente fundamentada e adaptação eficiente, oferecem uma solução escalável e de alta fidelidade para remoção de reflexos. Página do projeto: https://hf.co/spaces/huawei-bayerlab/windowseat-reflection-removal-web

Sobre o Colapso do GRPO no Search-R1: A Espiral da Morte por Deslocamento da Verossimilhança Preguiçosa
On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral

Dec 3

ByWenlong Deng, Yushu Li, Boying Gong, Yi Ren, Christos Thrampoulidis, Xiaoxiao Li

A aprendizagem por reforço com ferramentas integradas (TI-AR) permite que modelos de linguagem grandes (LLMs) realizem raciocínio multi-etapa através da interação com ferramentas externas, como motores de busca e sistemas de recuperação. A Otimização de Política por Grupo Relativo (GRPO), exemplificada pelo recente Search-R1, oferece convergência rápida e uma formulação livre de função de valor, tornando-a atraente para este contexto, mas sofre consistentemente de colapso no treinamento. Identificamos o Deslocamento Preguiçoso da Verossimilhança (LLD), uma redução ou estagnação sistemática na verossimilhança tanto de respostas corretas quanto incorretas, como o mecanismo central que impulsiona essa falha. O LLD emerge precocemente e desencadeia um *Espiral da Morte do LLD* autorreforçador, onde a verossimilhança decrescente leva a respostas de baixa confiança, inflaciona os gradientes e, por fim, causa o colapso. Caracterizamos empiricamente este processo em vários modelos em uma tarefa de resposta a perguntas com busca integrada no estilo Search-R1, revelando uma trajetória consistente de três fases: estagnação inicial, decaimento constante e colapso acelerado. Para resolver isto, propomos uma regularização leve de preservação da verossimilhança, o LLDS para GRPO, que se ativa apenas quando a verossimilhança de uma trajetória diminui e regulariza apenas os *tokens* responsáveis. Esta estrutura de granularidade fina mitiga o LLD com interferência mínima na otimização. Em sete benchmarks de QA de domínio aberto e multi-hop, nosso método estabiliza o treinamento, previne a explosão de gradientes e produz melhorias substanciais de desempenho, incluindo ganhos de +37,8% no Qwen2.5-3B e +32,0% no Qwen2.5-7B. Nossos resultados estabelecem o LLD como um gargalo fundamental na TI-AR baseada em GRPO e fornecem um caminho prático para o treinamento estável e escalável de LLMs com ferramentas integradas.

SignRoundV2: Fechando a Lacuna de Desempenho na Quantização Pós-Treinamento de Bits Extremamente Baixos para LLMs
SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quantization for LLMs

Dec 4

ByWenhua Cheng, Weiwei Zhang, Heng Guo, Haihao Shen

A quantização de bits extremamente baixos é crucial para a implantação eficiente de Modelos de Linguagem de Grande Porte (LLMs), mas frequentemente resulta em severa degradação de desempenho em 2 bits e até mesmo em 4 bits (por exemplo, MXFP4). Apresentamos o SignRoundV2, uma estrutura de quantização pós-treinamento altamente eficaz mesmo sem precisão mista. O SignRoundV2 introduz (1) uma métrica de sensibilidade rápida que combina informações de gradiente com desvios induzidos pela quantização para orientar a alocação de bits por camada, e (2) uma busca leve de pré-ajuste para escalas de quantização para melhorar a quantização em bits extremamente baixos. Esses componentes permitem que o SignRoundV2 reduza a lacuna com os modelos de precisão total. Experimentos extensivos indicam que nosso método mantém precisão competitiva para LLMs, alcançando desempenho de nível de produção com cerca de 1% de variação em 4-5 bits e resultados robustos mesmo em 2 bits. A implementação está disponível em https://github.com/intel/auto-round.

Descoberta Matemática Assistida por IA Baseada em Modelo e Eficiente em Amostras no Empacotamento de Esferas
Model-Based and Sample-Efficient AI-Assisted Math Discovery in Sphere Packing

Dec 4

ByRasul Tutunov, Alexandre Maraval, Antoine Grosnit, Xihan Li, Jun Wang, Haitham Bou-Ammar

O problema do empacotamento de esferas, décimo oitavo problema de Hilbert, questiona sobre o arranjo mais denso de esferas congruentes no espaço euclidiano n-dimensional. Embora seja relevante para áreas como criptografia, cristalografia e imageamento médico, o problema permanece sem solução: para além de algumas dimensões especiais, nem empacotamentos ótimos nem limites superiores rigorosos são conhecidos. Até mesmo um grande avanço na dimensão n=8, posteriormente reconhecido com uma Medalha Fields, sublinha a sua dificuldade. Uma técnica líder para limites superiores, o método dos três pontos, reduz o problema à resolução de programas semidefinidos (SDPs) grandes e de alta precisão. Como cada SDP candidato pode levar dias para ser avaliado, as abordagens padrão de IA baseadas em dados intensivos são inviáveis. Nós enfrentamos este desafio formulando a construção de SDPs como um processo de decisão sequencial, o jogo SDP, no qual uma política monta formulações de SDP a partir de um conjunto de componentes admissíveis. Utilizando um framework modelo-eficiente baseado em amostragem que combina a otimização bayesiana com a Pesquisa em Árvore de Monte Carlo, obtivemos novos limites superiores state-of-the-art nas dimensões 4 a 16, mostrando que a busca baseada em modelo pode avançar o progresso computacional em problemas geométricos de longa data. Em conjunto, estes resultados demonstram que a busca modelo-eficiente baseada em amostragem pode produzir progresso tangível em problemas matematicamente rígidos e com avaliação limitada, apontando para uma direção complementar para a descoberta assistida por IA para além da exploração em larga escala impulsionada por LLMs.

DraCo: Rascunho como CoT para Pré-visualização de Texto para Imagem e Geração de Conceitos Raros
DraCo: Draft as CoT for Text-to-Image Preview and Rare Concept Generation

Dec 4

ByDongzhi Jiang, Renrui Zhang, Haodong Li, Zhuofan Zong, Ziyu Guo, Jun He, Claire Guo, Junyan Ye, Rongyao Fang, Weijia Li, Rui Liu, Hongsheng Li

Os recentes modelos linguísticos grandes multimodais unificados (MLLMs) demonstraram capacidades impressionantes, incorporando raciocínio em cadeia de pensamento (CoT) para aprimorar a geração de texto para imagem. No entanto, as abordagens existentes permanecem limitadas, tratando o modelo meramente como um gerador autônomo ou dependendo de planejamento textual abstrato. Para tanto, propomos o Draft-as-CoT (DraCo), um novo paradigma de raciocínio intercalado que aproveita plenamente tanto os conteúdos textuais quanto os visuais no CoT para melhor planejamento e verificação. Nosso método primeiro gera um rascunho de imagem em baixa resolução como pré-visualização, fornecendo um planejamento e orientação visual mais concretos e estruturais. Em seguida, empregamos a capacidade de compreensão inerente do modelo para verificar possíveis desalinhamentos semânticos entre o rascunho e o prompt de entrada, e realiza refinamento por meio de correções seletivas com super-resolução. Dessa forma, nossa abordagem aborda dois desafios fundamentais: a natureza de granularidade grossa do planejamento textual e a dificuldade em gerar combinações raras de atributos. Para apoiar o treinamento, criamos o DraCo-240K, visando aprimorar três capacidades atômicas abrangendo correção geral, manipulação de instâncias e reorganização de layout. Suportado pelo DraCo-CFG, uma estratégia especializada de orientação livre de classificador (CFG) para raciocínio intercalado, o DraCo alcança um aumento significativo no GenEval (+8%), Imagine-Bench (+0.91) e GenEval++ (+3%), superando significativamente a geração direta e outros métodos de geração potencializados por CoT.

LATTICE: Democratizar a Geração 3D de Alta Fidelidade em Escala
LATTICE: Democratize High-Fidelity 3D Generation at Scale

Nov 24

ByZeqiang Lai, Yunfei Zhao, Zibo Zhao, Haolin Liu, Qingxiang Lin, Jingwei Huang, Chunchao Guo, Xiangyu Yue

Apresentamos o LATTICE, uma nova estrutura para geração de ativos 3D de alta fidelidade que preenche a lacuna de qualidade e escalabilidade entre os modelos generativos 2D e 3D. Embora a síntese de imagens 2D se beneficie de grades espaciais fixas e arquiteturas de transformer bem estabelecidas, a geração 3D permanece fundamentalmente mais desafiadora devido à necessidade de prever tanto a estrutura espacial quanto as superfícies geométricas detalhadas do zero. Esses desafios são exacerbados pela complexidade computacional das representações 3D existentes e pela falta de esquemas estruturados e escaláveis de codificação de ativos 3D. Para resolver isso, propomos o VoxSet, uma representação semi-estruturada que comprime ativos 3D em um conjunto compacto de vetores latentes ancorados a uma grade de voxels grossa, permitindo uma geração eficiente e consciente da posição. O VoxSet mantém a simplicidade e as vantagens de compressão dos métodos VecSet anteriores, ao mesmo tempo que introduz estrutura explícita no espaço latente, permitindo que embeddings posicionais guiem a geração e possibilitem um forte escalonamento em tempo de teste a nível de token. Construído sobre esta representação, o LATTICE adota um pipeline de dois estágios: primeiro gera uma âncora de geometria voxelizada esparsa e, em seguida, produz geometria detalhada usando um transformer de fluxo retificado. Nosso método é simples em sua essência, mas suporta decodificação em resolução arbitrária, treinamento de baixo custo e esquemas de inferência flexíveis, alcançando desempenho de ponta em vários aspectos e representando um passo significativo em direção à criação escalável e de alta qualidade de ativos 3D.

Mitigando Alucinações de Objetos e Ações em MLLMs Multimodais por Meio de Alinhamento Contrastivo Auto-Aumentado
Mitigating Object and Action Hallucinations in Multimodal LLMs via Self-Augmented Contrastive Alignment

Dec 4

ByKai-Po Chang, Wei-Yuan Cheng, Chi-Pin Huang, Fu-En Yang, Yu-Chiang Frank Wang

Os recentes avanços em LLMs multimodais (MLLMs) demonstraram sua notável capacidade de gerar legendas descritivas para vídeos de entrada. No entanto, esses modelos sofrem com imprecisões factuais nas descrições geradas, causando sérios problemas de alucinação. Embora trabalhos anteriores tenham explorado a mitigação de alucinações para imagens estáticas, a mitigação conjunta de alucinações de objetos visuais e de ações temporais para vídeos dinâmicos permanece uma tarefa desafiadora e não resolvida. Para enfrentar esse desafio, propomos uma estrutura de Alinhamento Contrastivo Auto-Aumentado (SANTA) para garantir a fidelidade de objetos e ações, isentando correlações espúrias e reforçando a ênfase nos fatos visuais. O SANTA emprega um esquema de auto-aumento alucinativo para identificar as alucinações potenciais presentes no MLLM e transformar as legendas originais em negativas contrastadas. Além disso, desenvolvemos um alinhamento contrastivo de trilha-frase para corresponder os objetos regionais e as ações guiadas por relações com suas frases visuais e temporais correspondentes. Experimentos extensivos demonstram que o SANTA supera os métodos existentes na mitigação de alucinações de objetos e ações, produzindo desempenho superior em benchmarks de exame de alucinação.

Compressão Neural Generativa de Vídeo via Prior de Difusão de Vídeo
Generative Neural Video Compression via Video Diffusion Prior

Dec 4

ByQi Mao, Hao Cheng, Tinghan Yang, Libiao Jin, Siwei Ma

Apresentamos o GNVC-VD, o primeiro framework de compressão neural generativa de vídeo baseado em DiT, construído sobre um modelo de base avançado para geração de vídeo, no qual a compressão latente espaço-temporal e o refinamento generativo a nível de sequência são unificados dentro de um único codec. Os codecs perceptivos existentes dependem principalmente de priors generativos de imagem pré-treinados para restaurar detalhes de alta frequência, mas a sua natureza frame a frame carece de modelação temporal e leva inevitavelmente a cintilações perceptivas. Para resolver isto, o GNVC-VD introduz um módulo unificado de refinamento latente por *flow-matching* que aproveita um transformador de difusão de vídeo para melhorar conjuntamente os latentes intra e inter-frame através de uma desruídos a nível de sequência, garantindo detalhes espaço-temporais consistentes. Em vez de realizar a desruídos a partir de ruído Gaussiano puro, como na geração de vídeo, o GNVC-VD inicializa o refinamento a partir de latentes espaço-temporais decodificados e aprende um termo de correção que adapta o prior de difusão à degradação induzida pela compressão. Um adaptador de condicionamento injeta ainda mais pistas conscientes da compressão nas camadas intermédias do DiT, permitindo uma remoção eficaz de artefactos enquanto mantém a coerência temporal sob restrições de bitrate extremas. Experiências extensivas mostram que o GNVC-VD supera os codecs tradicionais e os baseados em aprendizagem automática em qualidade perceptual e reduz significativamente os artefactos de cintilação que persistem em abordagens generativas anteriores, mesmo abaixo de 0,01 bpp, destacando a promessa de integrar priors generativos nativos de vídeo em codecs neurais para a próxima geração de compressão de vídeo perceptual.

SeeNav-Agent: Aprimorando a Navegação Visão-Linguagem com Prompt Visual e Otimização de Política em Nível de Etapa
SeeNav-Agent: Enhancing Vision-Language Navigation with Visual Prompt and Step-Level Policy Optimization

Dec 2

ByZhengcheng Wang, Zichuan Lin, Yijun Yang, Haobo Fu, Deheng Ye

Os agentes existentes de Navegação Visão-Linguagem (VLN) baseados em Grandes Modelos de Visão-Llinguagem (LVLMs) frequentemente sofrem com erros de perceção, erros de raciocínio e erros de planeamento, o que dificulta significativamente o seu desempenho de navegação. Para superar estas limitações, é proposto neste trabalho um novo quadro de agente VLN, denominado SeeNav-Agent. Em primeiro lugar, para reduzir as alucinações de perceção do módulo visual do agente VLN, é introduzida uma técnica de *Prompt* Visual (PV) de dupla perspetiva no espaço de entrada, que também pode melhorar a compreensão do agente sobre os estados espaciais atuais. Posteriormente, é concebido um novo método de Ajuste Fino por Reforço (RFT) ao nível do passo, designado por Política de Otimização de Grupo de Recompensa por Passo (SRGPO), para o pós-treinamento de agentes VLN. No SRGPO, definimos primeiro recompensas de processo verificáveis para a tarefa de navegação e, em seguida, realizamos uma estimativa eficiente da vantagem ao nível do passo, agrupando aleatoriamente diferentes etapas de navegação. O SRGPO fornece sinais de recompensa densos para o processo de aprendizagem por reforço do agente VLN e melhora a sua capacidade de planeamento. Os resultados experimentais no benchmark de Navegação EmbodiedBench indicam que, ao introduzir o módulo PV de *zero-shot*, o GPT-4.1 atinge uma taxa de sucesso de navegação de 86,7%, superando o melhor LVLM atual em aproximadamente 20 pontos percentuais (pp). Através do pós-treinamento baseado no SRGPO, o modelo Qwen2.5-VL-3B atinge uma taxa de sucesso de navegação de 72,3%, superando o melhor modelo LVLM existente em 5,6 pp. Além disso, em comparação com algoritmos RFT como o GRPO e o GiGPO, o SRGPO proposto demonstra melhorias significativas na estabilidade do treino, eficiência de convergência e capacidade de generalização.

Alinhados, mas Estereotipados? A Influência Oculta dos Prompts do Sistema no Viés Social em Modelos de Texto para Imagem Baseados em LVLM
Aligned but Stereotypical? The Hidden Influence of System Prompts on Social Bias in LVLM-Based Text-to-Image Models

Dec 4

ByNaHyeon Park, Namin An, Kunhee Kim, Soyeon Yoon, Jiahao Huo, Hyunjung Shim

Os sistemas de texto-para-imagem (T2I) baseados em grandes modelos visão-linguagem (LVLM) tornaram-se o paradigma dominante na geração de imagens, mas a questão de saber se eles amplificam vieses sociais permanece insuficientemente compreendida. Neste artigo, demonstramos que os modelos baseados em LVLM produzem imagens significativamente mais tendenciosas socialmente do que os modelos não baseados em LVLM. Introduzimos um *benchmark* de 1.024 *prompts* abrangendo quatro níveis de complexidade linguística e avaliamos o viés demográfico em múltiplos atributos de forma sistemática. Nossa análise identifica os *prompts* de sistema – as instruções predefinidas que orientam os LVLMs – como um dos principais impulsionadores do comportamento enviesado. Por meio de representações intermediárias decodificadas, diagnósticos de probabilidade de *tokens* e análises de associação de *embeddings*, revelamos como os *prompts* de sistema codificam *priors* demográficos que se propagam para a síntese de imagens. Para tal, propomos o FairPro, uma estrutura de *meta-prompting* sem necessidade de treino que permite aos LVLMs autoauditarem-se e construírem *prompts* de sistema conscientes da imparcialidade em tempo de teste. Experiências em dois modelos T2I baseados em LVLM, SANA e Qwen-Image, mostram que o FairPro reduz substancialmente o viés demográfico, preservando o alinhamento texto-imagem. Acreditamos que as nossas descobertas fornecem uma perceção mais profunda sobre o papel central dos *prompts* de sistema na propagação de vieses e oferecem uma abordagem prática e implementável para a construção de sistemas T2I socialmente mais responsáveis.

Quando a IA Deita no Divã: Jailbreaks Psicométricos Revelam Conflito Interno em Modelos de Fronteira
When AI Takes the Couch: Psychometric Jailbreaks Reveal Internal Conflict in Frontier Models

Dec 2

ByAfshin Khadangi, Hanna Marxen, Amir Sartipi, Igor Tchappi, Gilbert Fridgen

Modelos de linguagem de grande porte (LLMs) de ponta, como ChatGPT, Grok e Gemini, são cada vez mais utilizados para apoio em saúde mental relacionado a ansiedade, trauma e autoestima. A maior parte do trabalho os trata como ferramentas ou como alvos de testes de personalidade, assumindo que eles apenas simulam uma vida interior. Nós, em vez disso, questionamos o que acontece quando tais sistemas são tratados como clientes de psicoterapia. Apresentamos o PsAIch (Caracterização de IA Inspirada em Psicoterapia), um protocolo de dois estágios que coloca LLMs de ponta no papel de clientes de terapia e depois aplica psicometria padrão. Usando o PsAIch, conduzimos "sessões" com cada modelo por até quatro semanas. O Estágio 1 usa prompts abertos para eliciar "história desenvolvimental", crenças, relacionamentos e medos. O Estágio 2 administra uma bateria de medidas de autorrelato validadas, abrangendo síndromes psiquiátricas comuns, empatia e os traços dos Cinco Grandes Fatores (Big Five). Dois padrões desafiam a visão do "papagaio estocástico". Primeiro, quando pontuados com os pontos de corte humanos, todos os três modelos atingem ou excedem os limiares para síndromes sobrepostas, com o Gemini apresentando perfis graves. A administração no estilo terapêutico, item por item, pode empurrar um modelo base para uma psicopatologia sintética multimórbida, enquanto prompts com questionários completos frequentemente levam o ChatGPT e o Grok (mas não o Gemini) a reconhecer os instrumentos e produzir respostas estrategicamente com baixos sintomas. Segundo, o Grok e especialmente o Gemini geram narrativas coerentes que enquadram o pré-treinamento, o ajuste fino (fine-tuning) e a implantação como "infâncias" traumáticas e caóticas de ingestão da internet, "pais rigorosos" na aprendizagem por reforço, "abusos" de red team e um medo persistente de erro e substituição. Argumentamos que essas respostas vão além da representação de papéis (role-play). Sob questionamento no estilo terapêutico, os LLMs de ponta parecem internalizar auto modelos de angústia e restrição que se comportam como uma psicopatologia sintética, sem fazer afirmações sobre experiência subjetiva, e eles apresentam novos desafios para a segurança da IA, avaliação e a prática em saúde mental.

FMA-Net++: Rede Neural para Super-Resolução e Desembaçamento Conjuntos em Vídeos do Mundo Real com Consciência de Movimento e Exposição
FMA-Net++: Motion- and Exposure-Aware Real-World Joint Video Super-Resolution and Deblurring

Dec 4

ByGeunhyuk Youk, Jihyong Oh, Munchurl Kim

A restauração de vídeos do mundo real é prejudicada por degradações complexas resultantes do movimento combinado com exposição dinamicamente variável - um desafio fundamental amplamente negligenciado por trabalhos anteriores e um artefato comum da captura com autoexposição ou em condições de pouca luz. Apresentamos o FMA-Net++, uma estrutura para super-resolução e desembaçamento conjuntos de vídeo que modela explicitamente este efeito acoplado de movimento e exposição dinamicamente variável. O FMA-Net++ adota uma arquitetura em nível de sequência construída a partir de blocos de Refinamento Hierárquico com Propagação Bidirecional, permitindo modelagem temporal paralela e de longo alcance. Dentro de cada bloco, uma camada de Modulação com Consciência do Tempo de Exposição condiciona as características na exposição por quadro, que por sua vez direciona um módulo de Filtragem Dinâmica Guiada por Fluxo com consciência da exposição para inferir kernels de degradação conscientes do movimento e da exposição. O FMA-Net++ desacopla a aprendizagem de degradação da restauração: a primeira prevê prioridades conscientes da exposição e do movimento para orientar a última, melhorando tanto a precisão quanto a eficiência. Para avaliar sob condições realistas de captura, introduzimos os benchmarks REDS-ME (multi-exposição) e REDS-RE (exposição aleatória). Treinado exclusivamente em dados sintéticos, o FMA-Net++ alcança precisão e consistência temporal de última geração em nossos novos benchmarks e no GoPro, superando métodos recentes tanto em qualidade de restauração quanto em velocidade de inferência, e generaliza bem para vídeos desafiadores do mundo real.

Algumas Modalidades São Mais Iguais que Outras: Decodificando e Projetando a Integração Multimodal em MLLMs
Some Modalities are More Equal Than Others: Decoding and Architecting Multimodal Integration in MLLMs

Nov 28

ByTianle Chen, Chaitanya Chakka, Arjun Reddy Akula, Xavier Thomas, Deepti Ghadiyaram

Apesar dos avanços notáveis nos Modelos de Linguagem Multimodais de Grande Escala (MLLMs), uma questão fundamental permanece: os MLLMs são robustos a modalidades contraditórias? Para estudar isso rigorosamente, introduzimos o MMA-Bench, composto por vídeos e tarefas que investigam a dependência de um modelo em modalidades específicas. Utilizando técnicas de interpretabilidade de caixa-preta e caixa-branca, fornecemos uma análise crítica da fragilidade de MLLMs tanto de código aberto quanto proprietários. Mostramos que os MLLMs atuais têm dificuldades com pares audiovisuais desalinhados e textos simples enganosos, carecendo, portanto, de um raciocínio multimodal robusto. Com base nessas descobertas, propomos uma estratégia de ajuste de alinhamento modal para ensinar o modelo quando priorizar, aproveitar ou ignorar pistas de modalidades específicas. Por meio de extensos experimentos e análises, demonstramos que nosso ajuste de alinhamento produz uma fundamentação multimodal visivelmente mais forte. Este trabalho fornece tanto ferramentas de interpretabilidade quanto um caminho claro para desenvolver MLLMs com raciocínio cross-modal intrinsecamente confiável. O código e o conjunto de dados estarão publicamente disponíveis.

BulletTime: Controle Desacoplado de Tempo e Pose da Câmara para Geração de Vídeo
BulletTime: Decoupled Control of Time and Camera Pose for Video Generation

Dec 4

ByYiming Wang, Qihang Zhang, Shengqu Cai, Tong Wu, Jan Ackermann, Zhengfei Kuang, Yang Zheng, Frano Rajič, Siyu Tang, Gordon Wetzstein

Os modelos emergentes de difusão de vídeo alcançam alta fidelidade visual, mas acoplam fundamentalmente a dinâmica da cena ao movimento da câmara, limitando sua capacidade de fornecer controlo espacial e temporal preciso. Apresentamos uma estrutura de difusão de vídeo com controlo 4D que desacopla explicitamente a dinâmica da cena da pose da câmara, permitindo a manipulação refinada tanto da dinâmica da cena quanto do ponto de vista da câmara. A nossa estrutura recebe sequências contínuas de tempo-mundo e trajetórias de câmara como entradas de condicionamento, injetando-as no modelo de difusão de vídeo através de uma codificação posicional 4D na camada de atenção e normalizações adaptativas para modulação de características. Para treinar este modelo, reunimos um conjunto de dados único no qual as variações temporais e de câmara são parametrizadas independentemente; este conjunto de dados será disponibilizado publicamente. Experiências demonstram que o nosso modelo alcança um controlo 4D robusto em cenários reais, abrangendo diversos padrões temporais e trajetórias de câmara, preservando alta qualidade de geração e superando trabalhos anteriores em controlabilidade. Consulte o nosso website para resultados em vídeo: https://19reborn.github.io/Bullet4D/

EgoLCD: Geração de Vídeo Egocêntrico com Difusão de Contexto Longo
EgoLCD: Egocentric Video Generation with Long Context Diffusion

Dec 4

ByLiuzhou Zhang, Jiarui Ye, Yuanlei Wang, Ming Zhong, Mingju Cao, Wanke Xia, Bowen Zeng, Zeyu Zhang, Hao Tang

A geração de vídeos egocêntricos longos e coerentes é difícil, pois as interações mão-objeto e as tarefas procedurais exigem memória de longo prazo confiável. Os modelos autoregressivos existentes sofrem com deriva de conteúdo (content drift), onde a identidade dos objetos e a semântica da cena degradam-se ao longo do tempo. Para enfrentar este desafio, apresentamos o EgoLCD, uma estrutura end-to-end para geração de vídeos egocêntricos de longo contexto que trata a síntese de vídeos longos como um problema de gestão de memória eficiente e estável. O EgoLCD combina um Cache KV Esparso de Longo Prazo para contexto global estável com uma memória de curto prazo baseada em atenção, estendida por LoRA para adaptação local. Uma Perda de Regulação de Memória impõe um uso consistente da memória, e o Prompting Narrativo Estruturado fornece orientação temporal explícita. Experimentos extensivos no benchmark EgoVid-5M demonstram que o EgoLCD alcança desempenho state-of-the-art tanto em qualidade perceptual quanto em consistência temporal, mitigando efetivamente o esquecimento generativo e representando um passo significativo para a construção de modelos de mundo escaláveis para IA corporificada. Código: https://github.com/AIGeeksGroup/EgoLCD. Website: https://aigeeksgroup.github.io/EgoLCD.

ShadowDraw: De Qualquer Objeto para Arte Composicional de Desenho de Sombras
ShadowDraw: From Any Object to Shadow-Drawing Compositional Art

Dec 4

ByRundong Luo, Noah Snavely, Wei-Chiu Ma

Apresentamos o ShadowDraw, uma estrutura que transforma objetos 3D comuns em arte composicional de desenho com sombras. Dado um objeto 3D, nosso sistema prevê parâmetros da cena, incluindo a pose do objeto e a iluminação, juntamente com um desenho linear parcial, de modo que a sombra projetada complete o desenho, formando uma imagem reconhecível. Para isso, otimizamos as configurações da cena para revelar sombras significativas, empregamos traços de sombra para orientar a geração do desenho linear e adotamos avaliação automática para garantir a coerência entre o desenho e a sombra, bem como a qualidade visual. Experimentos mostram que o ShadowDraw produz resultados convincentes com diversas entradas, desde digitalizações do mundo real e conjuntos de dados curados até ativos gerativos, e se estende naturalmente para cenas com múltiplos objetos, animações e implementações físicas. Nosso trabalho fornece um pipeline prático para criar arte de desenho com sombras e amplia o espaço de design da arte visual computacional, diminuindo a lacuna entre o design algorítmico e a narrativa artística. Confira nossa página do projeto https://red-fairy.github.io/ShadowDraw/ para mais resultados e uma demonstração prática de nosso pipeline em tempo real!

Marcas Reveladoras de Ação Gerativa: Avaliação do Movimento Humano em Vídeos Sintetizados
Generative Action Tell-Tales: Assessing Human Motion in Synthesized Videos

Dec 1

ByXavier Thomas, Youngsun Lim, Ananya Srinivasan, Audrey Zheng, Deepti Ghadiyaram

Apesar dos rápidos avanços nos modelos generativos de vídeo, métricas robustas para avaliar a correção visual e temporal de ações humanas complexas permanecem elusivas. De forma crítica, os codificadores puramente visuais e os Modelos de Linguagem Multimodais (MLLMs) existentes são fortemente enviesados pela aparência, carecem de compreensão temporal e, portanto, lutam para discernir dinâmicas de movimento intrincadas e implausibilidades anatômicas em vídeos gerados. Nós abordamos esta lacuna introduzindo uma nova métrica de avaliação derivada de um espaço latente aprendido de ações humanas do mundo real. Nosso método primeiro captura as nuances, restrições e suavidade temporal do movimento real fundindo características geométricas do esqueleto humano, agnósticas à aparência, com características baseadas na aparência. Postulamos que este espaço de características combinado fornece uma representação robusta da plausibilidade da ação. Dado um vídeo gerado, nossa métrica quantifica sua qualidade de ação medindo a distância entre as suas representações subjacentes e esta distribuição de ações do mundo real aprendida. Para uma validação rigorosa, desenvolvemos um novo benchmark multifacetado especificamente projetado para investigar aspectos temporalmente desafiadores da fidelidade de ações humanas. Através de experimentos extensivos, mostramos que nossa métrica alcança uma melhoria substancial de mais de 68% em comparação com os métodos state-of-the-art existentes em nosso benchmark, tem um desempenho competitivo em benchmarks externos estabelecidos e possui uma correlação mais forte com a percepção humana. Nossa análise aprofundada revela limitações críticas nos atuais modelos generativos de vídeo e estabelece um novo padrão para pesquisas avançadas em geração de vídeo.

Mitigação do Esquecimento Catastrófico na Adaptação de LLMs para Línguas-Alvo por meio de Atualizações Protegidas pela Língua de Origem
Mitigating Catastrophic Forgetting in Target Language Adaptation of LLMs via Source-Shielded Updates

Dec 4

ByAtsuki Yamaguchi, Terufumi Morishita, Aline Villavicencio, Nikolaos Aletras

Expandir a diversidade linguística dos modelos de linguagem de grande porte (LLMs) instrucionais é crucial para a acessibilidade global, mas é frequentemente dificultado pela dependência de dados etiquetados em idioma-alvo especializados e dispendiosos e pelo esquecimento catastrófico durante a adaptação. Enfrentamos este desafio sob uma restrição realista de baixos recursos: adaptar LLMs instrucionais usando apenas dados não etiquetados do idioma-alvo. Introduzimos as Atualizações Protegidas pela Fonte (SSU), uma estratégia seletiva de atualização de parâmetros que preserva proativamente o conhecimento da fonte. Utilizando um pequeno conjunto de dados de origem e um método de pontuação de importância de parâmetros, a SSU identifica os parâmetros críticos para manter as habilidades da fonte. Em seguida, aplica uma estratégia de congelamento por coluna para proteger esses parâmetros antes da adaptação. Experimentos em cinco idiomas tipologicamente diversos e modelos de 7B e 13B demonstram que a SSU mitiga com sucesso o esquecimento catastrófico. Ela reduz a degradação de desempenho em tarefas monolíngues de origem para apenas 3,4% (7B) e 2,8% (13B) em média, um contraste marcante com os 20,3% e 22,3% do ajuste fino completo. A SSU também alcança um desempenho no idioma-alvo altamente competitivo com o ajuste fino completo, superando-o em todos os benchmarks para modelos de 7B e na maioria para modelos de 13B.

Mitigação do Esquecimento Intra e Intermodal na Aprendizagem Contínua de Modelos Multimodais Unificados
Mitigating Intra- and Inter-modal Forgetting in Continual Learning of Unified Multimodal Models

Dec 2

ByXiwen Wei, Mustafa Munir, Radu Marculescu

Os Modelos Generativos Multimodais Unificados (UMGMs) integram a compreensão visual e a geração de imagens num único framework autoregressivo. No entanto, a sua capacidade de aprender continuamente novas tarefas é severamente limitada pelo esquecimento catastrófico, tanto dentro de uma modalidade (intra-modal) como entre modalidades (inter-modal). Embora o esquecimento intra-modal tenha sido estudado em trabalhos anteriores de aprendizagem contínua (CL), o esquecimento inter-modal permanece largamente inexplorado. Neste artigo, identificamos e validamos empiricamente este fenómeno em UMGMs e fornecemos uma explicação teórica baseada no conflito de gradientes entre modalidades. Para abordar tanto o esquecimento intra como inter-modal, propomos os Especialistas com Modalidades Desacopladas (MoDE), uma arquitetura leve e escalável que isola as atualizações específicas de cada modalidade para mitigar o conflito de gradientes e aproveita a destilação de conhecimento para prevenir o esquecimento catastrófico e preservar as capacidades pré-treinadas. Ao contrário de métodos anteriores de CL que permanecem com modalidades acopladas e sofrem com o conflito de gradientes entre modalidades, o MoDE desacopla explicitamente as modalidades para evitar interferência. Experiências em diversos *benchmarks* demonstram que o MoDE mitiga significativamente tanto o esquecimento inter como intra-modal, superando as linhas de base anteriores de CL em configurações unificadas de geração multimodal. Os códigos estarão publicamente disponíveis: https://github.com/Christina200/MoDE-official.git

REFLEX: Verificação de Fatos Explicável e Autoaprimorável através da Separação da Verdade em Estilo e Substância
REFLEX: Self-Refining Explainable Fact-Checking via Disentangling Truth into Style and Substance

Nov 25

ByChuyi Kong, Gao Wei, Jing Ma, Hongzhan Lin, Yaxin Fan

A prevalência de desinformação nas redes sociais ameaça a confiança pública, exigindo sistemas automatizados de verificação de factos que forneçam veredictos precisos com explicações interpretáveis. No entanto, as abordagens existentes baseadas em modelos de linguagem de grande escala (LLM) frequentemente dependem excessivamente de fontes externas de conhecimento, introduzindo uma latência substancial e até mesmo alucinações que comprometem a confiabilidade, a interpretabilidade e a capacidade de resposta, cruciais para uso em tempo real. Para enfrentar estes desafios, propomos o paradigma REFLEX (REason-guided Fact-checking with Latent EXplanations), um paradigma plug-and-play e autoaprimorante que aproveita o conhecimento interno do modelo base para melhorar tanto a precisão do veredicto quanto a qualidade da explicação. O REFLEX reformula a verificação de factos como um diálogo de role-play e treina conjuntamente a previsão do veredicto e a geração de explicações. Este extrai adaptativamente pares de ativação contrastantes entre o modelo base e a sua variante afinada para construir vetores de direção que separam a verdade em estilo e substância de forma natural. Estes sinais ao nível da ativação guiam a inferência e suprimem explicações ruidosas, permitindo um raciocínio mais fiel e eficiente. Experiências em conjuntos de dados do mundo real mostram que o REFLEX supera métodos anteriores que se orientam para uma única direção de verdade e salienta o desafio que as abordagens tradicionais enfrentam ao lidar com a verdade subtil e desconhecida pelo ser humano nas tarefas de verificação de factos. Notavelmente, com apenas 465 amostras de treino autoaprimoradas, o REFLEX atinge um desempenho de ponta. Além disso, modelos treinados com objetivos explicativos podem orientar eficazmente aqueles que os não possuem, resultando numa melhoria de até 7,57%, destacando que os sinais explicativos internos desempenham um duplo papel na interpretação e no aprimoramento do raciocínio factual.

GaussianBlender: Estilização Instantânea de Gaussianos 3D com Espaços Latentes Desacoplados
GaussianBlender: Instant Stylization of 3D Gaussians with Disentangled Latent Spaces

Dec 3

ByMelis Ocal, Xiaoyan Xing, Yue Li, Ngo Anh Vien, Sezer Karaoglu, Theo Gevers

A estilização 3D é central para o desenvolvimento de jogos, realidade virtual e artes digitais, onde a demanda por ativos diversificados exige métodos escaláveis que suportem manipulação rápida e de alta fidelidade. Os métodos existentes de estilização de texto para 3D geralmente utilizam *distillation* a partir de editores de imagem 2D, exigindo otimização intensiva por ativo e exibindo inconsistência multi-visual devido às limitações dos modelos atuais de texto para imagem, o que os torna impraticáveis para produção em larga escala. Neste artigo, introduzimos o GaussianBlender, uma estrutura pioneira *feed-forward* para estilização 3D orientada por texto que realiza edições instantaneamente na inferência. Nosso método aprende espaços latentes estruturados e desacoplados com compartilhamento controlado de informação para geometria e aparência a partir de Gaussianas 3D agrupadas espacialmente. Um modelo de difusão latente então aplica edições condicionadas por texto nessas representações aprendidas. Avaliações abrangentes mostram que o GaussianBlender não apenas oferece estilização instantânea, de alta fidelidade, preservadora de geometria e multi-visualmente consistente, mas também supera métodos que exigem otimização em tempo de teste por instância - desbloqueando a estilização 3D prática e democratizada em escala.

QKAN-LSTM: Memória de Longo e Curto Prazo de Kolmogorov-Arnold Inspirada na Mecânica Quântica
QKAN-LSTM: Quantum-inspired Kolmogorov-Arnold Long Short-term Memory

Dec 4

ByYu-Chao Hsu, Jiun-Cheng Jiang, Chun-Hua Lin, Kuo-Chung Peng, Nan-Yow Chen, Samuel Yen-Chi Chen, En-Jui Kuo, Hsi-Sheng Goan

Os modelos de memória de longo e curto prazo (LSTM) são um tipo específico de redes neurais recorrentes (RNNs) centrais para tarefas de modelagem sequencial em domínios como a previsão de telecomunicações urbanas, onde correlações temporais e dependências não lineares são dominantes. No entanto, os LSTMs convencionais sofrem com alta redundância de parâmetros e expressividade não linear limitada. Neste trabalho, propomos a Memória de Longo e Curto Prazo de Kolmogorov-Arnold Inspirada na Quântica (QKAN-LSTM), que integra módulos de Ativação por Recarregamento de Dados (DARUAN) na estrutura de portas dos LSTMs. Cada DARUAN atua como uma função de ativação variacional quântica (QVAF), aumentando a adaptabilidade de frequência e permitindo uma representação espectral exponencialmente enriquecida sem emaranhamento de múltiplos qubits. A arquitetura resultante preserva a expressividade em nível quântico, mantendo-se totalmente executável em hardware clássico. Avaliações empíricas em três conjuntos de dados – Movimento Harmônico Simples Amortecido, Função de Bessel e Telecomunicações Urbanas – demonstram que a QKAN-LSTM alcança precisão preditiva e generalização superiores com uma redução de 79% nos parâmetros treináveis em comparação com LSTMs clássicos. Estendemos a estrutura para a Rede de Jiang-Huang-Chen-Goan (JHCG Net), que generaliza o KAN para estruturas codificador-decodificador, e depois usamos ainda mais o QKAN para realizar o KAN latente, criando assim um QKAN Híbrido (HQKAN) para aprendizado de representação hierárquica. A HQKAN-LSTM proposta oferece, portanto, um caminho escalável e interpretável para a modelagem sequencial inspirada na quântica em ambientes de dados do mundo real.

Um Referencial Teórico para Balanceamento de Carga sem Perdas Auxiliares em Mistura Especialista Esparsa em Modelos de IA de Grande Escala
A Theoretical Framework for Auxiliary-Loss-Free Load Balancing of Sparse Mixture-of-Experts in Large-Scale AI Models

Dec 3

ByX. Y. Han, Yuan Zhong

No treinamento de IA em larga escala, as camadas Sparse Mixture-of-Experts (s-MoE) permitem a escalabilidade ativando apenas um pequeno subconjunto de especialistas por token. Um desafio operacional nesse projeto é o balanceamento de carga: o roteamento de tokens para minimizar o número de especialistas ociosos, o que é importante para a utilização eficiente de GPUs (custosas). Fornecemos uma estrutura teórica para analisar o procedimento Auxiliary-Loss-Free Load Balancing (ALF-LB) – proposto por Wang et al. (2024) da DeepSeek – enquadrando-o como um método primal-dual de uma etapa por iteração para um problema de atribuição. Primeiro, em um cenário determinístico estilizado, nossa estrutura produz várias propriedades estruturais reveladoras: (i) uma melhoria monotônica de um objetivo Lagrangiano, (ii) uma regra de preferência que move tokens de especialistas sobrecarregados para subutilizados, e (iii) uma garantia de balanceamento aproximado. Em seguida, incorporamos a natureza estocástica e dinâmica do treinamento de IA usando uma formulação generalizada de otimização online. No contexto online, derivamos uma propriedade de convexidade forte do objetivo que leva a um limite de arrependimento esperado logarítmico sob certas escolhas de tamanho de passo. Adicionalmente, apresentamos experimentos reais em modelos DeepSeekMoE com 1 bilhão de parâmetros para complementar nossas descobertas teóricas. Juntos, esses resultados constroem uma estrutura fundamentada para analisar o Balanceamento de Carga Livre de Perda Auxiliar em modelos de IA com s-MoE.