HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

20 papers found

Colaboração Latente em Sistemas Multiagente
Latent Collaboration in Multi-Agent Systems

Nov 25

ByJiaru Zou, Xiyuan Yang, Ruizhong Qiu, Gaotang Li, Katherine Tieu, Pan Lu, Ke Shen, Hanghang Tong, Yejin Choi, Jingrui He, James Zou, Mengdi Wang, Ling Yang

126

Os sistemas multiagente (MAS) estendem os grandes modelos de linguagem (LLMs) do raciocínio independente de modelo único para uma inteligência coordenada em nível de sistema. Enquanto os agentes de LLM existentes dependem de mediação baseada em texto para raciocínio e comunicação, damos um passo adiante ao permitir que os modelos colaborem diretamente no espaço latente contínuo. Apresentamos o LatentMAS, uma estrutura livre de treinamento de ponta a ponta que permite colaboração latente pura entre agentes de LLM. No LatentMAS, cada agente primeiro realiza a geração autoregressiva de pensamentos latentes por meio de embeddings ocultos da última camada. Uma memória de trabalho latente compartilhada preserva e transfere as representações internas de cada agente, garantindo troca de informações sem perdas. Fornecemos análises teóricas que estabelecem que o LatentMAS atinge maior expressividade e preservação de informações sem perdas com complexidade substancialmente menor do que os MAS baseados em texto tradicionais. Além disso, avaliações empíricas em 9 benchmarks abrangentes abrangendo raciocínio matemático e científico, compreensão de senso comum e geração de código mostram que o LatentMAS supera consistentemente as linhas de base fortes de modelo único e MAS baseados em texto, alcançando até 14,6% maior precisão, reduzindo o uso de tokens de saída em 70,8%-83,7% e fornecendo inferência de ponta a ponta 4x-4,3x mais rápida. Esses resultados demonstram que nossa nova estrutura de colaboração latente melhora a qualidade do raciocínio em nível de sistema, oferecendo ganhos substanciais de eficiência sem qualquer treinamento adicional. Código e dados são totalmente de código aberto em https://github.com/Gen-Verse/LatentMAS.

Avaliação Multimodal de Arquiteturas de Língua Russa
Multimodal Evaluation of Russian-language Architectures

Nov 19

ByArtem Chervyakov, Ulyana Isaeva, Anton Emelyanov, Artem Safin, Maria Tikhonova, Alexander Kharitonov, Yulia Lyakh, Petr Surovtsev, Denis Shevelev, Vildan Saburov, Vasily Konovalov, Elisei Rykov, Ivan Sviridov, Amina Miftakhova, Ilseyar Alimova, Alexander Panchenko, Alexander Kapitanov, Alena Fenogenova

Os modelos de linguagem grandes multimodais (MLLMs) estão atualmente no centro das atenções da pesquisa, mostrando progresso rápido em escala e capacidades, mas sua inteligência, limitações e riscos permanecem insuficientemente compreendidos. Para abordar essas questões, particularmente no contexto da língua russa, onde não existem atualmente *benchmarks* multimodais, apresentamos o Mera Multi, uma estrutura de avaliação multimodal aberta para arquiteturas de língua russa. O *benchmark* é baseado em instruções e abrange as modalidades padrão de texto, imagem, áudio e vídeo, compreendendo 18 tarefas de avaliação recém-construídas para modelos de propósito geral e arquiteturas específicas por modalidade (imagem-para-texto, vídeo-para-texto e áudio-para-texto). Nossas contribuições incluem: (i) uma taxonomia universal de habilidades multimodais; (ii) 18 conjuntos de dados criados inteiramente do zero com atenção à especificidade cultural e linguística russa, *prompts* unificados e métricas; (iii) resultados de linha de base para modelos proprietários e de código aberto; (iv) uma metodologia para prevenir o vazamento do *benchmark*, incluindo marca d'água e licenças para conjuntos privados. Embora nosso foco atual seja o russo, o *benchmark* proposto fornece uma metodologia replicável para a construção de *benchmarks* multimodais em línguas tipologicamente diversas, particularmente dentro da família de línguas eslavas.

Inferix: Um Motor de Inferência de Próxima Geração Baseado em Bloco-Difusão para Simulação de Mundos
Inferix: A Block-Diffusion based Next-Generation Inference Engine for World Simulation

Nov 25

ByInferix Team, Tianyu Feng, Yizeng Han, Jiahao He, Yuanyu He, Xi Lin, Teng Liu, Hanfeng Lu, Jiasheng Tang, Wei Wang, Zhiyuan Wang, Jichao Wu, Mingyang Yang, Yinghao Yu, Zeyu Zhang, Bohan Zhuang

Os modelos de mundo servem como simuladores centrais para áreas como IA agentiva, IA incorporada e jogos, sendo capazes de gerar vídeos longos, fisicamente realistas, interativos e de alta qualidade. Além disso, a escalabilidade desses modelos pode desbloquear capacidades emergentes em percepção visual, compreensão e raciocínio, abrindo caminho para um novo paradigma que vai além dos atuais modelos de visão de base centrados em LLMs. Um avanço fundamental que os impulsiona é o paradigma de decodificação semi-autorregressiva (block-diffusion), que combina os pontos fortes dos métodos de difusão e autorregressivos ao gerar tokens de vídeo em blocos – aplicando difusão dentro de cada bloco enquanto condiciona os anteriores – resultando em sequências de vídeo mais coerentes e estáveis. Crucialmente, ele supera as limitações da difusão de vídeo padrão ao reintroduzir o gerenciamento de KV Cache no estilo LLM, permitindo geração eficiente, de comprimento variável e de alta qualidade. Portanto, o Inferix foi especificamente projetado como um motor de inferência de próxima geração para permitir a síntese imersiva de mundos por meio de processos de decodificação semi-autorregressiva otimizados. Este foco dedicado na simulação de mundos o diferencia claramente de sistemas projetados para cenários de alta concorrência (como vLLM ou SGLang) e dos modelos clássicos de difusão de vídeo (como xDiTs). O Inferix aprimora ainda mais sua proposta com streaming de vídeo interativo e profiling, permitindo interação em tempo real e simulação realista para modelar com precisão a dinâmica mundial. Adicionalmente, suporta avaliação eficiente por meio da integração perfeita do LV-Bench, um novo benchmark de avaliação refinado especificamente para cenários de geração de vídeo com duração de minutos. Esperamos que a comunidade trabalhe em conjunto para avançar o Inferix e fomentar a exploração de modelos de mundo.

NVIDIA Nemotron Parse 1.1
NVIDIA Nemotron Parse 1.1

Nov 25

ByKateryna Chumachenko, Amala Sanjay Deshmukh, Jarno Seppanen, Ilia Karmanov, Chia-Chih Chen, Lukas Voegtle, Philipp Fischer, Marek Wawrzos, Saeid Motiian, Roman Ageev, Kedi Wu, Alexandre Milesi, Maryam Moosaei, Krzysztof Pawelec, Padmavathy Subramanian, Mehrzad Samadi, Xin Yu, Celina Dear, Sarah Stoddard, Jenna Diamond, Jesse Oliver, Leanna Chraghchian, Patrick Skelly, Tom Balough, Yao Xu, Jane Polak Scowcroft, Daniel Korzekwa, Darragh Hanley, Sandip Bhaskar, Timo Roman, Karan Sapra, Andrew Tao, Bryan Catanzaro

Apresentamos o Nemotron-Parse-1.1, um modelo leve de análise de documentos e OCR que avança as capacidades de seu predecessor, o Nemoretriever-Parse-1.0. O Nemotron-Parse-1.1 oferece capacidades aprimoradas em OCR geral, formatação markdown, análise estruturada de tabelas e extração de texto de imagens, gráficos e diagramas. Ele também suporta um comprimento de sequência de saída maior para documentos visualmente densos. Como seu predecessor, ele extrai caixas delimitadoras de segmentos de texto, bem como classes semânticas correspondentes. O Nemotron-Parse-1.1 segue uma arquitetura de codificador-decodificador com 885 milhões de parâmetros, incluindo um decodificador de linguagem compacto de 256 milhões de parâmetros. Ele alcança precisão competitiva em benchmarks públicos, tornando-o uma solução de OCR leve e robusta. Disponibilizamos publicamente os pesos do modelo no Huggingface, bem como um contêiner NIM otimizado, juntamente com um subconjunto dos dados de treinamento como parte do conjunto de dados mais amplo Nemotron-VLM-v2. Adicionalmente, lançamos o Nemotron-Parse-1.1-TC, que opera com um comprimento reduzido de *tokens* visuais, oferecendo uma melhoria de 20% na velocidade com degradação mínima de qualidade.

Harmonia: Harmonizando a Geração de Áudio e Vídeo por meio de Sinergia entre Tarefas
Harmony: Harmonizing Audio and Video Generation through Cross-Task Synergy

Nov 26

ByTeng Hu, Zhentao Yu, Guozhen Zhang, Zihan Su, Zhengguang Zhou, Youliang Zhang, Yuan Zhou, Qinglin Lu, Ran Yi

A síntese de conteúdo audiovisual sincronizado é um desafio fundamental na IA generativa, com modelos de código aberto enfrentando dificuldades no robusto alinhamento áudio-vídeo. Nossa análise revela que esta questão está enraizada em três desafios fundamentais do processo de difusão conjunta: (1) Deriva de Correspondência, onde latentes ruidosos em evolução concorrente impedem a aprendizagem estável do alinhamento; (2) mecanismos de atenção global ineficientes que falham em capturar pistas temporais refinadas; e (3) o viés intramodal da Orientação Livre de Classificador (CFG) convencional, que melhora a condicionalidade mas não a sincronização cross-modal. Para superar estes desafios, introduzimos Harmony, uma estrutura inovadora que aplica mecanicamente a sincronização audiovisual. Primeiro propomos um paradigma de treinamento de Sinergia Cross-Tarefa para mitigar a deriva, aproveitando sinais supervisionais fortes das tarefas de geração de vídeo guiado por áudio e áudio guiado por vídeo. Em seguida, projetamos um Módulo de Interação Desacoplada Global-Local para alinhamento temporal-estilístico eficiente e preciso. Finalmente, apresentamos uma CFG Aprimorada por Sincronização (SyncCFG) que isola e amplifica explicitamente o sinal de alinhamento durante a inferência. Experimentos extensivos demonstram que Harmony estabelece um novo estado da arte, superando significativamente os métodos existentes tanto na fidelidade de geração quanto, crucialmente, na obtenção de sincronização audiovisual refinada.

UniGame: Transformando um Modelo Multimodal Unificado em seu Próprio Adversário
UniGame: Turning a Unified Multimodal Model Into Its Own Adversary

Nov 24

ByZhaolong Su, Wang Lu, Hao Chen, Sharon Li, Jindong Wang

Os Modelos Multimodais Unificados (UMMs) demonstraram desempenho impressionante em compreensão e geração com uma única arquitetura. No entanto, os UMMs ainda exibem uma inconsistência fundamental: a compreensão favorece *embeddings* compactos, enquanto a geração favorece representações ricas em reconstrução. Este compromisso estrutural produz limites de decisão desalinhados, coerência multimodal degradada e maior vulnerabilidade sob mudanças distribucionais e adversárias. Neste artigo, apresentamos o UniGame, uma estrutura de pós-treinamento auto-adversarial que visa diretamente as inconsistências. Ao aplicar um perturbador leve na interface de *token* compartilhada, o UniGame permite que o ramo de geração procure e desafie ativamente a compreensão frágil, transformando o próprio modelo em seu próprio adversário. Experimentos demonstram que o UniGame melhora significativamente a consistência (+4,6%). Além disso, também alcança melhorias substanciais na compreensão (+3,6%), geração (+0,02), robustez fora da distribuição e adversária (+4,8% e +6,2% no NaturalBench e AdVQA). A estrutura é agnóstica à arquitetura, introduz menos de 1% de parâmetros adicionais e é complementar aos métodos de pós-treinamento existentes. Esses resultados posicionam o autojogo adversarial como um princípio geral e eficaz para melhorar a coerência, estabilidade e competência unificada dos futuros modelos fundamentais multimodais. O código oficial está disponível em: https://github.com/AIFrontierLab/UniGame

Monet: Raciocínio no Espaço Visual Latente Além de Imagens e Linguagem
Monet: Reasoning in Latent Visual Space Beyond Images and Language

Nov 26

ByQixun Wang, Yang Shi, Yifei Wang, Yuanxing Zhang, Pengfei Wan, Kun Gai, Xianghua Ying, Yisen Wang

"Pensar com imagens" emergiu como um paradigma eficaz para avançar o raciocínio visual, estendendo-se além das cadeias de pensamento baseadas apenas em texto ao injetar evidências visuais nas etapas intermediárias de raciocínio. No entanto, os métodos existentes ficam aquém do pensamento visual abstrato semelhante ao humano, pois sua flexibilidade é fundamentalmente limitada por ferramentas externas. Neste trabalho, introduzimos Monet, um framework de treinamento que permite aos grandes modelos de linguagem multimodal (MLLMs) raciocinar diretamente dentro do espaço visual latente, gerando *embeddings* contínuos que funcionam como pensamentos visuais intermediários. Identificamos dois desafios centrais no treinamento de MLLMs para raciocínio visual latente: o alto custo computacional no alinhamento latente-visual e a supervisão insuficiente sobre os *embeddings* latentes, e os abordamos com um *pipeline* de ajuste fino supervisionado (*SFT*) baseado em destilação em três estágios. Revelamos ainda uma limitação da aplicação do GRPO ao raciocínio latente: ele aprimora principalmente o raciocínio baseado em texto, e não o raciocínio latente. Para superar isso, propomos o VLPO (Otimização de Política Visual-Latente), um método de aprendizado por reforço que incorpora explicitamente os *embeddings* latentes nas atualizações de gradiente de política. Para suportar o SFT, construímos Monet-SFT-125K, um conjunto de dados CoT intercalado texto-imagem de alta qualidade contendo 125K CoTs do mundo real, de gráficos, OCR e geometria. Nosso modelo, Monet-7B, mostra ganhos consistentes em benchmarks de percepção e raciocínio do mundo real e exibe forte generalização fora da distribuição em tarefas desafiadoras de raciocínio visual abstrato. Também analisamos empiricamente o papel de cada componente de treinamento e discutimos nossas tentativas iniciais malsucedidas, fornecendo insights para desenvolvimentos futuros em raciocínio visual latente. Nosso modelo, dados e código estão disponíveis em https://github.com/NOVAglow646/Monet.

Revisitando a Generalização entre Níveis de Dificuldade: Não É Tão Simples
Revisiting Generalization Across Difficulty Levels: It's Not So Easy

Nov 26

ByYeganeh Kordi, Nihal V. Nayak, Max Zuo, Ilana Nguyen, Stephen H. Bach

Investigamos a capacidade de generalização de modelos de linguagem de grande porte (LLMs) em diferentes níveis de dificuldade de tarefas, uma questão fundamental para a curadoria e avaliação eficaz de dados. Pesquisas existentes apresentam resultados contraditórios sobre se o treinamento com dados mais fáceis ou mais difíceis produz melhores resultados, e se esses ganhos se manifestam em dados de teste mais fáceis ou mais difíceis. Abordamos esta questão realizando uma avaliação sistemática da generalização de LLMs através de modelos, conjuntos de dados e grupos granulares de exemplos por dificuldade. Classificamos exemplos em seis conjuntos de dados utilizando os *outputs* de milhares de LLMs diferentes e a Teoria de Resposta ao Item (TRI), uma métrica de dificuldade bem estabelecida em testes educacionais. Diferente de trabalhos anteriores, nossas classificações de dificuldade são, portanto, determinadas exclusivamente pelas capacidades de muitos LLMs diferentes, excluindo opiniões humanas sobre a dificuldade. Com uma análise mais objetiva, em maior escala e com granularidade mais fina, demonstramos que a generalização transversal de dificuldade é frequentemente limitada; o treinamento com dados fáceis ou difíceis não consegue alcançar melhorias consistentes em toda a gama de dificuldades. Estes resultados evidenciam a importância de incluir uma variedade de níveis de dificuldade tanto nos dados de treinamento quanto nos de avaliação para LLMs, e que buscar atalhos em relação à dificuldade é arriscado.

Correspondência de Velocidade Terminal
Terminal Velocity Matching

Nov 24

ByLinqi Zhou, Mathias Parger, Ayaan Haque, Jiaming Song

Propusemos o Terminal Velocity Matching (TVM), uma generalização do *flow matching* que permite a modelagem generativa de alta fidelidade em uma ou poucas etapas. O TVM modela a transição entre quaisquer dois passos de difusão e regulariza o seu comportamento no tempo terminal, em vez do tempo inicial. Demonstramos que o TVM fornece um limite superior para a distância 2-Wasserstein entre as distribuições de dados e do modelo quando o modelo é Lipschitz-contínuo. No entanto, como os *Diffusion Transformers* não possuem essa propriedade, introduzimos alterações arquitetônicas mínimas que alcançam um treinamento estável e em estágio único. Para tornar o TVM eficiente na prática, desenvolvemos um *kernel* de atenção fundido que suporta passos reversos em Produtos Jacobiano-Vetor, os quais escalam bem com arquiteturas de *transformers*. No ImageNet-256x256, o TVM alcança um FID de 3,29 com uma única avaliação de função (NFE) e 1,99 FID com 4 NFEs. De forma similar, alcança 4,32 FID com 1-NFE e 2,94 FID com 4-NFE no ImageNet-512x512, representando um desempenho de última geração para modelos de uma/poucas etapas treinados do zero.

Cascata de Blocos: Aceleração sem Treinamento de Modelos de Vídeo Bloco-Causais
Block Cascading: Training Free Acceleration of Block-Causal Video Models

Nov 25

ByHmrishav Bandyopadhyay, Nikhil Pinnaparaju, Rahim Entezari, Jim Scott, Yi-Zhe Song, Varun Jampani

A geração de vídeo com causalidade em blocos enfrenta uma acentuada relação de compromisso entre velocidade e qualidade: modelos pequenos de 1,3B atingem apenas 16 FPS, enquanto modelos grandes de 14B avançam lentamente a 4,5 FPS, forçando os utilizadores a escolher entre responsividade e qualidade. A Cascata de Blocos mitiga significativamente este compromisso através de uma paralelização que não requer treino adicional. A nossa principal perceção: os blocos de vídeo futuros não necessitam de blocos atuais totalmente removidos de ruído para iniciar a geração. Ao iniciar a geração de blocos com contexto parcialmente removido de ruído dos antecessores, transformamos pipelines sequenciais em cascatas paralelas onde múltiplos blocos removem ruído simultaneamente. Com 5 GPUs a explorar o paralelismo temporal, alcançamos uma aceleração de ~2x em todas as escalas de modelo: modelos de 1,3B aceleram de 16 para 30 FPS, modelos de 14B de 4,5 para 12,5 FPS. Para além da velocidade de inferência, a Cascata de Blocos elimina a sobrecarga do *KV-caching* (de ~200ms) durante as mudanças de contexto para geração interativa. Avaliações extensivas validadas com múltiplos pipelines de causalidade em blocos demonstram que não há perda significativa na qualidade da geração ao mudar de pipelines de causalidade em blocos para pipelines de Cascata de Blocos para inferência. Página do Projeto: https://hmrishavbandy.github.io/block_cascading_page/

G^2VLM: Modelo de Linguagem Visual com Base Geométrica com Reconstrução 3D Unificada e Raciocínio Espacial
G^2VLM: Geometry Grounded Vision Language Model with Unified 3D Reconstruction and Spatial Reasoning

Nov 26

ByWenbo Hu, Jingli Lin, Yilin Long, Yunlong Ran, Lihan Jiang, Yifan Wang, Chenming Zhu, Runsen Xu, Tai Wang, Jiangmiao Pang

Os Modelos de Visão e Linguagem (VLMs) ainda carecem de robustez na inteligência espacial, demonstrando desempenho insuficiente em tarefas de compreensão e raciocínio espacial. Atribuímos essa lacuna à ausência de um processo de aprendizagem de geometria visual capaz de reconstruir o espaço 3D a partir de imagens 2D. Apresentamos o G²VLM, um modelo de visão e linguagem ancorado em geometria que une dois aspectos fundamentais da inteligência espacial: reconstrução espacial 3D e compreensão espacial. O G²VLM aproveita nativamente características de geometria visual 3D aprendidas para prever diretamente atributos 3D e aprimorar tarefas de raciocínio espacial por meio de aprendizagem contextual e raciocínio entrelaçado. Nosso projeto unificado é altamente escalável para compreensão espacial: treina com abundantes dados de vídeo e imagens multivisuais, enquanto aproveita simultaneamente os benefícios de prévios visuais 3D que normalmente são derivados apenas de anotações difíceis de coletar. Resultados experimentais demonstram que o G²VLM é proficiente em ambas as tarefas, alcançando resultados comparáveis aos melhores modelos de reconstrução 3D feed-forward e obtendo resultados melhores ou competitivos em diversas tarefas de compreensão e raciocínio espacial. Ao unificar um VLM semanticamente forte com tarefas de visão computacional 3D de baixo nível, esperamos que o G²VLM possa servir como uma base sólida para a comunidade e desbloquear mais aplicações futuras, como a edição de cenas 3D.

MobileVLA-R1: Reforçando Visão-Linguagem-Ação para Robôs Móveis
MobileVLA-R1: Reinforcing Vision-Language-Action for Mobile Robots

Nov 22

ByTing Huang, Dongjian Li, Rui Yang, Zeyu Zhang, Zida Yang, Hao Tang

A fundamentação de instruções em linguagem natural em controle contínuo para robôs quadrúpedes continua sendo um desafio fundamental na área de visão, linguagem e ação. Os métodos existentes lutam para conectar o raciocínio semântico de alto nível com a atuação de baixo nível, resultando em fundamentação instável e fraca generalização no mundo real. Para resolver esses problemas, apresentamos o MobileVLA-R1, um framework unificado de visão-linguagem-ação que permite raciocínio explícito e controle contínuo para robôs quadrúpedes. Construímos o MobileVLA-CoT, um conjunto de dados em larga escala de cadeia de pensamento (CoT) multi-granularidade para trajetórias corporificadas, fornecendo supervisão estruturada de raciocínio para alinhamento. Com base nessa fundação, introduzimos um paradigma de treinamento em dois estágios que combina o alinhamento supervisionado de CoT com o aprendizado por reforço GRPO para melhorar a consistência do raciocínio, a estabilidade do controle e a execução de longo prazo. Avaliações extensivas em tarefas de VLN e VLA demonstram desempenho superior em comparação com baselines robustas, com uma melhoria de aproximadamente 5%. A implantação no mundo real em um robô quadrúpede valida um desempenho robusto em ambientes complexos. Código: https://github.com/AIGeeksGroup/MobileVLA-R1. Website: https://aigeeksgroup.github.io/MobileVLA-R1.

Reforçando Políticas de Ação por meio da Profecia
Reinforcing Action Policies by Prophesying

Nov 25

ByJiahui Zhang, Ze Huang, Chun Gu, Zipei Ma, Li Zhang

As políticas Visão-Linguagem-Ação (VLA) se destacam no alinhamento entre linguagem, percepção e controle robótico. No entanto, a maioria das VLAs é treinada puramente por imitação, o que leva a um sobreajuste às demonstrações e resulta em fragilidade sob mudanças de distribuição. O aprendizado por reforço (RL) otimiza diretamente a recompensa da tarefa, abordando assim esse desalinhamento, mas a interação com robôs reais é dispendiosa e os simuladores convencionais são de difícil engenharia e transferência. Nós abordamos tanto a eficiência de dados quanto a estabilidade de otimização no pós-treinamento de VLA por meio de um modelo de mundo aprendido e de um procedimento de RL adaptado a cabeças de ação baseadas em fluxo. Especificamente, introduzimos o Prophet, uma unificação de atuação robótica de ação-para-vídeo pré-treinada em dados robóticos heterogêneos e em larga escala para aprender dinâmicas reutilizáveis de ação-resultado. Ele é capaz de se adaptar com poucos exemplos a novos robôs, objetos e ambientes, produzindo um simulador pronto para execução. Sobre o Prophet, reforçamos as políticas de ação com o FA-GRPO (Flow-action-GRPO), que adapta o Flow-GRPO para operar em ações VLA, e com o FlowScale, uma re-ponderação passo a passo que redimensiona os gradientes por passo no cabeçote de fluxo. Juntos, Prophet, FA-GRPO e FlowScale constituem o ProphRL, um caminho prático, eficiente em dados e computação para o pós-treinamento de VLA. Experimentos mostram ganhos de sucesso de 5-17% em benchmarks públicos e de 24-30% em robôs reais em diferentes variantes de VLA.

Distilação de Passos de Tempo Livre de Imagem via Consistência em Tempo Contínuo com Pares Amostrados por Trajetória
Image-Free Timestep Distillation via Continuous-Time Consistency with Trajectory-Sampled Pairs

Nov 25

ByBao Tang, Shuai Zhang, Yueting Zhu, Jijun Xiang, Xin Yang, Li Yu, Wenyu Liu, Xinggang Wang

A destilação de passos temporais é uma abordagem eficaz para melhorar a eficiência de geração de modelos de difusão. O Modelo de Consistência (CM), enquanto estrutura baseada em trajetórias, demonstra potencial significativo devido à sua sólida fundamentação teórica e geração de alta qualidade em poucos passos. No entanto, os métodos atuais de destilação de consistência em tempo contínuo ainda dependem fortemente de dados de treinamento e recursos computacionais, dificultando sua implantação em cenários com recursos limitados e restringindo sua escalabilidade para diversos domínios. Para resolver esta questão, propomos o Modelo de Consistência Trajetória-Reversa (TBCM), que elimina a dependência de dados de treinamento externos ao extrair representações latentes diretamente da trajetória de geração do modelo professor. Diferente dos métodos convencionais que requerem codificação VAE e conjuntos de dados em larga escala, nosso paradigma de destilação autossuficiente melhora significativamente tanto a eficiência quanto a simplicidade. Adicionalmente, as amostras extraídas da trajetória naturalmente preenchem a lacuna de distribuição entre treinamento e inferência, permitindo assim uma transferência de conhecimento mais eficaz. Empiricamente, o TBCM atinge pontuações de 6.52 FID e 28.08 CLIP no conjunto MJHQ-30k sob geração em um único passo, enquanto reduz o tempo de treinamento em aproximadamente 40% comparado ao Sana-Sprint e economiza uma quantidade substancial de memória GPU, demonstrando eficiência superior sem sacrificar a qualidade. Revelamos ainda a discrepância espaço de difusão-geração na destilação de consistência em tempo contínuo e analisamos como as estratégias de amostragem afetam o desempenho da destilação, oferecendo insights para futuras pesquisas em destilação. Link do GitHub: https://github.com/hustvl/TBCM.

SPHINX: Um Ambiente Sintético para Percepção Visual e Raciocínio
SPHINX: A Synthetic Environment for Visual Perception and Reasoning

Nov 25

ByMd Tanvirul Alam, Saksham Aggarwal, Justin Yang Chae, Nidhi Rastogi

Apresentamos o Sphinx, um ambiente sintético para percepção e raciocínio visual que visa primitivas cognitivas fundamentais. O Sphinx gera proceduralmente quebra-cabeças utilizando motivos, blocos, gráficos, ícones e primitivas geométricas, cada um emparelhado com soluções de verdade fundamental verificáveis, permitindo tanto avaliação precisa quanto construção de conjuntos de dados em larga escala. O benchmark abrange 25 tipos de tarefas que abrangem detecção de simetria, transformações geométricas, raciocínio espacial, interpretação de gráficos e previsão de sequências. A avaliação de modelos grandes de visão e linguagem (LVLMs) recentes mostra que mesmo o GPT-5 de última geração atinge apenas 51,1% de precisão, bem abaixo do desempenho humano. Por fim, demonstramos que o aprendizado por reforço com recompensas verificáveis (RLVR) melhora substancialmente a precisão do modelo nessas tarefas e produz ganhos em benchmarks externos de raciocínio visual, destacando seu potencial para avançar o raciocínio multimodal.

NAF: Aumento de Resolução de Características sem Treinamento via Filtragem por Atenção de Vizinhança
NAF: Zero-Shot Feature Upsampling via Neighborhood Attention Filtering

Nov 23

ByLoick Chambon, Paul Couairon, Eloi Zablocki, Alexandre Boulch, Nicolas Thome, Matthieu Cord

Os Modelos de Base Visuais (VFMs) extraem representações espacialmente reduzidas, o que impõe desafios para tarefas em nível de pixel. As abordagens existentes de upsampling enfrentam um dilema fundamental: os filtros clássicos são rápidos e amplamente aplicáveis, mas dependem de formas fixas, enquanto os métodos modernos alcançam precisão superior por meio de formas aprendíveis e específicas para cada VFM, ao custo de retreinamento para cada modelo. Apresentamos o Filtro de Atenção por Vizinhança (NAF), que preenche essa lacuna ao aprender pesos adaptativos espaciais e de conteúdo por meio da Atenção por Vizinhança entre Escalas e Embeddings de Posição Rotacionais (RoPE), guiados apenas pela imagem de alta resolução de entrada. O NAF opera de forma zero-shot: ele realiza upsampling de características de qualquer VFM sem retreinamento, tornando-se a primeira arquitetura independente de VFM a superar métodos específicos e alcançar desempenho de ponta em múltiplas tarefas downstream. Mantém alta eficiência, escalando para mapas de características de 2K e reconstruindo mapas de resolução intermediária a 18 FPS. Além do upsampling de características, o NAF demonstra forte desempenho em restauração de imagens, destacando sua versatilidade. Código e checkpoints estão disponíveis em https://github.com/valeoai/NAF.

Posição: A Complexidade do Alinhamento Perfeito da IA -- Formalizando o Trilema do RLHF
Position: The Complexity of Perfect AI Alignment -- Formalizing the RLHF Trilemma

Nov 23

BySubramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary

O Aprendizado por Reforço com Feedback Humano (RLHF) é amplamente utilizado para alinhar grandes modelos de linguagem, mas os profissionais enfrentam um dilema persistente: melhorar a segurança frequentemente reduz a equidade, escalar para populações diversas torna-se computacionalmente intratável e tornar os sistemas robustos frequentemente amplifica vieses majoritários. Formalizamos esta tensão como o Trilema do Alinhamento: nenhum sistema RLHF pode alcançar simultaneamente (i) épsilon-representatividade em diversos valores humanos, (ii) tratabilidade polinomial em complexidade amostral e computacional, e (iii) delta-robustez contra perturbações adversariais e mudanças de distribuição. Através de uma análise de complexidade teórica que integra teoria estatística de aprendizagem e otimização robusta, provamos que alcançar tanto representatividade (épsilon <= 0.01) quanto robustez (delta <= 0.001) para populações em escala global requer Omega(2^{d_contexto}) operações, o que é super-polinomial na dimensionalidade do contexto. Mostramos que as implementações atuais de RLHF resolvem este trilema sacrificando a representatividade: elas coletam apenas 10^3--10^4 amostras de grupos homogêneos de anotadores, enquanto 10^7--10^8 amostras são necessárias para uma verdadeira representação global. Nosso framework fornece uma explicação unificada para patologias documentadas do RLHF, incluindo colapso de preferências, sicofância e amplificação sistemática de viés. Concluímos com direções concretas para navegar por esses trade-offs fundamentais através de relaxamentos estratégicos dos requisitos de alinhamento.

RAISECity: Uma Estrutura de Agente Multimodal para Geração de Mundos 3D Alinhados com a Realidade em Escala Urbana
RAISECity: A Multimodal Agent Framework for Reality-Aligned 3D World Generation at City-Scale

Nov 22

ByShengyuan Wang, Zhiheng Zheng, Yu Shang, Lixuan He, Yangcheng Yu, Fan Hangyu, Jie Feng, Qingmin Liao, Yong Li

A geração 3D em escala urbana é de grande importância para o desenvolvimento de inteligência incorporada e modelos de mundo. No entanto, os métodos existentes enfrentam desafios significativos em relação à qualidade, fidelidade e escalabilidade na geração de mundos 3D. Assim, propomos o RAISECity, um Motor de Síntese Inteligente Alinhado com a Realidade que cria mundos 3D detalhados em escala urbana. Introduzimos uma estrutura agentiva que aproveita diversas ferramentas de base multimodais para adquirir conhecimento do mundo real, manter representações intermediárias robustas e construir cenas 3D complexas. Este design agentivo, que apresenta processamento dinâmico de dados, autorreflexão e refinamento iterativos, e invocação de ferramentas multimodais avançadas, minimiza erros cumulativos e melhora o desempenho geral. Extensos experimentos quantitativos e análises qualitativas validam o desempenho superior do RAISECity no alinhamento com a realidade, precisão de forma, fidelidade de textura e nível estético, alcançando uma taxa de superioridade superior a 90% em relação às linhas de base existentes para a qualidade perceptual geral. Esta combinação de qualidade 3D, alinhamento com a realidade, escalabilidade e compatibilidade perfeita com pipelines de computação gráfica torna o RAISECity uma base promissora para aplicações em mídia imersiva, inteligência incorporada e modelos de mundo.

I-GLIDE: Grupos de Entrada para Indicadores Latentes de Saúde na Estimação de Degradação
I-GLIDE: Input Groups for Latent Health Indicators in Degradation Estimation

Nov 26

ByLucas Thil, Jesse Read, Rim Kaddah, Guillaume Doquet

A previsão precisa da vida útil restante (RUL) depende criticamente da qualidade dos indicadores de saúde (HI), mas os métodos existentes frequentemente falham em separar os mecanismos complexos de degradação em sistemas multi-sensor ou quantificar a incerteza na confiabilidade dos HI. Este artigo introduz uma nova estrutura para a construção de HI, apresentando três contribuições principais. Primeiro, adaptamos o *Reconstruction along Projected Pathways* (RaPP) como um indicador de saúde (HI) para previsão de RUL pela primeira vez, demonstrando que ele supera as métricas tradicionais de erro de reconstrução. Segundo, mostramos que o aumento dos HI derivados do RaPP com a quantificação de incerteza aleatória e epistêmica (UQ) por meio de *Monte Carlo dropout* e espaços latentes probabilísticos melhora significativamente a robustez da previsão de RUL. Terceiro, e mais crucialmente, propomos *indicator groups*, um paradigma que isola subconjuntos de sensores para modelar degradações específicas do sistema, dando origem ao nosso novo método, I-GLIDE, que permite diagnósticos interpretáveis e específicos do mecanismo. Avaliada em dados provenientes de sistemas aeroespaciais e de manufatura, nossa abordagem alcança melhorias marcantes em precisão e generalização em comparação com os métodos HI mais avançados, ao mesmo tempo que fornece insights acionáveis sobre os caminhos de falha do sistema. Este trabalho preenche a lacuna entre a detecção de anomalias e a prognóstica, oferecendo uma estrutura fundamentada para a modelagem da degradação com consciência da incerteza em sistemas complexos.

Regularização de Nitidez Adaptativa em Frequência para Melhorar a Generalização em Representação por Pontos Gaussianos 3D
Frequency-Adaptive Sharpness Regularization for Improving 3D Gaussian Splatting Generalization

Nov 22

ByYoungsik Yun, Dongjun Gu, Youngjung Uh

Apesar do 3D Gaussian Splatting (3DGS) se destacar na maioria das configurações, ele carece de generalização para novos pontos de vista em cenários de poucos exemplos devido ao seu sobreajuste às observações esparsas. Revisitamos a otimização do 3DGS a partir de uma perspectiva de aprendizado de máquina, enquadrando a síntese de novas vistas como um problema de generalização para pontos de vista não vistos – uma direção pouco explorada. Propomos a Regularização de Nitidez Adaptativa em Frequência (FASR), que reformula o objetivo de treinamento do 3DGS, guiando-o assim a convergir para uma solução de melhor generalização. Embora a Minimização Consciente da Nitidez (SAM) reduza de forma semelhante a nitidez da paisagem de perda para melhorar a generalização de modelos de classificação, sua aplicação direta ao 3DGS é subótima devido à discrepância entre as tarefas. Especificamente, ela prejudica a reconstrução de detalhes de alta frequência devido a uma regularização excessiva, enquanto a redução de sua intensidade resulta em uma penalização insuficiente da nitidez. Para resolver isso, refletimos a frequência local das imagens para definir o peso de regularização e o raio da vizinhança ao estimar a nitidez local. Isso evita artefatos flutuantes em novos pontos de vista e reconstrói detalhes finos que o SAM tende a suavizar excessivamente. Em conjuntos de dados com várias configurações, nosso método melhora consistentemente uma ampla gama de linhas de base. O código estará disponível em https://bbangsik13.github.io/FASR.

Inferix: Um Motor de Inferência de Próxima Geração Baseado em Bloco-Difusão para Simulação de Mundos
Inferix: A Block-Diffusion based Next-Generation Inference Engine for World Simulation

Nov 25

ByInferix Team, Tianyu Feng, Yizeng Han, Jiahao He, Yuanyu He, Xi Lin, Teng Liu, Hanfeng Lu, Jiasheng Tang, Wei Wang, Zhiyuan Wang, Jichao Wu, Mingyang Yang, Yinghao Yu, Zeyu Zhang, Bohan Zhuang