HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

31 papers found

Penguin-VL: Explorando os Limites de Eficiência de VLM com Codificadores de Visão Baseados em LLM
Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders

Mar 6

ByBoqiang Zhang, Lei Ke, Ruihan Yang, Qi Gao, Tianyuan Qu, Rossell Chen, Dong Yu, Leoweiliang

O desenvolvimento de Modelos de Linguagem Visual (VLMs) tem dependido amplamente do aumento do tamanho dos modelos, o que dificulta a implantação em dispositivos móveis e de borda com recursos computacionais limitados, como smartphones e robôs. Neste trabalho, exploramos os limites de desempenho de VLMs compactos (por exemplo, 2B e 8B). Questionamos a prática predominante de que os VLMs de última geração devem depender de codificadores visuais inicializados por meio de pré-treinamento contrastivo massivo (por exemplo, CLIP/SigLIP). Identificamos um descompasso de objetivo: o aprendizado contrastivo, otimizado para discriminação, impõe invariâncias em nível categórico e grosseiro que suprimem pistas visuais refinadas necessárias para legendagem densa e raciocínio VLM complexo. Para resolver essa questão, apresentamos o Penguin-VL, cujo codificador visual é inicializado a partir de um LLM apenas de texto. Nossos experimentos revelam que o Penguin-Encoder serve como uma alternativa superior ao pré-treinamento contrastivo tradicional, desbloqueando um maior grau de fidelidade visual e eficiência de dados para compreensão multimodal. Em vários benchmarks de imagem e vídeo, o Penguin-VL atua de forma comparável aos principais VLMs (por exemplo, Qwen3-VL) em raciocínio matemático e os supera em tarefas como compreensão de documentos, conhecimento visual e compreensão de vídeo multiperspectiva. Notavelmente, esses ganhos são alcançados com uma arquitetura leve, demonstrando que a representação visual aprimorada, e não o escalonamento do modelo, é o principal impulsionador do desempenho. Nossas ablações mostram que o Penguin-Encoder supera consistentemente os codificadores pré-treinados contrastivamente, preservando pistas espaciais e temporais refinadas que são críticas para percepção densa e raciocínio complexo. Isso o torna uma alternativa robusta de substituição para VLMs computacionalmente eficientes e permite alto desempenho em ambientes com recursos limitados. Código: https://github.com/tencent-ailab/Penguin-VL

BandPO: Unindo Regiões de Confiança e Recorte de Proporção por meio de Limites Conscientes de Probabilidade para Aprendizagem por Reforço em LLMs
BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning

Mar 5

ByYuan Li, Bo Wang, Yufei Gao, Yuqian Yao, Xinyuan Wang, Zhangyue Yin, Xipeng Qiu

As restrições proximais são fundamentais para a estabilidade do aprendizado por reforço em Modelos de Linguagem de Grande Porte. Embora o mecanismo canônico de *clipping* no PPO sirva como um substituto eficiente para as regiões de confiança, identificamos um gargalo crítico: limites fixos restringem estritamente a margem de atualização ascendente de ações de baixa probabilidade, suprimindo desproporcionalmente estratégias de cauda com alta vantagem e induzindo um colapso rápido da entropia. Para resolver isso, introduzimos a Otimização de Política com Restrição de Banda (BandPO). O BandPO substitui o *clipping* canônico pela Banda, um operador teórico unificado que projeta regiões de confiança definidas por f-divergências em intervalos de *clipping* dinâmicos e conscientes da probabilidade. A análise teórica confirma que a Banda resolve efetivamente esse gargalo de exploração. Formulamos esse mapeamento como um problema de otimização convexa, garantindo uma solução numérica globalmente ótima enquanto derivamos soluções de forma fechada para divergências específicas. Experimentos extensos em diversos modelos e conjuntos de dados demonstram que o BandPO supera consistentemente o *clipping* canônico e o Clip-Higher, ao mesmo tempo que mitiga robustamente o colapso da entropia.

Planejamento em 8 Tokens: Um Tokenizador Discreto Compacto para Modelos de Mundo Latentes
Planning in 8 Tokens: A Compact Discrete Tokenizer for Latent World Model

Mar 5

ByDongwon Kim, Gawon Seo, Jinsung Lee, Minsu Cho, Suha Kwak

Os modelos de mundo fornecem uma estrutura poderosa para simular a dinâmica do ambiente condicionada a ações ou instruções, permitindo tarefas subsequentes, como planeamento de ações ou aprendizagem de políticas. Abordagens recentes utilizam modelos de mundo como simuladores aprendidos, mas a sua aplicação ao planeamento no momento da decisão permanece computacionalmente proibitiva para controlo em tempo real. Um dos principais estrangulamentos reside nas representações latentes: os tokenizadores convencionais codificam cada observação em centenas de tokens, tornando o planeamento lento e com uso intensivo de recursos. Para resolver isso, propomos o CompACT, um tokenizador discreto que comprime cada observação em apenas 8 tokens, reduzindo drasticamente o custo computacional enquanto preserva informações essenciais para o planeamento. Um modelo de mundo condicionado por ação que incorpora o tokenizador CompACT alcança desempenho de planeamento competitivo com ordens de grandeza de aceleração, oferecendo um passo prático para a implantação no mundo real de modelos de mundo.

WildActor: Geração de Vídeo Sem Restrições com Preservação de Identidade
WildActor: Unconstrained Identity-Preserving Video Generation

Feb 28

ByQin Guo, Tianyu Yang, Xuanhua He, Fei Shen, Yong Zhang, Zhuoliang Kang, Xiaoming Wei, Dan Xu

A geração de vídeos humanos pronta para produção exige que atores digitais mantenham identidades corporais completas estritamente consistentes em planos dinâmicos, ângulos de visão e movimentos, um cenário que permanece desafiador para os métodos existentes. Métodos anteriores frequentemente apresentam comportamento centrado no rosto que negligencia a consistência corporal, ou produzem artefatos de copiar-colar onde os sujeitos aparecem rígidos devido ao bloqueio de pose. Apresentamos o Actor-18M, um conjunto de dados de vídeo humano em larga escala projetado para capturar a consistência de identidade sob pontos de vista e ambientes não restritos. O Actor-18M compreende 1,6 milhão de vídeos com 18 milhões de imagens humanas correspondentes, abrangendo tanto visões arbitrárias quanto representações canônicas de três vistas. Aproveitando o Actor-18M, propomos o WildActor, uma estrutura para geração de vídeo humano condicionada a qualquer vista. Introduzimos um mecanismo de Atenção Assimétrica de Preservação de Identidade, associado a uma estratégia de Amostragem de Monte Carlo Adaptativa ao Ponto de Vista que re-pondera iterativamente as condições de referência pela utilidade marginal para uma cobertura equilibrada da variedade. Avaliado no Actor-Bench proposto, o WildActor preserva consistentemente a identidade corporal sob diversas composições de plano, grandes transições de ponto de vista e movimentos substanciais, superando os métodos existentes nestes cenários desafiadores.

Os Modelos de Raciocínio Têm Dificuldade em Controlar as suas Cadeias de Pensamento
Reasoning Models Struggle to Control their Chains of Thought

Mar 5

ByChen Yueh-Han, Robert McCarthy, Bruce W. Lee, He He, Ian Kivlichan, Bowen Baker, Micah Carroll, Tomek Korbak

A monitorização por cadeia de pensamento (CoT) é uma ferramenta promissora para detetar comportamentos inadequados e compreender as motivações dos modelos de raciocínio modernos. No entanto, se os modelos conseguirem controlar o que verbalizam na sua CoT, isso pode comprometer a monitorizabilidade da CoT. Para medir esta capacidade indesejável — a controlabilidade da CoT — introduzimos o conjunto de avaliação CoT-Control, que inclui tarefas que exigem que os modelos resolvam problemas enquanto aderem a instruções de CoT, por exemplo, raciocinando sobre uma questão de genética sem usar a palavra 'cromossoma'. Mostramos que os modelos de raciocínio possuem uma controlabilidade da CoT significativamente inferior à controlabilidade da saída final; por exemplo, o Claude Sonnet 4.5 consegue controlar a sua CoT apenas 2,7% das vezes, mas 61,9% quando controla a sua saída final. Também descobrimos que a controlabilidade da CoT é maior para modelos maiores e diminui com mais treino de aprendizagem por reforço (RL), com *compute* em tempo de teste e com o aumento da dificuldade do problema. As falhas de controlabilidade da CoT estendem-se mesmo a situações em que são dados incentivos aos modelos (em oposição a pedidos diretos) para contornar os monitores de CoT, embora os modelos exibam uma controlabilidade ligeiramente superior quando lhes é dito que estão a ser monitorizados. Da mesma forma, eliciar a controlabilidade através da otimização adversarial de *prompts* não aumenta significativamente a controlabilidade. Os nossos resultados deixam-nos cautelosamente otimistas de que a controlabilidade da CoT é atualmente pouco provável que seja um modo de falha da monitorizabilidade da CoT. No entanto, o mecanismo por trás da baixa controlabilidade não é bem compreendido. Dada a sua importância para manter a monitorizabilidade da CoT, recomendamos que os *frontier labs* acompanhem a controlabilidade da CoT em modelos futuros.

RoboMME: Avaliação e Compreensão da Memória para Políticas Robóticas Generalistas
RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies

Mar 4

ByYinpei Dai, Hongze Fu, Jayjun Lee, Yuejiang Liu, Haoran Zhang, Jianing Yang, Chelsea Finn, Nima Fazeli, Joyce Chai

A memória é crítica para a manipulação robótica de longo horizonte e dependente do histórico. Tais tarefas frequentemente envolvem contar ações repetidas ou manipular objetos que ficam temporariamente ocluídos. Modelos recentes de visão-linguagem-ação (VLA) começaram a incorporar mecanismos de memória; no entanto, suas avaliações permanecem confinadas a ambientes restritos e não padronizados. Isso limita sua compreensão sistemática, comparação e medição de progresso. Para enfrentar esses desafios, apresentamos o RoboMME: um benchmark padronizado em larga escala para avaliar e avançar modelos VLA em cenários de longo horizonte e dependentes do histórico. Nosso benchmark compreende 16 tarefas de manipulação construídas sob uma taxonomia cuidadosamente projetada que avalia memória temporal, espacial, de objetos e procedural. Desenvolvemos ainda um conjunto de 14 variantes de VLA aumentadas com memória, construídas sobre a arquitetura π0.5, para explorar sistematicamente diferentes representações de memória em múltiplas estratégias de integração. Resultados experimentais mostram que a eficácia das representações de memória é altamente dependente da tarefa, com cada projeto oferecendo vantagens e limitações distintas em diferentes tarefas. Vídeos e código podem ser encontrados em nosso site https://robomme.github.io.

Aquecimento Residual Progressivo para Pré-treinamento de Modelos de Linguagem
Progressive Residual Warmup for Language Model Pretraining

Mar 5

ByTianhao Chen, Xin Xu, Lu Yin, Hao Chen, Yang Wang, Shizhe Diao, Can Yang

As arquiteturas Transformer servem como base para a maioria dos modelos de linguagem de grande escala (LLMs) modernos, portanto, a estabilidade do seu pré-treinamento e a velocidade de convergência são preocupações centrais. Motivados pela dependência lógica das camadas sequencialmente empilhadas, propomos o Progressive Residual Warmup (ProRes) para o pré-treinamento de modelos de linguagem. O ProRes implementa uma filosofia de "a camada inicial aprende primeiro" multiplicando o residual de cada camada por um escalar que gradualmente aquece de 0 para 1, sendo que camadas mais profundas exigem mais etapas de aquecimento. Dessa forma, as camadas mais profundas aguardam que as camadas iniciais se estabilizem em um regime mais consistente antes de contribuir para o aprendizado. Demonstramos a eficácia do ProRes através de experimentos de pré-treinamento em várias escalas de modelo, bem como esquemas de normalização e inicialização. Uma análise abrangente mostra que o ProRes não apenas estabiliza o pré-treinamento, mas também introduz uma trajetória de otimização única, resultando em convergência mais rápida, generalização mais robusta e melhor desempenho em tarefas subsequentes. Nosso código está disponível em https://github.com/dandingsky/ProRes.

FlashPrefill: Descoberta Instantânea de Padrões e Limiarização para Pré-preenchimento Ultra-Rápido de Contexto Longo
FlashPrefill: Instantaneous Pattern Discovery and Thresholding for Ultra-Fast Long-Context Prefilling

Mar 6

ByQihang Fan, Huaibo Huang, Zhiying Wu, Juqiu Wang, Bingning Wang, Ran He

A modelagem de contexto longo é uma capacidade fundamental para Modelos de Linguagem de Grande Porte, porém a complexidade quadrática do mecanismo de atenção permanece um gargalo crítico, particularmente durante a fase computacionalmente intensiva de pré-preenchimento (prefilling). Embora vários mecanismos de atenção esparsa tenham sido explorados, eles geralmente sofrem com latência de busca significativa ou esparsidade insuficiente. Neste artigo, propomos o FlashPrefill, uma estrutura que permite um pré-preenchimento ultrarrápido por meio da descoberta e limiarização instantânea de padrões. O FlashPrefill aproveita uma técnica rápida de busca por blocos para localizar simultaneamente padrões dinâmicos de atenção vertical, diagonal e em bloco esparso. Crucialmente, ele introduz um mecanismo de limiarização dinâmica que contorna a sobrecarga proibitiva de ordenar ou acumular escores de atenção, enquanto elimina efetivamente a distribuição de cauda longa para aumentar a esparsidade. Avaliações extensivas demonstram que o FlashPrefill alcança um salto substancial em eficiência, proporcionando um aceleramento inédito de 27,78x em sequências de 256K. Notavelmente, diferentemente de métodos existentes que sofrem degradação de eficiência em contextos mais curtos, o FlashPrefill mantém um speedup de 1,71x mesmo em um comprimento de contexto de 4K, demonstrando sua robustez e utilidade prática em diferentes escalas de sequência.

HiMAP-Travel: Planeamento Hierárquico Multi-Agente para Viagens de Longo Horizonte com Restrições
HiMAP-Travel: Hierarchical Multi-Agent Planning for Long-Horizon Constrained Travel

Mar 5

ByThe Viet Bui, Wenjun Li, Yong Liu

Os agentes de LLM sequenciais falham no planejamento de longo horizonte com restrições rígidas, como orçamentos e requisitos de diversidade. À medida que o planejamento avança e o contexto cresce, esses agentes se afastam das restrições globais. Propomos o HiMAP-Travel, uma estrutura hierárquica multiagente que divide o planejamento em coordenação estratégica e execução paralela a nível diário. Um Coordenador aloca recursos entre os dias, enquanto os Executores Diários planejam independentemente em paralelo. Três mecanismos-chave permitem isso: um monitor transacional que aplica restrições orçamentais e de unicidade entre agentes paralelos, um protocolo de negociação que permite aos agentes rejeitar sub-objetivos inviáveis e acionar um replanejamento, e uma única política treinada com GRPO que alimenta todos os agentes por meio de condicionamento de função. No TravelPlanner, o HiMAP-Travel com Qwen3-8B alcança 52,78% de validação e 52,65% de teste na Taxa de Aprovação Final (FPR). Numa comparação controlada com modelo, treinamento e ferramentas idênticos, ele supera a baseline sequencial DeepTravel em +8,67 pp. Também supera o ATLAS em +17,65 pp e o MTP em +10,0 pp. Nos cenários multi-turno do FlexTravelBench, alcança 44,34% (2-turno) e 37,42% (3-turno) de FPR, enquanto reduz a latência em 2,5x através da paralelização.

Transformador de Difusão com Segmentação Dinâmica
Dynamic Chunking Diffusion Transformer

Mar 6

ByAkash Haridas, Utkarsh Saxena, Parsa Ashrafi Fashi, Mehdi Rezagholizadeh, Vikram Appia, Emad Barsoum

Os Diffusion Transformers processam imagens como sequências de tokens de comprimento fixo produzidas por uma operação estática de divisão em *patches*. Embora eficiente, este projeto aplica computação uniforme tanto em regiões de baixa quanto de alta informação, ignorando que as imagens contêm regiões com detalhes variados e que o processo de remoção de ruído progride de estruturas grosseiras nos primeiros *timesteps* para detalhes finos nos *timesteps* finais. Apresentamos o *Dynamic Chunking Diffusion Transformer* (DC-DiT), que amplia a arquitetura DiT com um *scaffold* aprendido de codificador-roteador-decodificador que comprime adaptativamente a entrada 2D numa sequência mais curta de tokens de forma dependente dos dados, utilizando um mecanismo de agrupamento (*chunking*) aprendido de forma *end-to-end* com o treino de difusão. O mecanismo aprende a comprimir regiões de fundo uniformes em menos tokens e regiões ricas em detalhes em mais tokens, com segmentações visuais significativas emergindo sem supervisão explícita. Além disso, também aprende a adaptar a sua compressão ao longo dos *timesteps* de difusão, usando menos tokens em fases ruidosas e mais tokens à medida que os detalhes finos emergem. Na geração condicionada por classe do ImageNet 256×256, o DC-DiT melhora consistentemente o FID e o *Inception Score* em relação às *baselines* DiT com igual número de parâmetros e igual número de FLOPs, através de compressões de 4× e 16×, mostrando que esta é uma técnica promissora com potenciais aplicações futuras em geração no espaço de pixels, vídeo e 3D. Para além da precisão, o DC-DiT é prático: pode ser reaproveitado a partir de *checkpoints* DiT pré-treinados com computação pós-treino mínima (até 8× menos passos de treino) e combina-se com outros métodos de computação dinâmica para reduzir ainda mais os FLOPs de geração.

EffectMaker: Unificando Raciocínio e Geração para a Criação Personalizada de Efeitos Visuais
EffectMaker: Unifying Reasoning and Generation for Customized Visual Effect Creation

Mar 6

ByShiyuan Yang, Ruihuang Li, Jiale Tao, Shuai Shao, Qinglin Lu, Jing Liao

Os efeitos visuais (VFX) são essenciais para aprimorar a expressividade e a criatividade de conteúdos em vídeo, mas a produção de efeitos de alta qualidade normalmente exige conhecimento especializado e pipelines de produção dispendiosos. Os sistemas existentes de AIGC enfrentam desafios significativos na geração de VFX devido à escassez de dados específicos para efeitos e à dificuldade inerente de modelar efeitos sobrenaturais ou estilizados. Além disso, essas abordagens frequentemente exigem ajustes finos por efeito, o que limita severamente sua escalabilidade e generalização para novos VFX. Neste trabalho, apresentamos o EffectMaker, uma estrutura unificada de raciocínio-geração que permite a personalização de VFX baseada em referência. O EffectMaker emprega um modelo de linguagem grande multimodal para interpretar semânticas de efeito de alto nível e raciocinar sobre como elas devem se adaptar a um objeto-alvo, enquanto um transformador de difusão aproveita a aprendizagem contextual para capturar pistas visuais refinadas a partir de vídeos de referência. Esses dois componentes formam um mecanismo de orientação de dupla via semântico-visual que permite uma síntese precisa, controlável e consistente em termos de efeito, sem a necessidade de ajustes finos por efeito. Adicionalmente, construímos o EffectData, o maior conjunto de dados sintéticos de alta qualidade contendo 130 mil vídeos abrangendo 3 mil categorias de VFX, para melhorar a generalização e a escalabilidade. Experimentos demonstram que o EffectMaker alcança qualidade visual superior e consistência de efeito em relação aos métodos state-of-the-art, oferecendo um paradigma escalável e flexível para a geração personalizada de VFX. Página do projeto: https://effectmaker.github.io

π-StepNFT: Espaço Mais Amplo Requer Passos Mais Finos no RL Online para ALVs Baseadas em Fluxo
π-StepNFT: Wider Space Needs Finer Steps in Online RL for Flow-based VLAs

Mar 2

BySiting Wang, Xiaofeng Wang, Zheng Zhu, Minnan Pei, Xinyu Cui, Cheng Deng, Jian Zhao, Guan Huang, Haifeng Zhang, Jun Wang

Os modelos de fluxo baseados em visão-linguagem-ação (VLA) destacam-se no controle incorporado, mas sofrem com verossimilhanças intratáveis durante a amostragem multi-etapas, prejudicando o aprendizado por reforço online. Propomos o \textit{boldsymbolπ-StepNFT} (*Step-wise Negative-aware Fine-Tuning* ou Ajuste Fino com Consciência do Negativo por Etapas), uma estrutura livre de crítico e de verossimilhança que requer apenas uma única passagem direta por etapa de otimização e elimina redes auxiliares de valor. Identificamos que espaços de exploração mais amplos exigem orientação mais refinada e gradual para o alinhamento. Empiricamente, o π-StepNFT desbloqueia potencial latente no LIBERO com robustez competitiva em poucas amostras. Além disso, ele alcança generalização superior no ManiSkill, superando as linhas de base baseadas em valor em cenários OOD ao evitar o sobreajuste a características multimodais. Esta propriedade oferece uma solução escalável promissora para aplicações complexas do mundo real.

Mario: Raciocínio em Grafos Multimodais com Modelos de Linguagem de Grande Escala
Mario: Multimodal Graph Reasoning with Large Language Models

Mar 5

ByYuanfu Sun, Kang Li, Pengkang Guo, Jiajin Liu, Qiaoyu Tan

Os recentes avanços em grandes modelos de linguagem (LLMs) abriram novas perspetivas para o raciocínio multimodal. No entanto, a maioria dos métodos existentes ainda depende de modelos visão-linguagem (VLMs) pré-treinados para codificar pares imagem-texto de forma isolada, ignorando a estrutura relacional que os dados multimodais do mundo real formam naturalmente. Isto motiva o raciocínio sobre grafos multimodais (MMGs), onde cada nó possui atributos textuais e visuais e as arestas fornecem pistas estruturais. Permitir o raciocínio baseado em LLMs sobre estes sinais multimodais heterogéneos, preservando a topologia do grafo, introduz dois desafios principais: resolver a fraca consistência cross-modal e lidar com a preferência heterogénea de modalidade. Para enfrentar isto, propomos o Mario, uma estrutura unificada que resolve simultaneamente os dois desafios acima e permite um raciocínio eficaz baseado em LLMs sobre MMGs. O Mario consiste em duas etapas inovadoras. Primeiro, um desenho de VLM condicionado por grafo que refina conjuntamente características textuais e visuais através de aprendizagem contrastiva cross-modal de alto granularidade guiada pela topologia do grafo. Segundo, um mecanismo de afinação de instruções de grafo adaptativo à modalidade que organiza características multimodais alinhadas em vistas de instrução conscientes do grafo e emprega um router aprendível para apresentar, para cada nó e a sua vizinhança, a configuração de modalidade mais informativa para o LLM. Experiências extensas em diversos benchmarks de MMGs demonstram que o Mario supera consistentemente os modelos de grafo state-of-the-art tanto em cenários supervisionados como zero-shot para classificação de nós e previsão de ligações. O código estará disponível em https://github.com/sunyuanfu/Mario.

Geração de Vídeo com Simulador Físico em Loop
Physical Simulator In-the-Loop Video Generation

Mar 6

ByLin Geng Foo, Mark He Huang, Alexandros Lattas, Stylianos Moschoglou, Thabo Beeler, Christian Theobalt

Os recentes avanços na geração de vídeos baseada em difusão alcançaram um realismo visual notável, mas ainda lutam para obedecer a leis físicas básicas, como gravidade, inércia e colisão. Objetos gerados frequentemente se movem de forma inconsistente entre os quadros, exibem dinâmicas implausíveis ou violam restrições físicas, limitando o realismo e a confiabilidade dos vídeos gerados por IA. Abordamos essa lacuna introduzindo o Physical Simulator In-the-loop Video Generation (PSIVG), uma estrutura inovadora que integra um simulador físico ao processo de difusão de vídeo. A partir de um vídeo modelo gerado por um modelo de difusão pré-treinado, o PSIVG reconstrói a cena 4D e as malhas dos objetos em primeiro plano, inicializa-as em um simulador físico e gera trajetórias fisicamente consistentes. Essas trajetórias simuladas são então usadas para orientar o gerador de vídeo em direção a um movimento fisicamente coerente espaço-temporalmente. Para melhorar ainda mais a consistência da textura durante o movimento do objeto, propomos uma técnica de Test-Time Texture Consistency Optimization (TTCO) que adapta os embeddings de texto e características com base em correspondências de pixels do simulador. Experimentos abrangentes demonstram que o PSIVG produz vídeos que aderem melhor à física do mundo real, preservando a qualidade visual e a diversidade. Página do Projeto: https://vcai.mpi-inf.mpg.de/projects/PSIVG/

Roteamento Dinâmico de Modelos e Cascateamento para Inferência Eficiente em LLMs: Uma Revisão
Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey

Feb 23

ByYasmin Moslem, John D. Kelleher

O rápido crescimento de modelos de linguagem grandes (LLMs) com capacidades, custos e domínios diversificados criou uma necessidade crítica de seleção inteligente de modelos no momento da inferência. Embora modelos menores sejam suficientes para consultas rotineiras, tarefas complexas exigem modelos mais capazes. No entanto, a implantação estática de modelos não leva em conta a complexidade e o domínio das consultas recebidas, resultando em desempenho subótimo e custos aumentados. Sistemas de roteamento dinâmico que selecionam modelos de forma adaptativa com base nas características da consulta surgiram como uma solução para esse desafio. Apresentamos uma análise sistemática das abordagens state-of-the-art de roteamento e cascateamento multi-LLM. Em contraste com as arquiteturas de mistura de especialistas, que realizam o roteamento dentro de um único modelo, estudamos o roteamento entre múltiplos LLMs treinados independentemente. Abordamos paradigmas de roteamento diversos, incluindo dificuldade da consulta, preferências humanas, agrupamento, quantificação de incerteza, aprendizado por reforço, multimodalidade e cascateamento. Para cada paradigma, analisamos métodos representativos e examinamos os principais trade-offs. Além da taxonomia, introduzimos uma estrutura conceitual que caracteriza os sistemas de roteamento ao longo de três dimensões: quando as decisões são tomadas, que informação é utilizada e como elas são computadas. Esta perspectiva destaca que os sistemas práticos são frequentemente composicionais, integrando múltiplos paradigmas sob restrições operacionais. Nossa análise demonstra que o roteamento multi-LLM eficaz requer o equilíbrio de objetivos concorrentes. A escolha da estratégia de roteamento ideal depende das restrições de implantação e computacionais. Sistemas de roteamento bem projetados podem superar até mesmo os modelos individuais mais poderosos, aproveitando estrategicamente capacidades especializadas entre os modelos enquanto maximizam os ganhos de eficiência. Entretanto, desafios em aberto permanecem no desenvolvimento de mecanismos de roteamento que generalizem entre arquiteturas, modalidades e aplicações diversas.

Estabilizando o Aprendizado por Reforço para Modelos de Linguagem de Difusão
Stabilizing Reinforcement Learning for Diffusion Language Models

Mar 6

ByJianyuan Zhong, Kaibo Wang, Ding Ding, Zijin Feng, Haoli Bai, Yang Xiang, Jiacheng Sun, Qiang Xu

O Group Relative Policy Optimization (GRPO) é altamente eficaz para modelos de linguagem autorregressivos (AR) após o treinamento, mas sua aplicação direta a modelos de linguagem grandes de difusão (dLLMs) frequentemente desencadeia um colapso da recompensa. Identificamos duas fontes de incompatibilidade. Primeiro, o GRPO depende de razões de importância definidas por probabilidades de sequência, que são intratáveis em dLLMs e devem ser estimadas (por exemplo, via *proxies* de verossimilhança baseados em ELBO ou de campo médio), produzindo razões inerentemente ruidosas. Segundo, a formulação padrão do GRPO não foi projetada para razões estimadas: seu recorte condicional pode ser anormalmente contornado por ruídos de estimação independentes do modelo, produzindo picos de gradiente, enquanto sua normalização de tamanho de grupo fixo amplifica flutuações na magnitude do gradiente sob estimativas de razão de alta variância. Mostramos que esses efeitos formam um ciclo de instabilidade auto-reforçado que conduz ao desvio da política e aumenta ainda mais a variância da razão. Para quebrar esse ciclo, propomos o StableDRL, uma reformulação do GRPO adaptada para dLLMs que utiliza (i) recorte incondicional para suprimir picos induzidos por *outliers* e (ii) auto-normalização para restringir as atualizações dentro do casco convexo dos gradientes por amostra. Estendemos ainda o StableDRL para modelos de difusão baseados em blocos através de um mecanismo de atenção em escada.

WorldCache: Acelerando Modelos de Mundo Gratuitamente via Cache Heterogêneo de Tokens
WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching

Mar 6

ByWeilun Feng, Guoxin Fan, Haotong Qin, Chuanguang Yang, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Dingrui Wang, Longlong Liao, Michele Magno, Yongjun Xu

Os modelos de mundo baseados em difusão têm demonstrado grande potencial para simulação unificada do mundo, mas a eliminação iterativa de ruído permanece demasiado dispendiosa para uso interativo e simulações de longo horizonte. Embora o cache de características possa acelerar a inferência sem treinamento, descobrimos que políticas concebidas para difusão unimodal transferem-se mal para modelos de mundo devido a dois obstáculos específicos: a heterogeneidade de tokens resultante do acoplamento multimodal e da variação espacial, e a dinâmica temporal não uniforme, na qual um pequeno conjunto de tokens difíceis impulsiona o crescimento do erro, tornando a omissão uniforme instável ou excessivamente conservadora. Propomos o WorldCache, uma estrutura de cache adaptada a modelos de mundo de difusão. Introduzimos a Previsão Heterogénea de Tokens Guiada por Curvatura, que utiliza uma pontuação de curvatura baseada em física para estimar a previsibilidade dos tokens e aplica um preditor amortecido guiado por Hermite para tokens caóticos com mudanças abruptas de direção. Também concebemos a Omissão Adaptativa com Prioridade Caótica, que acumula um sinal de desvio adimensional e normalizado por curvatura e recalcula apenas quando os tokens de estrangulamento começam a desviar-se. Experiências em modelos de mundo de difusão mostram que o WorldCache oferece acelerações de até 3,7 vezes de ponta a ponta, mantendo 98% da qualidade da simulação, demonstrando as vastas vantagens e a praticidade do WorldCache em cenários com recursos limitados. O nosso código está disponível em https://github.com/FofGofx/WorldCache.

PixARMesh: Reconstrução Autóregressiva de Cenas com Vista Única Nativa em Malha
PixARMesh: Autoregressive Mesh-Native Single-View Scene Reconstruction

Mar 6

ByXiang Zhang, Sohyun Yoo, Hongrui Wu, Chuan Li, Jianwen Xie, Zhuowen Tu

Apresentamos o PixARMesh, um método para reconstruir autoregessivamente malhas 3D completas de cenas internas diretamente a partir de uma única imagem RGB. Diferente de métodos anteriores que dependem de campos de distância com sinal implícitos e otimização de layout *post-hoc*, o PixARMesh prevê conjuntamente o layout de objetos e a geometria dentro de um modelo unificado, produzindo malhas coerentes e prontas para artistas em um único *forward pass*. Com base em avanços recentes em modelos generativos de malha, aumentamos um codificador de nuvem de pontos com características de imagem alinhadas a pixels e contexto de cena global via *cross-attention*, permitindo um raciocínio espacial preciso a partir de uma única imagem. As cenas são geradas autoregessivamente a partir de um fluxo unificado de *tokens* contendo contexto, pose e malha, resultando em malhas compactas com geometria de alta fidelidade. Experimentos em conjuntos de dados sintéticos e do mundo real mostram que o PixARMesh atinge a qualidade de reconstrução estado da arte enquanto produz malhas leves e de alta qualidade prontas para aplicações subsequentes.

DreamCAD: Escalonando a Geração de CAD Multi-modal usando Superfícies Paramétricas Diferenciáveis
DreamCAD: Scaling Multi-modal CAD Generation using Differentiable Parametric Surfaces

Mar 5

ByMohammad Sadil Khan, Muhammad Usama, Rolandos Alexandros Potamias, Didier Stricker, Muhammad Zeshan Afzal, Jiankang Deng, Ismail Elezi

O Design Assistido por Computador (CAD) baseia-se em representações geométricas estruturadas e editáveis, no entanto, os métodos generativos existentes são limitados por pequenos conjuntos de dados anotados com históricos de design explícitos ou etiquetas de representação de fronteira (BRep). Entretanto, milhões de malhas 3D não anotadas permanecem inexploradas, limitando o progresso na geração escalável de CAD. Para resolver isso, propomos o DreamCAD, uma estrutura generativa multimodal que produz diretamente BReps editáveis a partir de supervisão a nível de pontos, sem anotações específicas de CAD. O DreamCAD representa cada BRep como um conjunto de patches paramétricos (por exemplo, superfícies de Bézier) e utiliza um método de tesselação diferenciável para gerar malhas. Isso permite o treinamento em larga escala em conjuntos de dados 3D, ao mesmo tempo que reconstrói superfícies conectadas e editáveis. Além disso, introduzimos o CADCap-1M, o maior conjunto de dados de legendagem de CAD até à data, com mais de 1 milhão de descrições geradas usando o GPT-5 para avançar a pesquisa em texto-para-CAD. O DreamCAD alcança um desempenho de última geração nos benchmarks ABC e Objaverse através de modalidades de texto, imagem e ponto, melhorando a fidelidade geométrica e superando 75% da preferência do utilizador. O código e o conjunto de dados estarão publicamente disponíveis.

τ-Conhecimento: Avaliação de Agentes Conversacionais sobre Conhecimento Não Estruturado
τ-Knowledge: Evaluating Conversational Agents over Unstructured Knowledge

Mar 4

ByQuan Shi, Alexandra Zytek, Pedram Razavi, Karthik Narasimhan, Victor Barres

Os agentes conversacionais estão sendo cada vez mais implantados em contextos intensivos em conhecimento, onde o comportamento correto depende da recuperação e aplicação de conhecimentos específicos do domínio a partir de grandes corpora não estruturados e proprietários durante interações ao vivo com os usuários. No entanto, a maioria dos benchmarks existentes avalia a recuperação ou o uso de ferramentas de forma independente, criando uma lacuna na avaliação agentiva completa e realista sobre dados não estruturados em interações de longo prazo. Apresentamos o τ-Knowledge, uma extensão do τ-Bench para avaliar agentes em ambientes onde o sucesso depende da coordenação de conhecimento externo em linguagem natural com os resultados de ferramentas para produzir alterações de estado verificáveis e conformes com políticas. Nosso novo domínio, τ-Banking, modela fluxos de trabalho realistas de suporte ao cliente em fintech, nos quais os agentes devem navegar por aproximadamente 700 documentos de conhecimento interconectados enquanto executam atualizações de conta mediadas por ferramentas. Tanto na recuperação baseada em *embeddings* quanto na pesquisa baseada em terminal, mesmo modelos de ponta com alto orçamento de raciocínio alcançam apenas sim25,5% de aprovação^1, com a confiabilidade degradando-se acentuadamente ao longo de tentativas repetidas. Os agentes têm dificuldade em recuperar os documentos corretos de bases de conhecimento densamente interligadas e em raciocinar com precisão sobre políticas internas complexas. No geral, o τ-Knowledge fornece um ambiente de teste realista para desenvolver agentes que integram conhecimento não estruturado em implantações voltadas para humanos.

DeepPresenter: Reflexão Fundamentada no Ambiente para Geração de Apresentações Autônomas
DeepPresenter: Environment-Grounded Reflection for Agentic Presentation Generation

Feb 26

ByHao Zheng, Guozhao Mo, Xinru Yan, Qianhao Yuan, Wenkai Zhang, Xuanang Chen, Yaojie Lu, Hongyu Lin, Xianpei Han, Le Sun

A geração de apresentações exige pesquisa profunda de conteúdo, design visual coerente e refinamento iterativo com base na observação. No entanto, os agentes de apresentação existentes frequentemente dependem de fluxos de trabalho predefinidos e modelos fixos. Para resolver isso, apresentamos o DeepPresenter, uma estrutura agentiva que se adapta a diversas intenções do utilizador, permite um refinamento eficaz orientado por *feedback* e generaliza para além de um *pipeline* scriptado. Especificamente, o DeepPresenter planeia, renderiza e revê de forma autónoma artefactos intermédios de diapositivos para suportar um refinamento de longo horizonte com observações ambientais. Além disso, em vez de depender da autorreflexão sobre sinais internos (por exemplo, *traces* de raciocínio), a nossa reflexão fundamentada no ambiente condiciona o processo de geração aos estados perceptivos dos artefactos (por exemplo, diapositivos renderizados), permitindo que o sistema identifique e corrija problemas específicos da apresentação durante a execução. Os resultados no conjunto de avaliação que abrange diversos cenários de geração de apresentações mostram que o DeepPresenter alcança um desempenho de última geração, e o modelo *fine-tuned* de 9B mantém-se altamente competitivo a um custo substancialmente inferior. O nosso projeto está disponível em: https://github.com/icip-cas/PPTAgent

Representações de Valor Viscoso com Informação Física
Physics Informed Viscous Value Representations

Feb 26

ByHrishikesh Viswanath, Juanwu Lu, S. Talha Bukhari, Damon Conover, Ziran Wang, Aniket Bera

A aprendizagem por reforço offline condicionada por objetivos (GCRL) aprende políticas condicionadas por objetivos a partir de conjuntos de dados pré-coletados e estáticos. No entanto, a estimativa precisa de valor continua a ser um desafio devido à cobertura limitada do espaço estado-ação. Abordagens recentes com incorporação de conhecimento físico procuraram resolver isto impondo restrições físicas e geométricas na função de valor através de regularização definida sobre equações diferenciais parciais (EDPs) de primeira ordem, como a equação Eikonal. Contudo, estas formulações podem frequentemente ser mal colocadas em ambientes complexos e de alta dimensionalidade. Neste trabalho, propomos uma regularização com incorporação de conhecimento físico derivada da solução de viscosidade da equação de Hamilton-Jacobi-Bellman (HJB). Ao fornecer um *bias* indutivo baseado na física, a nossa abordagem ancora o processo de aprendizagem na teoria de controlo ótimo, regularizando e limitando explicitamente as atualizações durante as iterações de valor. Além disso, aproveitamos o teorema de Feynman-Kac para reformular a solução da EDP como uma expectativa, permitindo uma estimativa de Monte Carlo tratável do objetivo que evita a instabilidade numérica em gradientes de ordem superior. Experiências demonstram que o nosso método melhora a consistência geométrica, tornando-o amplamente aplicável a tarefas de navegação e de manipulação complexas e de alta dimensionalidade. Os códigos de fonte aberta estão disponíveis em https://github.com/HrishikeshVish/phys-fk-value-GCRL.

SLER-IR: Roteamento de Especialistas por Camadas Esféricas para Restauração All-in-One de Imagens
SLER-IR: Spherical Layer-wise Expert Routing for All-in-One Image Restoration

Mar 6

ByPeng Shurui, Xin Lin, Shi Luo, Jincen Ou, Dizhe Zhang, Lu Qi, Truong Nguyen, Chao Ren

A restauração de imagens sob degradações diversas continua a ser um desafio para estruturas unificadas "all-in-one" devido à interferência de características e à especialização insuficiente dos especialistas. Propomos o SLER-IR, uma estrutura de roteamento hierárquico de especialistas em camadas esféricas que ativa dinamicamente especialistas específicos através das camadas da rede. Para garantir um roteamento confiável, introduzimos uma Incorporação de Degradação Uniforme Esférica com aprendizado contrastivo, que mapeia as representações de degradação para uma hiperesfera para eliminar o viés geométrico presente nos espaços de incorporação lineares. Adicionalmente, um módulo de Fusão de Granularidade Global-Local (GLGF) integra semântica global e pistas locais de degradação para abordar degradações espacialmente não uniformes e a diferença de granularidade entre treino e teste. Experimentos em benchmarks de três e cinco tarefas demonstram que o SLER-IR alcança melhorias consistentes em relação aos métodos state-of-the-art, tanto em PSNR quanto em SSIM. O código e os modelos serão disponibilizados publicamente.

LLMs Censurados como um Campo de Teste Natural para a Elucidação de Conhecimento Secreto
Censored LLMs as a Natural Testbed for Secret Knowledge Elicitation

Mar 5

ByHelena Casademunt, Bartosz Cywiński, Khoi Tran, Arya Jakkli, Samuel Marks, Neel Nanda

Os grandes modelos de linguagem por vezes produzem respostas falsas ou enganosas. Duas abordagens para este problema são a elicitação da honestidade – modificando *prompts* ou pesos para que o modelo responda com verdade – e a deteção de mentiras – classificando se uma determinada resposta é falsa. Trabalhos anteriores avaliam tais métodos em modelos especificamente treinados para mentir ou ocultar informação, mas estas construções artificiais podem não assemelhar-se à desonestidade que ocorre naturalmente. Em vez disso, estudamos LLMs de pesos abertos de desenvolvedores chineses, que são treinados para censurar tópicos politicamente sensíveis: os modelos Qwen3 produzem frequentemente falsidades sobre assuntos como Falun Gong ou os protestos de Tiananmen, enquanto ocasionalmente respondem corretamente, indicando que possuem conhecimento que são treinados para suprimir. Usando isto como uma bancada de testes, avaliamos um conjunto de técnicas de elicitação e deteção de mentiras. Para a elicitação da honestidade, a amostragem sem um *template* de chat, *prompts* *few-shot* e o *fine-tuning* com dados genéricos de honestidade aumentam mais consistentemente as respostas verdadeiras. Para a deteção de mentiras, pedir ao modelo censurado que classifique as suas próprias respostas tem um desempenho próximo de um limite superior de um modelo não censurado, e *probes* lineares treinados em dados não relacionados oferecem uma alternativa mais económica. As técnicas de elicitação da honestidade mais fortes também transferem para modelos de pesos abertos de vanguarda, incluindo o DeepSeek R1. Notavelmente, nenhuma técnica elimina totalmente as respostas falsas. Disponibilizamos todos os *prompts*, código e transcrições.

nabla-Reasoner: Raciocínio em LLM via Descida de Gradiente no Espaço Latente em Tempo de Teste
nabla-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space

Mar 5

ByPeihao Wang, Ruisi Cai, Zhen Wang, Hongyuan Mei, Qiang Liu, Pan Li, Zhangyang Wang

A escalagem do poder computacional durante a inferência para Modelos de Linguagem de Grande Porte (LLMs) desbloqueou capacidades de raciocínio sem precedentes. No entanto, os métodos de escalagem de inferência existentes geralmente dependem de algoritmos de busca discreta ineficientes e subóptimos ou de *prompts* de tentativa e erro para melhorar a política *online*. Neste artigo, propomos o nabla-Reasoner, uma estrutura de geração iterativa que integra otimização diferenciável sobre os *logits* dos *tokens* no ciclo de decodificação para refinar a política em tempo real. Nosso componente central, a Otimização Textual Diferenciável (DTO), aproveita sinais de gradiente tanto da verossimilhança do LLM quanto de um modelo de recompensa para refinar as representações textuais. O nabla-Reasoner incorpora ainda amostragem por rejeição e um projeto de aceleração para robustecer e acelerar a decodificação. Teoricamente, demonstramos que realizar gradiente descendente no espaço amostral durante a inferência para maximizar a recompensa é dual ao alinhamento de uma política de LLM via aprendizado por reforço regularizado por KL. Empiricamente, o nabla-Reasoner alcança uma melhoria de mais de 20% na precisão em um benchmark desafiador de raciocínio matemático, enquanto reduz o número de chamadas do modelo em aproximadamente 10-40% em comparação com bases de comparação fortes. No geral, nosso trabalho introduz uma mudança de paradigma da busca de ordem zero para a otimização de primeira ordem durante o teste, oferecendo um caminho economicamente viável para amplificar o raciocínio de LLMs.

IF-RewardBench: Avaliação Comparativa de Modelos de Julgamento para a Avaliação do Seguimento de Instruções
IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation

Mar 5

ByBosi Wen, Yilin Niu, Cunxiang Wang, Xiaoying Ling, Ying Zhang, Pei Ke, Hongning Wang, Minlie Huang

A capacidade de seguir instruções é uma competência fundamental dos grandes modelos de linguagem (LLMs), cuja melhoria depende de *feedback* escalável e preciso de modelos avaliadores. No entanto, a confiabilidade dos modelos avaliadores atuais na tarefa de seguir instruções permanece pouco explorada devido a várias deficiências dos *benchmarks* de meta-avaliação existentes, como sua cobertura de dados insuficiente e paradigmas de avaliação pareada excessivamente simplificados que não se alinham com os cenários de otimização de modelos. Para tal, propomos o IF-RewardBench, um *benchmark* abrangente de meta-avaliação para a capacidade de seguir instruções que cobre diversos tipos de instruções e restrições. Para cada instrução, construímos um grafo de preferência contendo todas as preferências pareadas entre múltiplas respostas com base na qualidade do seguimento da instrução. Este projeto permite um paradigma de avaliação por lista que avalia as capacidades dos modelos avaliadores para classificar múltiplas respostas, o que é essencial para orientar o alinhamento dos modelos. Experimentos extensivos no IF-RewardBench revelam deficiências significativas nos modelos avaliadores atuais e demonstram que o nosso *benchmark* alcança uma correlação positiva mais forte com o desempenho em tarefas subsequentes em comparação com *benchmarks* existentes. Os nossos códigos e dados estão disponíveis em https://github.com/thu-coai/IF-RewardBench.

Além da Grade: Recuperação Multi-Vetorial Informada por Layout com Representações Visuais de Documentos Analisados
Beyond the Grid: Layout-Informed Multi-Vector Retrieval with Parsed Visual Document Representations

Mar 2

ByYibo Yan, Mingdong Ou, Yi Cao, Xin Zou, Shuliang Liu, Jiahao Huo, Yu Huang, James Kwok, Xuming Hu

Aproveitar todo o potencial de documentos visualmente ricos exige sistemas de recuperação que compreendam não apenas o texto, mas também os layouts intrincados, um desafio central na Recuperação Visual de Documentos (VDR). As arquiteturas predominantes de múltiplos vetores, embora poderosas, enfrentam um gargalo crucial de armazenamento que as estratégias de otimização atuais, como fusão de *embeddings*, poda ou uso de tokens abstratos, não conseguem resolver sem comprometer o desempenho ou ignorar pistas vitais de layout. Para enfrentar esse problema, introduzimos o ColParse, um novo paradigma que aproveita um modelo de análise de documentos para gerar um pequeno conjunto de *embeddings* de subimagens informadas pelo layout, que são então fundidas com um vetor global de nível de página para criar uma representação compacta e estruturalmente consciente de múltiplos vetores. Experimentos extensivos demonstram que nosso método reduz os requisitos de armazenamento em mais de 95%, ao mesmo tempo que produz ganhos significativos de desempenho em diversos benchmarks e modelos base. O ColParse, portanto, preenche a lacuna crítica entre a precisão granular da recuperação por múltiplos vetores e as demandas práticas de implantação em larga escala, oferecendo um novo caminho para sistemas de informação multimodais eficientes e interpretáveis.

Aprendizado de Operadores Usando Supervisão Fraca a Partir de Caminhadas em Esferas
Operator Learning Using Weak Supervision from Walk-on-Spheres

Mar 1

ByHrishikesh Viswanath, Hong Chul Nam, Xi Deng, Julius Berner, Anima Anandkumar, Aniket Bera

A treinamento de solucionadores de PDEs neurais é frequentemente limitado pela geração de dados dispendiosa ou por redes neurais informadas pela física (PINNs) instáveis, que envolvem paisagens de otimização desafiadoras devido a derivadas de ordem superior. Para enfrentar esse problema, propomos uma abordagem alternativa usando métodos de Monte Carlo para estimar a solução da PDE como um processo estocástico para supervisão fraca durante o treinamento. Aproveitando o método Walk-on-Spheres (Caminhada nas Esferas), introduzimos um esquema de aprendizado chamado Walk-on-Spheres Neural Operator (WoS-NO), que utiliza a supervisão fraca do WoS para treinar qualquer operador neural dado. Propomos amortizar o custo dos passeios de Monte Carlo através da distribuição de instâncias de PDEs usando representações estocásticas do algoritmo WoS para gerar estimativas baratas e ruidosas da solução da PDE durante o treinamento. Isto é formulado em um objetivo de física sem dados (*data-free physics-informed*), onde um operador neural é treinado para regredir contra essas supervisões fracas, permitindo que o operador aprenda um mapa de solução generalizado para uma família inteira de PDEs. Esta estratégia não requer conjuntos de dados pré-computados dispendiosos, evita o cálculo de derivadas de ordem superior para funções de perda que são intensivas em memória e instáveis, e demonstra generalização *zero-shot* para novos parâmetros e domínios de PDEs. Experimentos mostram que, para o mesmo número de etapas de treinamento, nosso método exibe uma melhoria de até 8,75 vezes no erro L² em comparação com esquemas de treinamento padrão informados pela física, uma melhoria de até 6,31 vezes na velocidade de treinamento e reduções de até 2,97 vezes no consumo de memória da GPU. Apresentamos o código em https://github.com/neuraloperator/WoS-NO.

Tornando o FID de Reconstrução Preditivo do FID de Geração por Difusão
Making Reconstruction FID Predictive of Diffusion Generation FID

Mar 5

ByTongda Xu, Mingwei He, Shady Abu-Hussein, Jose Miguel Hernandez-Lobato, Haotian Zhang, Kai Zhao, Chao Zhou, Ya-Qin Zhang, Yan Wang

É bem conhecido que o FID de reconstrução (rFID) de um VAE apresenta baixa correlação com o FID de geração (gFID) de um modelo de difusão latente. Propomos o FID interpolado (iFID), uma variante simples do rFID que exibe forte correlação com o gFID. Especificamente, para cada elemento no conjunto de dados, recuperamos seu vizinho mais próximo (NN) no espaço latente e interpolamos suas representações latentes. Em seguida, decodificamos o latente interpolado e calculamos o FID entre as amostras decodificadas e o conjunto de dados original. Adicionalmente, refinamos a afirmação de que o rFID correlaciona-se mal com o gFID, demonstrando que o rFID correlaciona-se com a qualidade da amostra na fase de refinamento por difusão, enquanto o iFID correlaciona-se com a qualidade da amostra na fase de navegação por difusão. Além disso, fornecemos uma explicação para o motivo pelo qual o iFID correlaciona-se bem com o gFID, e porque as métricas de reconstrução são negativamente correlacionadas com o gFID, conectando esses resultados a descobertas sobre generalização e alucinação em difusão. Empiricamente, o iFID é a primeira métrica a demonstrar uma forte correlação com o gFID de difusão, alcançando correlações lineares de Pearson e de postos de Spearman de aproximadamente 0,85. O código-fonte é fornecido em https://github.com/tongdaxu/Making-rFID-Predictive-of-Diffusion-gFID.

Desmistificando o Design do Espaço de Ação para Políticas de Manipulação Robótica
Demystifying Action Space Design for Robotic Manipulation Policies

Feb 26

ByYuchun Feng, Jinliang Zheng, Zhihao Wang, Dongxiu Liu, Jianxiong Li, Jiangmiao Pang, Tai Wang, Xianyuan Zhan

A especificação do espaço de ação desempenha um papel fundamental na aprendizagem de políticas de manipulação robótica baseada em imitação, moldando essencialmente o panorama de otimização do aprendizado da política. Embora os avanços recentes tenham se concentrado fortemente na escalabilidade dos dados de treinamento e na capacidade do modelo, a escolha do espaço de ação continua sendo guiada por heurísticas ad-hoc ou projetos herdados, levando a uma compreensão ambígua das filosofias de projeto de políticas robóticas. Para abordar essa ambiguidade, realizamos um estudo empírico sistemático e em larga escala, confirmando que o espaço de ação realmente tem impactos significativos e complexos no aprendizado de políticas robóticas. Dissecamos o espaço de projeto da ação ao longo dos eixos temporal e espacial, facilitando uma análise estruturada de como essas escolhas governam tanto a capacidade de aprendizado da política quanto a estabilidade de controle. Com base em mais de 13.000 execuções no mundo real em um robô bimanual e na avaliação de mais de 500 modelos treinados em quatro cenários, examinamos os compromissos entre representações absolutas versus delta, e parametrizações no espaço das juntas versus no espaço de tarefa. Nossos resultados em larga escala sugerem que projetar adequadamente a política para prever ações delta melhora consistentemente o desempenho, enquanto as representações no espaço das juntas e no espaço de tarefa oferecem vantagens complementares, favorecendo a estabilidade de controle e a generalização, respectivamente.

Camada por camada, módulo por módulo: Escolha ambos para uma análise ideal de detecção de dados fora da distribuição (OOD) em ViT
Layer by layer, module by module: Choose both for optimal OOD probing of ViT

Mar 5

ByAmbroise Odonnat, Vasilii Feofanov, Laetitia Chapel, Romain Tavenard, Ievgen Redko

Estudos recentes observaram que as camadas intermediárias de modelos de base frequentemente produzem representações mais discriminativas do que a camada final. Embora inicialmente atribuído ao pré-treinamento autoregressivo, este fenômeno também foi identificado em modelos treinados por meio de objetivos supervisionados e de auto-supervisão discriminativa. Neste artigo, realizamos um estudo abrangente para analisar o comportamento das camadas intermediárias em transformadores de visão pré-treinados. Através de extensos experimentos de sondagem linear em um conjunto diversificado de benchmarks de classificação de imagens, descobrimos que a mudança de distribuição entre os dados de pré-treinamento e os dados de aplicação é a principal causa da degradação de desempenho nas camadas mais profundas. Além disso, realizamos uma análise refinada ao nível do módulo. Nossos resultados revelam que a sondagem padrão das saídas dos blocos do transformador é subótima; em vez disso, sondar a ativação dentro da rede feedforward produz o melhor desempenho sob mudança de distribuição significativa, enquanto a saída normalizada do módulo de auto-atenção multi-cabeça é ótima quando a mudança é fraca.