Artigos de pesquisa em IA selecionados diariamente com traduções
O desenvolvimento de Modelos de Linguagem Visual (VLMs) tem dependido amplamente do aumento do tamanho dos modelos, o que dificulta a implantação em dispositivos móveis e de borda com recursos computacionais limitados, como smartphones e robôs. Neste trabalho, exploramos os limites de desempenho de VLMs compactos (por exemplo, 2B e 8B). Questionamos a prática predominante de que os VLMs de última geração devem depender de codificadores visuais inicializados por meio de pré-treinamento contrastivo massivo (por exemplo, CLIP/SigLIP). Identificamos um descompasso de objetivo: o aprendizado contrastivo, otimizado para discriminação, impõe invariâncias em nível categórico e grosseiro que suprimem pistas visuais refinadas necessárias para legendagem densa e raciocínio VLM complexo. Para resolver essa questão, apresentamos o Penguin-VL, cujo codificador visual é inicializado a partir de um LLM apenas de texto. Nossos experimentos revelam que o Penguin-Encoder serve como uma alternativa superior ao pré-treinamento contrastivo tradicional, desbloqueando um maior grau de fidelidade visual e eficiência de dados para compreensão multimodal. Em vários benchmarks de imagem e vídeo, o Penguin-VL atua de forma comparável aos principais VLMs (por exemplo, Qwen3-VL) em raciocínio matemático e os supera em tarefas como compreensão de documentos, conhecimento visual e compreensão de vídeo multiperspectiva. Notavelmente, esses ganhos são alcançados com uma arquitetura leve, demonstrando que a representação visual aprimorada, e não o escalonamento do modelo, é o principal impulsionador do desempenho. Nossas ablações mostram que o Penguin-Encoder supera consistentemente os codificadores pré-treinados contrastivamente, preservando pistas espaciais e temporais refinadas que são críticas para percepção densa e raciocínio complexo. Isso o torna uma alternativa robusta de substituição para VLMs computacionalmente eficientes e permite alto desempenho em ambientes com recursos limitados. Código: https://github.com/tencent-ailab/Penguin-VL
As restrições proximais são fundamentais para a estabilidade do aprendizado por reforço em Modelos de Linguagem de Grande Porte. Embora o mecanismo canônico de *clipping* no PPO sirva como um substituto eficiente para as regiões de confiança, identificamos um gargalo crítico: limites fixos restringem estritamente a margem de atualização ascendente de ações de baixa probabilidade, suprimindo desproporcionalmente estratégias de cauda com alta vantagem e induzindo um colapso rápido da entropia. Para resolver isso, introduzimos a Otimização de Política com Restrição de Banda (BandPO). O BandPO substitui o *clipping* canônico pela Banda, um operador teórico unificado que projeta regiões de confiança definidas por f-divergências em intervalos de *clipping* dinâmicos e conscientes da probabilidade. A análise teórica confirma que a Banda resolve efetivamente esse gargalo de exploração. Formulamos esse mapeamento como um problema de otimização convexa, garantindo uma solução numérica globalmente ótima enquanto derivamos soluções de forma fechada para divergências específicas. Experimentos extensos em diversos modelos e conjuntos de dados demonstram que o BandPO supera consistentemente o *clipping* canônico e o Clip-Higher, ao mesmo tempo que mitiga robustamente o colapso da entropia.
Os modelos de mundo fornecem uma estrutura poderosa para simular a dinâmica do ambiente condicionada a ações ou instruções, permitindo tarefas subsequentes, como planeamento de ações ou aprendizagem de políticas. Abordagens recentes utilizam modelos de mundo como simuladores aprendidos, mas a sua aplicação ao planeamento no momento da decisão permanece computacionalmente proibitiva para controlo em tempo real. Um dos principais estrangulamentos reside nas representações latentes: os tokenizadores convencionais codificam cada observação em centenas de tokens, tornando o planeamento lento e com uso intensivo de recursos. Para resolver isso, propomos o CompACT, um tokenizador discreto que comprime cada observação em apenas 8 tokens, reduzindo drasticamente o custo computacional enquanto preserva informações essenciais para o planeamento. Um modelo de mundo condicionado por ação que incorpora o tokenizador CompACT alcança desempenho de planeamento competitivo com ordens de grandeza de aceleração, oferecendo um passo prático para a implantação no mundo real de modelos de mundo.
A geração de vídeos humanos pronta para produção exige que atores digitais mantenham identidades corporais completas estritamente consistentes em planos dinâmicos, ângulos de visão e movimentos, um cenário que permanece desafiador para os métodos existentes. Métodos anteriores frequentemente apresentam comportamento centrado no rosto que negligencia a consistência corporal, ou produzem artefatos de copiar-colar onde os sujeitos aparecem rígidos devido ao bloqueio de pose. Apresentamos o Actor-18M, um conjunto de dados de vídeo humano em larga escala projetado para capturar a consistência de identidade sob pontos de vista e ambientes não restritos. O Actor-18M compreende 1,6 milhão de vídeos com 18 milhões de imagens humanas correspondentes, abrangendo tanto visões arbitrárias quanto representações canônicas de três vistas. Aproveitando o Actor-18M, propomos o WildActor, uma estrutura para geração de vídeo humano condicionada a qualquer vista. Introduzimos um mecanismo de Atenção Assimétrica de Preservação de Identidade, associado a uma estratégia de Amostragem de Monte Carlo Adaptativa ao Ponto de Vista que re-pondera iterativamente as condições de referência pela utilidade marginal para uma cobertura equilibrada da variedade. Avaliado no Actor-Bench proposto, o WildActor preserva consistentemente a identidade corporal sob diversas composições de plano, grandes transições de ponto de vista e movimentos substanciais, superando os métodos existentes nestes cenários desafiadores.
A monitorização por cadeia de pensamento (CoT) é uma ferramenta promissora para detetar comportamentos inadequados e compreender as motivações dos modelos de raciocínio modernos. No entanto, se os modelos conseguirem controlar o que verbalizam na sua CoT, isso pode comprometer a monitorizabilidade da CoT. Para medir esta capacidade indesejável — a controlabilidade da CoT — introduzimos o conjunto de avaliação CoT-Control, que inclui tarefas que exigem que os modelos resolvam problemas enquanto aderem a instruções de CoT, por exemplo, raciocinando sobre uma questão de genética sem usar a palavra 'cromossoma'. Mostramos que os modelos de raciocínio possuem uma controlabilidade da CoT significativamente inferior à controlabilidade da saída final; por exemplo, o Claude Sonnet 4.5 consegue controlar a sua CoT apenas 2,7% das vezes, mas 61,9% quando controla a sua saída final. Também descobrimos que a controlabilidade da CoT é maior para modelos maiores e diminui com mais treino de aprendizagem por reforço (RL), com *compute* em tempo de teste e com o aumento da dificuldade do problema. As falhas de controlabilidade da CoT estendem-se mesmo a situações em que são dados incentivos aos modelos (em oposição a pedidos diretos) para contornar os monitores de CoT, embora os modelos exibam uma controlabilidade ligeiramente superior quando lhes é dito que estão a ser monitorizados. Da mesma forma, eliciar a controlabilidade através da otimização adversarial de *prompts* não aumenta significativamente a controlabilidade. Os nossos resultados deixam-nos cautelosamente otimistas de que a controlabilidade da CoT é atualmente pouco provável que seja um modo de falha da monitorizabilidade da CoT. No entanto, o mecanismo por trás da baixa controlabilidade não é bem compreendido. Dada a sua importância para manter a monitorizabilidade da CoT, recomendamos que os *frontier labs* acompanhem a controlabilidade da CoT em modelos futuros.
A memória é crítica para a manipulação robótica de longo horizonte e dependente do histórico. Tais tarefas frequentemente envolvem contar ações repetidas ou manipular objetos que ficam temporariamente ocluídos. Modelos recentes de visão-linguagem-ação (VLA) começaram a incorporar mecanismos de memória; no entanto, suas avaliações permanecem confinadas a ambientes restritos e não padronizados. Isso limita sua compreensão sistemática, comparação e medição de progresso. Para enfrentar esses desafios, apresentamos o RoboMME: um benchmark padronizado em larga escala para avaliar e avançar modelos VLA em cenários de longo horizonte e dependentes do histórico. Nosso benchmark compreende 16 tarefas de manipulação construídas sob uma taxonomia cuidadosamente projetada que avalia memória temporal, espacial, de objetos e procedural. Desenvolvemos ainda um conjunto de 14 variantes de VLA aumentadas com memória, construídas sobre a arquitetura π0.5, para explorar sistematicamente diferentes representações de memória em múltiplas estratégias de integração. Resultados experimentais mostram que a eficácia das representações de memória é altamente dependente da tarefa, com cada projeto oferecendo vantagens e limitações distintas em diferentes tarefas. Vídeos e código podem ser encontrados em nosso site https://robomme.github.io.
As arquiteturas Transformer servem como base para a maioria dos modelos de linguagem de grande escala (LLMs) modernos, portanto, a estabilidade do seu pré-treinamento e a velocidade de convergência são preocupações centrais. Motivados pela dependência lógica das camadas sequencialmente empilhadas, propomos o Progressive Residual Warmup (ProRes) para o pré-treinamento de modelos de linguagem. O ProRes implementa uma filosofia de "a camada inicial aprende primeiro" multiplicando o residual de cada camada por um escalar que gradualmente aquece de 0 para 1, sendo que camadas mais profundas exigem mais etapas de aquecimento. Dessa forma, as camadas mais profundas aguardam que as camadas iniciais se estabilizem em um regime mais consistente antes de contribuir para o aprendizado. Demonstramos a eficácia do ProRes através de experimentos de pré-treinamento em várias escalas de modelo, bem como esquemas de normalização e inicialização. Uma análise abrangente mostra que o ProRes não apenas estabiliza o pré-treinamento, mas também introduz uma trajetória de otimização única, resultando em convergência mais rápida, generalização mais robusta e melhor desempenho em tarefas subsequentes. Nosso código está disponível em https://github.com/dandingsky/ProRes.
A modelagem de contexto longo é uma capacidade fundamental para Modelos de Linguagem de Grande Porte, porém a complexidade quadrática do mecanismo de atenção permanece um gargalo crítico, particularmente durante a fase computacionalmente intensiva de pré-preenchimento (prefilling). Embora vários mecanismos de atenção esparsa tenham sido explorados, eles geralmente sofrem com latência de busca significativa ou esparsidade insuficiente. Neste artigo, propomos o FlashPrefill, uma estrutura que permite um pré-preenchimento ultrarrápido por meio da descoberta e limiarização instantânea de padrões. O FlashPrefill aproveita uma técnica rápida de busca por blocos para localizar simultaneamente padrões dinâmicos de atenção vertical, diagonal e em bloco esparso. Crucialmente, ele introduz um mecanismo de limiarização dinâmica que contorna a sobrecarga proibitiva de ordenar ou acumular escores de atenção, enquanto elimina efetivamente a distribuição de cauda longa para aumentar a esparsidade. Avaliações extensivas demonstram que o FlashPrefill alcança um salto substancial em eficiência, proporcionando um aceleramento inédito de 27,78x em sequências de 256K. Notavelmente, diferentemente de métodos existentes que sofrem degradação de eficiência em contextos mais curtos, o FlashPrefill mantém um speedup de 1,71x mesmo em um comprimento de contexto de 4K, demonstrando sua robustez e utilidade prática em diferentes escalas de sequência.
Os agentes de LLM sequenciais falham no planejamento de longo horizonte com restrições rígidas, como orçamentos e requisitos de diversidade. À medida que o planejamento avança e o contexto cresce, esses agentes se afastam das restrições globais. Propomos o HiMAP-Travel, uma estrutura hierárquica multiagente que divide o planejamento em coordenação estratégica e execução paralela a nível diário. Um Coordenador aloca recursos entre os dias, enquanto os Executores Diários planejam independentemente em paralelo. Três mecanismos-chave permitem isso: um monitor transacional que aplica restrições orçamentais e de unicidade entre agentes paralelos, um protocolo de negociação que permite aos agentes rejeitar sub-objetivos inviáveis e acionar um replanejamento, e uma única política treinada com GRPO que alimenta todos os agentes por meio de condicionamento de função. No TravelPlanner, o HiMAP-Travel com Qwen3-8B alcança 52,78% de validação e 52,65% de teste na Taxa de Aprovação Final (FPR). Numa comparação controlada com modelo, treinamento e ferramentas idênticos, ele supera a baseline sequencial DeepTravel em +8,67 pp. Também supera o ATLAS em +17,65 pp e o MTP em +10,0 pp. Nos cenários multi-turno do FlexTravelBench, alcança 44,34% (2-turno) e 37,42% (3-turno) de FPR, enquanto reduz a latência em 2,5x através da paralelização.
Os Diffusion Transformers processam imagens como sequências de tokens de comprimento fixo produzidas por uma operação estática de divisão em *patches*. Embora eficiente, este projeto aplica computação uniforme tanto em regiões de baixa quanto de alta informação, ignorando que as imagens contêm regiões com detalhes variados e que o processo de remoção de ruído progride de estruturas grosseiras nos primeiros *timesteps* para detalhes finos nos *timesteps* finais. Apresentamos o *Dynamic Chunking Diffusion Transformer* (DC-DiT), que amplia a arquitetura DiT com um *scaffold* aprendido de codificador-roteador-decodificador que comprime adaptativamente a entrada 2D numa sequência mais curta de tokens de forma dependente dos dados, utilizando um mecanismo de agrupamento (*chunking*) aprendido de forma *end-to-end* com o treino de difusão. O mecanismo aprende a comprimir regiões de fundo uniformes em menos tokens e regiões ricas em detalhes em mais tokens, com segmentações visuais significativas emergindo sem supervisão explícita. Além disso, também aprende a adaptar a sua compressão ao longo dos *timesteps* de difusão, usando menos tokens em fases ruidosas e mais tokens à medida que os detalhes finos emergem. Na geração condicionada por classe do ImageNet 256×256, o DC-DiT melhora consistentemente o FID e o *Inception Score* em relação às *baselines* DiT com igual número de parâmetros e igual número de FLOPs, através de compressões de 4× e 16×, mostrando que esta é uma técnica promissora com potenciais aplicações futuras em geração no espaço de pixels, vídeo e 3D. Para além da precisão, o DC-DiT é prático: pode ser reaproveitado a partir de *checkpoints* DiT pré-treinados com computação pós-treino mínima (até 8× menos passos de treino) e combina-se com outros métodos de computação dinâmica para reduzir ainda mais os FLOPs de geração.
Os efeitos visuais (VFX) são essenciais para aprimorar a expressividade e a criatividade de conteúdos em vídeo, mas a produção de efeitos de alta qualidade normalmente exige conhecimento especializado e pipelines de produção dispendiosos. Os sistemas existentes de AIGC enfrentam desafios significativos na geração de VFX devido à escassez de dados específicos para efeitos e à dificuldade inerente de modelar efeitos sobrenaturais ou estilizados. Além disso, essas abordagens frequentemente exigem ajustes finos por efeito, o que limita severamente sua escalabilidade e generalização para novos VFX. Neste trabalho, apresentamos o EffectMaker, uma estrutura unificada de raciocínio-geração que permite a personalização de VFX baseada em referência. O EffectMaker emprega um modelo de linguagem grande multimodal para interpretar semânticas de efeito de alto nível e raciocinar sobre como elas devem se adaptar a um objeto-alvo, enquanto um transformador de difusão aproveita a aprendizagem contextual para capturar pistas visuais refinadas a partir de vídeos de referência. Esses dois componentes formam um mecanismo de orientação de dupla via semântico-visual que permite uma síntese precisa, controlável e consistente em termos de efeito, sem a necessidade de ajustes finos por efeito. Adicionalmente, construímos o EffectData, o maior conjunto de dados sintéticos de alta qualidade contendo 130 mil vídeos abrangendo 3 mil categorias de VFX, para melhorar a generalização e a escalabilidade. Experimentos demonstram que o EffectMaker alcança qualidade visual superior e consistência de efeito em relação aos métodos state-of-the-art, oferecendo um paradigma escalável e flexível para a geração personalizada de VFX. Página do projeto: https://effectmaker.github.io
Os modelos de fluxo baseados em visão-linguagem-ação (VLA) destacam-se no controle incorporado, mas sofrem com verossimilhanças intratáveis durante a amostragem multi-etapas, prejudicando o aprendizado por reforço online. Propomos o \textit{boldsymbolπ-StepNFT} (*Step-wise Negative-aware Fine-Tuning* ou Ajuste Fino com Consciência do Negativo por Etapas), uma estrutura livre de crítico e de verossimilhança que requer apenas uma única passagem direta por etapa de otimização e elimina redes auxiliares de valor. Identificamos que espaços de exploração mais amplos exigem orientação mais refinada e gradual para o alinhamento. Empiricamente, o π-StepNFT desbloqueia potencial latente no LIBERO com robustez competitiva em poucas amostras. Além disso, ele alcança generalização superior no ManiSkill, superando as linhas de base baseadas em valor em cenários OOD ao evitar o sobreajuste a características multimodais. Esta propriedade oferece uma solução escalável promissora para aplicações complexas do mundo real.
Os recentes avanços em grandes modelos de linguagem (LLMs) abriram novas perspetivas para o raciocínio multimodal. No entanto, a maioria dos métodos existentes ainda depende de modelos visão-linguagem (VLMs) pré-treinados para codificar pares imagem-texto de forma isolada, ignorando a estrutura relacional que os dados multimodais do mundo real formam naturalmente. Isto motiva o raciocínio sobre grafos multimodais (MMGs), onde cada nó possui atributos textuais e visuais e as arestas fornecem pistas estruturais. Permitir o raciocínio baseado em LLMs sobre estes sinais multimodais heterogéneos, preservando a topologia do grafo, introduz dois desafios principais: resolver a fraca consistência cross-modal e lidar com a preferência heterogénea de modalidade. Para enfrentar isto, propomos o Mario, uma estrutura unificada que resolve simultaneamente os dois desafios acima e permite um raciocínio eficaz baseado em LLMs sobre MMGs. O Mario consiste em duas etapas inovadoras. Primeiro, um desenho de VLM condicionado por grafo que refina conjuntamente características textuais e visuais através de aprendizagem contrastiva cross-modal de alto granularidade guiada pela topologia do grafo. Segundo, um mecanismo de afinação de instruções de grafo adaptativo à modalidade que organiza características multimodais alinhadas em vistas de instrução conscientes do grafo e emprega um router aprendível para apresentar, para cada nó e a sua vizinhança, a configuração de modalidade mais informativa para o LLM. Experiências extensas em diversos benchmarks de MMGs demonstram que o Mario supera consistentemente os modelos de grafo state-of-the-art tanto em cenários supervisionados como zero-shot para classificação de nós e previsão de ligações. O código estará disponível em https://github.com/sunyuanfu/Mario.
Os recentes avanços na geração de vídeos baseada em difusão alcançaram um realismo visual notável, mas ainda lutam para obedecer a leis físicas básicas, como gravidade, inércia e colisão. Objetos gerados frequentemente se movem de forma inconsistente entre os quadros, exibem dinâmicas implausíveis ou violam restrições físicas, limitando o realismo e a confiabilidade dos vídeos gerados por IA. Abordamos essa lacuna introduzindo o Physical Simulator In-the-loop Video Generation (PSIVG), uma estrutura inovadora que integra um simulador físico ao processo de difusão de vídeo. A partir de um vídeo modelo gerado por um modelo de difusão pré-treinado, o PSIVG reconstrói a cena 4D e as malhas dos objetos em primeiro plano, inicializa-as em um simulador físico e gera trajetórias fisicamente consistentes. Essas trajetórias simuladas são então usadas para orientar o gerador de vídeo em direção a um movimento fisicamente coerente espaço-temporalmente. Para melhorar ainda mais a consistência da textura durante o movimento do objeto, propomos uma técnica de Test-Time Texture Consistency Optimization (TTCO) que adapta os embeddings de texto e características com base em correspondências de pixels do simulador. Experimentos abrangentes demonstram que o PSIVG produz vídeos que aderem melhor à física do mundo real, preservando a qualidade visual e a diversidade. Página do Projeto: https://vcai.mpi-inf.mpg.de/projects/PSIVG/
O rápido crescimento de modelos de linguagem grandes (LLMs) com capacidades, custos e domínios diversificados criou uma necessidade crítica de seleção inteligente de modelos no momento da inferência. Embora modelos menores sejam suficientes para consultas rotineiras, tarefas complexas exigem modelos mais capazes. No entanto, a implantação estática de modelos não leva em conta a complexidade e o domínio das consultas recebidas, resultando em desempenho subótimo e custos aumentados. Sistemas de roteamento dinâmico que selecionam modelos de forma adaptativa com base nas características da consulta surgiram como uma solução para esse desafio. Apresentamos uma análise sistemática das abordagens state-of-the-art de roteamento e cascateamento multi-LLM. Em contraste com as arquiteturas de mistura de especialistas, que realizam o roteamento dentro de um único modelo, estudamos o roteamento entre múltiplos LLMs treinados independentemente. Abordamos paradigmas de roteamento diversos, incluindo dificuldade da consulta, preferências humanas, agrupamento, quantificação de incerteza, aprendizado por reforço, multimodalidade e cascateamento. Para cada paradigma, analisamos métodos representativos e examinamos os principais trade-offs. Além da taxonomia, introduzimos uma estrutura conceitual que caracteriza os sistemas de roteamento ao longo de três dimensões: quando as decisões são tomadas, que informação é utilizada e como elas são computadas. Esta perspectiva destaca que os sistemas práticos são frequentemente composicionais, integrando múltiplos paradigmas sob restrições operacionais. Nossa análise demonstra que o roteamento multi-LLM eficaz requer o equilíbrio de objetivos concorrentes. A escolha da estratégia de roteamento ideal depende das restrições de implantação e computacionais. Sistemas de roteamento bem projetados podem superar até mesmo os modelos individuais mais poderosos, aproveitando estrategicamente capacidades especializadas entre os modelos enquanto maximizam os ganhos de eficiência. Entretanto, desafios em aberto permanecem no desenvolvimento de mecanismos de roteamento que generalizem entre arquiteturas, modalidades e aplicações diversas.
O Group Relative Policy Optimization (GRPO) é altamente eficaz para modelos de linguagem autorregressivos (AR) após o treinamento, mas sua aplicação direta a modelos de linguagem grandes de difusão (dLLMs) frequentemente desencadeia um colapso da recompensa. Identificamos duas fontes de incompatibilidade. Primeiro, o GRPO depende de razões de importância definidas por probabilidades de sequência, que são intratáveis em dLLMs e devem ser estimadas (por exemplo, via *proxies* de verossimilhança baseados em ELBO ou de campo médio), produzindo razões inerentemente ruidosas. Segundo, a formulação padrão do GRPO não foi projetada para razões estimadas: seu recorte condicional pode ser anormalmente contornado por ruídos de estimação independentes do modelo, produzindo picos de gradiente, enquanto sua normalização de tamanho de grupo fixo amplifica flutuações na magnitude do gradiente sob estimativas de razão de alta variância. Mostramos que esses efeitos formam um ciclo de instabilidade auto-reforçado que conduz ao desvio da política e aumenta ainda mais a variância da razão. Para quebrar esse ciclo, propomos o StableDRL, uma reformulação do GRPO adaptada para dLLMs que utiliza (i) recorte incondicional para suprimir picos induzidos por *outliers* e (ii) auto-normalização para restringir as atualizações dentro do casco convexo dos gradientes por amostra. Estendemos ainda o StableDRL para modelos de difusão baseados em blocos através de um mecanismo de atenção em escada.
Os modelos de mundo baseados em difusão têm demonstrado grande potencial para simulação unificada do mundo, mas a eliminação iterativa de ruído permanece demasiado dispendiosa para uso interativo e simulações de longo horizonte. Embora o cache de características possa acelerar a inferência sem treinamento, descobrimos que políticas concebidas para difusão unimodal transferem-se mal para modelos de mundo devido a dois obstáculos específicos: a heterogeneidade de tokens resultante do acoplamento multimodal e da variação espacial, e a dinâmica temporal não uniforme, na qual um pequeno conjunto de tokens difíceis impulsiona o crescimento do erro, tornando a omissão uniforme instável ou excessivamente conservadora. Propomos o WorldCache, uma estrutura de cache adaptada a modelos de mundo de difusão. Introduzimos a Previsão Heterogénea de Tokens Guiada por Curvatura, que utiliza uma pontuação de curvatura baseada em física para estimar a previsibilidade dos tokens e aplica um preditor amortecido guiado por Hermite para tokens caóticos com mudanças abruptas de direção. Também concebemos a Omissão Adaptativa com Prioridade Caótica, que acumula um sinal de desvio adimensional e normalizado por curvatura e recalcula apenas quando os tokens de estrangulamento começam a desviar-se. Experiências em modelos de mundo de difusão mostram que o WorldCache oferece acelerações de até 3,7 vezes de ponta a ponta, mantendo 98% da qualidade da simulação, demonstrando as vastas vantagens e a praticidade do WorldCache em cenários com recursos limitados. O nosso código está disponível em https://github.com/FofGofx/WorldCache.
Apresentamos o PixARMesh, um método para reconstruir autoregessivamente malhas 3D completas de cenas internas diretamente a partir de uma única imagem RGB. Diferente de métodos anteriores que dependem de campos de distância com sinal implícitos e otimização de layout *post-hoc*, o PixARMesh prevê conjuntamente o layout de objetos e a geometria dentro de um modelo unificado, produzindo malhas coerentes e prontas para artistas em um único *forward pass*. Com base em avanços recentes em modelos generativos de malha, aumentamos um codificador de nuvem de pontos com características de imagem alinhadas a pixels e contexto de cena global via *cross-attention*, permitindo um raciocínio espacial preciso a partir de uma única imagem. As cenas são geradas autoregessivamente a partir de um fluxo unificado de *tokens* contendo contexto, pose e malha, resultando em malhas compactas com geometria de alta fidelidade. Experimentos em conjuntos de dados sintéticos e do mundo real mostram que o PixARMesh atinge a qualidade de reconstrução estado da arte enquanto produz malhas leves e de alta qualidade prontas para aplicações subsequentes.
O Design Assistido por Computador (CAD) baseia-se em representações geométricas estruturadas e editáveis, no entanto, os métodos generativos existentes são limitados por pequenos conjuntos de dados anotados com históricos de design explícitos ou etiquetas de representação de fronteira (BRep). Entretanto, milhões de malhas 3D não anotadas permanecem inexploradas, limitando o progresso na geração escalável de CAD. Para resolver isso, propomos o DreamCAD, uma estrutura generativa multimodal que produz diretamente BReps editáveis a partir de supervisão a nível de pontos, sem anotações específicas de CAD. O DreamCAD representa cada BRep como um conjunto de patches paramétricos (por exemplo, superfícies de Bézier) e utiliza um método de tesselação diferenciável para gerar malhas. Isso permite o treinamento em larga escala em conjuntos de dados 3D, ao mesmo tempo que reconstrói superfícies conectadas e editáveis. Além disso, introduzimos o CADCap-1M, o maior conjunto de dados de legendagem de CAD até à data, com mais de 1 milhão de descrições geradas usando o GPT-5 para avançar a pesquisa em texto-para-CAD. O DreamCAD alcança um desempenho de última geração nos benchmarks ABC e Objaverse através de modalidades de texto, imagem e ponto, melhorando a fidelidade geométrica e superando 75% da preferência do utilizador. O código e o conjunto de dados estarão publicamente disponíveis.
Os agentes conversacionais estão sendo cada vez mais implantados em contextos intensivos em conhecimento, onde o comportamento correto depende da recuperação e aplicação de conhecimentos específicos do domínio a partir de grandes corpora não estruturados e proprietários durante interações ao vivo com os usuários. No entanto, a maioria dos benchmarks existentes avalia a recuperação ou o uso de ferramentas de forma independente, criando uma lacuna na avaliação agentiva completa e realista sobre dados não estruturados em interações de longo prazo. Apresentamos o τ-Knowledge, uma extensão do τ-Bench para avaliar agentes em ambientes onde o sucesso depende da coordenação de conhecimento externo em linguagem natural com os resultados de ferramentas para produzir alterações de estado verificáveis e conformes com políticas. Nosso novo domínio, τ-Banking, modela fluxos de trabalho realistas de suporte ao cliente em fintech, nos quais os agentes devem navegar por aproximadamente 700 documentos de conhecimento interconectados enquanto executam atualizações de conta mediadas por ferramentas. Tanto na recuperação baseada em *embeddings* quanto na pesquisa baseada em terminal, mesmo modelos de ponta com alto orçamento de raciocínio alcançam apenas sim25,5% de aprovação^1, com a confiabilidade degradando-se acentuadamente ao longo de tentativas repetidas. Os agentes têm dificuldade em recuperar os documentos corretos de bases de conhecimento densamente interligadas e em raciocinar com precisão sobre políticas internas complexas. No geral, o τ-Knowledge fornece um ambiente de teste realista para desenvolver agentes que integram conhecimento não estruturado em implantações voltadas para humanos.
A geração de apresentações exige pesquisa profunda de conteúdo, design visual coerente e refinamento iterativo com base na observação. No entanto, os agentes de apresentação existentes frequentemente dependem de fluxos de trabalho predefinidos e modelos fixos. Para resolver isso, apresentamos o DeepPresenter, uma estrutura agentiva que se adapta a diversas intenções do utilizador, permite um refinamento eficaz orientado por *feedback* e generaliza para além de um *pipeline* scriptado. Especificamente, o DeepPresenter planeia, renderiza e revê de forma autónoma artefactos intermédios de diapositivos para suportar um refinamento de longo horizonte com observações ambientais. Além disso, em vez de depender da autorreflexão sobre sinais internos (por exemplo, *traces* de raciocínio), a nossa reflexão fundamentada no ambiente condiciona o processo de geração aos estados perceptivos dos artefactos (por exemplo, diapositivos renderizados), permitindo que o sistema identifique e corrija problemas específicos da apresentação durante a execução. Os resultados no conjunto de avaliação que abrange diversos cenários de geração de apresentações mostram que o DeepPresenter alcança um desempenho de última geração, e o modelo *fine-tuned* de 9B mantém-se altamente competitivo a um custo substancialmente inferior. O nosso projeto está disponível em: https://github.com/icip-cas/PPTAgent
A aprendizagem por reforço offline condicionada por objetivos (GCRL) aprende políticas condicionadas por objetivos a partir de conjuntos de dados pré-coletados e estáticos. No entanto, a estimativa precisa de valor continua a ser um desafio devido à cobertura limitada do espaço estado-ação. Abordagens recentes com incorporação de conhecimento físico procuraram resolver isto impondo restrições físicas e geométricas na função de valor através de regularização definida sobre equações diferenciais parciais (EDPs) de primeira ordem, como a equação Eikonal. Contudo, estas formulações podem frequentemente ser mal colocadas em ambientes complexos e de alta dimensionalidade. Neste trabalho, propomos uma regularização com incorporação de conhecimento físico derivada da solução de viscosidade da equação de Hamilton-Jacobi-Bellman (HJB). Ao fornecer um *bias* indutivo baseado na física, a nossa abordagem ancora o processo de aprendizagem na teoria de controlo ótimo, regularizando e limitando explicitamente as atualizações durante as iterações de valor. Além disso, aproveitamos o teorema de Feynman-Kac para reformular a solução da EDP como uma expectativa, permitindo uma estimativa de Monte Carlo tratável do objetivo que evita a instabilidade numérica em gradientes de ordem superior. Experiências demonstram que o nosso método melhora a consistência geométrica, tornando-o amplamente aplicável a tarefas de navegação e de manipulação complexas e de alta dimensionalidade. Os códigos de fonte aberta estão disponíveis em https://github.com/HrishikeshVish/phys-fk-value-GCRL.
A restauração de imagens sob degradações diversas continua a ser um desafio para estruturas unificadas "all-in-one" devido à interferência de características e à especialização insuficiente dos especialistas. Propomos o SLER-IR, uma estrutura de roteamento hierárquico de especialistas em camadas esféricas que ativa dinamicamente especialistas específicos através das camadas da rede. Para garantir um roteamento confiável, introduzimos uma Incorporação de Degradação Uniforme Esférica com aprendizado contrastivo, que mapeia as representações de degradação para uma hiperesfera para eliminar o viés geométrico presente nos espaços de incorporação lineares. Adicionalmente, um módulo de Fusão de Granularidade Global-Local (GLGF) integra semântica global e pistas locais de degradação para abordar degradações espacialmente não uniformes e a diferença de granularidade entre treino e teste. Experimentos em benchmarks de três e cinco tarefas demonstram que o SLER-IR alcança melhorias consistentes em relação aos métodos state-of-the-art, tanto em PSNR quanto em SSIM. O código e os modelos serão disponibilizados publicamente.
Os grandes modelos de linguagem por vezes produzem respostas falsas ou enganosas. Duas abordagens para este problema são a elicitação da honestidade – modificando *prompts* ou pesos para que o modelo responda com verdade – e a deteção de mentiras – classificando se uma determinada resposta é falsa. Trabalhos anteriores avaliam tais métodos em modelos especificamente treinados para mentir ou ocultar informação, mas estas construções artificiais podem não assemelhar-se à desonestidade que ocorre naturalmente. Em vez disso, estudamos LLMs de pesos abertos de desenvolvedores chineses, que são treinados para censurar tópicos politicamente sensíveis: os modelos Qwen3 produzem frequentemente falsidades sobre assuntos como Falun Gong ou os protestos de Tiananmen, enquanto ocasionalmente respondem corretamente, indicando que possuem conhecimento que são treinados para suprimir. Usando isto como uma bancada de testes, avaliamos um conjunto de técnicas de elicitação e deteção de mentiras. Para a elicitação da honestidade, a amostragem sem um *template* de chat, *prompts* *few-shot* e o *fine-tuning* com dados genéricos de honestidade aumentam mais consistentemente as respostas verdadeiras. Para a deteção de mentiras, pedir ao modelo censurado que classifique as suas próprias respostas tem um desempenho próximo de um limite superior de um modelo não censurado, e *probes* lineares treinados em dados não relacionados oferecem uma alternativa mais económica. As técnicas de elicitação da honestidade mais fortes também transferem para modelos de pesos abertos de vanguarda, incluindo o DeepSeek R1. Notavelmente, nenhuma técnica elimina totalmente as respostas falsas. Disponibilizamos todos os *prompts*, código e transcrições.
A escalagem do poder computacional durante a inferência para Modelos de Linguagem de Grande Porte (LLMs) desbloqueou capacidades de raciocínio sem precedentes. No entanto, os métodos de escalagem de inferência existentes geralmente dependem de algoritmos de busca discreta ineficientes e subóptimos ou de *prompts* de tentativa e erro para melhorar a política *online*. Neste artigo, propomos o nabla-Reasoner, uma estrutura de geração iterativa que integra otimização diferenciável sobre os *logits* dos *tokens* no ciclo de decodificação para refinar a política em tempo real. Nosso componente central, a Otimização Textual Diferenciável (DTO), aproveita sinais de gradiente tanto da verossimilhança do LLM quanto de um modelo de recompensa para refinar as representações textuais. O nabla-Reasoner incorpora ainda amostragem por rejeição e um projeto de aceleração para robustecer e acelerar a decodificação. Teoricamente, demonstramos que realizar gradiente descendente no espaço amostral durante a inferência para maximizar a recompensa é dual ao alinhamento de uma política de LLM via aprendizado por reforço regularizado por KL. Empiricamente, o nabla-Reasoner alcança uma melhoria de mais de 20% na precisão em um benchmark desafiador de raciocínio matemático, enquanto reduz o número de chamadas do modelo em aproximadamente 10-40% em comparação com bases de comparação fortes. No geral, nosso trabalho introduz uma mudança de paradigma da busca de ordem zero para a otimização de primeira ordem durante o teste, oferecendo um caminho economicamente viável para amplificar o raciocínio de LLMs.
A capacidade de seguir instruções é uma competência fundamental dos grandes modelos de linguagem (LLMs), cuja melhoria depende de *feedback* escalável e preciso de modelos avaliadores. No entanto, a confiabilidade dos modelos avaliadores atuais na tarefa de seguir instruções permanece pouco explorada devido a várias deficiências dos *benchmarks* de meta-avaliação existentes, como sua cobertura de dados insuficiente e paradigmas de avaliação pareada excessivamente simplificados que não se alinham com os cenários de otimização de modelos. Para tal, propomos o IF-RewardBench, um *benchmark* abrangente de meta-avaliação para a capacidade de seguir instruções que cobre diversos tipos de instruções e restrições. Para cada instrução, construímos um grafo de preferência contendo todas as preferências pareadas entre múltiplas respostas com base na qualidade do seguimento da instrução. Este projeto permite um paradigma de avaliação por lista que avalia as capacidades dos modelos avaliadores para classificar múltiplas respostas, o que é essencial para orientar o alinhamento dos modelos. Experimentos extensivos no IF-RewardBench revelam deficiências significativas nos modelos avaliadores atuais e demonstram que o nosso *benchmark* alcança uma correlação positiva mais forte com o desempenho em tarefas subsequentes em comparação com *benchmarks* existentes. Os nossos códigos e dados estão disponíveis em https://github.com/thu-coai/IF-RewardBench.
Aproveitar todo o potencial de documentos visualmente ricos exige sistemas de recuperação que compreendam não apenas o texto, mas também os layouts intrincados, um desafio central na Recuperação Visual de Documentos (VDR). As arquiteturas predominantes de múltiplos vetores, embora poderosas, enfrentam um gargalo crucial de armazenamento que as estratégias de otimização atuais, como fusão de *embeddings*, poda ou uso de tokens abstratos, não conseguem resolver sem comprometer o desempenho ou ignorar pistas vitais de layout. Para enfrentar esse problema, introduzimos o ColParse, um novo paradigma que aproveita um modelo de análise de documentos para gerar um pequeno conjunto de *embeddings* de subimagens informadas pelo layout, que são então fundidas com um vetor global de nível de página para criar uma representação compacta e estruturalmente consciente de múltiplos vetores. Experimentos extensivos demonstram que nosso método reduz os requisitos de armazenamento em mais de 95%, ao mesmo tempo que produz ganhos significativos de desempenho em diversos benchmarks e modelos base. O ColParse, portanto, preenche a lacuna crítica entre a precisão granular da recuperação por múltiplos vetores e as demandas práticas de implantação em larga escala, oferecendo um novo caminho para sistemas de informação multimodais eficientes e interpretáveis.
A treinamento de solucionadores de PDEs neurais é frequentemente limitado pela geração de dados dispendiosa ou por redes neurais informadas pela física (PINNs) instáveis, que envolvem paisagens de otimização desafiadoras devido a derivadas de ordem superior. Para enfrentar esse problema, propomos uma abordagem alternativa usando métodos de Monte Carlo para estimar a solução da PDE como um processo estocástico para supervisão fraca durante o treinamento. Aproveitando o método Walk-on-Spheres (Caminhada nas Esferas), introduzimos um esquema de aprendizado chamado Walk-on-Spheres Neural Operator (WoS-NO), que utiliza a supervisão fraca do WoS para treinar qualquer operador neural dado. Propomos amortizar o custo dos passeios de Monte Carlo através da distribuição de instâncias de PDEs usando representações estocásticas do algoritmo WoS para gerar estimativas baratas e ruidosas da solução da PDE durante o treinamento. Isto é formulado em um objetivo de física sem dados (*data-free physics-informed*), onde um operador neural é treinado para regredir contra essas supervisões fracas, permitindo que o operador aprenda um mapa de solução generalizado para uma família inteira de PDEs. Esta estratégia não requer conjuntos de dados pré-computados dispendiosos, evita o cálculo de derivadas de ordem superior para funções de perda que são intensivas em memória e instáveis, e demonstra generalização *zero-shot* para novos parâmetros e domínios de PDEs. Experimentos mostram que, para o mesmo número de etapas de treinamento, nosso método exibe uma melhoria de até 8,75 vezes no erro L² em comparação com esquemas de treinamento padrão informados pela física, uma melhoria de até 6,31 vezes na velocidade de treinamento e reduções de até 2,97 vezes no consumo de memória da GPU. Apresentamos o código em https://github.com/neuraloperator/WoS-NO.
É bem conhecido que o FID de reconstrução (rFID) de um VAE apresenta baixa correlação com o FID de geração (gFID) de um modelo de difusão latente. Propomos o FID interpolado (iFID), uma variante simples do rFID que exibe forte correlação com o gFID. Especificamente, para cada elemento no conjunto de dados, recuperamos seu vizinho mais próximo (NN) no espaço latente e interpolamos suas representações latentes. Em seguida, decodificamos o latente interpolado e calculamos o FID entre as amostras decodificadas e o conjunto de dados original. Adicionalmente, refinamos a afirmação de que o rFID correlaciona-se mal com o gFID, demonstrando que o rFID correlaciona-se com a qualidade da amostra na fase de refinamento por difusão, enquanto o iFID correlaciona-se com a qualidade da amostra na fase de navegação por difusão. Além disso, fornecemos uma explicação para o motivo pelo qual o iFID correlaciona-se bem com o gFID, e porque as métricas de reconstrução são negativamente correlacionadas com o gFID, conectando esses resultados a descobertas sobre generalização e alucinação em difusão. Empiricamente, o iFID é a primeira métrica a demonstrar uma forte correlação com o gFID de difusão, alcançando correlações lineares de Pearson e de postos de Spearman de aproximadamente 0,85. O código-fonte é fornecido em https://github.com/tongdaxu/Making-rFID-Predictive-of-Diffusion-gFID.
A especificação do espaço de ação desempenha um papel fundamental na aprendizagem de políticas de manipulação robótica baseada em imitação, moldando essencialmente o panorama de otimização do aprendizado da política. Embora os avanços recentes tenham se concentrado fortemente na escalabilidade dos dados de treinamento e na capacidade do modelo, a escolha do espaço de ação continua sendo guiada por heurísticas ad-hoc ou projetos herdados, levando a uma compreensão ambígua das filosofias de projeto de políticas robóticas. Para abordar essa ambiguidade, realizamos um estudo empírico sistemático e em larga escala, confirmando que o espaço de ação realmente tem impactos significativos e complexos no aprendizado de políticas robóticas. Dissecamos o espaço de projeto da ação ao longo dos eixos temporal e espacial, facilitando uma análise estruturada de como essas escolhas governam tanto a capacidade de aprendizado da política quanto a estabilidade de controle. Com base em mais de 13.000 execuções no mundo real em um robô bimanual e na avaliação de mais de 500 modelos treinados em quatro cenários, examinamos os compromissos entre representações absolutas versus delta, e parametrizações no espaço das juntas versus no espaço de tarefa. Nossos resultados em larga escala sugerem que projetar adequadamente a política para prever ações delta melhora consistentemente o desempenho, enquanto as representações no espaço das juntas e no espaço de tarefa oferecem vantagens complementares, favorecendo a estabilidade de controle e a generalização, respectivamente.
Estudos recentes observaram que as camadas intermediárias de modelos de base frequentemente produzem representações mais discriminativas do que a camada final. Embora inicialmente atribuído ao pré-treinamento autoregressivo, este fenômeno também foi identificado em modelos treinados por meio de objetivos supervisionados e de auto-supervisão discriminativa. Neste artigo, realizamos um estudo abrangente para analisar o comportamento das camadas intermediárias em transformadores de visão pré-treinados. Através de extensos experimentos de sondagem linear em um conjunto diversificado de benchmarks de classificação de imagens, descobrimos que a mudança de distribuição entre os dados de pré-treinamento e os dados de aplicação é a principal causa da degradação de desempenho nas camadas mais profundas. Além disso, realizamos uma análise refinada ao nível do módulo. Nossos resultados revelam que a sondagem padrão das saídas dos blocos do transformador é subótima; em vez disso, sondar a ativação dentro da rede feedforward produz o melhor desempenho sob mudança de distribuição significativa, enquanto a saída normalizada do módulo de auto-atenção multi-cabeça é ótima quando a mudança é fraca.