Artigos de pesquisa em IA selecionados diariamente com traduções
Atualmente, as habilidades de agentes são criadas artesanalmente, geradas em uma única tentativa ou evoluídas por meio de autorrevisão vagamente controlada — nenhuma dessas abordagens se comporta como um otimizador de aprendizado profundo para a habilidade, e nenhuma delas melhora de forma confiável seu ponto de partida sob realimentação. Defendemos que a habilidade deveria, em vez disso, ser treinada como um estado externo de um agente congelado, com a mesma disciplina que torna a otimização por pesos reprodutível. O SkillOpt é, até onde sabemos, o primeiro otimizador sistemático e controlável para habilidades de agentes no espaço textual: um modelo otimizador separado transforma execuções em rolagem (rollouts) pontuadas em edições limitadas de adicionar/excluir/substituir em um único documento de habilidade, e uma edição só é aceita quando melhora estritamente uma pontuação de validação separada (held-out). Um orçamento textual de taxa de aprendizado, um buffer de edições rejeitadas e uma atualização lenta/meta por época tornam o treinamento da habilidade estável, sem adicionar nenhuma chamada de modelo em tempo de inferência durante a implantação. Em seis referências (benchmarks), sete modelos-alvo e três ambientes de execução (chat direto, Codex, Claude Code), o SkillOpt obteve o melhor resultado ou empatou em todas as 52 células (modelo, referência, ambiente) avaliadas e superou todos os competidores por célula entre habilidades humanas, de LLM de única tentativa, Trace2Skill, TextGrad, GEPA e EvoSkill. No GPT-5.5, ele eleva a acurácia média sem habilidade em +23,5 pontos no chat direto, em +24,8 dentro do loop agentivo do Codex e em +19,1 dentro do Claude Code. Experimentos de transferência mostram ainda que os artefatos de habilidade otimizados mantêm valor quando movidos entre escalas de modelo, entre os ambientes de execução Codex e Claude Code e para uma referência matemática próxima, sem necessidade de otimização adicional.
Transformers de Difusão (DiTs) tornaram-se uma espinha dorsal de facto da geração visual moderna, e praticamente todos os eixos principais do seu design — tokenização, atenção, condicionamento, objetivos e autoencoders latentes — foram extensivamente revisados. O fluxo residual que governa como a informação se acumula entre camadas, no entanto, foi diretamente herdado do Transformer original. Neste artigo, apresentamos uma análise empírica sistemática do fluxo de informação entre camadas em DiTs, conjuntamente ao longo da profundidade e do passo temporal de remoção de ruído, e identificamos três sintomas concretos da adição residual tradicional: inflação monotônica da magnitude direta, decaimento acentuado do gradiente reverso e redundância pronunciada entre blocos. Motivados por esse diagnóstico, propomos o Roteamento Adaptativo para Difusão (DAR), um substituto residual direto que realiza agregação aprendível, adaptativa ao passo temporal e não incremental sobre o histórico das saídas das subcamadas. Além disso, o DAR proposto é compatível com muitos métodos modernos de aprimoramento de Transformer, como o REPA. No ImageNet 256×256, o DAR melhora o SiT-XL/2 em 2,11 FID (7,56 vs. 9,67) e iguala a qualidade convergida da linha de base com 8,75 vezes menos iterações de treinamento. Quando combinado com o REPA, proporciona uma aceleração de 2 vezes no treinamento durante o estágio inicial, sugerindo que o roteamento de informação entre camadas é um eixo de design subexplorado na modelagem de difusão, operando de forma ortogonal aos objetivos existentes de alinhamento de representações. Além do pré-treinamento, o DAR também pode ser aplicado durante o estágio de ajuste fino de modelos T2I em grande escala e preserva detalhes de alta frequência durante a Destilação por Correspondência de Distribuição.
Apresentamos o Lens, um modelo T2I de 3,8 bilhões de parâmetros que atinge desempenho competitivo com, e em vários casos superior a, modelos de última geração com mais de 6 bilhões de parâmetros em diversos benchmarks, ao mesmo tempo que requer significativamente menos carga computacional de treinamento. Por exemplo, o Lens requer apenas cerca de 19,3% da carga computacional de treinamento utilizada pelo Z-Image. A eficiência de treinamento do Lens decorre de duas estratégias principais além de seu tamanho compacto. Primeiro, maximizamos a densidade de informações dos dados por lote de treinamento ao (i) treinar no Lens-800M, um conjunto de dados de 800 milhões de pares imagem-texto com legendas densas, cujas legendas são geradas pelo GPT-4.1 e contêm em média aproximadamente 109 palavras, fornecendo supervisão semântica mais rica do que legendas curtas convencionais, e (ii) construir cada lote a partir de imagens com múltiplas resoluções e diversas proporções de aspecto, ampliando assim a cobertura visual efetiva de cada etapa de otimização. Em segundo lugar, melhoramos a velocidade de convergência por meio de escolhas arquiteturais cuidadosas, incluindo a adoção de um VAE semântico que fornece melhores representações latentes e o emprego de um codificador de linguagem robusto que acelera a otimização enquanto possibilita generalização multilíngue a partir de dados de treinamento exclusivamente em inglês. Após o pré-treinamento, aplicamos RL com prompts baseados em taxonomia (Lens-RL-8K) e rubricas de recompensa estruturadas para suprimir artefatos e melhorar a qualidade visual, um módulo de raciocínio com busca de prompt do sistema livre de treinamento para alinhar melhor as solicitações do usuário com o modelo, e aceleração baseada em destilação para inferência em 4 passos. Por meio de treinamento eficiente e otimização sistemática, o Lens generaliza para proporções de aspecto arbitrárias de 1:2 a 2:1 e resoluções de até 1440², além de suportar prompts em vários idiomas comuns. Graças ao seu tamanho compacto, o Lens gera uma imagem de 1024² em 3,15 segundos em uma única GPU NVIDIA H100, enquanto sua versão turbo destilada realiza geração em 4 passos em 0,84 segundos.
O crescimento exponencial da produção acadêmica global confrontou pesquisadores e agentes de IA com uma "explosão de informação" sem precedentes, onde a organização fragmentada e não estruturada do conhecimento impede a integração interdisciplinar profunda. As ferramentas atuais de recuperação acadêmica baseiam-se predominantemente em correspondência superficial de palavras-chave ou recuperação semântica em espaço vetorial, carecendo das capacidades de raciocínio topológico necessárias para navegar por conexões lógicas complexas. Estruturas baseadas em pesquisa profunda orientada por agentes frequentemente são propensas a alucinações lógicas e consomem altos custos de inferência. Para preencher essa lacuna, neste relatório apresentamos o SciAtlas, um grafo de conhecimento de recursos acadêmicos heterogêneo, multidisciplinar e em larga escala, projetado como uma rede panorâmica de evolução científica. Ao integrar mais de 43 milhões de artigos de 26 disciplinas, totalizando 157 milhões de entidades e 3 bilhões de tripletas, o SciAtlas fornece um substrato cognitivo topológico estruturado que desmantela barreiras disciplinares e dota agentes de IA de uma perspectiva global. Além disso, desenvolvemos um algoritmo de recuperação neuro-simbólica com recuperação colaborativa de três caminhos e reordenamento de grafo, alcançando uma transição suave da correspondência semântica simples para a descoberta determinística de associações. Também apresentamos direções-chave de aplicação do SciAtlas, incluindo revisão de literatura, síntese automatizada de tendências de pesquisa, posicionamento de ideias e exploração de trajetórias acadêmicas, para demonstrar que o SciAtlas pode servir como um "mapa cognitivo" eficaz para capacitar o ciclo completo da pesquisa científica automatizada, reduzindo significativamente os custos de inferência. Disponibilizamos as interfaces para recuperação do grafo de conhecimento e diversas tarefas downstream em nosso repositório no GitHub.
A modelagem unificada de áudio e linguagem emergiu como uma tendência proeminente em sistemas modernos de fala, prometendo trazer as capacidades de raciocínio de grandes modelos de linguagem para tarefas auditivas. No entanto, as bases unificadas existentes frequentemente têm dificuldade em igualar a profundidade de sistemas especializados em reconhecimento automático de fala (ASR), síntese de texto em fala (TTS) e interação falada em tempo real. Preencher essa lacuna continua sendo um desafio em aberto. Este relatório apresenta o StepAudio 2.5, um modelo fundamental unificado de áudio e linguagem que iguala ou supera sistemas especializados em todas as três capacidades. Em vez de tratar essas tarefas como arquiteturalmente distintas, partimos da premissa de que, uma vez que texto e áudio compartilham um espaço representacional multimodal, a especialização de tarefas se torna uma questão de regimes operacionais: construção de dados, objetivos de otimização e restrições de decodificação. Guiados por essa percepção, avançamos o paradigma de pós-treinamento do aprendizado supervisionado padrão para o Aprendizagem por Reforço a partir de Feedback Humano (RLHF) adaptado à tarefa, utilizando-o como o principal mecanismo para definir objetivos complexos de otimização. Aproveitamos esse alinhamento centrado em RLHF, juntamente com a decodificação especializada, para moldar um backbone compartilhado em três modos operacionais distintos. Concretamente, o ramo ASR avança a eficiência da transcrição por meio de decodificação verificável de múltiplos tokens; o ramo TTS alcança síntese controlável e expressiva por meio de RLHF baseado em preferências e supervisão rica em contexto; e o ramo em Tempo Real realiza diálogo de baixa latência e consistente com a persona por meio de modelagem generativa de recompensas dentro de uma estrutura RLHF. Em benchmarks padrão, o StepAudio 2.5 alcança resultados de última geração em ASR, TTS e Tempo Real, demonstrando que uma base singular de áudio e linguagem pode internalizar com sucesso os distintos objetivos de implantação de compreensão, geração e interação ao vivo da fala.
Apresentamos SWIM (See What I Mean), uma nova estratégia de treinamento que alinha representações visuais e de linguagem para permitir a compreensão detalhada de objetos exclusivamente a partir de prompts textuais. Diferentemente de abordagens existentes que exigem prompts visuais explícitos, como máscaras ou pontos, o SWIM utiliza supervisão por máscaras apenas durante o treinamento para guiar a atenção cross-modal, permitindo que o modelo atenda automaticamente ao objeto especificado pelo usuário na inferência. Nossa análise de atenção cruzada de modelos de linguagem grandes multimodais (MLLMs) pré-treinados revela uma discrepância sistemática: palavras de atributo produzem ativações nítidas e localizadas na modalidade visual, enquanto substantivos de objeto geram padrões difusos e dispersos devido ao viés de referência semântica e representações distribuídas de alto nível. Para corrigir esse desalinhamento, construímos NL-Refer, um conjunto de dados enriquecido no qual cada máscara de objeto é pareada com uma expressão referencial de linguagem natural precisa. O SWIM extrai mapas de atenção cruzada de múltiplas camadas de substantivos de objeto e impõe consistência espacial com as máscaras de verdade fundamental. Resultados experimentais demonstram que o SWIM melhora substancialmente o alinhamento texto-visual e alcança desempenho superior em relação a métodos baseados em prompts visuais em benchmarks de compreensão detalhada de objetos. O código e os dados estão disponíveis em https://github.com/HumanMLLM/SWIM{https://github.com/HumanMLLM/SWIM}.
Agentes de linguagem aprimoram-se cada vez mais ao reutilizar habilidades — artefatos processuais estruturados destilados de experiências passadas. Em particular, habilidades em nível de domínio e geradas por modelo são especialmente promissoras. Elas oferecem adaptação rápida dentro de um domínio ao codificar procedimentos recorrentes específicos do domínio e escalam além da elaboração manual intensiva em trabalho. No entanto, enquanto os métodos de extração continuam a proliferar, a compreensão ainda é limitada, sem um estudo abrangente que percorra todo o ciclo de vida das habilidades — geração de experiência, extração de habilidades e consumo de habilidades — para questionar se tais habilidades realmente funcionam, quando funcionam e o que as leva ao sucesso ou fracasso. Para preencher essa lacuna, construímos uma estrutura de avaliação baseada em utilidade que fornece resultados experimentais sistemáticos entre extratores e agentes alvo, abrangendo cinco domínios de tarefas agentivas diversas. Descobrimos que as habilidades geradas por modelo são benéficas em média, mas exibem transferência negativa não trivial, e que nem extratores nem alvos se comportam de maneira uniforme. Um modelo pode ser um extrator forte, mas um consumidor fraco, ou vice-versa, com a utilidade da habilidade independente da escala do modelo ou da força da tarefa de base. Para explicar esses padrões, dissecamos cada estágio do ciclo de vida em profundidade, analisando como a composição da experiência molda a qualidade da habilidade, quais propriedades caracterizam habilidades úteis e como a mesma habilidade é transferida entre diferentes consumidores. Finalmente, traduzimos essas descobertas em uma meta-habilidade concreta que orienta a extração de habilidades para as características ligadas à utilidade real, o que consistentemente melhora a qualidade das habilidades em todos os domínios e reduz substancialmente a transferência negativa.
A maioria dos sistemas práticos de texto para imagem de alta resolução, incluindo modelos de difusão latente e autorregressivos, realiza a geração em um espaço latente compacto, e um decodificador mapeia os latentes gerados de volta para pixels. No entanto, o decodificador latente-para-pixel é orientado à reconstrução, otimizado para inverter o codificador em vez de sintetizar mais detalhes, e torna-se cada vez mais custoso em escala de megapixels. Essa desvantagem demanda um paradigma de decodificação mais expressivo e eficiente. Motivados pelos recentes avanços em difusão escalável no espaço de pixels, apresentamos o PiD, um Decodificador de Difusão de Pixels que reformula a decodificação latente como difusão condicional de pixels, unificando decodificação e upsampling em um único módulo generativo. Ao remover ruídos diretamente no espaço de pixels de alta resolução, o PiD sintetiza imagens com ampliação de 4x e até 8x com baixa latência. Para o condicionamento latente, um adaptador leve sensível a sigma injeta latentes corrompidos por ruído no backbone de difusão de pixels, permitindo que o PiD decodifique latentes parcialmente sem ruído e interrompa o processo de difusão latente precocemente. Para melhorar ainda mais a eficiência, destilamos o modelo usando DMD2, reduzindo a inferência para apenas 4 passos. O PiD se aplica tanto a latentes de VAE convencionais quanto a latentes semânticos (por exemplo, SigLIP, DINOv2) usados em modelos recentes baseados em RAE. O PiD decodifica latentes de imagens de 512x512 pixels em imagens de 2048x2048 pixels em menos de 1 segundo, com pico de memória de 13 GB em uma RTX 5090 de consumo, e em até 210 ms em uma GPU GB200, cerca de 6 vezes mais rápido que pipelines de super-resolução baseados em difusão em cascata, com melhor fidelidade visual.
A fotografia virtual exige que um agente entre em uma cena 3D preparada, sem pose de câmera pré-selecionada ou imagem de referência, infira um enquadramento adequado a partir das informações da cena e de uma intenção linguística, escolha parâmetros de câmera executáveis e renderize a fotografia final. O progresso recente em modelos visão-linguagem torna esse tipo de agente espacial cada vez mais plausível, mas a tarefa demanda duas capacidades que permanecem difíceis de avaliar em conjunto: compreensão espacial 3D complexa e julgamento estético abstrato. Apresentamos o PhotoFlow, um agente Diretor-Revisor-Refletor para busca de câmera em malha fechada. O Diretor constrói um blueprint fotográfico suave e propõe diversas câmeras candidatas; o Revisor combina verificações de regras, crítica visual e seleção pareada de candidatos; e o Refletor converte falhas em memória de região, supressão de zonas mortas e realocação de alta exploração. Também introduzimos o VPhotoBench, um benchmark composto por 47 cenas Blender com licença aberta e 141 missões fotográficas condicionadas por linguagem, abrangendo posicionamento de assunto, composição relacional e atmosfera/estilo. Em experimentos de validação, o PhotoFlow alcança o melhor composto de alinhamento de qualidade externa e taxa de sucesso entre previsão única, reflexão em cadeia única, seleção de banco de âncoras e busca aleatória, dentro de um orçamento de renderização de seis rodadas. Até onde sabemos, este é o primeiro trabalho a tornar a fotografia virtual condicionada por linguagem em cenas Blender arbitrárias uma tarefa executável de agente, e nossos resultados mostram que um agente espacial centrado em LLM já pode produzir fotografias robustas em um ambiente projetado para desafiar tanto o raciocínio 3D quanto a escolha estética.
O raciocínio espaço-temporal é uma capacidade central para Modelos de Linguagem Grandes Multimodais (MLLMs) operando no mundo real. Como tal, avaliá-lo com precisão tornou-se um desafio essencial. No entanto, os conjuntos de dados de referência existentes para raciocínio espaço-temporal dependem principalmente de conjuntos de imagens estáticas ou dados de vídeo passivamente curados, o que limita a avaliação de capacidades de raciocínio refinadas. Neste artigo, apresentamos o VGenST-Bench, um benchmark de vídeo que emprega modelos generativos para sintetizar ativamente cenários de avaliação altamente controlados e diversos. Para construir o VGenST-Bench, propomos um pipeline multiagente que incorpora uma etapa de controle de qualidade humano, garantindo a qualidade de todos os vídeos e pares de perguntas e respostas gerados. Estabelecemos uma taxonomia de vídeo abrangente 3x2x2, abrangendo Escala Espacial, Perspectiva e Dinâmica de Cena para cobrir cenários diversos. Além disso, projetamos um conjunto hierárquico de tarefas que separa a percepção visual de baixo nível do raciocínio espaço-temporal de alto nível. Ao mudar o paradigma da curadoria passiva para a síntese ativa, o VGenST-Bench permite um diagnóstico refinado da compreensão espaço-temporal em MLLMs.
Modelos autoregressivos discretos (AR) de texto para imagem (T2I) combinam um tokenizador VQ com uma política AR, e os pipelines atuais de pós-treinamento otimizam apenas a política, mantendo o decodificador VQ congelado. Trabalhos recentes sobre difusão T2I, exemplificados por REPA-E, mostraram que o próprio VAE constitui um gargalo chave de alinhamento, mas não existe investigação análoga para modelos AR discretos. Mostramos que a otimização apenas da política induz Mudança de Covariável Latente: à medida que a política evolui, a distribuição de tokens resultante diverge da distribuição de referência na qual o decodificador foi treinado, de modo que as pontuações de recompensa melhoram enquanto a qualidade da imagem decodificada se degrada. Para resolver essa incompatibilidade, propomos RankE, a primeira estrutura de pós-treinamento ponta a ponta para geração discreta T2I. Em vez de otimizar a política contra um decodificador fixo, RankE coevolui ambos os componentes por meio de otimização alternada: cada módulo maximiza um objetivo de alinhamento baseado em ranqueamento, sendo regularizado por uma âncora de preservação de estabilidade adequada ao seu espaço de parâmetros. Essa coevolução rompe o compromisso fidelidade–alinhamento que afeta abordagens com decodificador congelado: no LlamaGen-XL (775M), o RL padrão melhora o CLIP, mas degrada o FID, enquanto RankE melhora ambos simultaneamente (FID 15,21, CLIP 33,76 no MS-COCO 30K). Ganhos consistentes no Janus-Pro (1B) confirmam que a coevolução do decodificador converte de forma confiável a otimização de recompensa em melhorias de qualidade no espaço dos pixels.
Modelos de Linguagem de Grande Escala Multimodais avançaram o raciocínio visual, mas uma cadeia de pensamento puramente textual continua sendo um gargalo para questões que exigem foco detalhado ou transformações de perspectiva. O paradigma "pensar com imagens" reduz essa lacuna, mas as abordagens existentes são limitadas por conjuntos de ferramentas pré-definidos ou produzem imagens intermediárias ruidosas a partir de métodos multimodais unificados. Buscamos uma terceira opção: usar um modelo de edição de imagem dedicado e desacoplá-lo de um modelo de compreensão. No entanto, editores de imagem prontos para uso falham como assistentes de raciocínio devido a duas lacunas complementares: uma lacuna no lado da linguagem, onde editores treinados como seguidores passivos de instruções não conseguem mapear uma questão abstrata para uma transformação visual apropriada, e uma lacuna no lado da geração, onde a correção da edição se degrada à medida que a profundidade do raciocínio aumenta. Guiados por esta análise, apresentamos o ETCHR (Editing To Clarify and Harness Reasoning — Editar para Esclarecer e Aproveitar o Raciocínio), um editor de imagem condicionado à pergunta e ciente do raciocínio, desacoplado do modelo de compreensão subsequente e treinado com uma abordagem em duas etapas direcionada às duas lacunas: Imitação de Raciocínio via ajuste fino supervisionado em trajetórias de edição, seguida por Aprimoramento de Raciocínio com recompensas derivadas de VLM para correção da edição e precisão do raciocínio downstream. Como o editor é desacoplado, o ETCHR se integra a diferentes MLLMs de código aberto e fechado sem necessidade de treinamento. Em cinco famílias de tarefas (percepção detalhada, compreensão de gráficos, raciocínio lógico, restauração de quebra-cabeças e compreensão 3D), o ETCHR eleva a média Pass@1 de 55,95 para 60,77 (+4,82) com o Qwen3-VL-8B, de 65,08 para 70,55 (+5,47) com o Gemini-3.1-Flash-Lite, e de 76,55 para 81,16 (+4,61) com o modelo MoE de 1 trilhão de parâmetros Kimi K2.5.
Modelos de mundo interativos para jogos de tiro em primeira pessoa (FPS) precisam resolver sinais de controle de alta frequência e sobrepostos a cada quadro sem perturbar regiões não afetadas. Métodos existentes injetam ações globalmente e treinam em títulos únicos, falhando sob entradas densas de FPS. Observamos que as ações em FPS são seletivas espacialmente: eventos discretos, como disparo ou recarga, afetam apenas uma região localizada ao redor da arma (o escopo), enquanto sinais contínuos de câmera e movimento governam ambientes estáveis. Propomos o SCOPE, que insere um módulo de condicionamento em cada bloco transformador de um modelo de difusão de vídeo pré-treinado. Ele reformata características em sequências temporais por pixel, de modo que cada posição calcule sua resposta de ação a partir do conteúdo visual local. Isso separa efeitos dentro do escopo da geração fora do escopo sem rótulos de segmentação. Também introduzimos o CrossFPS, o primeiro conjunto de dados FPS multijogo com telemetria de ação alinhada por quadro. Ele compreende 69 mil clipes de 7 títulos com sinais de controle de 10 graus de liberdade, curados para remover viés de jogabilidade. O modelo aprende mapeamentos gerais de visão para ação, em vez de padrões específicos de jogo, possibilitando transferência zero-shot para cenas não vistas. Experimentos confirmam forte responsividade a ações, separação precisa de escopo e generalização eficaz entre jogos.
As leis de escala existentes para Grandes Modelos de Linguagem (LLMs), predominantemente leis de potência monotônicas, não conseguem explicar fenômenos não monotônicos emergentes, como o sobretreinamento catastrófico e a degradação induzida por quantização, nos quais o desempenho piora apesar do aumento do poder computacional. Propomos a Lei de Escala de Shannon, um arcabouço teórico unificado que modela o treinamento de LLMs como transmissão de informação por um canal ruidoso, fundamentado no teorema de Shannon-Hartley. Ao mapear parâmetros do modelo para largura de banda do canal e tokens de treinamento para potência do sinal, nossa formulação captura explicitamente a interação entre sinal de aprendizado e ruído intrínseco. Essa perspectiva revela uma capacidade de Shannon fundamental para LLMs: escalar o tamanho do modelo ou os dados sem preservar uma relação sinal-ruído (SNR) suficiente inevitavelmente amplifica o ruído, induzindo uma transição de melhora monotônica para degradação de desempenho em forma de U. Validamos nossa teoria por meio de experimentos com Pythia e OLMo2 sob perturbações, incluindo ruído gaussiano, quantização e ajuste fino supervisionado em tarefas de matemática, resposta a perguntas e código. A Lei de Escala de Shannon supera consistentemente as leis de escala clássicas e as leis recentes sensíveis a perturbações, alcançando altos valores de R² e capturando com precisão bacias de perda ignoradas por abordagens anteriores. Ela também extrapola: ajustada em modelos Pythia de ≤6,9B com ≤180B tokens, prevê o modelo não visto de 12B com até 307B tokens com R² combinado=0,847, enquanto as linhas de base monotônicas colapsam.
Avanços recentes em modelos de visão-linguagem (VLMs) enfatizam o raciocínio de cadeia de pensamento longo; no entanto, constatamos que seu desempenho em tarefas visuais é principalmente limitado pela falta de percepção visual, em vez do raciocínio em si. Neste trabalho, estudamos sistematicamente a interação entre percepção e raciocínio no pós-treinamento de VLMs, decompondo suas capacidades em três estágios de treinamento separados: percepção visual, raciocínio visual e raciocínio textual, incorporando dados de treinamento especializados. Demonstramos que a percepção visual (a) requer otimização direcionada com dados especializados; (b) serve como um arcabouço fundamental que deve ser solidificado por meio de treinamento em estágios antes de refinar o raciocínio visual; e (c) é aprendida de forma mais eficaz via RL do que via SFT baseada em legendas. Nossos experimentos em múltiplos VLMs demonstram que o treinamento em estágios melhora consistentemente tanto a percepção visual quanto o desempenho de raciocínio em comparação com o treinamento combinado. Notavelmente, modelos treinados com nossa abordagem alcançam 1,5% mais precisão de raciocínio com 20,8% de cadeias de raciocínio mais curtas, sugerindo que uma percepção superior reduz a necessidade de raciocínio excessivo. Além disso, mostramos que essa segmentação baseada em capacidades representa uma nova dimensão curricular ortogonal aos currículos tradicionais baseados em dificuldade, e a combinação de ambos gera ganhos aditivos adicionais. Nossos modelos de treinamento em estágios alcançam desempenho superior entre VLMs de peso aberto, estabelecendo resultados avançados em várias tarefas de matemática visual e percepção (por exemplo, +5,2% no WeMath e +3,7% no RealWorldQA) em comparação com a contraparte base.
A geração de vídeos controlada por câmera tem alcançado progressos notáveis nos últimos anos. No entanto, os métodos existentes de re-renderização de vídeo para vídeo baseiam-se predominantemente em Ajuste Fino Supervisionado utilizando conjuntos de dados sintéticos. Atualmente, há uma escassez extrema de dados de vídeo do mundo real sincronizados e com múltiplas vistas. Consequentemente, o paradigma vigente frequentemente apresenta generalização limitada ao processar vídeos do mundo real fora da distribuição, com os modelos lutando para aderir com precisão a escalas físicas e trajetórias de câmera. Para preencher essa lacuna, propomos o Geo-Align, o primeiro framework de Aprendizado por Reforço especificamente projetado para re-renderização de vídeos controlada por câmera. Construído sobre um modelo pré-treinado, otimizamos o modelo por meio de um mecanismo de recompensa perceptual ciente de escala. Especificamente, introduzimos um estimador métrico 3D para extrair trajetórias precisas de câmera a partir dos vídeos gerados, penalizando explicitamente desvios em rotação e translação. Além disso, projetamos meticulosamente uma estratégia de pipeline de dados baseada em vídeos condicionantes do mundo real e trajetórias de câmera alvo derivadas de dados sintéticos, eliminando a dependência de dados pareados. Experimentos extensivos demonstram que o Geo-Align supera consistentemente as linhas de base de aprendizado supervisionado existentes tanto em controlabilidade precisa da câmera quanto em fidelidade visual, indicando a eficácia do nosso método.
Muon é um otimizador ciente de matrizes que utiliza iterações de Newton-Schulz (NS) para impor ortogonalização espectral do gradiente, conduzindo todos os valores singulares da matriz de momento para 1. Embora esse branqueamento espectral uniforme melhore a exploração e supere o AdamW no pré-treinamento de LLMs, mostramos que ele pode levar a limitações fundamentais além do pré-treinamento em dois regimes: (i) treinamento visão-linguagem-ação (VLA) cross-modular, onde gradientes intrinsecamente de baixo posto do módulo de ação causam amplificação de direções de cauda ruidosas, e (ii) aprendizado por reforço com recompensas verificáveis (RLVR), onde gradientes de baixa SNR e a necessidade de preservar a especialização por cabeça do treinamento anterior tornam o branqueamento instável. Para enfrentar esses desafios, propomos o Pion, um substituto direto para o Muon que preserva sua eficiência computacional enquanto substitui o branqueamento espectral uniforme por um mecanismo de Promoção+Supressão em dois estágios, que chamamos de iteração NS passa-alta. Esse design induz um efeito de filtro passa-alta espectral acentuado, ancorando os valores singulares dominantes em 1 enquanto suprime componentes de cauda ruidosos em direção a 0, com intensidade de filtro controlável. Para preservar a heterogeneidade pré-treinada por cabeça, o Pion também suporta um modo por cabeça que aplica atualizações de forma independente entre cabeças de atenção por meio de um simples redimensionamento, sem custo adicional. No treinamento VLA em LIBERO e LIBERO-Plus, o Pion supera consistentemente ambas as bases de comparação em arquiteturas de regressão l₁ (VLA-Adapter) e de correspondência de fluxo (VLANeXt), por exemplo, alcançando 100% de taxa de sucesso no LIBERO Object após 1.500 passos de treinamento com VLA-Adapter, contra 97,0% para o Muon e apenas 32,2% para o AdamW. A vantagem do Pion se estende ainda a um robô real Franka Research 3 com uma espinha dorsal pi₀.₅ sob a configuração DROID em três tarefas de agarrar e colocar. No pós-treinamento RLVR no Qwen3-1.7B/4B com GRPO e GMPO, o Pion também supera o AdamW em MATH e GSM8K, enquanto o Muon colapsa para zero.
Apresentamos uma nova abordagem para a reconstrução de cenas 3D de alta fidelidade a partir de imagens RGB multivistas, que integra estreitamente a reconstrução com um forte prior generativo 3D. Enquadramos a reconstrução de cenas como geração 3D condicional sobre um conjunto de blocos sobrepostos e espacialmente localizados que, juntos, recobrem a cena, escalando a geração para grandes extensões de cena. Crucialmente, herdamos a fidelidade e a completude dos modelos generativos de forma de última geração — usando o Trellis.2 como exemplo — que generalizamos para o nível da cena. Para isso, propomos um mecanismo de condicionamento baseado em projeção que eleva as características das imagens multivistas posicionadas para uma representação 3D coerente, alinhada ao modelo generativo, independente da ordem das vistas e ancorada espacialmente na cena, resultando em geometria gerada de alta fidelidade e consistente entre múltiplas vistas. Isso permite elevar o forte prior de nível de objeto do Trellis.2 para a geração em escala de cena e multivistas, produzindo reconstruções fiéis e editáveis de malhas PBR de ambientes internos. Como resultado, obtemos resultados de alta fidelidade que superam em 16% os métodos de reconstrução de ponta.
Modelos multimodais unificados (MMUs) apresentam desempenho sólido tanto na compreensão quanto na geração ao aprender um espaço latente compartilhado, mas frequentemente exibem inconsistência funcional entre essas duas capacidades. Observamos que esse problema não decorre da falta de representações compartilhadas, mas sim da ausência de um alinhamento explícito entre as transformações que mapeiam para dentro e para fora do espaço latente. Como resultado, a geração e a re-codificação podem seguir trajetórias inconsistentes, levando à deriva semântica durante transições entre modalidades. Neste trabalho, propomos o LatentUMM, um arcabouço que constrói um espaço latente compartilhado aprimorado para alinhar explicitamente essas transformações e melhorar a consistência entre modalidades. O LatentUMM consiste em duas etapas. Primeiro, o alinhamento latente duplo impõe consistência tanto no nível de modalidade quanto no de capacidade: o alinhamento entre modalidades utiliza um modelo de embedding mais robusto para impor semântica estruturada entre modalidades, enquanto o alinhamento duplo de capacidade impõe consistência bidirecional sob geração e re-codificação. Em segundo lugar, a estabilização da dinâmica latente melhora a robustez por meio de rollouts latentes estocásticos e otimização de preferência, favorecendo trajetórias que melhor preservam a consistência semântica. Experimentos mostram que o LatentUMM melhora consistentemente a consistência multimodal em diversas arquiteturas. O código está disponível em: https://github.com/AIFrontierLab/TorchUMM/tree/main/src/umm/post_training/LatentUMM.
Os transformadores de geometria visual tornaram-se arquiteturas poderosas para reconstrução 3D multivista, permitindo a predição conjunta de múltiplos atributos 3D de forma feed-forward. No entanto, seu custo computacional cresce quadraticamente com o comprimento da sequência de entrada devido às camadas de atenção global presentes nesses modelos. Isso limita tanto sua escalabilidade quanto sua eficiência. Neste trabalho, abordamos esse desafio com uma estratégia simples, porém geral: restringir o número de tokens de chave/valor com os quais cada consulta interage durante a atenção global. Para alcançar uma seleção eficaz de tokens, introduzimos um arcabouço em dois estágios. Primeiro, uma etapa de seleção entre quadros opera no nível do quadro para identificar quais quadros devem ser preservados. Segundo, uma etapa de seleção intra-quadro descarta ainda mais tokens redundantes dentro dos quadros selecionados. Nossa análise destaca a vantagem de uma estratégia baseada em diversidade para a seleção entre quadros, que garante uma cobertura ampla da cena. Para a seleção intra-quadro, mostramos que a esparsificação ciente das camadas é necessária, com o processo de seleção guiado pela entropia do padrão de atenção global. Nossa abordagem oferece um equilíbrio superior entre velocidade e precisão em comparação com soluções existentes. Experimentos extensivos mostram que ela acelera os transformadores de geometria visual em mais de 85% para cenas com 500 imagens, mantendo ou até melhorando o desempenho da linha de base, o que sugere como nossa estratégia de seleção de tokens pode desempenhar um papel crucial em aplicações futuras dos transformadores de geometria visual. Nosso site do projeto está disponível em https://zsh2000.github.io/good-token-hunting.github.io.
A rápida proliferação de Modelos de Visão-Linguagem (MVLs) é frequentemente enquadrada como uma via para a descoberta unificada de conhecimento multimodal, mas assenta numa premissa pouco examinada: a de que os MVLs atuais sintetizam fielmente os dados multimodais. Defendemos que, muitas vezes, não o fazem, e esta lacuna reflete um problema de confiabilidade no paradigma dominante de Codificador de Visão-Projetor-LLM. Em vez de extrair conhecimento fundamentado de entradas visuais, os modelos de última geração exibem frequentemente cegueira funcional, ou seja, exploram fortes prioridades linguísticas para contornar graves estrangulamentos na representação visual. Neste trabalho, questionamos a metodologia convencional de avaliação multimodal, que depende da ablação de dados ou da criação de novos conjuntos de dados e, portanto, confunde vieses dos conjuntos de dados com incapacidade arquitetural. Propomos uma abordagem baseada na teoria da informação: o Protocolo de Tradução de Modalidade, concebido para quantificar o que chamamos de Custo de Ver. Ao traduzir as cargas semânticas, em vez de as ablacionar, formulamos três métricas inéditas — o Pedágio (PdV), a Maldição (MdV) e a Falácia (FdV) de Ver — que culminam no Critério de Suficiência Semântica (CSS). Além disso, levantamos a hipótese de uma Lei de Divergência do Escalonamento Multimodal: à medida que os motores linguísticos subjacentes escalam para capacidades de raciocínio sem precedentes, a penalidade do gargalo de conhecimento visual pode aumentar, e não diminuir. Argumentamos que a comunidade deve ir além do "ganho multimodal" como principal alvo de avaliação. Ao elevar o CSS de uma restrição diagnóstica passiva a um projeto arquitetónico ativo, fornecemos uma base para orientar a próxima geração de sistemas de IA rumo a um genuíno raciocínio multimodal.
Treinar agentes LLM de longo horizonte com aprendizado por reforço é desafiador, pois recompensas esparsas de resultado revelam se uma tarefa tem sucesso, mas não quais ações intermediárias causaram o resultado ou como deveriam ser corrigidas. Métodos recentes atenuam esse problema gerando recompensas ou dicas textuais a partir de sinais de ação-saída em nível de turno, ou usando autodestilação condicionada a feedback. No entanto, gerar feedback a cada turno é ineficiente quando muitos turnos intermediários já são bem-sucedidos ou neutros, e aplicar feedback em um turno fixo ou desalinhado muitas vezes falha em supervisionar as ações que contribuíram para o fracasso. Para preencher essa lacuna, propomos o HINT-SD, uma estrutura de autodestilação direcionada que usa retrospectiva de trajetória completa para selecionar ações relevantes para falhas e aplica destilação condicionada a feedback apenas em spans de ação direcionados. Experimentos no BFCL v3 e AppWorld mostram que nosso método melhora em relação à linha de base de feedback denso por turno em até 18,80%, enquanto alcança um tempo 2,26 vezes menor por etapa de treinamento, sugerindo que selecionar onde destilar é um fator chave para o treinamento de agentes de longo horizonte tanto eficaz quanto eficiente.
Modelos de linguagem de grande escala (LLMs) demonstraram habilidades impressionantes de raciocínio em uma ampla gama de tarefas, mas a contaminação de dados compromete a avaliação objetiva dessas capacidades. Esse problema é ainda agravado por editores de modelos maliciosos que utilizam estratégias de contaminação evasivas, ou indiretas, como o parafraseamento de dados de referência para escapar dos métodos de detecção existentes e impulsionar artificialmente o desempenho nos rankings. As abordagens atuais têm dificuldade em detectar de forma confiável essa contaminação sorrateira. Neste trabalho, revelamos um fenômeno crítico: as etapas de raciocínio geradas por um modelo mascaram ativamente sua memorização subjacente. Inspirados por isso, propomos a Sonda Zero-CoT (ZCP), um método inovador de detecção em caixa-preta que trunca deliberadamente todo o processo de Cadeia de Pensamento (CoT) para expor mapeamentos de atalho latentes. Para isolar ainda mais a memorização das capacidades intrínsecas de resolução de problemas do modelo, a ZCP compara o desempenho zero-CoT do modelo no conjunto de referência original com um conjunto de dados de referência com perturbação isomórfica. Além disso, introduzimos a Confiança de Contaminação, uma métrica que quantifica tanto a probabilidade quanto a gravidade da contaminação, indo além de simples classificações binárias. Experimentos extensivos, tanto em modelos anteriormente identificados como contaminados quanto em modelos contaminados ajustados finamente, demonstram que a ZCP detecta de forma robusta tanto a contaminação direta quanto a evasiva. O código da ZCP está disponível em https://github.com/Yifan-Lan/zero-cot-probe.
O escalonamento da computação em tempo de teste por meio da atualização iterativa de um estado latente emergiu como um poderoso paradigma para o raciocínio. No entanto, os mecanismos internos que permitem que esses modelos iterativos generalizem além dos padrões memorizados permanecem obscuros. Nossa hipótese é que o raciocínio generalizável surge do aprendizado de atratores condicionados à tarefa: sistemas dinâmicos latentes cujos pontos fixos estáveis correspondem a soluções válidas. Formalizamos esse processo por meio dos Raciocinadores de Equilíbrio (EqR), que possibilitam o escalonamento em tempo de teste sem verificadores externos ou priores específicos da tarefa. O EqR escala a dinâmica interna ao longo de dois eixos: profundidade, executando mais iterações, e amplitude, agregando trajetórias estocásticas a partir de múltiplas inicializações. Empiricamente, os ganhos do escalonamento em tempo de teste estão fortemente acoplados a uma convergência mais forte em direção a atratores alinhados com as soluções. Essa perspectiva de atratores permite que redes neurais aloquem adaptativamente a computação em tempo de teste com base na dificuldade da tarefa. Enquanto casos simples convergem dentro de 1 a 5 passos de iteração, casos mais difíceis se beneficiam de um escalonamento massivo em tempo de teste. Ao desdobrar até o equivalente a 40.000 camadas, o raciocínio latente escalável eleva a precisão de 2,6% para modelos feedforward para mais de 99% no Sudoku-Extreme. Esses resultados sugerem que paisagens de atratores aprendidas fornecem uma lente mecanicista útil para compreender o raciocínio escalável em modelos latentes iterativos.
A reconstrução de MRI é um problema inverso inerentemente mal-posto, pois medições incompletas admitem muitas soluções plausíveis. Essa ambiguidade torna-se mais severa sob altas acelerações, onde preditores contínuos no domínio dos pixels tendem a fazer uma média das reconstruções viáveis e suprimir a anatomia de alta frequência. Abordamos essa limitação deslocando a reconstrução para um espaço latente discreto multiescala e formulando-a como predição autorregressiva de próxima escala de aceleração. Aproveitando priores discretos que se mostraram eficazes na modelagem autorregressiva visual, nosso método restringe a solução a sequências compactas de tokens de codebook, permitindo reconstruções nítidas mesmo a partir de medições extremamente esparsas. Essa formulação autorregressiva discreta também se alinha naturalmente com técnicas modernas de pós-treinamento de grandes modelos de linguagem. Com base nessa observação, introduzimos a destilação de informação privilegiada on-policy para modelagem autorregressiva visual, onde um professor recebe, durante o treinamento, apenas contexto privilegiado que não está disponível na inferência — em nosso caso, aquisições completamente amostradas — e supervisiona um aluno treinado em suas próprias trajetórias, gerando ganhos consistentes de reconstrução. Por meio de experimentos extensivos no benchmark fastMRI, mostramos que nossa abordagem oferece desempenho de reconstrução superior em diversos padrões de amostragem sob subamostragem extrema. O site do projeto é https://yilmazkorkmaz1.github.io/discrete-mri-reconstruction-opd/{aqui}.