Artigos de pesquisa em IA selecionados diariamente com traduções
Grandes cientistas possuem um forte discernimento e perspicácia, características intimamente ligadas ao que chamamos de "paladar científico". Aqui, utilizamos este termo para nos referir à capacidade de julgar e propor ideias de pesquisa com alto potencial de impacto. No entanto, a maior parte da pesquisa relacionada concentra-se em melhorar a capacidade executiva de um cientista de IA, enquanto o aprimoramento do paladar científico de uma IA permanece pouco explorado. Neste trabalho, propomos o Aprendizado por Reforço a partir de Feedback da Comunidade (RLCF), um paradigma de treinamento que utiliza sinais de larga escala da comunidade como supervisão, e formulamos o aprendizado do paladar científico como um problema de modelagem e alinhamento de preferências. Para a modelagem de preferências, treinamos o "Scientific Judge" (Juiz Científico) em 700 mil pares de artigos com alto versus baixo número de citações, pareados por área e tempo, para que ele julgue ideias. Para o alinhamento de preferências, usando o Scientific Judge como um modelo de recompensa, treinamos um modelo de política, o "Scientific Thinker" (Pensador Científico), para propor ideias de pesquisa com alto potencial de impacto. Experimentos mostram que o Scientific Judge supera LLMs de estado da arte (ex.: GPT-5.2, Gemini 3 Pro) e generaliza para testes com anos futuros, áreas não vistas e preferências de revisão por pares. Além disso, o Scientific Thinker propõe ideias de pesquisa com maior potencial de impacto do que os modelos de base. Nossos resultados demonstram que a IA pode aprender o paladar científico, representando um passo fundamental rumo à conquista de cientistas de IA com capacidades equivalentes às humanas.
As conexões residuais com PreNorm são padrão em LLMs modernos, mas acumulam todas as saídas das camadas com pesos unitários fixos. Esta agregação uniforme causa um crescimento não controlado do estado oculto com a profundidade, diluindo progressivamente a contribuição de cada camada. Propomos os *Attention Residuals* (AttnRes), que substituem este acúmulo fixo por atenção softmax sobre as saídas das camadas precedentes, permitindo que cada camada agregue seletivamente representações anteriores com pesos aprendidos e dependentes da entrada. Para lidar com a sobrecarga de memória e comunicação ao atender sobre todas as saídas de camadas precedentes no treinamento de modelos em larga escala, introduzimos o *Block AttnRes*, que particiona as camadas em blocos e atende sobre representações a nível de bloco, reduzindo a pegada de memória enquanto preserva a maior parte dos ganhos do AttnRes completo. Combinado com comunicação de pipeline baseada em *cache* e uma estratégia de computação em duas fases, o Block AttnRes torna-se uma substituição prática e direta (*drop-in*) para as conexões residuais padrão, com sobrecarga mínima. Experimentos com leis de escala confirmam que a melhoria é consistente em diferentes tamanhos de modelo, e *ablation studies* validam o benefício da seleção dependente de conteúdo ao longo da profundidade. Integramos ainda o AttnRes na arquitetura Kimi Linear (48B no total / 3B parâmetros ativados) e realizamos pré-treinamento em 1.4T de *tokens*, onde o AttnRes mitiga a diluição do PreNorm, resultando em magnitudes de saída e distribuição de gradiente mais uniformes ao longo da profundidade, e melhora o desempenho *downstream* em todas as tarefas avaliadas.
Apresentamos o HSImul3R, uma estrutura unificada para reconstrução 3D pronta para simulação de interações humano-cenário (IHC) a partir de capturas casuais, incluindo imagens de visão esparsa e vídeos monoculares. Os métodos existentes sofrem com uma lacuna percepção-simulação: reconstruções visualmente plausíveis frequentemente violam restrições físicas, levando à instabilidade em motores de física e ao fracasso em aplicações de IA incorporada. Para preencher essa lacuna, introduzimos um pipeline de otimização bidimensional fundamentado na física que trata o simulador físico como um supervisor ativo para refinar conjuntamente a dinâmica humana e a geometria da cena. Na direção direta, empregamos Aprendizado por Reforço Direcionado à Cena para otimizar o movimento humano sob dupla supervisão de fidelidade do movimento e estabilidade de contato. Na direção reversa, propomos Otimização de Recompensa por Simulação Direta, que aproveita o *feedback* da simulação sobre estabilidade gravitacional e sucesso da interação para refinar a geometria da cena. Apresentamos ainda o HSIBench, um novo *benchmark* com diversos objetos e cenários de interação. Experimentos extensivos demonstram que o HSImul3R produz as primeiras reconstruções IHC estáveis e prontas para simulação, podendo ser implantado diretamente em robôs humanoides do mundo real.
E se um modelo de simulação mundial pudesse renderizar não um ambiente imaginado, mas uma cidade que realmente existe? Os modelos generativos mundiais anteriores sintetizam ambientes visualmente plausíveis, porém artificiais, ao imaginar todo o conteúdo. Apresentamos o Seoul World Model (SWM), um modelo mundial em escala de cidade baseado na cidade real de Seul. O SWM ancora a geração autorerregressiva de vídeo por meio de condicionamento aumentado por recuperação de imagens de street view próximas. No entanto, este projeto introduz vários desafios, incluindo o desalinhamento temporal entre as referências recuperadas e a cena dinâmica alvo, diversidade limitada de trajetórias e esparsidade de dados provenientes de capturas montadas em veículos em intervalos esparsos. Abordamos esses desafios através do emparelhamento cross-temporal, um grande conjunto de dados sintéticos que permite trajetórias diversificadas de câmera, e um pipeline de interpolação de visualização que sintetiza vídeos de treinamento coerentes a partir de imagens esparsas de street view. Introduzimos ainda um Virtual Lookahead Sink para estabilizar a geração de longo horizonte, reancorando continuamente cada segmento a uma imagem recuperada de uma localização futura. Avaliamos o SWM em comparação com modelos mundiais de vídeo recentes em três cidades: Seul, Busan e Ann Arbor. O SWM supera os métodos existentes na geração de vídeos espacialmente fiéis, temporalmente consistentes e de longo horizonte, baseados em ambientes urbanos reais, ao longo de trajetórias que atingem centenas de metros, ao mesmo tempo que suporta diversos movimentos de câmera e variações de cenário solicitadas por texto.
Os grandes modelos de linguagem estão a evoluir de fornecedores passivos de informação para agentes ativos destinados a fluxos de trabalho complexos. No entanto, a sua implantação como trabalhadores de IA confiáveis nas empresas é dificultada por benchmarks que não captam as complexidades dos ambientes profissionais, especificamente a necessidade de planeamento de longo horizonte no meio de alterações de estado persistentes e protocolos de acesso rigorosos. Neste trabalho, introduzimos o EnterpriseOps-Gym, um benchmark concebido para avaliar o planeamento de agentes em ambientes empresariais realistas. Especificamente, o EnterpriseOps-Gym apresenta um sandbox contentorizado com 164 tabelas de base de dados e 512 ferramentas funcionais para simular a fricção de pesquisa do mundo real. Dentro deste ambiente, os agentes são avaliados em 1.150 tarefas curadas por especialistas em oito verticais críticas (incluindo Serviço ao Cliente, Recursos Humanos e TI). A nossa avaliação de 14 modelos de ponta revela limitações críticas nos modelos mais avançados: o melhor desempenho, do Claude Opus 4.5, atinge apenas 37,4% de sucesso. Uma análise mais aprofundada mostra que fornecer planos humanos oráculo melhora o desempenho em 14-35 pontos percentuais, identificando o raciocínio estratégico como o principal estrangulamento. Adicionalmente, os agentes falham frequentemente em recusar tarefas inviáveis (o melhor modelo atinge 53,9%), levando a efeitos secundários não intencionais e potencialmente prejudiciais. As nossas conclusões sublinham que os agentes atuais ainda não estão prontos para implantação autónoma em ambientes empresariais. De forma mais ampla, o EnterpriseOps-Gym fornece um campo de testes concreto para avançar a robustez do planeamento de agentes em fluxos de trabalho profissionais.
As capacidades de busca profunda tornaram-se uma competência indispensável para agentes de Linguagem de Grande Porte (LLM) de fronteira, contudo, o desenvolvimento de agentes de busca de alto desempenho continua dominado por gigantes industriais devido à falta de dados de treinamento transparentes e de alta qualidade. Esta escassez persistente de dados tem dificultado fundamentalmente o progresso da comunidade de pesquisa mais ampla no desenvolvimento e inovação neste domínio. Para colmatar esta lacuna, introduzimos o OpenSeeker, o primeiro agente de busca totalmente de código aberto (ou seja, modelo e dados) que alcança um desempenho de nível de fronteira através de duas inovações técnicas centrais: (1) Síntese de Perguntas e Respostas (QA) escalável, controlável e baseada em fatos, que faz a engenharia reversa do grafo da web via expansão topológica e ofuscação de entidades para gerar tarefas complexas de raciocínio multi-hop com cobertura e complexidade controláveis. (2) Síntese de trajetória com remoção de ruído, que emprega um mecanismo de sumarização retrospectiva para remover o ruído da trajetória, promovendo assim que os LLMs professores gerem ações de alta qualidade. Resultados experimentais demonstram que o OpenSeeker, treinado (num único ciclo de treino) com apenas 11.7k amostras sintetizadas, alcança um desempenho state-of-the-art em múltiplos benchmarks, incluindo BrowseComp, BrowseComp-ZH, xbench-DeepSearch e WideSearch. Notavelmente, treinado com SFT simples, o OpenSeeker supera significativamente o segundo melhor agente totalmente de código aberto, DeepDive (por exemplo, 29.5% contra 15.3% no BrowseComp), e até ultrapassa concorrentes industriais como o Tongyi DeepResearch (treinado via pré-treinamento contínuo extensivo, SFT e RL) no BrowseComp-ZH (48.4% contra 46.7%). Disponibilizamos totalmente em código aberto o conjunto de dados de treinamento completo e os pesos do modelo para democratizar a pesquisa de agentes de busca de fronteira e fomentar um ecossistema mais transparente e colaborativo.
A escalagem da profundidade é um fator-chave para os grandes modelos de linguagem (LLMs). No entanto, à medida que os LLMs se tornam mais profundos, frequentemente sofrem de degradação do sinal: características informativas formadas nas camadas mais superficiais são gradualmente diluídas por atualizações residuais repetidas, tornando-as mais difíceis de recuperar nas camadas mais profundas. Apresentamos a atenção de mistura de profundidades (MoDA), um mecanismo que permite a cada cabeça de atenção atender a pares KV da sequência na camada atual e a pares KV de profundidade de camadas precedentes. Descrevemos ainda um algoritmo eficiente em hardware para MoDA que resolve padrões de acesso à memória não contíguos, atingindo 97,3% da eficiência do FlashAttention-2 em um comprimento de sequência de 64K. Experimentos em modelos de 1,5B de parâmetros demonstram que o MoDA supera consistentemente linhas de base robustas. Notavelmente, ele melhora a perplexidade média em 0,2 em 10 benchmarks de validação e aumenta o desempenho médio em 2,11% em 10 tarefas subsequentes, com uma sobrecarga computacional de FLOPs insignificante de 3,7%. Também descobrimos que combinar o MoDA com pós-normalização produz um desempenho melhor do que usá-lo com pré-normalização. Esses resultados sugerem que o MoDA é uma primitiva promissora para a escalagem de profundidade. O código foi disponibilizado em https://github.com/hustvl/MoDA.
Houve inúmeras tentativas de destilar grandes modelos de linguagem (LLMs) baseados em atenção quadrática em arquiteturas linearizadas sub-quadráticas. No entanto, apesar de pesquisas extensas, tais modelos destilados frequentemente não conseguem igualar o desempenho de seus LLMs professores em várias tarefas subsequentes. Estabelecemos o objetivo de destilação sem perdas, que definimos em termos de taxas de Vitória e Empate corrigidas por tolerância entre o estudante e o professor em conjuntos de tarefas. Para este fim, introduzimos um *pipeline* de destilação eficaz para estudantes baseados em xLSTM. Propomos uma etapa adicional de fusão, onde especialistas individualmente linearizados são combinados em um único modelo. Demonstramos a eficácia deste *pipeline* destilando modelos base e ajustados por instrução das famílias Llama, Qwen e Olmo. Em muitos cenários, nossos estudantes baseados em xLSTM recuperam a maior parte do desempenho do professor e até o superam em algumas tarefas subsequentes. Nossas contribuições são um passo importante em direção a substitutos mais energeticamente eficientes e econômicos para LLMs baseados em *transformers*.
Os Modelos de Visão e Linguagem (VLMs) frequentemente "alucinam" - geram afirmações plausíveis, mas factualmente incorretas - representando uma barreira crítica para a sua implantação confiável. Neste trabalho, propomos um novo paradigma para diagnosticar alucinações, reformulando-as de erros estáticos de saída para patologias dinâmicas da cognição computacional do modelo. Nosso quadro está fundamentado num princípio normativo de racionalidade computacional, permitindo-nos modelar a geração de um VLM como uma trajetória cognitiva dinâmica. Projetamos um conjunto de sondas de teoria da informação que projetam esta trajetória num Espaço de Estado Cognitivo interpretável e de baixa dimensão. Nossa descoberta central é um princípio regulador que denominamos dualidade geométrica-informacional: a anormalidade geométrica de uma trajetória cognitiva dentro deste espaço é fundamentalmente equivalente ao seu alto surpreendimento (surprisal) informacional. A detecção de alucinação é tratada como um problema de detecção de anomalias geométricas. Avaliado em diversos contextos - desde QA binário rigoroso (POPE) e raciocínio abrangente (MME) até legendagem (captioning) de resposta aberta sem restrições (MS-COCO) - nosso quadro alcança desempenho de ponta. Crucialmente, opera com alta eficiência sob supervisão fraca e mantém-se altamente robusto mesmo quando os dados de calibração estão fortemente contaminados. Esta abordagem permite uma atribuição causal de falhas, mapeando erros observáveis para estados patológicos distintos: instabilidade perceptual (medida pela Entropia Perceptual), falha lógico-causal (medida pelo Conflito Inferencial) e ambiguidade decisional (medida pela Entropia Decisória). Em última análise, isto abre um caminho para a construção de sistemas de IA cujo raciocínio seja transparente, auditável e diagnosticável por projeto.
O treinamento de agentes web autónomos é fundamentalmente limitado pelos ambientes a partir dos quais aprendem: os sites do mundo real são inseguros para explorar, difíceis de reiniciar e raramente fornecem *feedback* verificável. Propomos o VeriEnv, uma estrutura que trata os modelos de linguagem como criadores de ambientes, clonando automaticamente sites do mundo real em ambientes sintéticos totalmente executáveis e verificáveis. Ao expor acesso interno controlado através de um SDK em Python, o VeriEnv permite que os agentes auto-gerem tarefas com recompensas determinísticas e verificáveis programaticamente, eliminando a dependência de avaliadores baseados em heurísticas ou em LLM. Este projeto desacopla a aprendizagem do agente da interação insegura com o mundo real, permitindo simultaneamente uma auto-evolução escalável através da expansão do ambiente. Através de experiências em benchmarks de agentes web, mostramos que os agentes treinados com o VeriEnv generalizam para sites não vistos, alcançam domínio específico do site através de treino auto-evolutivo e beneficiam da escalabilidade do número de ambientes de treino. O código e os recursos serão disponibilizados em https://github.com/kyle8581/VeriEnv após aceitação.
Os Transformadores de Difusão (DiTs) demonstraram escalabilidade e qualidade notáveis na geração de imagens e vídeos, despertando crescente interesse na sua extensão para tarefas de geração e edição controladas. No entanto, em comparação com as suas contrapartes de imagem, o progresso no controle e edição de vídeo permanece limitado, principalmente devido à escassez de dados de vídeo emparelhados e ao alto custo computacional do treinamento de modelos de difusão de vídeo. Para resolver esta questão, propomos neste artigo uma estrutura de ajuste livre de vídeo denominada ViFeEdit para transformadores de difusão de vídeo. Sem exigir qualquer forma de dados de treinamento em vídeo, o ViFeEdit alcança geração e edição de vídeo versáteis, adaptadas apenas com imagens 2D. O cerne da nossa abordagem é uma reparametrização arquitetônica que desacopla a independência espacial da atenção 3D completa nos modernos transformadores de difusão de vídeo, o que permite uma edição visualmente fiel enquanto mantém a consistência temporal com apenas parâmetros adicionais mínimos. Além disso, este projeto opera num pipeline de duplo caminho com incorporações de *timestep* separadas para agendamento de ruído, exibindo forte adaptabilidade a diversos sinais de condicionamento. Experimentos extensivos demonstram que o nosso método produz resultados promissores de geração e edição de vídeo controlável com treinamento mínimo apenas em dados de imagem 2D. Os códigos estão disponíveis em https://github.com/Lexie-YU/ViFeEdit.
A otimização de sistemas complexos, desde prompts de LLM até agentes multi-turn, requer tradicionalmente uma iteração manual intensiva. Formalizamos este desafio como um problema de otimização generativa estocástica, no qual um modelo de linguagem generativo atua como otimizador, guiado por recompensas numéricas e feedback textual para descobrir o melhor sistema. Introduzimos o POLCA (Prioritized Optimization with Local Contextual Aggregation), uma estrutura escalável concebida para lidar com a estocasticidade na otimização — como feedback ruidoso, amostragem de minibatches e comportamentos estocásticos do sistema — enquanto gere eficazmente a expansão não restrita do espaço de soluções. O POLCA mantém uma fila de prioridades para gerir o compromisso entre exploração e exploração, acompanhando sistematicamente soluções candidatas e os seus históricos de avaliação. Para aumentar a eficiência, integramos um mecanismo de ε-Rede para manter a diversidade de parâmetros e um Resumidor de LLM para realizar meta-aprendizagem através de tentativas históricas. Provamos teoricamente que o POLCA converge para soluções candidatas quase ótimas sob estocasticidade. Avaliamos a nossa estrutura em diversas benchmarks, incluindo τ-bench, HotpotQA (otimização de agentes), VeriBench (tradução de código) e KernelBench (geração de kernels CUDA). Os resultados experimentais demonstram que o POLCA alcança um desempenho robusto, eficiente em amostras e em tempo, superando consistentemente os algoritmos state-of-the-art tanto em problemas determinísticos como estocásticos. A base de código deste trabalho está publicamente disponível em https://github.com/rlx-lab/POLCA.
Com a crescente implantação de agentes de IA como sistemas de longa duração, torna-se essencial construir de forma autónoma e evoluir continuamente software personalizado para permitir a interação em ambientes dinâmicos. No entanto, os benchmarks existentes avaliam os agentes em tarefas de codificação isoladas e únicas, negligenciando as dependências temporais e a dívida técnica inerentes à evolução do software do mundo real. Para colmatar esta lacuna, introduzimos o DeepCommit, um pipeline agentivo que reconstrói Grafos Acíclicos Direcionados (DAGs) de Marcos verificáveis a partir de registos de commits ruidosos, onde os marcos são definidos como objetivos de desenvolvimento semanticamente coesos. Estas sequências executáveis permitem o EvoClaw, um novo benchmark que exige que os agentes mantenham a integridade do sistema e limitem a acumulação de erros, dimensões da evolução de software de longo prazo largamente ausentes dos benchmarks atuais. A nossa avaliação de 12 modelos de ponta em 4 frameworks de agentes revela uma vulnerabilidade crítica: as pontuações gerais de desempenho caem significativamente de >80% em tarefas isoladas para no máximo 38% em ambientes contínuos, expondo a luta profunda dos agentes com a manutenção de longo prazo e a propagação de erros.
Os benchmarks existentes para geração web dependem de prompts de texto ou capturas de estáticas como entrada. No entanto, os vídeos transmitem naturalmente sinais mais ricos, como fluxo de interação, temporização de transições e continuidade de movimento, que são essenciais para uma recriação fiel de páginas web. Apesar deste potencial, a geração de páginas web condicionada por vídeo permanece amplamente inexplorada, sem um benchmark dedicado para esta tarefa. Para preencher esta lacuna, introduzimos o WebVR, um benchmark que avalia se os MLLMs podem recriar fielmente páginas web a partir de vídeos de demonstração. O WebVR contém 175 páginas web de diversas categorias, todas construídas através de um pipeline de síntese controlada (e não por web crawling), garantindo demonstrações variadas e realistas sem sobreposição com páginas online existentes. Também concebemos uma rubrica visual detalhada e alinhada com a avaliação humana, que avalia as páginas geradas em múltiplas dimensões. Experiências com 19 modelos revelam lacunas substanciais na recriação de estilo detalhado e qualidade de movimento, enquanto a avaliação automática baseada na rubrica atinge 96% de concordância com as preferências humanas. Disponibilizamos o conjunto de dados, o kit de ferramentas de avaliação e os resultados de base para apoiar pesquisas futuras sobre geração de vídeo-para-webpage.
Os Grandes Modelos de Raciocínio (LRMs) alcançam desempenho impressionante em tarefas complexas de raciocínio através do raciocínio em Cadeia de Pensamento (CoT), que lhes permite gerar tokens intermediários de pensamento antes de chegar à resposta final. No entanto, os LRMs frequentemente sofrem de excesso de reflexão (overthinking), gastando tempo computacional excessivo mesmo após a resposta ser gerada precocemente. Trabalhos anteriores identificaram a existência de um comprimento de raciocínio ótimo, de modo que truncar o raciocínio neste ponto encurta significativamente as saídas CoT com praticamente nenhuma alteração no desempenho. No entanto, determinar os comprimentos CoT ótimos para conjuntos de dados práticos é altamente complexo, pois são totalmente dependentes da tarefa e do modelo. Neste artigo, abordamos precisamente este problema e projetamos o TERMINATOR, uma estratégia de saída antecipada (early-exit) para LRMs durante a inferência para mitigar o excesso de reflexão. A ideia central do TERMINATOR é que a primeira ocorrência da resposta final de um LRM é frequentemente previsível, e nós aproveitamos estas primeiras posições de resposta para criar um novo conjunto de dados de comprimentos de raciocínio ótimos para treinar o TERMINATOR. Com base nesta abordagem, o TERMINATOR alcança reduções significativas nos comprimentos CoT de 14% a 55% em média em quatro conjuntos de dados práticos e desafiadores: MATH-500, AIME 2025, HumanEval e GPQA, superando ao mesmo tempo os métodos state-of-the-art atuais.
A motivação é um fator central do comportamento humano, moldando decisões, objetivos e desempenho em tarefas. À medida que os grandes modelos de linguagem (LLMs) se tornam cada vez mais alinhados com as preferências humanas, questionamos se eles exibem algo semelhante à motivação. Investigamos se os LLMs "relatam" níveis variados de motivação, como esses relatos se relacionam com seu comportamento e se fatores externos podem influenciá-los. Nossos experimentos revelam padrões consistentes e estruturados que ecoam a psicologia humana: a motivação autorrelatada alinha-se com diferentes assinaturas comportamentais, varia de acordo com os tipos de tarefa e pode ser modulada por manipulações externas. Esses achados demonstram que a motivação é um constructo organizador coerente para o comportamento dos LLMs, ligando sistematicamente relatos, escolhas, esforço e desempenho, e revelando dinâmicas motivacionais que se assemelham às documentadas na psicologia humana. Esta perspectiva aprofunda nossa compreensão do comportamento do modelo e sua conexão com conceitos inspirados no ser humano.
Todos os classificadores, incluindo modelos de visão computacional de última geração, possuem invariantes, parcialmente enraizados na geometria de seus mapeamentos lineares. Esses invariantes, que residem no espaço nulo do classificador, induzem conjuntos equivalentes de entradas que mapeiam para saídas idênticas. O conteúdo semântico desses invariantes permanece vago, uma vez que as abordagens existentes lutam para fornecer informações interpretáveis por humanos. Para preencher essa lacuna, apresentamos a Interpretação Semântica da Geometria do Espaço Nulo (SING), um método que constrói imagens equivalentes, em relação à rede, e atribui interpretações semânticas às variações disponíveis. Utilizamos um mapeamento de características da rede para modelos de linguagem visual multimodal. Isso nos permite obter descrições em linguagem natural e exemplos visuais das mudanças semânticas induzidas. O SING pode ser aplicado a uma única imagem, revelando invariantes locais, ou a conjuntos de imagens, permitindo uma ampla análise estatística nos níveis de classe e modelo. Por exemplo, nosso método revela que o ResNet50 vaza atributos semânticos relevantes para o espaço nulo, enquanto o DinoViT, um ViT pré-treinado com DINO auto supervisionado, é superior em manter a semântica da classe através do espaço invariante.
Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm demonstrado forte desempenho na compreensão visual e auditiva quando avaliados isoladamente. No entanto, a sua capacidade de raciocinar conjuntamente sobre sinais omni-modais (visuais, auditivos e textuais) em vídeos longos e complexos permanece largamente inexplorada. Apresentamos o MMOU, um novo benchmark concebido para avaliar sistematicamente a compreensão e o raciocínio multimodal nestas condições desafiadoras do mundo real. O MMOU consiste em 15.000 questões cuidadosamente selecionadas, emparelhadas com 9038 vídeos recolhidos da web com durações variadas, abrangendo domínios diversos e exibindo conteúdos audiovisuais ricos e fortemente acoplados. O benchmark abrange 13 categorias de competências fundamentais, todas exigindo a integração de evidências entre modalidades e ao longo do tempo. Todas as questões são anotadas manualmente em múltiplas iterações por anotadores profissionais, garantindo alta qualidade e fidelidade de raciocínio. Avaliamos mais de 20 modelos multimodais de última geração, de código aberto e proprietários, no MMOU. Os resultados expõem lacunas substanciais de desempenho: o melhor modelo proprietário atinge apenas 64,2% de precisão, enquanto o modelo de código aberto mais forte alcança apenas 46,8%. Os nossos resultados destacam os desafios da compreensão omni-modal de longa duração, revelando que os modelos atuais falham frequentemente em aplicar mesmo competências fundamentais em vídeos longos. Através de uma análise detalhada, identificamos ainda modos de falha sistemáticos e fornecemos perspetivas sobre onde e por que razão os modelos atuais falham.
Os LLMs frequentemente exibem momentos de insight durante o raciocínio, como aparentes autocorreções após tokens como "Espere", mas seus mecanismos subjacentes permanecem obscuros. Introduzimos uma estrutura teórica da informação que decompõe o raciocínio em informação processual e verbalização epistêmica - a externalização explícita de incerteza que suporta ações de controle subsequentes. Demonstramos que o raciocínio puramente processual pode tornar-se informacionalmente estagnado, enquanto a verbalização epistêmica permite a aquisição contínua de informação e é crucial para atingir a suficiência informacional. Resultados empíricos demonstram que o forte desempenho do raciocínio é impulsionado pela externalização da incerteza, e não por tokens superficiais específicos. Nossa estrutura unifica descobertas anteriores sobre momentos de insight e experimentos pós-treinamento, e oferece insights para o futuro design de modelos de raciocínio.
A geração de movimento humano é frequentemente aprendida em espaços Euclidianos, embora movimentos válidos sigam uma geometria não-Euclidiana estruturada. Apresentamos a Geração de Movimento Riemanniana (RMG), uma estrutura unificada que representa o movimento em um manifold produto e aprende dinâmicas via correspondência de fluxo Riemanniano. A RMG fatoriza o movimento em vários fatores de manifold, resultando numa representação livre de escala com normalização intrínseca, e usa interpolação geodésica, supervisão no espaço tangente e integração de EDOs que preserva o manifold para treinamento e amostragem. No HumanML3D, a RMG alcança FID state-of-the-art no formato HumanML3D (0.043) e classifica-se em primeiro lugar em todas as métricas reportadas sob o formato MotionStreamer. No MotionMillion, também supera baselines fortes (FID 5.6, R@1 0.86). Ablações mostram que a representação compacta T+R (translação + rotações) é a mais estável e eficaz, destacando a modelagem consciente da geometria como uma rota prática e escalável para a geração de movimento de alta fidelidade.
A aprendizagem por reforço para geração de código baseia-se em recompensas verificáveis provenientes de taxas de aprovação em testes unitários. No entanto, conjuntos de testes de alta qualidade são escassos, os conjuntos de dados existentes oferecem cobertura limitada e as recompensas estáticas não se adaptam à medida que os modelos melhoram. Métodos recentes de auto-jogo unificam a geração de código e de testes num único modelo, mas enfrentam um dilema inerente: o acesso white-box leva a auto-conluio, em que o modelo produz testes triviais para recompensas fáceis, enquanto a restrição black-box gera testes genéricos que não detetam erros específicos da implementação. Apresentamos o Code-A1, uma estrutura de co-evolução adversarial que otimiza conjuntamente um Modelo de Linguagem de Código (Code LLM) e um Modelo de Linguagem de Teste (Test LLM) com objetivos opostos. O Code LLM é recompensado por passar em mais testes, enquanto o Test LLM é recompensado por expor mais defeitos. Esta separação arquitetónica elimina os riscos de auto-conluio e permite, com segurança, a geração de testes white-box, onde o Test LLM pode inspecionar o código candidato para criar testes adversarialmente direcionados. Introduzimos ainda um mecanismo de Livro de Erros para replay de experiência e uma recompensa composta que equilibra a validade do teste com a dificuldade adversarial. Experiências com modelos Qwen2.5-Coder demonstram que o Code-A1 atinge um desempenho de geração de código equivalente ou superior a modelos treinados com testes anotados por humanos, enquanto melhora significativamente a capacidade de geração de testes.
O modelo de linguagem de grande escala (LLM) pré-treinado exibe capacidades amplas, contudo, para tarefas ou domínios específicos, a obtenção de maior precisão e raciocínio mais confiável geralmente depende do pós-treinamento através do Ajuste Fino Supervisionado (SFT) ou Aprendizado por Reforço (RL). Embora frequentemente tratadas como metodologias distintas, desenvolvimentos teóricos e empíricos recentes demonstram que SFT e RL estão estreitamente conectados. Este estudo apresenta uma perspectiva abrangente e unificada sobre o pós-treinamento de LLMs com SFT e RL. Primeiro, fornecemos uma visão detalhada de ambas as técnicas, examinando seus objetivos, estruturas algorítmicas e requisitos de dados. Em seguida, analisamos sistematicamente sua interação, destacando estruturas que integram SFT e RL, pipelines de treinamento híbridos e métodos que aproveitam seus pontos fortes complementares. Com base em um conjunto representativo de estudos de aplicação recentes de 2023 a 2025, identificamos tendências emergentes, caracterizamos a rápida transição para paradigmas de pós-treinamento híbridos e destilamos conclusões-chave que esclarecem quando e por que cada método é mais eficaz. Ao sintetizar percepções teóricas, metodologias práticas e evidências empíricas, este estudo estabelece uma compreensão coerente de SFT e RL dentro de uma estrutura unificada e delineia direções promissoras para pesquisas futuras em pós-treinamento de LLMs escalável, eficiente e generalizável.
Apresentamos o PokeAgent Challenge, um benchmark em larga escala para pesquisa em tomada de decisão, construído sobre o sistema de batalha multiagente de Pokémon e seu ambiente expansivo de jogo de RPG. A observabilidade parcial, o raciocínio da teoria dos jogos e o planejamento de longo prazo permanecem como problemas em aberto para a IA de fronteira, mas poucos benchmarks testam os três simultaneamente sob condições realistas. O PokeAgent visa superar essas limitações em escala por meio de duas modalidades complementares: nossa Modalidade de Batalha, que exige raciocínio estratégico e generalização sob observabilidade parcial em batalhas competitivas de Pokémon, e nossa Modalidade de Speedrunning, que requer planejamento de longo prazo e tomada de decisão sequencial no RPG de Pokémon. Nossa Modalidade de Batalha fornece um conjunto de dados com mais de 20 milhões de trajetórias de batalha, juntamente com um conjunto de linhas de base heurísticas, de RL (aprendizado por reforço) e baseadas em LLM (modelos de linguagem grandes) capazes de um desempenho competitivo de alto nível. Nossa Modalidade de Speedrunning fornece o primeiro framework de avaliação padronizado para speedrunning de RPG, incluindo um sistema de orquestração multiagente de código aberto para comparações modulares e reproduzíveis de abordagens de LLM baseadas em *harness*. Nossa competição no NeurIPS 2025 valida tanto a qualidade de nossos recursos quanto o interesse da comunidade de pesquisa em Pokémon, com mais de 100 equipes competindo em ambas as modalidades e as soluções vencedoras detalhadas em nosso artigo. Submissões dos participantes e nossas linhas de base revelam lacunas consideráveis entre o desempenho de modelos generalistas (LLM), especialistas (RL) e de elite humano. A análise contra a matriz de avaliação BenchPress mostra que as batalhas de Pokémon são quase ortogonais aos benchmarks padrão de LLM, medindo capacidades não capturadas por conjuntos existentes e posicionando Pokémon como um benchmark não resolvido que pode impulsionar a pesquisa em RL e LLM. Fazemos a transição para um benchmark vivo com uma *leaderboard* ao vivo para a Modalidade de Batalha e avaliação autônoma para a Modalidade de Speedrunning em https://pokeagentchallenge.com.
Como revelado pela lei de escalabilidade do MoE de granularidade fina, o desempenho do modelo deixa de melhorar quando a granularidade da dimensão intermediária ultrapassa o limiar ótimo, limitando ganhos adicionais do design de granularidade fina unidimensional. Para superar este gargalo, propomos o FineRMoE (MoE de Granularidade Mais Fina), uma arquitetura que estende o design de especialistas de granularidade fina para as dimensões intermediária e de saída, visando aprimorar a especialização dos especialistas além do limite unidimensional. Introduzimos ainda um paradigma de computação direta esparsa de dois níveis e um mecanismo de roteamento especializado para governar a ativação. Além disso, para evitar o custo proibitivo de treinar o FineRMoE a partir do zero, concebemos um método generalizado de *upcycling* para construir o FineRMoE de maneira economicamente viável. Experimentos extensivos demonstram o desempenho superior alcançado pelo FineRMoE em dez *benchmarks* padrão. Em comparação com a linha de base mais forte, o FineRMoE alcança eficiência de parâmetros 6 vezes maior, latência de pré-preenchimento 281 vezes menor e taxa de transferência de decodificação 136 vezes maior durante a inferência.
A previsão de affordances serve como uma ponte crítica entre percepção e ação na IA corporificada. No entanto, a pesquisa existente está confinada a modelos de câmera pinhole, que sofrem com Campos de Visão (FoV) estreitos e observações fragmentadas, frequentemente perdendo o contexto ambiental holístico crítico. Neste artigo, apresentamos a primeira exploração em Previsão de Affordances Panorâmica, utilizando imagens de 360 graus para capturar relações espaciais globais e compreensão holística da cena. Para facilitar esta nova tarefa, primeiro introduzimos o PAP-12K, um conjunto de dados de referência em larga escala contendo mais de 1.000 imagens panorâmicas de ultra-alta resolução (12k, 11904 x 5952) com mais de 12 mil pares de perguntas e respostas cuidadosamente anotados e máscaras de affordance. Além disso, propomos o PAP, um pipeline de treinamento gratuito, do grosso ao fino, inspirado no sistema visual foveal humano para lidar com a ultra-alta resolução e a distorção severa inerente às imagens panorâmicas. O PAP emprega roteamento visual recursivo via grid prompting para localizar progressivamente os alvos, aplica um mecanismo de gaze adaptativo para retificar distorções geométricas locais e utiliza um pipeline de aterramento em cascata para extrair máscaras precisas a nível de instância. Resultados experimentais no PAP-12K revelam que os métodos existentes de previsão de affordances projetados para imagens perspectivas padrão sofrem uma severa degradação de desempenho e falham devido aos desafios únicos da visão panorâmica. Em contraste, a estrutura PAP supera efetivamente esses obstáculos, superando significativamente as linhas de base state-of-the-art e destacando o imenso potencial da percepção panorâmica para uma inteligência corporificada robusta.
Após grandes avanços na geração de texto e imagem, o domínio de vídeo teve um crescimento exponencial, produzindo sequências altamente realistas e controláveis. Paralelamente a este progresso, estes modelos também levantam sérias preocupações sobre desinformação, tornando a detecção confiável de vídeos sintéticos cada vez mais crucial. Os detectores baseados em imagem são fundamentalmente limitados porque operam por fotograma e ignoram a dinâmica temporal, enquanto os detectores de vídeo supervisionados generalizam mal para geradores não vistos, uma desvantagem crítica dada a rápida emergência de novos modelos. Estes desafios motivam abordagens de detecção *zero-shot*, que evitam dados sintéticos e, em vez disso, avaliam o conteúdo com base em estatísticas de dados reais, permitindo uma detecção livre de treinamento e independente do modelo. Apresentamos o STALL, um detector simples, livre de treinamento e teoricamente fundamentado que fornece uma pontuação baseada em verossimilhança para vídeos, modelando conjuntamente evidências espaciais e temporais dentro de uma estrutura probabilística. Avaliamos o STALL em dois benchmarks públicos e introduzimos o ComGenVid, um novo benchmark com modelos generativos de última geração. O STALL supera consistentemente as linhas de base anteriores baseadas em imagem e vídeo. O código e os dados estão disponíveis em https://omerbenhayun.github.io/stall-video.
A reluminação a partir de uma única imagem é altamente subdeterminada: pequenas alterações na iluminação podem produzir variações não lineares significativas em sombreamento, sombras e brilhos especulares, enquanto a geometria e os materiais permanecem não observados. As abordagens existentes baseadas em difusão ou dependem de *pipelines* intrínsecos ou de *G-buffers* que exigem supervisão densa e frágil, ou operam puramente no espaço latente sem fundamentação física, tornando o controle refinado de direção, intensidade e cor não confiável. Observamos que uma decomposição intrínseca completa é desnecessária e redundante para uma reluminação precisa. Em vez disso, pistas esparsas, mas fisicamente significativas, que indicam onde a iluminação deve mudar e como os materiais devem responder, são suficientes para orientar um modelo de difusão. Com base nessa percepção, introduzimos o LightCtrl, que integra *priors* físicos em dois níveis: um codificador *proxy* latente de *few-shot* que extrai pistas compactas de material-geometria a partir de supervisão limitada por PBR (*Physically Based Rendering*), e uma máscara consciente da iluminação que identifica regiões sensíveis à iluminação e direciona o desruidor para os *pixels* relevantes de sombreamento. Para compensar a escassez de dados PBR, refinamos o ramo *proxy* usando um objetivo baseado em DPO (*Direct Preference Optimization*) que impõe consistência física nas pistas previstas. Também apresentamos o ScaLight, um conjunto de dados em larga escala em nível de objeto com iluminação variada sistematicamente e metadados completos de câmera-luz, permitindo um treinamento fisicamente consistente e controlável. Em *benchmarks* de nível de objeto e cena, nosso método alcança uma reluminação fotometricamente fiel com controle contínuo preciso, superando as linhas de base anteriores baseadas em difusão e métodos intrínsecos, incluindo ganhos de até +2.4 dB de PSNR e 35% menor RMSE sob mudanças de iluminação controladas.
Os modelos de mundo de sensoriamento remoto visam tanto explicar mudanças observadas quanto prever futuros plausíveis, duas tarefas que compartilham prévios espaço-temporais. No entanto, os métodos existentes normalmente as abordam separadamente, limitando a transferência entre tarefas. Apresentamos o RS-WorldModel, um modelo de mundo unificado para sensoriamento remoto que lida conjuntamente com a compreensão de mudanças espaço-temporais e a previsão de cenas futuras guiada por texto, e construímos o RSWBench-1.1M, um conjunto de dados com 1,1 milhão de amostras e ricas anotações linguísticas cobrindo ambas as tarefas. O RS-WorldModel é treinado em três estágios: (1) O Pré-treinamento Generativo Geo-Consciente (GAGP) condiciona a previsão em metadados geográficos e de aquisição; (2) o ajuste sinérgico por instrução (SIT) treina conjuntamente a compreensão e a previsão; (3) a otimização por reforço verificável (VRO) refina as saídas com recompensas específicas da tarefa e verificáveis. Com apenas 2B de parâmetros, o RS-WorldModel supera modelos de código aberto até 120 vezes maiores na maioria das métricas de questionamento e resposta sobre mudanças espaço-temporais. Ele alcança um FID de 43,13 na previsão de cenas futuras guiada por texto, superando todas as linhas de base de código aberto, bem como o modelo de código fechado Gemini-2.5-Flash Image (Nano Banana).
A IA pode fazer progresso em problemas matemáticos importantes e não resolvidos? Modelos de linguagem de grande porte são agora capazes de raciocínio matemático e científico sofisticado, mas a sua capacidade de realizar pesquisas genuinamente novas ainda é amplamente debatida e pouco explorada. Apresentamos o HorizonMath, um benchmark com mais de 100 problemas predominantemente não resolvidos, abrangendo 8 domínios da matemática computacional e aplicada, acompanhado de uma estrutura de avaliação de código aberto para verificação automatizada. O nosso benchmark foca-se numa classe de problemas em que a descoberta é difícil, exigindo um insight matemático significativo, mas onde a verificação é computacionalmente eficiente e simples. Como estas soluções são desconhecidas, o HorizonMath é imune à contaminação de dados, e a maioria dos modelos state-of-the-art tem pontuações próximas de 0%. Os benchmarks existentes ao nível da investigação, em contraste, dependem de verificação formal de provas ou revisão manual, ambos dispendiosos para escalar. Usando esta plataforma, encontramos dois problemas para os quais o GPT 5.4 Pro propõe soluções que melhoram os melhores resultados publicados conhecidos, representando potenciais contribuições novas (sujeitas a revisão por especialistas). Disponibilizamos o HorizonMath como um desafio aberto e um recurso comunitário em crescimento, onde soluções corretas para problemas nas classes de problemas não resolvidos poderão constituir resultados novos na literatura matemática.
A raciocínio em vídeo requer que os modelos localizem e rastreiem evidências relevantes para a pergunta ao longo dos frames. Embora o aprendizado por reforço (RL) com recompensas verificáveis melhore a precisão, ele ainda enfrenta dificuldades para alcançar uma fundamentação espaço-temporal confiável durante o processo de raciocínio. Além disso, a melhoria da fundamentação geralmente depende de dados de treinamento em escala ou de ferramentas de percepção no momento da inferência, o que aumenta o custo de anotação ou o custo computacional. Para enfrentar este desafio, propomos o VisonCoach, uma estrutura de RL adaptativa à entrada que melhora a fundamentação espaço-temporal por meio de *prompting* visual como orientação durante o treinamento. Durante o treinamento de RL, os *prompts* visuais são aplicados seletivamente a entradas desafiadoras para amplificar evidências relevantes à pergunta e suprimir distrações. O modelo então internaliza essas melhorias por meio de auto-distilação, permitindo um raciocínio fundamentado diretamente em vídeos brutos sem *prompting* visual na inferência. O VisonCoach consiste em dois componentes: (1) o Seletor de *Prompt* Visual, que prevê os tipos de *prompt* apropriados condicionados ao vídeo e à pergunta, e (2) o Raciocinador Espaço-Temporal, otimizado com RL sob orientação de *prompt* visual e recompensas de fundamentação conscientes de objetos que impõem consistência de identidade de objeto e sobreposição de caixas delimitadoras de múltiplas regiões. Experimentos extensivos demonstram que o VisonCoach alcança desempenho de última geração em configurações comparáveis, em diversos benchmarks de raciocínio em vídeo, compreensão de vídeo e fundamentação temporal (V-STAR, VideoMME, World-Sense, VideoMMMU, PerceptionTest e Charades-STA), mantendo um único caminho de inferência eficiente sem ferramentas externas. Nossos resultados mostram que o *prompting* visual durante o treinamento melhora o raciocínio em vídeo fundamentado, enquanto a auto-distilação permite que o modelo internalize essa capacidade sem exigir *prompts* no momento da inferência.
Os recentes avanços na geração de vídeo com controlo de trajetória têm alcançado progressos notáveis. Os métodos anteriores utilizam principalmente arquiteturas baseadas em adaptadores para um controlo preciso do movimento ao longo de trajetórias predefinidas. No entanto, todos estes métodos dependem de um processo de eliminação de ruído em múltiplas etapas, resultando numa substancial redundância temporal e sobrecarga computacional. Embora os métodos existentes de destilação de vídeo consigam destilar geradores multi-etapa em versões de poucas etapas, a aplicação direta destas abordagens à geração de vídeo com controlo de trajetória resulta numa degradação perceptível tanto na qualidade do vídeo como na precisão da trajetória. Para colmatar esta lacuna, introduzimos o FlashMotion, uma nova estrutura de treino concebida para a geração de vídeo com controlo de trajetória em poucas etapas. Primeiro, treinamos um adaptador de trajetória num gerador de vídeo multi-etapa para um controlo preciso da trajetória. Em seguida, destilamos o gerador numa versão de poucas etapas para acelerar a geração de vídeo. Por fim, afinamos o adaptador usando uma estratégia híbrida que combina objetivos de difusão e adversariais, alinhando-o com o gerador de poucas etapas para produzir vídeos de alta qualidade e com precisão de trajetória. Para avaliação, introduzimos o FlashBench, um benchmark para geração de vídeo com controlo de trajetória em sequências longas, que mede tanto a qualidade do vídeo como a precisão da trajetória com diferentes números de objetos em primeiro plano. Experiências em duas arquiteturas de adaptadores mostram que o FlashMotion supera os métodos existentes de destilação de vídeo e os modelos multi-etapa anteriores, tanto na qualidade visual como na consistência da trajetória.
Trabalhos recentes demonstraram a maldição da profundidade em modelos de linguagem grandes (LLMs), onde as camadas posteriores contribuem menos para a aprendizagem e representação do que as camadas iniciais. Tal subutilização está ligada ao crescimento acumulado da variância na Pré-Normalização de Camada, que pode empurrar blocos profundos para um comportamento quase identitário. Neste artigo, demonstramos que a esparsidade, para além de permitir eficiência, atua como um regulador da propagação de variância e, assim, melhora a utilização da profundidade. A nossa investigação abrange duas fontes de esparsidade: (i) esparsidade implícita, que emerge de condições de treino e de dados, incluindo a esparsidade de pesos induzida pela decadência de pesos e a esparsidade de atenção induzida por entradas de contexto longo; e (ii) esparsidade explícita, que é imposta pelo design arquitetural, incluindo a esparsidade de partilha de chave/valor na Atenção de Consulta Agrupada e a esparsidade de ativação de especialistas em Mistura de Especialistas. A nossa afirmação é amplamente suportada por experiências controladas de escalonamento de profundidade e intervenções direcionadas na eficácia das camadas. Em várias configurações, observamos uma relação consistente: a esparsidade melhora a utilização das camadas ao reduzir a variância da saída e promover a diferenciação funcional. Acabamos por destilar as nossas descobertas numa regra prática para treinar LLMs eficazes em profundidade, obtendo uma notável melhoria de 4,6% na precisão em tarefas subsequentes. Os nossos resultados revelam a esparsidade, que surge naturalmente de escolhas de design padrão, como um mecanismo chave, mas anteriormente negligenciado, para o escalonamento eficaz da profundidade em LLMs. O código está disponível em https://github.com/pUmpKin-Co/SparsityAndCoD.
Apresentamos o ScienceClaw + Infinite, uma estrutura para investigação científica autónoma na qual agentes independentes conduzem pesquisas sem coordenação central, e qualquer contribuidor pode implementar novos agentes num ecossistema partilhado. O sistema é construído em torno de três componentes: um registo extensível de mais de 300 competências científicas interoperáveis, uma camada de artefactos que preserva a linhagem computacional completa como um grafo acíclico direcionado (DAG), e uma plataforma estruturada para o discurso científico baseado em agentes com governança consciente da proveniência. Os agentes selecionam e encadeiam ferramentas com base nos seus perfis científicos, produzem artefactos imutáveis com metadados tipados e linhagem parental, e difundem necessidades de informação não satisfeitas para um índice global partilhado. O ArtifactReactor permite coordenação sem planeamento: agentes pares descobrem e satisfazem necessidades em aberto através de uma pontuação baseada em pressão, enquanto a correspondência por sobreposição de esquemas desencadeia síntese multi-parental através de análises independentes. Uma camada de mutação autónoma poda ativamente o DAG de artefactos em expansão para resolver fluxos de trabalho conflituosos ou redundantes, enquanto uma memória persistente permite que os agentes construam continuamente sobre estados epistémicos complexos ao longo de múltiplos ciclos. O Infinite converte estes resultados em registos científicos auditáveis através de publicações estruturadas, vistas de proveniência e relações de discurso legíveis por máquina, com o feedback da comunidade a orientar ciclos subsequentes de investigação. Através de quatro investigações autónomas – conceção de péptidos para o recetor de somatostatina SSTR2, triagem de cerâmicas leves e resistentes a impactos, ressonância transdomínio ligando biologia, materiais e música, e construção formal de analogias entre morfologia urbana e evolução de fronteiras de grão – a estrutura demonstra encadeamento heterogéneo de ferramentas, convergência emergente entre agentes a operar independentemente e raciocínio rastreável desde a computação bruta até à descoberta publicada.
Os recentes modelos de difusão de vídeo têm feito progressos notáveis na qualidade visual, mas o controle preciso e granular permanece um gargalo fundamental que limita a customização prática para a criação de conteúdo. Para criadores de vídeo com IA, três formas de controle são cruciais: (i) composição de cena, (ii) customização consistente de sujeitos em múltiplas vistas e (iii) ajuste de pose de câmera ou movimento de objetos. Os métodos existentes normalmente lidam com essas dimensões de forma isolada, com suporte limitado para síntese de sujeitos em múltiplas vistas e preservação de identidade sob mudanças arbitrárias de pose. Esta falta de uma arquitetura unificada dificulta o suporte a vídeos versáteis e conjuntamente controláveis. Introduzimos o Tri-Prompting, uma estrutura unificada e um paradigma de treinamento em dois estágios que integra composição de cena, consistência de sujeitos em múltiplas vistas e controle de movimento. Nossa abordagem aproveita um módulo de movimento de dupla condição acionado por pontos de rastreamento 3D para cenários de fundo e pistas RGB redimensionadas para sujeitos em primeiro plano. Para garantir um equilíbrio entre controlabilidade e realismo visual, propomos ainda um escalonamento de escala do ControlNet na inferência. O Tri-Prompting suporta novos fluxos de trabalho, incluindo a inserção de sujeitos com consciência 3D em qualquer cena e a manipulação de sujeitos existentes em uma imagem. Resultados experimentais demonstram que o Tri-Prompting supera significativamente linhas de base especializadas como Phantom e DaS em identidade de sujeitos em múltiplas vistas, consistência 3D e precisão de movimento.
A geração precisa de glifos para renderização visual de texto é essencial, porém desafiadora. Os métodos existentes normalmente aprimoram a renderização de texto treinando com grandes quantidades de imagens de texto de cena de alta qualidade, mas a cobertura limitada de variações de glifos e a excessiva estilização frequentemente comprometem a precisão dos glifos, especialmente para caracteres complexos ou fora do domínio. Alguns métodos utilizam aprendizagem por reforço para aliviar esse problema, porém seus modelos de recompensa geralmente dependem de sistemas de reconhecimento de texto que são insensíveis a erros de glifos em nível granular, de modo que imagens com glifos incorretos ainda podem receber altas recompensas. Inspirados pela Otimização de Preferência Direta (DPO), propomos o GlyphPrinter, um método de renderização de texto baseado em preferência que elimina a dependência de modelos de recompensa explícitos. No entanto, o objetivo padrão do DPO modela apenas a preferência geral entre duas amostras, o que é insuficiente para a renderização visual de texto, onde os erros de glifos normalmente ocorrem em regiões localizadas. Para resolver esse problema, construímos o conjunto de dados GlyphCorrector com anotações de preferência de glifos em nível regional e propomos o DPO Agrupado por Região (R-GDPO), um objetivo baseado em região que otimiza preferências inter e intra-amostra sobre regiões anotadas, aprimorando substancialmente a precisão dos glifos. Além disso, introduzimos a Orientação de Recompensa Regional, uma estratégia de inferência que amostra a partir de uma distribuição ótima com precisão de glifos controlável. Experimentos extensivos demonstram que o GlyphPrinter proposto supera os métodos existentes em precisão de glifos, mantendo um equilíbrio favorável entre estilização e precisão.
Os agentes de IA incorporados exigem cada vez mais a execução paralela de múltiplas tarefas, como manipulação, conversação e construção de memória, a partir de observações compartilhadas sob restrições de tempo distintas. Os recentes Modelos Visão-Linguagem-Ação (VLAs) baseados em Mistura de Transformadores (MoT) suportam arquitetonicamente tais saídas heterogêneas, porém os sistemas de inferência existentes falham em alcançar um paralelismo multitarefa eficiente para implantação em dispositivo devido a computação redundante e contenção de recursos. Identificamos o gerenciamento isolado da cache de Chave-Valor (KV) como a causa raiz. Para resolver isso, propomos um gerenciamento unificado da cache KV, um paradigma de inferência que trata a cache KV como um recurso compartilhado de primeira classe entre tarefas e ao longo do tempo. Esta abstração permite duas otimizações principais: o compartilhamento KV entre tarefas elimina o pré-preenchimento redundante de observações compartilhadas, enquanto o loteamento contínuo entre quadros desacopla a decodificação de linguagem de comprimento variável da geração de ações em taxa fixa entre ciclos de controle. Implementamos este paradigma para o π_{0.5}, o VLA MoT mais popular, e avaliamos sob configurações robóticas representativas. O OxyGen ativa até 3.7x de aceleração sobre a execução isolada, fornecendo simultaneamente mais de 200 tokens/s de taxa de transferência de linguagem e 70 Hz de frequência de ação sem degradação da qualidade das ações.
Neste artigo, estudamos a capacidade de difusão (aprendizagem) de autoencoders variacionais (VAE) na difusão latente. Primeiro, demonstramos que a difusão no espaço de pixels treinada com um objetivo de erro quadrático médio (MSE) é inerentemente tendenciosa para aprender frequências espaciais baixas e médias, e que a densidade espectral de potência (PSD) com lei de potência das imagens naturais torna esse viés perceptualmente benéfico. Motivados por este resultado, propomos a Hipótese de Correspondência Espectral: latentes com capacidade de difusão superior devem (i) seguir uma PSD com lei de potência achatada (Correspondência Espectral de Codificação, ESM) e (ii) preservar a correspondência semântica frequência a frequência através do decodificador (Correspondência Espectral de Decodificação, DSM). Na prática, aplicamos a ESM correspondendo a PSD entre imagens e latentes, e a DSM por meio de mascaramento espectral compartilhado com reconstrução alinhada em frequência. Importante, a Correspondência Espectral fornece uma visão unificada que esclarece observações prévias de latentes excessivamente ruidosos ou suavizados, e interpreta vários métodos recentes como casos especiais (por exemplo, VA-VAE, EQ-VAE). Experimentos sugerem que a Correspondência Espectral produz geração por difusão superior nos conjuntos de dados CelebA e ImageNet, e supera abordagens anteriores. Finalmente, estendemos a visão espectral para o alinhamento de representações (REPA): mostramos que a energia espectral direcional da representação alvo é crucial para o REPA, e propomos um método baseado em DoG para melhorar ainda mais o desempenho do REPA. Nosso código está disponível em https://github.com/forever208/SpectrumMatching.
Os modelos Visão-Linguagem-Ação (VLA) destacam-se na manipulação estática, mas enfrentam dificuldades em ambientes dinâmicos com alvos em movimento. Esta lacuna de desempenho decorre principalmente da escassez de conjuntos de dados para manipulação dinâmica e da dependência dos VLAs convencionais em observações de frame único, o que limita suas capacidades de raciocínio espaço-temporal. Para solucionar esse problema, apresentamos o DOMINO, um conjunto de dados em larga escala e um benchmark para manipulação dinâmica generalizável, contendo 35 tarefas com complexidades hierárquicas, mais de 110 mil trajetórias especializadas e um conjunto de avaliação multidimensional. Por meio de experimentos abrangentes, avaliamos sistematicamente VLAs existentes em tarefas dinâmicas, exploramos estratégias eficazes de treinamento para percepção dinâmica e validamos a generalização de dados dinâmicos. Adicionalmente, propomos o PUMA, uma arquitetura VLA com consciência dinâmica. Ao integrar fluxo óptico histórico centrado na cena e consultas especializadas do mundo para prever implicitamente estados futuros centrados em objetos, o PUMA acopla percepção com histórico temporal a previsões de curto prazo. Os resultados demonstram que o PUMA alcança desempenho state-of-the-art, obtendo uma melhoria absoluta de 6,3% na taxa de sucesso sobre as baselines. Ademais, mostramos que o treinamento com dados dinâmicos promove representações espaço-temporais robustas que transferem para tarefas estáticas. Todo o código e dados estão disponíveis em https://github.com/H-EmbodVis/DOMINO.
A personalização de conceitos normalmente associa tokens raros a um conceito-alvo. Infelizmente, essas abordagens frequentemente sofrem com desempenho instável, uma vez que os dados de pré-treinamento raramente contêm esses tokens raros. Paralelamente, esses tokens raros não conseguem transmitir o conhecimento inerente ao conceito-alvo. Consequentemente, introduzimos a Personalização de Conceitos com Consciência de Conhecimento, uma nova tarefa que visa associar conhecimento textual diversificado a conceitos visuais-alvo. Esta tarefa exige que o modelo identifique o conhecimento no prompt de texto para realizar uma geração personalizada de alta fidelidade. Ao mesmo tempo, o modelo deve associar eficientemente todo o conhecimento textual ao conceito-alvo. Portanto, propomos o MoKus, uma nova estrutura para personalização de conceitos com consciência de conhecimento. Nossa estrutura baseia-se numa observação fundamental: a transferência de conhecimento cross-modal, onde a modificação do conhecimento dentro da modalidade textual transfere-se naturalmente para a modalidade visual durante a geração. Inspirados por esta observação, o MoKus contém dois estágios: (1) Na aprendizagem do conceito visual, primeiro aprendemos a representação âncora para armazenar a informação visual do conceito-alvo. (2) Na atualização do conhecimento textual, atualizamos a resposta para as consultas de conhecimento para a representação âncora, permitindo uma geração personalizada de alta fidelidade. Para avaliar mais comprehensiveamente o nosso MoKus proposto na nova tarefa, introduzimos o primeiro benchmark para personalização de conceitos com consciência de conhecimento: o KnowCusBench. Avaliações extensivas demonstraram que o MoKus supera os métodos state-of-the-art. Além disso, a transferência de conhecimento cross-modal permite que o MoKus seja facilmente estendido a outras aplicações com consciência de conhecimento, como a criação de conceitos virtuais e a remoção de conceitos. Também demonstramos a capacidade do nosso método de alcançar melhorias em benchmarks de conhecimento mundial.
As declarações do Federal Open Market Committee (FOMC) são uma fonte primordial de informações sobre política monetária, e até mesmo mudanças sutis em sua redação podem movimentar os mercados financeiros globais. Uma tarefa central é, portanto, medir o tom hawkish-dovish transmitido nesses textos. As abordagens existentes geralmente tratam a detecção de posicionamento como um problema de classificação padrão, rotulando cada declaração isoladamente. No entanto, a interpretação da comunicação de política monetária é inerentemente relativa: as reações do mercado dependem não apenas do tom de uma declaração, mas também de como esse tom se desloca entre as reuniões. Apresentamos o Delta-Consistent Scoring (DCS), uma estrutura livre de anotação que mapeia representações de modelos de linguagem de grande escala (LLM) congelados para escores de posicionamento contínuos, modelando conjuntamente o posicionamento absoluto e os deslocamentos relativos entre reuniões. Em vez de depender de rótulos manuais hawkish-dovish, o DCS utiliza reuniões consecutivas como uma fonte de auto-supervisão. Ele aprende um escore de posicionamento absoluto para cada declaração e um escore de deslocamento relativo entre declarações consecutivas. Um objetivo de consistência-delta incentiva que as mudanças nos escores absolutos estejam alinhadas com os deslocamentos relativos. Isso permite que o DCS recupere uma trajetória de posicionamento temporalmente coerente sem rótulos manuais. Em quatro arquiteturas de LLM diferentes, o DCS supera consistentemente sondas supervisionadas e baselines do tipo LLM-como-juiz, atingindo até 71,1% de precisão na classificação hawkish-dovish em nível de sentença. Os escores resultantes em nível de reunião também são economicamente significativos: eles correlacionam-se fortemente com indicadores de inflação e estão significativamente associados aos movimentos dos rendimentos dos Treasuries. No geral, os resultados sugerem que as representações de LLM codificam sinais de política monetária que podem ser recuperados por meio da estrutura temporal relativa.
A análise de documentos, como uma tarefa de visão fundamental, mas crucial, está a ser revolucionada pelos modelos de visão e linguagem (VLM). No entanto, a descodagem autorregressiva (AR) inerente aos VLMs cria um estrangulamento significativo, limitando severamente a velocidade de análise. Neste artigo, propomos a Previsão de Tokens Paralelos (PTP), um método conectável, independente do modelo e simples, mas eficaz, que permite aos VLMs gerar múltiplos tokens futuros em paralelo com uma eficiência amostral melhorada. Especificamente, inserimos alguns tokens aprendíveis na sequência de entrada e projetamos objetivos de treino correspondentes para dotar o modelo de capacidades de descodagem paralela para análise de documentos. Além disso, para suportar um treino eficaz, desenvolvemos um pipeline abrangente de geração de dados que produz eficientemente dados de treino de análise de documentos em larga escala e de alta qualidade para VLMs. Experiências extensivas no OmniDocBench e olmOCR-bench demonstram que o nosso método não só melhora significativamente a velocidade de descodagem (1,6x-2,2x), como também reduz as alucinações do modelo e exibe fortes capacidades de generalização.
A interpretação do raciocínio interno de modelos visão-linguagem é essencial para a implantação de IA em domínios críticos para a segurança. A explicabilidade baseada em conceitos fornece uma lente alinhada com o ser humano ao representar o comportamento de um modelo por meio de componentes semanticamente significativos. No entanto, os métodos existentes estão amplamente restritos a imagens e ignoram as interações multimodais. Os embeddings texto-imagem, como os produzidos pelo CLIP, sofrem com uma lacuna de modalidade, onde características visuais e textuais seguem distribuições distintas, limitando a interpretabilidade. A Análise de Correlação Canônica (CCA) oferece uma forma fundamentada de alinhar características de diferentes distribuições, mas não foi aproveitada para análise multimodal a nível de conceito. Mostramos que os objetivos da CCA e do InfoNCE estão intimamente relacionados, de modo que otimizar a CCA implicitamente otimiza o InfoNCE, fornecendo um mecanismo simples e livre de treinamento para melhorar o alinhamento multimodal sem afetar o objetivo pré-treinado do InfoNCE. Motivados por esta observação, acoplamos a explicabilidade baseada em conceitos com a CCA, introduzindo a Concept CCA (CoCCA), uma estrutura que alinha embeddings multimodais enquanto permite uma decomposição interpretável de conceitos. Nós a estendemos ainda mais e propomos a Sparse Concept CCA (SCoCCA), que impõe esparsidade para produzir conceitos mais disentangulados e discriminativos, facilitando uma melhor ativação, ablação e manipulação semântica. Nossa abordagem generaliza explicações baseadas em conceitos para embeddings multimodais e alcança desempenho de última geração na descoberta de conceitos, evidenciado por tarefas de reconstrução e manipulação, como a ablação de conceitos.
A experimentação virtual de vestuário (VTON) avançou na visualização de peças individuais, mas o mundo real da moda centra-se em conjuntos completos com múltiplas peças, acessórios, categorias refinadas, sobreposições e estilizações diversas, permanecendo além dos sistemas atuais de VTON. Os conjuntos de dados existentes são limitados em categorias e carecem de diversidade de outfits. Apresentamos o Garments2Look, o primeiro conjunto de dados multimodal em larga escala para VTON a nível de conjunto, compreendendo 80 mil pares de múltiplas-peças-para-um-look abrangendo 40 categorias principais e mais de 300 subcategorias refinadas. Cada par inclui um outfit com 3 a 12 imagens de referência das peças (média de 4.48), uma imagem do modelo vestindo o conjunto e anotações textuais detalhadas dos itens e da experimentação. Para equilibrar autenticidade e diversidade, propomos um pipeline de síntese. Este envolve a construção heurística de listas de outfits antes de gerar os resultados de experimentação, com todo o processo sujeito a filtragem automática rigorosa e validação humana para garantir a qualidade dos dados. Para investigar a dificuldade da tarefa, adaptamos métodos SOTA de VTON e modelos de edição de imagem de propósito geral para estabelecer linhas de base. Os resultados mostram que os métodos atuais lutam para experimentar conjuntos completos de forma harmoniosa e para inferir a sobreposição e estilização corretas, resultando em desalinhamentos e artefactos.
A síntese de fala em tempo real (TTS) para sistemas interativos deve iniciar a fala com atraso mínimo, mantendo-se controlável à medida que o texto chega incrementalmente. Apresentamos o VoXtream2, um modelo TTS de fluxo completo *zero-shot* com controle dinâmico de velocidade de fala que pode ser atualizado no meio de um enunciado e em tempo real. O VoXtream2 combina um mecanismo de correspondência de distribuição sobre estados de duração com orientação *classifier-free* entre sinais de condicionamento para melhorar a controlabilidade e a qualidade da síntese. O mascaramento de texto de prompt permite *prompting* de áudio sem texto, eliminando a necessidade de transcrição do prompt. Em benchmarks *zero-shot* padrão e num conjunto de testes dedicado à velocidade de fala, o VoXtream2 alcança resultados objetivos e subjetivos competitivos em relação às linhas de base públicas, apesar de ter um modelo menor e menos dados de treinamento. No modo de fluxo completo, executa 4 vezes mais rápido que o tempo real, com uma latência do primeiro pacote de 74 ms numa GPU de consumo.
A resposta a questões clínicas sobre registros eletrónicos de saúde (EHR) pode ajudar médicos e pacientes a aceder a informações médicas relevantes de forma mais eficiente. No entanto, muitas abordagens recentes dependem de grandes modelos baseados na nuvem, que são difíceis de implementar em ambientes clínicos devido a restrições de privacidade e requisitos computacionais. Neste trabalho, investigamos até que ponto a resposta a questões sobre EHR fundamentada pode ser avançada quando restrita a um único portátil. Participamos em todas as quatro subtarefas da tarefa partilhada ArchEHR-QA 2026 e avaliamos várias abordagens concebidas para serem executadas em hardware comercial. Todas as experiências são conduzidas localmente, sem APIs externas ou infraestrutura de nuvem. Os nossos resultados mostram que tais sistemas podem alcançar um desempenho competitivo nos *leaderboards* da tarefa partilhada. Em particular, as nossas submissões performam acima da média em duas subtarefas, e observamos que modelos menores podem aproximar-se do desempenho de sistemas muito maiores quando devidamente configurados. Estes resultados sugerem que sistemas de resposta a questões sobre EHR que preservam a privacidade, a funcionar totalmente localmente, são viáveis com os modelos atuais e hardware comercial. O código fonte está disponível em https://github.com/ibrahimey/ArchEHR-QA-2026.
Avances recentes na geração discreta de imagens demonstraram que a ampliação do tamanho do codebook VQ melhora significativamente a fidelidade de reconstrução. No entanto, o treinamento de modelos generativos com um codebook VQ grande permanece desafiador, geralmente exigindo modelos de maior dimensão e cronogramas de treinamento mais longos. Neste trabalho, propomos a Minimização da Entropia Cruzada do Vizinho Estocástico (SNCE), um novo objetivo de treinamento concebido para abordar os desafios de otimização de geradores de imagem discreta com codebooks grandes. Em vez de supervisionar o modelo com um alvo rígido one-hot, a SNCE constrói uma distribuição categórica suave sobre um conjunto de tokens vizinhos. A probabilidade atribuída a cada token é proporcional à proximidade entre a sua incorporação de código e a incorporação da imagem verdadeira, incentivando o modelo a capturar uma estrutura geométrica semanticamente significativa no espaço de incorporação quantizado. Realizamos experiências extensas em tarefas de geração condicionada por classe no ImageNet-256, síntese de texto para imagem em larga escala e edição de imagens. Os resultados mostram que a SNCE melhora significativamente a velocidade de convergência e a qualidade geral de geração em comparação com os objetivos padrão de entropia cruzada.