Artigos de pesquisa em IA selecionados diariamente com traduções
Os modelos Mixture-of-Experts (MoE) carecem de restrições explícitas para garantir que as decisões do roteador estejam alinhadas com as capacidades dos especialistas, o que limita o desempenho do modelo. Para resolver isso, propomos a perda de acoplamento roteador-especialista (ERC), uma perda auxiliar leve que acopla firmemente as decisões do roteador às capacidades dos especialistas. Nossa abordagem trata a incorporação do roteador de cada especialista como um token proxy para os tokens atribuídos a esse especialista e alimenta incorporações do roteador perturbadas através dos especialistas para obter ativações internas. A perda ERC impõe duas restrições nessas ativações: (1) Cada especialista deve exibir maior ativação para seu próprio token proxy do que para os tokens proxy de qualquer outro especialista. (2) Cada token proxy deve eliciar uma ativação mais forte de seu especialista correspondente do que de qualquer outro especialista. Essas restrições garantem conjuntamente que cada incorporação do roteador represente fielmente a capacidade de seu especialista correspondente, enquanto cada especialista se especializa em processar os tokens realmente roteados para ele. A perda ERC é computacionalmente eficiente, operando apenas em n² ativações, onde n é o número de especialistas. Isso representa um custo fixo independente do tamanho do lote, diferentemente de métodos de acoplamento anteriores que escalam com o número de tokens (frequentemente milhões por lote). Através do pré-treinamento de MoE-LLMs variando de 3B a 15B de parâmetros e análise extensiva em trilhões de tokens, demonstramos a eficácia da perda ERC. Além disso, a perda ERC oferece controle flexível e rastreamento quantitativo dos níveis de especialização dos especialistas durante o treinamento, fornecendo insights valiosos sobre MoEs.
A geração de vídeo em tempo real via difusão é essencial para a construção de sistemas de IA interativos multimodais de propósito geral. No entanto, a desruídos simultânea de todos os fotogramas de vídeo com atenção bidirecional através de um processo iterativo nos modelos de difusão impede a interação em tempo real. Embora os métodos de destilação existentes possam tornar o modelo autoregressivo e reduzir as etapas de amostragem para mitigar isso, eles focam principalmente na geração de texto para vídeo, deixando a interação humano-IA artificial e menos eficiente. Este artigo tem como objetivo a difusão de vídeo interativa em tempo real condicionada a um contexto multimodal, incluindo texto, imagem e áudio, para preencher esta lacuna. Dada a observação de que a principal abordagem de destilação *on-policy*, Self Forcing, enfrenta desafios (artefatos visuais como cintilação, frames pretos e degradação de qualidade) com condicionamento multimodal, investigamos uma receita de destilação aprimorada com ênfase na qualidade dos inputs de condição, bem como na inicialização e no cronograma para a otimização *on-policy*. Em benchmarks para geração de vídeo de avatar condicionada multimodalmente (áudio, imagem e texto), incluindo HDTF, AVSpeech e CelebV-HQ, nosso modelo destilado iguala a qualidade visual das linhas de base bidirecionais de tamanho similar ou maior com custo e latência de inferência 20 vezes menores. Além disso, integramos nosso modelo com modelos de linguagem de áudio e a técnica de inferência de vídeo de longa duração *Anchor-Heavy Identity Sinks* para construir o LiveTalk, um sistema de avatar interativo multimodal em tempo real. A avaliação a nível de sistema no nosso benchmark curado de interação multi-turno mostra que o LiveTalk supera os modelos state-of-the-art (Sora2, Veo3) em coerência de vídeo multi-turno e qualidade de conteúdo, enquanto reduz a latência de resposta de 1-2 minutos para uma geração em tempo real, permitindo uma interação multimodal humano-IA contínua.
Abordagens recentes demonstraram o potencial de usar modelos de difusão para gerar mundos interativos e exploráveis. No entanto, a maioria desses métodos enfrenta desafios críticos, como tamanhos de parâmetros excessivamente grandes, dependência de etapas de inferência longas e contexto histórico em rápido crescimento, o que limita severamente o desempenho em tempo real e carece de capacidades de geração controlada por texto. Para enfrentar esses desafios, propomos o \method, uma nova estrutura projetada para gerar mundos realistas, interativos e contínuos a partir de uma única imagem ou prompt de texto. O \method alcança isso por meio de uma estrutura cuidadosamente projetada que suporta a exploração baseada em teclado dos mundos gerados. A estrutura compreende três componentes principais: (1) uma estrutura de geração de vídeos longos que integra compressão de contexto unificada com atenção linear; (2) uma estratégia de aceleração de streaming em tempo real alimentada por destilação de atenção bidirecional e um esquema de incorporação de texto aprimorado; (3) um método controlado por texto para gerar eventos mundiais. Disponibilizamos o código-base no material suplementar.
Os métodos de super-resolução de vídeo baseados em difusão (VSR) alcançam forte qualidade perceptual, mas permanecem impraticáveis para configurações sensíveis à latência devido à dependência de quadros futuros e à custosa eliminação de ruído em múltiplas etapas. Propomos o Stream-DiffVSR, uma estrutura de difusão com condicionamento causal para VSR online eficiente. Operando estritamente em quadros passados, ele combina um removedor de ruído destilado de quatro etapas para inferência rápida, um módulo de Orientação Temporal Autorregressiva (ARTG) que injeta pistas alinhadas ao movimento durante a eliminação de ruído latente, e um decodificador leve com consciência temporal com um Módulo de Processador Temporal (TPM) que melhora o detalhe e a coerência temporal. O Stream-DiffVSR processa quadros em 720p em 0.328 segundos numa GPU RTX4090 e supera significativamente os métodos anteriores baseados em difusão. Em comparação com o estado da arte online TMP, ele aumenta a qualidade perceptual (LPIPS +0.095) enquanto reduz a latência em mais de 130 vezes. O Stream-DiffVSR alcança a menor latência reportada para VSR baseado em difusão, reduzindo o atraso inicial de mais de 4600 segundos para 0.328 segundos, tornando-se assim o primeiro método de VSR por difusão adequado para implantação online de baixa latência. Página do projeto: https://jamichss.github.io/stream-diffvsr-project-page/
Embora os Grandes Modelos de Visão e Linguagem (VLMs) autoregressivos tenham alcançado sucesso notável, sua geração sequencial frequentemente limita sua eficácia em planejamento visual complexo e controle robótico dinâmico. Neste trabalho, investigamos o potencial de construir Modelos de Visão e Linguagem sobre modelos de linguagem grandes baseados em difusão (dLLMs) para superar essas limitações. Apresentamos o Dream-VL, um VLM aberto baseado em difusão (dVLM) que alcança desempenho de ponta entre os dVLMs anteriores. O Dream-VL é comparável aos VLMs baseados em AR de primeira linha treinados com dados abertos em vários benchmarks, mas exibe potencial superior quando aplicado a tarefas de planejamento visual. Com base no Dream-VL, introduzimos o Dream-VLA, um modelo Visão-Linguagem-Ação baseado em dLLM (dVLA) desenvolvido através de pré-treinamento contínuo em conjuntos de dados robóticos abertos. Demonstramos que a natureza nativamente bidirecional deste *backbone* de difusão serve como uma base superior para tarefas VLA, sendo intrinsecamente adequado para agrupamento de ações e geração paralela, levando a uma convergência significativamente mais rápida no ajuste fino (*fine-tuning*) em tarefas subsequentes. O Dream-VLA alcança um desempenho de primeira linha, com uma taxa média de sucesso de 97,2% no LIBERO, 71,4% de média geral no SimplerEnv-Bridge e 60,5% de média geral no SimplerEnv-Fractal, superando modelos líderes como π_0 e GR00T-N1. Também validamos que os dVLMs superam as linhas de base AR em tarefas subsequentes em diferentes objetivos de treinamento. Disponibilizamos tanto o Dream-VL quanto o Dream-VLA para facilitar pesquisas futuras na comunidade.
Objetos transparentes permanecem notoriamente difíceis para sistemas de percepção: a refração, reflexão e transmissão quebram as premissas por trás de estereoscopia, ToF (tempo de voo) e métodos puramente discriminativos de profundidade monoculares, causando buracos e estimativas temporalmente instáveis. Nossa observação fundamental é que os modelos modernos de difusão de vídeo já sintetizam fenômenos transparentes convincentes, sugerindo que internalizaram as regras ópticas. Construímos o TransPhy3D, um corpus sintético de vídeos de cenas transparentes/reflexivas: 11 mil sequências renderizadas com Blender/Cycles. As cenas são montadas a partir de um banco curado de objetos estáticos ricos em categorias e objetos procedurais ricos em formas, combinados com materiais de vidro/plástico/metal. Renderizamos RGB + profundidade + normais com ray tracing fisicamente baseado e remoção de ruído OptiX. Partindo de um grande modelo de difusão de vídeo, aprendemos um tradutor de vídeo-para-vídeo para profundidade (e normais) por meio de adaptadores leves LoRA. Durante o treinamento, concatenamos os latentes de RGB e profundidade (com ruído) no *backbone* DiT e co-treinamos no TransPhy3D e em conjuntos de dados sintéticos *frame-wise* existentes, resultando em previsões temporalmente consistentes para vídeos de entrada de comprimento arbitrário. O modelo resultante, DKT, atinge o estado da arte (SOTA) *zero-shot* em *benchmarks* de vídeo real e sintético envolvendo transparência: ClearPose, DREDS (CatKnown/CatNovel) e TransPhy3D-Test. Ele melhora a precisão e a consistência temporal em relação às linhas de base fortes de imagem/vídeo, e uma variante para normais estabelece os melhores resultados de estimativa de normais em vídeo no ClearPose. Uma versão compacta de 1,3B executa a ~0,17 s/ *frame*. Integrado a uma pilha de manipulação, a profundidade do DKT aumenta as taxas de sucesso em superfícies translúcidas, reflexivas e difusas, superando estimadores anteriores. Juntos, esses resultados apoiam uma afirmação mais ampla: "A difusão conhece a transparência". *Priors* generativos de vídeo podem ser reaproveitados, de forma eficiente e sem rótulos (*label-free*), para uma percepção robusta e temporalmente coerente para manipulação desafiadora do mundo real.
Os modelos de difusão baseados em transformadores avançaram significativamente a edição de imagens ao codificar imagens condicionais e integrá-las nas camadas do transformador. No entanto, a maioria das edições envolve modificar apenas pequenas regiões, enquanto os métodos atuais processam e removem ruído de todos os tokens de forma uniforme em cada passo temporal, causando computação redundante e potencialmente degradando áreas inalteradas. Isto levanta uma questão fundamental: Será realmente necessário regenerar todas as regiões durante a edição? Para abordar este problema, propomos o SpotEdit, uma estrutura de edição por difusão livre de treinamento que atualiza seletivamente apenas as regiões modificadas. O SpotEdit compreende dois componentes principais: o SpotSelector identifica regiões estáveis através de similaridade perceptual e ignora sua computação reutilizando características da imagem condicional; o SpotFusion combina adaptativamente estas características com tokens editados através de um mecanismo de fusão dinâmica, preservando a coerência contextual e a qualidade de edição. Ao reduzir a computação desnecessária e manter alta fidelidade em áreas não modificadas, o SpotEdit alcança uma edição de imagem eficiente e precisa.
O aprendizado por reforço agentivo (RL) apresenta grande potencial para o desenvolvimento de agentes autônomos em tarefas complexas de interface gráfica (GUI), mas sua escalabilidade continua severamente limitada pela verificação da conclusão das tarefas. A verificação de tarefas existente é tratada como um processo passivo e post-hoc: um verificador (ou seja, script de pontuação baseado em regras, modelo de recompensa ou crítico, e LLM-como-Juiz) analisa toda a trajetória de interação do agente para determinar se ele teve sucesso. Este processamento de contexto verboso, que contém histórico irrelevante e ruidoso, impõe desafios aos protocolos de verificação e, consequentemente, resulta em custos proibitivos e baixa confiabilidade. Para superar este gargalo, propomos o SmartSnap, uma mudança de paradigma desta verificação passiva e post-hoc para uma auto-verificação proativa e in-situ realizada pelo próprio agente. Introduzimos o Agente Auto-Verificador, um novo tipo de agente projetado com uma missão dupla: não apenas completar uma tarefa, mas também comprovar sua realização com evidências curadas na forma de capturas de tela (snapshots). Guiado pelos nossos princípios 3C propostos (Completude, Concisão e Criatividade), o agente aproveita seu acesso ao ambiente online para realizar a auto-verificação com um conjunto mínimo e decisivo de snapshots. Tais evidências são fornecidas como os únicos materiais para um verificador geral do tipo LLM-como-Juiz determinar sua validade e relevância. Experimentos com tarefas em dispositivos móveis, abrangendo diferentes famílias e escalas de modelos, demonstram que nosso paradigma SmartSnap permite treinar agentes baseados em LLM de maneira escalável, trazendo ganhos de desempenho de até 26,08% e 16,66% para modelos de 8B e 30B, respectivamente. A sinergia entre a busca pela solução e a busca por evidências facilita o cultivo de agentes eficientes e auto-verificadores com desempenho competitivo em comparação com o DeepSeek V3.1 e o Qwen3-235B-A22B.
Os agentes de linguagem exigem cada vez mais mundos persistentes nos quais possam agir, lembrar e aprender. As abordagens existentes situam-se em dois extremos: os frameworks web convencionais fornecem contextos confiáveis, mas fixos, apoiados por bancos de dados, enquanto os modelos de mundo totalmente generativos visam ambientes ilimitados à custa da controlabilidade e da engenharia prática. Neste trabalho, introduzimos o Web World Model (WWM), um meio-termo em que o estado do mundo e a "física" são implementados em código web comum para garantir consistência lógica, enquanto modelos de linguagem grande geram contexto, narrativas e decisões de alto nível sobre este estado latente estruturado. Construímos um conjunto de WWMs em uma stack web realista, incluindo um atlas de viagem infinito baseado em geografia real, exploradores de galáxias fictícias, mundos enciclopédicos e narrativos em escala web e ambientes semelhantes a simulações e jogos. Através destes sistemas, identificamos princípios práticos de design para WWMs: separar regras definidas por código da imaginação orientada por modelos, representar o estado latente como interfaces web tipadas e utilizar geração determinística para alcançar uma exploração ilimitada, mas estruturada. Nossos resultados sugerem que as próprias stacks web podem servir como um substrato escalável para modelos de mundo, permitindo ambientes controláveis, mas de natureza aberta. Página do Projeto: https://github.com/Princeton-AI2-Lab/Web-World-Models.
O codificador de texto é um componente crítico dos modelos de difusão texto-imagem e texto-vídeo, determinando fundamentalmente a fidelidade semântica do conteúdo gerado. No entanto, seu desenvolvimento tem sido dificultado por dois grandes desafios: a falta de uma estrutura de avaliação eficiente que preveja de forma confiável o desempenho de geração downstream e a dificuldade de adaptar efetivamente modelos de linguagem pré-treinados para síntese visual. Para resolver essas questões, apresentamos o GRAN-TED, um paradigma para Gerar *Embeddings* de Texto Robustos, Alinhados e Nuanceados para modelos de difusão. Nossa contribuição é dupla. Primeiro, propomos o TED-6K, um novo *benchmark* apenas de texto que permite uma avaliação eficiente e robusta da qualidade representacional de um codificador, sem exigir o custoso treinamento de modelos *end-to-end*. Demonstramos que o desempenho no TED-6K, padronizado por meio de um adaptador unificado e leve, correlaciona-se fortemente com a eficácia de um codificador em tarefas de geração downstream. Notavelmente, em nossa configuração experimental, em comparação com o treinamento de um modelo de difusão do zero, a avaliação com o TED-6K é cerca de 750 vezes mais rápida. Segundo, guiados por esta estrutura validada, desenvolvemos um codificador de texto superior usando um novo paradigma de treinamento em dois estágios. Este processo envolve uma etapa inicial de *fine-tuning* em um Modelo de Linguagem Multimodal de Grande Porte para melhor representação visual, seguida por um método de ponderação por camadas para extrair características de texto mais nuanceadas e potentes. Nossos experimentos mostram que o codificador GRAN-TED resultante não apenas alcança desempenho de ponta no TED-6K, mas também leva a ganhos de desempenho demonstráveis na geração texto-imagem e texto-vídeo. Nosso conjunto de dados TED-6K e código de avaliação estão disponíveis no seguinte link: https://anonymous.4open.science/r/GRAN-TED-4FCC/.
A especificação de tarefas de manipulação robótica de forma expressiva e precisa continua sendo um desafio central. Embora objetivos visuais forneçam uma especificação de tarefa compacta e inequívoca, as políticas condicionadas a objetivos existentes frequentemente lutam com a manipração de longo horizonte devido à sua dependência da previsão de ação de etapa única sem modelagem explícita do progresso da tarefa. Propomos o Act2Goal, uma política de manipulação geral condicionada a objetivos que integra um modelo de mundo visual condicionado a objetivos com controle temporal multi-escala. Dada uma observação atual e um objetivo visual alvo, o modelo de mundo gera uma sequência plausível de estados visuais intermediários que captura a estrutura de longo horizonte. Para traduzir este plano visual em execução robusta, introduzimos o Hashing Temporal Multi-Escala (MSTH), que decompõe a trajetória imaginada em quadros proximais densos para controle de malha fechada de granularidade fina e quadros distais esparsos que ancoram a consistência global da tarefa. A política acopla essas representações com o controle motor por meio de atenção cruzada de ponta a ponta, permitindo comportamento coerente de longo horizonte enquanto permanece reativa a perturbações locais. O Act2Goal alcança forte generalização zero-shot para novos objetos, layouts espaciais e ambientes. Além disso, permitimos adaptação online livre de recompensas por meio de re-rotulação de objetivos com hindsight com afinação baseada em LoRA, permitindo melhoria autônoma rápida sem supervisão externa. Experimentos com robôs reais demonstram que o Act2Goal melhora as taxas de sucesso de 30% para 90% em tarefas desafiadoras fora da distribuição em minutos de interação autônoma, validando que modelos de mundo condicionados a objetivos com controle temporal multi-escala fornecem a orientação estruturada necessária para manipulação robusta de longo horizonte. Página do projeto: https://act2goal.github.io/
Os Modelos de Linguagem de Difusão (dLLMs) emergiram como alternativas promissoras aos modelos auto-regressivos (AR). Embora esforços recentes tenham validado seu potencial de pré-treinamento e acelerado as velocidades de inferência, o cenário de pós-treinamento para dLLMs permanece subdesenvolvido. Os métodos existentes sofrem com ineficiência computacional e desalinhamentos de objetivos entre treinamento e inferência, limitando severamente o desempenho em tarefas complexas de raciocínio, como matemática. Para resolver isso, introduzimos o DiRL, uma estrutura eficiente de pós-treinamento que integra firmemente o treinamento em bloco acelerado por FlexAttention com a inferência otimizada pelo LMDeploy. Esta arquitetura permite um ciclo simplificado de atualização online do modelo, facilitando um pós-treinamento eficiente em dois estágios (Ajuste Fino Supervisionado seguido por Aprendizado por Reforço). Com base nesta estrutura, propomos o DiPO, a primeira implementação imparcial de Otimização de Política Relativa de Grupo (GRPO) adaptada para dLLMs. Validamos nossa abordagem treinando o DiRL-8B-Instruct com dados matemáticos de alta qualidade. Nosso modelo atinge um desempenho matemático state-of-the-art entre os dLLMs e supera modelos comparáveis da série Qwen2.5 em vários benchmarks.
Os co-cientistas de IA estão surgindo como uma ferramenta para auxiliar pesquisadores humanos a alcançar seus objetivos de pesquisa. Uma característica crucial desses co-cientistas de IA é a capacidade de gerar um plano de pesquisa a partir de um conjunto de objetivos e restrições. O plano pode ser utilizado pelos pesquisadores para brainstorming, ou pode até mesmo ser implementado após refinamentos adicionais. No entanto, os modelos de linguagem atualmente têm dificuldade em gerar planos de pesquisa que sigam todas as restrições e requisitos implícitos. Neste trabalho, estudamos como aproveitar o vasto corpus de artigos de pesquisa existentes para treinar modelos de linguagem que gerem melhores planos de pesquisa. Construímos um corpus de treinamento escalável e diversificado extraindo automaticamente objetivos de pesquisa e rubricas de avaliação específicas para cada objetivo a partir de artigos de várias áreas. Em seguida, treinamos modelos para geração de planos de pesquisa via aprendizado por reforço com autoavaliação. Uma cópia congelada da política inicial atua como avaliadora durante o treinamento, com as rubricas criando uma lacuna entre gerador e verificador que permite melhorias sem supervisão humana externa. Para validar essa abordagem, realizamos um estudo com especialistas humanos para objetivos de pesquisa em aprendizado de máquina, abrangendo 225 horas. Os especialistas preferem os planos gerados pelo nosso modelo afinado Qwen3-30B-A3B em relação ao modelo inicial para 70% dos objetivos de pesquisa e aprovam 84% das rubricas de avaliação específicas para objetivos extraídas automaticamente. Para avaliar a generalidade, também estendemos nossa abordagem para objetivos de pesquisa de artigos médicos e novas preprints do arXiv, avaliando com um júri de modelos de fronteira. Nosso afinamento produz melhorias relativas de 12-22% e uma generalização significativa entre domínios, mostrando-se eficaz mesmo em contextos problemáticos como a pesquisa médica, onde o feedback de execução é inviável. Juntos, esses resultados demonstram o potencial de uma receita de treinamento automatizada e escalável como um passo para melhorar os co-cientistas de IA gerais.
Os agentes de busca de informação (IS) alcançaram um desempenho sólido em diversas tarefas de busca ampla e profunda, mas seu uso de ferramentas permanece restrito principalmente à recuperação de snippets em nível de API e à obtenção de páginas baseada em URL, limitando o acesso às informações mais ricas disponíveis por meio da navegação real. Embora a interação completa com o navegador possa desbloquear capacidades mais profundas, seu controle refinado e retornos verbosos de conteúdo de página introduzem complexidade substancial para agentes de chamada de função no estilo ReAct. Para preencher essa lacuna, propomos o Nested Browser-Use Learning (NestBrowse), que introduz uma estrutura mínima e completa de ações do navegador, desacoplando o controle de interação da exploração de páginas por meio de uma estrutura aninhada. Este design simplifica o raciocínio do agente, permitindo uma aquisição eficaz de informações da deep web. Resultados empíricos em benchmarks desafiadores de IS profunda demonstram que o NestBrowse oferece benefícios claros na prática. Análises mais aprofundadas ressaltam sua eficiência e flexibilidade.
Os recentes avanços em visão computacional estenderam com sucesso a segmentação de vocabulário aberto (OVS) para o domínio 3D através da utilização do 3D Gaussian Splatting (3D-GS). Apesar deste progresso, a renderização eficiente das características de alta dimensão necessárias para consultas de vocabulário aberto representa um desafio significativo. Os métodos existentes empregam dicionários de códigos (codebooks) ou compressão de características, causando perda de informação e, consequentemente, degradando a qualidade da segmentação. Para superar esta limitação, introduzimos o Quantile Rendering (Q-Render), uma nova estratégia de renderização para Gaussianas 3D que processa eficientemente características de alta dimensão, mantendo alta fidelidade. Ao contrário da renderização volumétrica convencional, que amostra densamente todas as Gaussianas 3D que intersectam cada raio, o Q-Render amostra esparsamente apenas aquelas com influência dominante ao longo do raio. Ao integrar o Q-Render numa rede neural 3D generalizável, propomos também a Gaussian Splatting Network (GS-Net), que prevê as características Gaussianas de forma generalizável. Experiências extensivas no ScanNet e LeRF demonstram que o nosso framework supera os métodos state-of-the-art, permitindo ao mesmo tempo renderização em tempo real com uma aceleração aproximada de ~43,7x em mapas de características de 512 dimensões. O código será disponibilizado publicamente.
Apresentamos o Self-Evaluating Model (Self-E), uma nova abordagem de treinamento a partir do zero para geração de texto para imagem que suporta inferência com qualquer número de passos. O Self-E aprende a partir dos dados de forma semelhante a um modelo de Flow Matching, empregando simultaneamente um novo mecanismo de autoavaliação: ele avalia suas próprias amostras geradas usando suas estimativas de pontuação atuais, funcionando efetivamente como um professor dinâmico para si mesmo. Diferente dos modelos de difusão ou de fluxo tradicionais, ele não depende apenas da supervisão local, que tipicamente exige muitos passos de inferência. Diferente das abordagens baseadas em destilação, ele não requer um professor pré-treinado. Esta combinação de aprendizado local instantâneo e correspondência global autodirigida preenche a lacuna entre os dois paradigmas, permitindo o treinamento de um modelo de texto para imagem de alta qualidade a partir do zero que se destaca mesmo com contagens de passos muito baixas. Experimentos extensivos em benchmarks de texto para imagem em larga escala mostram que o Self-E não apenas se destaca na geração com poucos passos, mas também é competitivo com os modelos state-of-the-art de Flow Matching em 50 passos. Descobrimos ainda que seu desempenho melhora monotonicamente à medida que o número de passos de inferência aumenta, permitindo tanto a geração ultrarrápida com poucos passos quanto a amostragem de alta qualidade com trajetórias longas dentro de um único modelo unificado. Até onde sabemos, o Self-E é o primeiro modelo de texto para imagem treinado a partir do zero e para qualquer número de passos, oferecendo uma estrutura unificada para geração eficiente e escalável.
Os métodos existentes de detecção de objetos em tempo real (RTOD) geralmente adotam arquiteturas do tipo YOLO devido ao seu favorável equilíbrio entre precisão e velocidade. No entanto, estes modelos dependem de computação densa e estática que aplica processamento uniforme a todas as entradas, alocando mal a capacidade representacional e os recursos computacionais, como a sobre-alocação em cenas triviais e a subutilização em cenas complexas. Esta incompatibilidade resulta em redundância computacional e desempenho de detecção subótimo. Para superar esta limitação, propomos o YOLO-Master, uma nova arquitetura do tipo YOLO que introduz computação adaptativa condicionada à instância para RTOD. Isto é alcançado através de um bloco Efficient Sparse Mixture-of-Experts (ES-MoE) que aloca dinamicamente recursos computacionais para cada entrada de acordo com a complexidade da cena. No seu cerne, uma rede de roteamento dinâmica e leve orienta a especialização dos especialistas durante o treinamento através de um objetivo de aumento da diversidade, incentivando expertise complementar entre os especialistas. Adicionalmente, a rede de roteamento aprende adaptativamente a ativar apenas os especialistas mais relevantes, melhorando assim o desempenho da detecção enquanto minimiza a sobrecarga computacional durante a inferência. Experimentos abrangentes em cinco benchmarks de grande escala demonstram a superioridade do YOLO-Master. No MS COCO, nosso modelo alcança 42,4% AP com latência de 1,62ms, superando o YOLOv13-N em +0,8% mAP e com inferência 17,8% mais rápida. Notavelmente, os ganhos são mais pronunciados em cenas densas e desafiadoras, enquanto o modelo preserva a eficiência em entradas típicas e mantém a velocidade de inferência em tempo real. O código estará disponível.
Os grandes modelos de linguagem omnimodais deram passos significativos na unificação das modalidades áudio e visual; no entanto, frequentemente carecem de compreensão transversal refinada e têm dificuldade com o alinhamento multimodal. Para enfrentar estas limitações, introduzimos o OmniAgent, um agente de perceção ativa totalmente guiado por áudio que orquestra dinamicamente ferramentas especializadas para alcançar um raciocínio áudio-visual mais granular. Ao contrário de trabalhos anteriores que dependem de fluxos de trabalho rígidos e estáticos com legendagem densa de frames, este artigo demonstra uma mudança de paradigma da geração passiva de respostas para uma investigação multimodal ativa. O OmniAgent emprega um planeamento dinâmico para orquestrar autónomamente a invocação de ferramentas sob demanda, concentrando estrategicamente a atenção perceptual em pistas relevantes para a tarefa. Central à nossa abordagem é um novo paradigma de perceção guiada por áudio do tipo coarse-to-fine, que aproveita pistas de áudio para localizar eventos temporais e orientar o raciocínio subsequente. Avaliações empíricas abrangentes em três benchmarks de compreensão áudio-visual demonstram que o OmniAgent alcança um desempenho state-of-the-art, superando modelos líderes de código aberto e proprietários por margens substanciais de 10% a 20% em precisão.
A escassez de dados continua a ser uma barreira fundamental para a realização de robôs cirúrgicos totalmente autónomos. Embora os grandes modelos visão-linguagem-ação (VLA) tenham demonstrado uma generalização impressionante na manipulação doméstica e industrial, aproveitando dados de ação de vídeo emparelhados de diversos domínios, a robótica cirúrgica sofre com a escassez de conjuntos de dados que incluam observações visuais e cinemática robótica precisa. Em contraste, existem vastos corpora de vídeos cirúrgicos, mas estes carecem de etiquetas de ação correspondentes, impedindo a aplicação direta de aprendizagem por imitação ou treino VLA. Neste trabalho, visamos mitigar este problema ao aprender modelos de política a partir do SurgWorld, um modelo de mundo concebido para IA física cirúrgica. Curadámos o conjunto de dados SATA (Surgical Action Text Alignment) com descrições de ação detalhadas especificamente para robôs cirúrgicos. De seguida, construímos o SurgeWorld baseado no modelo de mundo de IA física mais avançado e no SATA. Este é capaz de gerar vídeos cirúrgicos diversificados, generalizáveis e realistas. Somos também os primeiros a usar um modelo de dinâmica inversa para inferir pseudocinemática a partir de vídeos cirúrgicos sintéticos, produzindo dados sintéticos de ação de vídeo emparelhados. Demonstramos que uma política VLA cirúrgica treinada com estes dados aumentados supera significativamente modelos treinados apenas em demonstrações reais numa plataforma robótica cirúrgica real. A nossa abordagem oferece um caminho escalável para a aquisição autónoma de competências cirúrgicas, aproveitando a abundância de vídeo cirúrgico não etiquetado e a modelação generativa de mundos, abrindo assim a porta a políticas para robôs cirúrgicos generalizáveis e eficientes em termos de dados.
A proliferação de Large Language Models (LLMs) catalisou uma mudança em direção a agentes autónomos capazes de raciocínio complexo e uso de ferramentas. No entanto, as arquiteturas de agentes atuais são frequentemente construídas usando padrões imperativos e ad hoc. Isso resulta em sistemas frágeis, prejudicados por dificuldades na gestão de estado, tratamento de erros e concorrência. Este artigo introduz a Monadic Context Engineering (MCE), um novo paradigma arquitetónico que aproveita as estruturas algébricas de Funtores, Funtores Aplicativos e Mónadas para fornecer uma base formal para o design de agentes. A MCE trata os fluxos de trabalho dos agentes como contextos computacionais nos quais as preocupações transversais, como a propagação de estado, o tratamento de erros de curto-circuito e a execução assíncrona, são geridas intrinsecamente pelas propriedades algébricas da abstração. Demonstramos como as Mónadas permitem uma composição sequencial robusta, como os Funtores Aplicativos fornecem uma estrutura fundamentada para a execução paralela e, crucialmente, como os Transformadores de Mónadas permitem a composição sistemática dessas capacidades. Esta abordagem em camadas permite que os desenvolvedores construam agentes de IA complexos, resilientes e eficientes a partir de componentes simples e independentemente verificáveis. Estendemos ainda mais este quadro para descrever Meta-Agentes, que aproveitam a MCE para orquestração generativa, criando e gerindo dinamicamente fluxos de trabalho de subagentes através de metaprogramação. Página do Projeto: https://github.com/yifanzhang-pro/monadic-context-engineering.
A evolução de agentes autónomos está a redefinir a busca de informação, transitando da recuperação passiva para uma investigação web proativa e de âmbito aberto. Contudo, embora os agentes textuais e multimodais estáticos tenham registado progressos rápidos, persiste uma lacuna significativa na modalidade de processamento da forma mais dinâmica da web: o vídeo. Os benchmarks de vídeo existentes focam-se predominantemente na perceção passiva, fornecendo clips curados aos modelos sem exigir recuperação externa. Eles não avaliam a investigação vídeo agentiva, que exige interrogar ativamente as linhas temporais dos vídeos, cruzar referências de evidências dispersas e verificar afirmações face à web aberta. Para colmatar esta lacuna, apresentamos o Video-BrowseComp, um benchmark desafiador composto por 210 questões adaptadas para o raciocínio vídeo agentivo na web aberta. Ao contrário de benchmarks anteriores, o Video-BrowseComp impõe uma dependência obrigatória de evidência visual temporal, garantindo que as respostas não podem ser derivadas apenas através de pesquisa de texto, mas exigem a navegação pelas linhas temporais de vídeo para verificar afirmações externas. A nossa avaliação dos modelos mais avançados revela um estrangulamento crítico: mesmo modelos avançados aumentados com pesquisa, como o GPT-5.1 (c/ Pesquisa), atingem apenas 15,24% de precisão. A nossa análise revela que estes modelos dependem largamente de *proxies* textuais, destacando-se em domínios ricos em metadados (ex.: programas de TV com resumos de enredo), mas colapsando em ambientes dinâmicos e escassos em metadados (ex.: desporto, *gameplay*) onde a fundamentação visual é essencial. Como primeiro benchmark de investigação de vídeo em web aberta, o Video-BrowseComp avança o campo para lá da perceção passiva, rumo a um raciocínio vídeo proativo.
Na maioria das tarefas existentes de navegação corporificada, as instruções são bem definidas e inequívocas, como seguir instruções e buscar objetos. Nesse cenário idealizado, os agentes precisam apenas produzir saídas de navegação eficazes condicionadas a entradas visuais e linguísticas. No entanto, as instruções de navegação do mundo real são frequentemente vagas e ambíguas, exigindo que o agente resolva incertezas e infira a intenção do usuário por meio de diálogo ativo. Para preencher essa lacuna, propomos a Navegação por Objeto de Instância Interativa (IION), uma tarefa que exige que os agentes não apenas gerem ações de navegação, mas também produzam saídas linguísticas via diálogo ativo, alinhando-se mais de perto com configurações práticas. A IION estende a Navegação por Objeto de Instância (ION) permitindo que os agentes consultem livremente um oráculo em linguagem natural durante a navegação. Com base nessa tarefa, apresentamos o benchmark Visão Linguagem-Linguagem de Navegação (VL-LN), que fornece um conjunto de dados automatizado em larga escala e um protocolo abrangente de avaliação para treinar e avaliar modelos de navegação habilitados para diálogo. O VL-LN compreende mais de 41 mil trajetórias de longo prazo aumentadas com diálogo para treinamento e um protocolo de avaliação automática com um oráculo capaz de responder a consultas do agente. Usando esse benchmark, treinamos um modelo de navegação equipado com capacidades de diálogo e mostramos que ele alcança melhorias significativas em relação às linhas de base. Experimentos extensivos e análises demonstram ainda a eficácia e confiabilidade do VL-LN para avançar a pesquisa em navegação corporificada habilitada para diálogo. Código e conjunto de dados: https://0309hws.github.io/VL-LN.github.io/
Os sistemas de modelos de linguagem (LM) agenticos impulsionam aplicações modernas como "Deep Research" e "Claude Code", e aproveitam arquiteturas multi-LM para superar as limitações de contexto. Por trás de sua aparente diversidade, existe um padrão recorrente: LMs "compressores" menores (que podem até ser executados localmente) destilam o contexto bruto em texto compacto que é então consumido por LMs "preditores" maiores. Apesar de sua popularidade, o projeto de sistemas compressor-preditor permanece largamente ad hoc, com pouca orientação sobre como as escolhas do compressor e do preditor moldam o desempenho final. Na prática, atribuir ganhos à compressão versus predição requer varreduras pareadas dispendiosas e específicas da tarefa. Argumentamos que essas questões de projeto de sistemas agenticos são, em sua essência, informação-teóricas. Enxergando o LM compressor como um canal ruidoso, introduzimos um estimador simples de informação mútua entre o contexto e sua compressão para quantificar a qualidade da compressão de forma independente da tarefa. Mostramos que a informação mútua prevê fortemente o desempenho final, independentemente de qualquer tarefa específica. Por meio de uma estrutura informação-teórica, realizamos uma análise empírica abrangente em cinco conjuntos de dados e três famílias de modelos. Os resultados revelam que compressores maiores não são apenas mais precisos, mas também mais eficientes em tokens, transmitindo mais bits de informação por token. Um compressor Qwen-2.5 de 7B, por exemplo, é 1,6 vezes mais preciso, 4,6 vezes mais conciso e transmite 5,5 vezes mais bits de informação mútua por token do que seu equivalente de 1,5B. Entre os conjuntos de dados, dimensionar compressores é substancialmente mais eficaz do que dimensionar preditores, permitindo que compressores maiores em dispositivos locais pareiem com preditores menores na nuvem. Aplicados a um sistema Deep Research, esses princípios permitem que compressores locais com apenas 3B de parâmetros recuperem 99% da precisão de um LM de fronteira a 26% dos custos de API.
O principal obstáculo para a aplicação do aprendizado por reforço (RL) à robótica do mundo real é o projeto de funções de recompensa eficazes. Embora os Modelos de Recompensa de Processo (PRMs) baseados em aprendizagem recentemente sejam uma direção promissora, eles são frequentemente prejudicados por duas limitações fundamentais: seus modelos de recompensa carecem de compreensão passo a passo e dependem da percepção de visão única, levando a avaliações não confiáveis do progresso da manipulação refinada; e seus procedimentos de modelagem de recompensa são teoricamente inconsistentes, frequentemente induzindo uma armadilha semântica que desorienta a otimização da política. Para resolver estas questões, introduzimos o Dopamine-Reward, um novo método de modelagem de recompensa para aprender um modelo de recompensa de processo de propósito geral e consciente do passo a partir de entradas multi-visão. Em seu núcleo está o nosso Modelo de Recompensa Geral (GRM), treinado em um vasto conjunto de dados de mais de 3.400 horas, que aproveita a Discretização de Recompensa Passo a Passo para compreensão estrutural e a Fusão de Recompensa Multi-Perspectiva para superar limitações perceptivas. Com base no Dopamine-Reward, propomos o Dopamine-RL, uma estrutura robusta de aprendizado de políticas que emprega um método teoricamente sólido de Modelagem de Recompensa Invariante à Política, que permite ao agente aproveitar recompensas densas para autoaprimoramento eficiente sem alterar a política ótima, evitando assim fundamentalmente a armadilha semântica. Extensos experimentos em diversas tarefas simuladas e do mundo real validam nossa abordagem. O GRM alcança precisão de ponta na avaliação de recompensa, e o Dopamine-RL construído sobre o GRM melhora significativamente a eficiência do aprendizado de políticas. Por exemplo, após o GRM ser adaptado para uma nova tarefa de forma one-shot a partir de uma única trajetória especializada, o modelo de recompensa resultante permite que o Dopamine-RL melhore a política de quase zero para 95% de sucesso com apenas 150 rollouts online (aproximadamente 1 hora de interação real com o robô), mantendo ao mesmo tempo uma forte generalização entre tarefas. Site do projeto: https://robo-dopamine.github.io
Os sistemas existentes de criação de vídeo baseados em IA geralmente tratam a redação de roteiros e o design de *key-shots* como duas tarefas dissociadas: a primeira recorre a grandes modelos de linguagem, enquanto a segunda depende de modelos de geração de imagens. Defendemos que estas duas tarefas devem ser unificadas num único *framework*, uma vez que o raciocínio lógico e o pensamento imaginativo são ambas qualidades fundamentais de um diretor de cinema. Neste trabalho, propomos o UniMAGE, um modelo de diretor unificado que estabelece uma ponte entre as instruções do utilizador e roteiros bem estruturados, capacitando assim não especialistas para produzir filmes de contexto longo e multi-*shot*, aproveitando os modelos existentes de geração áudio-visual. Para tal, empregamos a arquitetura *Mixture-of-Transformers*, que unifica a geração de texto e imagem. Para melhorar ainda mais a lógica narrativa e a consistência dos *keyframes*, introduzimos um paradigma de treino de "primeiro entrelaçar, depois separar". Especificamente, realizamos primeiro uma *Aprendizagem de Conceitos Entrelaçados*, que utiliza dados texto-imagem intercalados para fomentar uma compreensão mais profunda e uma interpretação imaginativa dos roteiros por parte do modelo. Em seguida, conduzimos uma *Aprendizagem de Especialistas Separada*, que dissocia a escrita do roteiro da geração de *keyframes*, permitindo maior flexibilidade e criatividade na narrativa. Experimentos extensivos demonstram que o UniMAGE alcança um desempenho state-of-the-art entre os modelos de código aberto, gerando roteiros de vídeo logicamente coerentes e imagens de *keyframes* visualmente consistentes.
Tornar o treinamento e a inferência do modelo de recomendação por aprendizado profundo (DLRM) rápidos e eficientes é importante. No entanto, isso apresenta três desafios principais de sistema: a diversidade de arquiteturas de modelo, a diversidade de primitivas de kernel e a heterogeneidade de gerações e arquiteturas de hardware. Este artigo apresenta o KernelEvolve - uma estrutura de codificação de kernel agentiva - para enfrentar a heterogeneidade em larga escala para o DLRM. O KernelEvolve foi projetado para receber especificações de kernel como entrada e automatizar o processo de geração e otimização de kernel para modelos de recomendação em diversas arquiteturas de hardware heterogêneas. O KernelEvolve faz isso operando em múltiplos níveis de abstração de programação, desde as DSLs Triton e CuTe até linguagens de baixo nível independentes de hardware, abrangendo toda a pilha de otimização hardware-software. O processo de otimização de kernel é descrito como uma busca baseada em grafo com política de seleção, operador universal, função de aptidão e regra de terminação, adaptando-se dinamicamente ao contexto de execução em tempo de execução por meio de síntese de *prompts* aumentada por recuperação. Nós projetamos, implementamos e implantamos o KernelEvolve para otimizar uma ampla variedade de modelos de recomendação em produção em diversas gerações de GPUs da NVIDIA e AMD, bem como nos aceleradores de IA da Meta. Validamos o KernelEvolve na suíte publicamente disponível KernelBench, alcançando uma taxa de aprovação de 100% em todos os 250 problemas em três níveis de dificuldade, e em 160 operadores ATen do PyTorch em três plataformas de hardware heterogêneas, demonstrando 100% de correção. O KernelEvolve reduz o tempo de desenvolvimento de semanas para horas e alcança melhorias substanciais de desempenho em relação às linhas de base do PyTorch em diversos casos de uso em produção e para sistemas de IA heterogêneos em larga escala. Além das melhorias de eficiência de desempenho, o KernelEvolve mitiga significativamente a barreira de programabilidade para novo hardware de IA, permitindo a geração automatizada de kernel para hardware de IA desenvolvido internamente.
A rápida evolução dos modelos generativos tem levado ao surgimento contínuo de riscos de segurança multimodais, expondo as limitações dos métodos de defesa existentes. Para enfrentar esses desafios, propomos o ProGuard, um guardião proativo de visão e linguagem que identifica e descreve riscos de segurança fora da distribuição (OOD) sem a necessidade dos ajustes de modelo exigidos pelas abordagens reativas tradicionais. Primeiro, construímos um conjunto de dados balanceado por modalidade com 87 mil amostras, cada uma anotada com rótulos binários de segurança e categorias de risco sob uma taxonomia hierárquica de segurança multimodal, mitigando efetivamente o viés de modalidade e garantindo moderação consistente em entradas de texto, imagem e texto-imagem. Com base nesse conjunto de dados, treinamos nosso modelo base de visão e linguagem puramente por meio de aprendizado por reforço (RL) para alcançar um raciocínio eficiente e conciso. Para aproximar cenários proativos de segurança em um ambiente controlado, introduzimos adicionalmente uma tarefa de inferência de categoria de segurança OOD e aumentamos o objetivo de RL com uma recompensa de similaridade baseada em banco de sinônimos que incentiva o modelo a gerar descrições concisas para categorias inseguras não vistas. Os resultados experimentais mostram que o ProGuard alcança desempenho comparável a grandes modelos de código fechado na classificação binária de segurança e supera substancialmente os modelos guardiões de código aberto existentes na categorização de conteúdo inseguro. Mais notavelmente, o ProGuard oferece uma forte capacidade de moderação proativa, melhorando a detecção de riscos OOD em 52,6% e a descrição de riscos OOD em 64,8%.
Apresentamos a descoberta surpreendente de que as capacidades de raciocínio de um modelo de linguagem podem ser melhoradas treinando-o em conjuntos de dados sintéticos de traços de *chain-of-thought* (CoT, cadeia de pensamento) provenientes de modelos mais capazes, mesmo quando todos esses traços levam a uma resposta final incorreta. Nossos experimentos mostram que essa abordagem pode resultar em um desempenho superior em tarefas de raciocínio do que o treinamento em conjuntos de dados anotados por humanos. Nossa hipótese é que dois fatores-chave explicam esse fenômeno: primeiro, a distribuição dos dados sintéticos é inerentemente mais próxima da distribuição própria do modelo de linguagem, tornando-os mais propícios à aprendizagem. Segundo, esses traços "incorretos" são frequentemente apenas parcialmente falhos e contêm etapas de raciocínio válidas das quais o modelo pode aprender. Para testar ainda mais a primeira hipótese, usamos um modelo de linguagem para parafrasear traços anotados por humanos – deslocando sua distribuição para mais perto da distribuição do próprio modelo – e mostramos que isso melhora o desempenho. Para a segunda hipótese, introduzimos traços CoT progressivamente mais falhos e estudamos até que ponto os modelos são tolerantes a essas falhas. Demonstramos nossas descobertas em vários domínios de raciocínio, como matemática, raciocínio algorítmico e geração de código, usando os conjuntos de dados MATH, GSM8K, Countdown e MBPP em vários modelos de linguagem, variando de 1,5B a 9B parâmetros, incluindo os modelos Qwen, Llama e Gemma. Nosso estudo mostra que a curadoria de conjuntos de dados mais próximos da distribuição do modelo é um aspecto crítico a ser considerado. Também mostramos que uma resposta final correta nem sempre é um indicador confiável de um processo de raciocínio fidedigno.
A animação de retratos em tempo real é essencial para aplicações interativas como assistentes virtuais e avatares ao vivo, exigindo alta fidelidade visual, coerência temporal, latência ultrabaixa e controle responsivo a partir de entradas dinâmicas como imagens de referência e sinais de condução. Embora os modelos baseados em difusão atinjam alta qualidade, sua natureza não causal dificulta a implantação em streaming. Abordagens de geração de vídeo autoregressivas causais permitem geração eficiente quadro a quadro, mas sofrem com acúmulo de erros, descontinuidades de movimento nas fronteiras dos segmentos e degradação da consistência de longo prazo. Neste trabalho, apresentamos uma nova estrutura de streaming denominada Knot Forcing para animação de retratos em tempo real que aborda esses desafios através de três projetos-chave: (1) uma estratégia de geração por segmentos com preservação global de identidade via estados KV em cache da imagem de referência e modelagem temporal local usando atenção de janela deslizante; (2) um módulo de nó temporal que sobrepõe segmentos adjacentes e propaga pistas espaço-temporais via condicionamento imagem-para-vídeo para suavizar transições de movimento entre segmentos; e (3) um mecanismo de "avanço dinâmico" que atualiza dinamicamente a coordenada temporal do quadro de referência durante a inferência, mantendo seu contexto semântico à frente do quadro atual de execução para sustentar coerência de longo prazo. O Knot Forcing permite animação de retratos de alta fidelidade, temporalmente consistente e interativa sobre sequências infinitas, alcançando desempenho em tempo real com forte estabilidade visual em GPUs de nível consumidor.
A avaliação do desempenho de várias arquiteturas de modelos, como *transformers*, modelos de linguagem de grande escala (LLMs) e outros sistemas de PLN, requer *benchmarks* abrangentes que meçam o desempenho em múltiplas dimensões. Entre estas, a avaliação da compreensão de linguagem natural (CLN) é particularmente crítica, pois serve como um critério fundamental para aferir as capacidades dos modelos. Assim, é essencial estabelecer *benchmarks* que permitam uma avaliação e análise aprofundadas das habilidades de CLN sob diversas perspetivas. Embora o *benchmark* GLUE tenha estabelecido um padrão para avaliar a CLN em inglês, *benchmarks* semelhantes foram desenvolvidos para outros idiomas, como o CLUE para chinês, o FLUE para francês e o JGLUE para japonês. No entanto, atualmente não existe um *benchmark* comparável para a língua turca. Para colmatar esta lacuna, apresentamos o TrGLUE, um *benchmark* abrangente que engloba uma variedade de tarefas de CLN para turco. Adicionalmente, apresentamos o SentiTurca, um *benchmark* especializado para análise de sentimentos. Para apoiar os investigadores, disponibilizamos também código para *fine-tuning* e avaliação de modelos baseados em *transformers*, facilitando a utilização eficaz destes *benchmarks*. O TrGLUE é composto por corpora nativos em turco, curados para espelhar os domínios e as formulações de tarefas das avaliações do estilo GLUE, com etiquetas obtidas através de um *pipeline* semiautomatizado que combina anotação robusta baseada em LLMs, verificações de concordância entre modelos e subsequente validação humana. Este projeto prioriza a naturalidade linguística, minimiza artefactos de tradução direta e produz um fluxo de trabalho escalável e reproduzível. Com o TrGLUE, o nosso objetivo é estabelecer uma estrutura robusta de avaliação para a CLN em turco, capacitar os investigadores com recursos valiosos e fornecer insights para a geração de conjuntos de dados semiautomatizados de alta qualidade.
Os recentes modelos de difusão texto-imagem têm demonstrado uma geração notável de imagens faciais realistas condicionadas por instruções textuais e identidades humanas, permitindo a criação de imagens faciais personalizadas. No entanto, os métodos existentes baseados em *prompts* para remover ou modificar características específicas de identidade dependem ou de o sujeito estar bem representado no modelo pré-treinado ou requerem o ajuste fino do modelo para identidades específicas. Neste trabalho, analisamos o processo de geração de identidade e introduzimos uma estrutura de personalização reversa para anonimização facial. A nossa abordagem aproveita a inversão por difusão condicional, permitindo a manipulação direta de imagens sem o uso de *prompts* textuais. Para generalizar além dos sujeitos presentes nos dados de treino do modelo, incorporamos um ramo de condicionamento guiado por identidade. Ao contrário dos métodos de anonimização anteriores, que carecem de controlo sobre os atributos faciais, a nossa estrutura suporta a anonimização com controlo de atributos. Demonstramos que o nosso método alcança um equilíbrio estado da arte entre a remoção de identidade, a preservação de atributos e a qualidade da imagem. O código fonte e os dados estão disponíveis em https://github.com/hanweikung/reverse-personalization.