Artigos de pesquisa em IA selecionados diariamente com traduções
Este relatório técnico apresenta o K-EXAONE, um modelo de linguagem multilingue de grande escala desenvolvido pela LG AI Research. O K-EXAONE é construído sobre uma arquitetura *Mixture-of-Experts* (Mistura de Especialistas) com 236 bilhões de parâmetros no total, ativando 23 bilhões de parâmetros durante a inferência. Suporta uma janela de contexto de 256 mil *tokens* e abrange seis idiomas: coreano, inglês, espanhol, alemão, japonês e vietnamita. Avaliamos o K-EXAONE em uma suíte abrangente de *benchmarks* que abrange capacidades de raciocínio, agentivas, gerais, coreanas e multilingues. Ao longo dessas avaliações, o K-EXAONE demonstra um desempenho comparável a modelos de peso aberto (*open-weight*) de tamanho similar. O K-EXAONE, concebido para avançar a IA em prol de uma vida melhor, é posicionado como um poderoso modelo de base de IA proprietário para uma ampla gama de aplicações industriais e de pesquisa.
Estudamos permitir que modelos de linguagem de grande escala (LLMs) processem prompts arbitrariamente longos através da lente da escalabilidade em tempo de inferência. Propomos Modelos de Linguagem Recursivos (RLMs), uma estratégia geral de inferência que trata prompts longos como parte de um ambiente externo e permite que o LLM examine, decomponha e chame a si mesmo recursivamente de forma programática sobre trechos do prompt. Descobrimos que os RLMs lidam com sucesso com entradas de até duas ordens de grandeza além das janelas de contexto do modelo e, mesmo para prompts mais curtos, superam drasticamente a qualidade dos LLMs base e dos arcabouços comuns de contexto longo em quatro tarefas diversas de contexto longo, mantendo custo por consulta comparável (ou mais barato).
Os grandes modelos de linguagem (LLMs) geram saídas fluidas e complexas, mas frequentemente falham em reconhecer seus próprios erros e alucinações. As abordagens existentes geralmente dependem de juízes externos, consistência multi-amostra ou autocrítica baseada em texto, que incorrem em custos computacionais adicionais ou possuem correlação fraca com a correção real. Nós questionamos: os LLMs podem prever suas próprias falhas ao inspecionar estados internos durante a inferência? Apresentamos a Gnosis, um mecanismo leve de autoconsciência que permite que LLMs congelados realizem autoverificação intrínseca ao decodificar sinais de estados ocultos e padrões de atenção. A Gnosis observa passivamente os traços internos, comprime-os em descritores de orçamento fixo e prevê a correção com custo de inferência negligenciável, adicionando apenas ~5M de parâmetros e operando independentemente do comprimento da sequência. Em benchmarks de raciocínio matemático, questionamento de domínio aberto e conhecimento acadêmico, e em backbones congelados variando de 1.7B a 20B de parâmetros, a Gnosis supera consistentemente baselines internos robustos e grandes juízes externos tanto em precisão quanto em calibração. Além disso, ela generaliza zero-shot para gerações parciais, permitindo a detecção precoce de trajetórias com falha e controle consciente do custo computacional. Esses resultados mostram que pistas confiáveis de correção são intrínsecas ao processo de geração e podem ser extraídas eficientemente sem supervisão externa.
Apresentamos o NextFlow, um transformer autoregressivo unificado de apenas decodificação, treinado em 6 trilhões de tokens discretos intercalados de texto e imagem. Ao aproveitar uma representação visual unificada dentro de uma arquitetura autoregressiva unificada, o NextFlow ativa nativamente capacidades de compreensão e geração multimodal, desbloqueando habilidades de edição de imagem, geração de conteúdo intercalado e vídeo. Motivados pela natureza distinta das modalidades - onde o texto é estritamente sequencial e as imagens são inerentemente hierárquicas - mantemos a previsão do próximo token para texto, mas adotamos a previsão da próxima escala para geração visual. Isso se afasta dos métodos tradicionais de varredura raster, permitindo a geração de imagens de 1024x1024 em apenas 5 segundos - ordens de magnitude mais rápido do que modelos AR comparáveis. Abordamos as instabilidades da geração multiescala por meio de uma receita de treinamento robusta. Além disso, introduzimos uma estratégia de prefix-tuning para aprendizagem por reforço. Experimentos demonstram que o NextFlow alcança desempenho de ponta entre modelos unificados e rivaliza com baselines especializadas de difusão em qualidade visual.
A Troca de Rostos em Vídeo (VFS) exige a injeção perfeita de uma identidade de origem num vídeo-alvo, preservando meticulosamente a pose, expressão, iluminação, fundo e informações dinâmicas originais. Os métodos existentes lutam para manter a similaridade de identidade e a preservação de atributos, garantindo ao mesmo tempo a consistência temporal. Para enfrentar este desafio, propomos um quadro abrangente para transferir perfeitamente a superioridade da Troca de Rostos em Imagem (IFS) para o domínio do vídeo. Primeiro, introduzimos um novo *pipeline* de dados, o SyncID-Pipe, que pré-treina um Sintetizador de Vídeo com Âncora de Identidade e o combina com modelos IFS para construir quadrupletos de ID bidirecionais para supervisão explícita. Com base em dados emparelhados, propomos a primeira arquitetura baseada em *Diffusion Transformer*, a DreamID-V, empregando um módulo central de Condicionamento Consciente da Modalidade para injetar discriminativamente condições de multi-modelo. Entretanto, propomos um mecanismo de Currículo Sintético-para-Real e uma estratégia de Aprendizagem por Reforço de Coerência de Identidade para melhorar o realismo visual e a consistência da identidade em cenários desafiadores. Para resolver a questão da limitação de *benchmarks*, introduzimos o IDBench-V, um *benchmark* abrangente que abarca diversas cenas. Extensivos experimentos demonstram que a DreamID-V supera os métodos state-of-the-art e exibe ainda uma versatilidade excecional, podendo ser adaptada perfeitamente a várias tarefas relacionadas com troca.
Para suportar interações de longo prazo confiáveis em ambientes complexos, os agentes de LLM requerem sistemas de memória que gerenciem eficientemente as experiências históricas. As abordagens existentes ou retêm históricos completos de interação via extensão passiva de contexto, levando a uma redundância substancial, ou dependem de raciocínio iterativo para filtrar ruído, incorrendo em altos custos de *tokens*. Para enfrentar este desafio, introduzimos o SimpleMem, um framework de memória eficiente baseado na compressão semântica sem perdas. Propomos um *pipeline* de três estágios projetado para maximizar a densidade de informação e a utilização de *tokens*: (1) Compressão Estruturada Semântica, que aplica filtragem consciente da entropia para destilar interações não estruturadas em unidades de memória indexadas compactas e de múltiplas visões; (2) Consolidação de Memória Recursiva, um processo assíncrono que integra unidades relacionadas em representações abstratas de nível superior para reduzir a redundância; e (3) Recuperação Adaptativa Consciente da Consulta, que ajusta dinamicamente o escopo de recuperação com base na complexidade da consulta para construir contexto preciso de forma eficiente. Experimentos em conjuntos de dados de referência mostram que nosso método supera consistentemente as abordagens basais em precisão, eficiência de recuperação e custo de inferência, alcançando uma melhoria média de F1 de 26,4% enquanto reduz o consumo de *tokens* no tempo de inferência em até 30 vezes, demonstrando um equilíbrio superior entre desempenho e eficiência. O código está disponível em https://github.com/aiming-lab/SimpleMem.
A geração visual é dominada por três paradigmas: modelos AutoRegressivos (AR), de difusão e Visuais AutoRegressivos (VAR). Diferente dos AR e de difusão, os VARs operam em estruturas de entrada heterogêneas ao longo de suas etapas de geração, o que cria severos conflitos de política assíncronos. Esse problema torna-se particularmente agudo em cenários de aprendizado por reforço (RL), levando a treinamento instável e alinhamento subótimo. Para resolver isso, propomos uma nova estrutura para aprimorar a Otimização de Política Relativa de Grupo (GRPO) gerenciando explicitamente esses conflitos. Nosso método integra três componentes sinérgicos: 1) uma recompensa intermediária estabilizadora para guiar a geração em estágios iniciais; 2) um esquema dinâmico de reponderação de intervalo de tempo para atribuição de crédito precisa; e 3) um novo algoritmo de propagação de máscara, derivado dos princípios da Aprendizagem por Feedback de Recompensa (ReFL), projetado para isolar efeitos de otimização tanto espacial quanto temporalmente. Nossa abordagem demonstra melhorias significativas na qualidade da amostra e no alinhamento objetivo em relação à linha de base GRPO padrão, permitindo uma otimização robusta e eficaz para modelos VAR.
A grande visão de permitir uma compreensão persistente e em larga escala da geometria visual 3D está acorrentada pelas demandas irreconciliáveis de escalabilidade e estabilidade de longo prazo. Embora modelos offline, como o VGGT, atinjam capacidades geométricas inspiradoras, sua natureza baseada em lotes os torna irrelevantes para sistemas em tempo real. As arquiteturas de *streaming*, embora sejam a solução pretendida para operação ao vivo, mostraram-se inadequadas. Os métodos existentes ou falham em suportar entradas de horizonte verdadeiramente infinito ou sofrem com desvios catastróficos em sequências longas. Nós quebramos esse dilema de longa data com o InfiniteVGGT, um transformador de geometria visual causal que operacionaliza o conceito de uma memória rolante por meio de um cache KV limitado, mas adaptativo e perpetuamente expressivo. Aproveitando isso, concebemos uma estratégia de poda, livre de treinamento e agnóstica à atenção, que descarta inteligentemente informações obsoletas, efetivamente "rolando" a memória para a frente a cada novo quadro. Totalmente compatível com o FlashAttention, o InfiniteVGGT finalmente alivia o compromisso, permitindo o *streaming* de horizonte infinito enquanto supera os métodos de *streaming* existentes em estabilidade de longo prazo. O teste definitivo para tal sistema é o seu desempenho em um horizonte verdadeiramente infinito, uma capacidade que tem sido impossível de validar rigorosamente devido à falta de *benchmarks* contínuos e de extremo longo prazo. Para abordar essa lacuna crítica, introduzimos o *benchmark* Long3D, que, pela primeira vez, permite uma avaliação rigorosa da estimativa contínua de geometria 3D em sequências de aproximadamente 10.000 quadros. Isso fornece a plataforma de avaliação definitiva para pesquisas futuras na compreensão de geometria 3D de longo prazo. O código está disponível em: https://github.com/AutoLab-SAI-SJTU/InfiniteVGGT
Apresentamos o VINO, um gerador visual unificado que executa geração e edição de imagens e vídeos em um único framework. Em vez de depender de modelos específicos para cada tarefa ou módulos independentes para cada modalidade, o VINO utiliza um backbone de difusão compartilhado que se condiciona a textos, imagens e vídeos, permitindo uma ampla gama de tarefas de criação e edição visual em um único modelo. Especificamente, o VINO acopla um modelo de visão e linguagem (VLM) a um Transformador de Difusão Multimodal (MMDiT), onde entradas multimodais são codificadas como tokens de condicionamento intercalados e, em seguida, usadas para orientar o processo de difusão. Este projeto suporta o ancoramento multirreferência, o seguimento de instruções de longa duração e a preservação coerente de identidade em conteúdos estáticos e dinâmicos, evitando ao mesmo tempo componentes arquitetónicos específicos da modalidade. Para treinar um sistema unificado deste tipo, introduzimos um pipeline de treino multiestágio que expande progressivamente um modelo base de geração de vídeo num gerador unificado e multitarefa capaz de processar entrada e saída de imagem e vídeo. Em diversos benchmarks de geração e edição, o VINO demonstra forte qualidade visual, seguimento fiel de instruções, preservação melhorada de referências e atributos, e edições multi-identidade mais controláveis. Os nossos resultados destacam um caminho prático para a geração visual unificada e escalável, e o potencial da computação intercalada e contextual como base para a criação visual de propósito geral.
O ajuste fino de modelos de difusão através de aprendizagem por reforço (RL) online tem demonstrado grande potencial para melhorar o alinhamento texto-imagem. No entanto, como a especificação precisa de um objetivo de verdade fundamental (ground-truth) para tarefas visuais permanece um desafio, os modelos são frequentemente otimizados usando uma recompensa proxy que apenas captura parcialmente o objetivo real. Esta incompatibilidade frequentemente leva a *reward hacking* (hackeamento da recompensa), onde as pontuações proxy aumentam enquanto a qualidade real da imagem se deteriora e a diversidade da geração entra em colapso. Embora as soluções comuns adicionem regularização contra a política de referência para prevenir o *reward hacking*, elas comprometem a eficiência amostral e impedem a exploração de regiões novas e de alta recompensa, uma vez que a política de referência é geralmente subótima. Para abordar as demandas concorrentes de eficiência amostral, exploração eficaz e mitigação do *reward hacking*, propomos o GARDO (*Gated and Adaptive Regularization with Diversity-aware Optimization*), uma estrutura versátil compatível com vários algoritmos de RL. Nossa principal perceção é que a regularização não precisa ser aplicada universalmente; em vez disso, é altamente eficaz penalizar seletivamente um subconjunto de amostras que exibem alta incerteza. Para enfrentar o desafio da exploração, o GARDO introduz um mecanismo de regularização adaptativa no qual o modelo de referência é atualizado periodicamente para corresponder às capacidades da política online, garantindo um alvo de regularização relevante. Para resolver o problema do colapso modal (*mode collapse*) no RL, o GARDO amplifica as recompensas para amostras de alta qualidade que também exibem alta diversidade, incentivando a cobertura de modos sem desestabilizar o processo de otimização. Extensos experimentos com diversas recompensas proxy e métricas de avaliação não vistas (*hold-out*) mostram consistentemente que o GARDO mitiga o *reward hacking* e aumenta a diversidade da geração sem sacrificar a eficiência amostral ou a exploração, destacando a sua eficácia e robustez.
Este trabalho apresenta o Falcon-H1R, um modelo de 7 mil milhões de parâmetros otimizado para raciocínio, que estabelece a viabilidade de alcançar um desempenho competitivo em raciocínio com modelos de linguagem pequenos (SLMs). O Falcon-H1R destaca-se pela sua eficiência paramétrica, equiparando ou superando consistentemente modelos de raciocínio estado da arte (SOTA) que são 2 a 7 vezes maiores em vários benchmarks intensivos de raciocínio. Estes resultados sublinham a importância de uma curadoria de dados criteriosa e de estratégias de treino direcionadas (através de SFT eficiente e escalonamento por RL) para obter ganhos significativos de desempenho sem aumentar o tamanho do modelo. Além disso, o Falcon-H1R avança os limites 3D da eficiência de raciocínio ao combinar inferência mais rápida (através do seu design de arquitetura híbrida-paralela), eficiência de *tokens* e maior precisão. Esta combinação única torna o Falcon-H1R-7B uma espinha dorsal prática para a escalação de sistemas de raciocínio avançados, particularmente em cenários que exigem geração extensiva de cadeias de pensamento (*chain-of-thoughts*) e escalonamento paralelo em tempo de teste. Aproveitando a abordagem DeepConf recentemente introduzida, o Falcon-H1R alcança uma eficiência de escalonamento em tempo de teste estado da arte, oferecendo melhorias substanciais tanto na precisão como no custo computacional. Como resultado, o Falcon-H1R demonstra que modelos compactos, através de treino direcionado e escolhas arquiteturais adequadas, podem oferecer um desempenho de raciocínio robusto e escalável.
Apresentamos o SWE-Lego, uma receita de ajuste fino supervisionado (SFT) projetada para alcançar desempenho de última geração na resolução de problemas de engenharia de software (SWE). Em contraste com os métodos predominantes que dependem de paradigmas de treinamento complexos (por exemplo, mid-training, SFT, aprendizagem por reforço e suas combinações), exploramos como levar ao limite uma abordagem leve baseada apenas em SFT para tarefas de SWE. O SWE-Lego compreende três blocos de construção principais, com descobertas-chave resumidas da seguinte forma: 1) o conjunto de dados SWE-Lego, uma coleção de 32 mil instâncias de tarefas de alta qualidade e 18 mil trajetórias validadas, combinando dados reais e sintéticos para se complementarem em qualidade e quantidade; 2) um procedimento de SFT refinado com mascaramento de erros e um currículo baseado em dificuldade, que comprovadamente melhora a qualidade da ação e o desempenho geral. Resultados empíricos mostram que apenas com esses dois blocos de construção, o SFT pode levar os modelos SWE-Lego a um desempenho de última geração entre modelos de código aberto de tamanho comparável no SWE-bench Verified: SWE-Lego-Qwen3-8B atinge 42,2% e SWE-Lego-Qwen3-32B alcança 52,6%. 3) Avaliamos e melhoramos ainda mais a escala em tempo de teste (TTS) construída sobre a base do SFT. Com base em um verificador bem treinado, os modelos SWE-Lego podem ser significativamente impulsionados – por exemplo, de 42,2% para 49,6% e de 52,6% para 58,8% sob TTS@16 para os modelos de 8B e 32B, respectivamente.
A avaliação da novidade é crucial, porém desafiadora, na revisão por pares, uma vez que os revisores devem analisar as submissões face a uma literatura vasta e em rápida evolução. Este relatório apresenta o OpenNovelty, um sistema agentivo baseado em LLM para análise de novidade transparente e baseada em evidências. O sistema opera através de quatro fases: (1) extração da tarefa principal e das alegações de contribuição para gerar consultas de recuperação; (2) recuperação de trabalhos prévios relevantes com base nas consultas extraídas através de um motor de busca semântica; (3) construção de uma taxonomia hierárquica do trabalho relacionado com a tarefa principal e realização de comparações de texto integral ao nível da contribuição para cada contribuição; e (4) síntese de todas as análises num relatório de novidade estruturado, com citações explícitas e excertos de evidências. Ao contrário de abordagens ingénuas baseadas em LLM, o OpenNovelty fundamenta todas as avaliações em artigos reais recuperados, garantindo julgamentos verificáveis. Implementamos o nosso sistema em mais de 500 submissões da ICLR 2026, com todos os relatórios disponíveis publicamente no nosso website, e a análise preliminar sugere que este consegue identificar trabalhos prévios relevantes, incluindo artigos intimamente relacionados que os autores podem ter negligenciado. O OpenNovelty visa capacitar a comunidade de investigação com uma ferramenta escalável que promove uma revisão por pares justa, consistente e suportada por evidências.
Embora a estimativa de confiança seja uma direção promissora para mitigar alucinações em Modelos de Linguagem de Grande Porte (LLMs), a pesquisa atual concentra-se predominantemente em configurações de turno único. A dinâmica da confiança do modelo em conversas multi-turno, onde o contexto se acumula e a ambiguidade é progressivamente resolvida, permanece amplamente inexplorada. A estimativa de confiança confiável em cenários multi-turno é crítica para muitas aplicações subsequentes, como agentes autónomos e sistemas com intervenção humana. Este trabalho apresenta o primeiro estudo sistemático sobre a estimativa de confiança em interações multi-turno, estabelecendo um quadro formal de avaliação baseado em dois desideratos fundamentais: calibração por turno e monotonicidade da confiança à medida que mais informação se torna disponível. Para facilitar isto, introduzimos novas métricas, incluindo um Erro Esperado de Calibração normalizado por comprimento (InfoECE), e um novo paradigma "Adivinhador com Dicas" para gerar conjuntos de dados de avaliação controlados. As nossas experiências revelam que as técnicas de confiança amplamente utilizadas têm dificuldades com a calibração e a monotonicidade em diálogos multi-turno. Propomos P(Suficiente), uma sonda baseada em *logits* que atinge um desempenho comparativamente melhor, embora a tarefa esteja longe de estar resolvida. O nosso trabalho fornece uma metodologia fundamental para desenvolver agentes conversacionais mais confiáveis e seguros.
Apresentamos o Talk2Move, uma estrutura de difusão baseada em aprendizagem por reforço (RL) para transformação espacial de objetos em cenas instruída por texto. A manipulação espacial de objetos numa cena através de linguagem natural representa um desafio para sistemas de geração multimodal. Embora os métodos existentes de manipulação baseada em texto possam ajustar a aparência ou o estilo, eles têm dificuldade em realizar transformações geométricas a nível de objeto - como translação, rotação ou redimensionamento - devido à escassez de supervisão emparelhada e aos limites da otimização a nível de pixel. O Talk2Move emprega a Otimização de Política Relativa de Grupo (GRPO) para explorar ações geométricas através de diversos *rollouts* gerados a partir de imagens de entrada e variações textuais leves, eliminando a necessidade de dados emparelhados dispendiosos. Um modelo guiado por recompensa espacial alinha as transformações geométricas com a descrição linguística, enquanto a avaliação de passos *off-policy* e a amostragem ativa de passos melhoram a eficiência da aprendizagem ao focar em estágios de transformação informativos. Adicionalmente, projetamos recompensas espaciais centradas no objeto que avaliam comportamentos de deslocamento, rotação e escalonamento diretamente, permitindo transformações interpretáveis e coerentes. Experiências em benchmarks curados demonstram que o Talk2Move alcança transformações de objetos precisas, consistentes e semanticamente fiéis, superando as abordagens existentes de edição guiada por texto tanto em precisão espacial quanto em coerência da cena.
Embora os LLMs sejam poderosos modelos de base para embeddings, sua aplicação em configurações livres de treinamento enfrenta dois desafios estruturais: a atenção causal impede que os tokens iniciais acessem o contexto subsequente, e o objetivo de previsão do próximo token tende a enviesar as representações para a geração em vez da compressão semântica. Para superar essas limitações, propomos o KV-Embedding, uma estrutura que ativa o poder de representação latente de LLMs congelados. Nosso método aproveita a observação de que os estados chave-valor (KV) do token final em cada camada codificam uma visão comprimida da sequência. Ao redirecionar esses estados como um prefixo pré-acoplado, permitimos que todos os tokens acessem o contexto em nível de sequência em um único passo forward. Para garantir aplicabilidade independente do modelo, introduzimos uma estratégia automatizada de seleção de camadas baseada na dimensionalidade intrínseca. As avaliações no benchmark MTEB com os modelos base Qwen, Mistral e Llama mostram que o KV-Embedding supera as linhas de base livres de treinamento existentes em até 10%, mantendo um desempenho robusto em sequências de até 4.096 tokens. Esses resultados demonstram que a manipulação dos estados internos oferece uma alternativa eficiente à modificação da entrada, e esperamos que este trabalho incentive a exploração adicional dos componentes internos dos LLMs para aprendizado de representação.
À medida que os modelos de linguagem de grande escala são implementados em aplicações empresariais de alto risco, desde a saúde até finanças, garantir a adesão a políticas específicas da organização tornou-se essencial. No entanto, as avaliações de segurança existentes concentram-se exclusivamente em danos universais. Apresentamos o COMPASS (Avaliação de Alinhamento a Políticas de Empresa/Organização), o primeiro framework sistemático para avaliar se os LLMs cumprem políticas organizacionais de listas de permissões e de restrições. Aplicamos o COMPASS a oito cenários industriais diversos, gerando e validando 5.920 consultas que testam tanto a conformidade rotineira quanto a robustez adversária através de casos limite estrategicamente desenhados. Ao avaliar sete modelos state-of-the-art, descobrimos uma assimetria fundamental: os modelos processam pedidos legítimos com confiabilidade (>95% de precisão), mas falham catastróficamente na aplicação de proibições, recusando apenas 13-40% das violações adversárias das listas de restrições. Estes resultados demonstram que os LLMs atuais carecem da robustez necessária para implementações críticas de políticas, estabelecendo o COMPASS como um framework de avaliação essencial para a segurança de IA organizacional.
Apresentamos o CPPO, um método de Otimização de Políticas por Percepção Contrastante para o ajuste fino de modelos de visão e linguagem (VLMs). Embora o aprendizado por reforço (RL) tenha avançado o raciocínio em modelos de linguagem, estendê-lo para o raciocínio multimodal requer a melhoria dos aspetos de perceção e de raciocínio. Trabalhos anteriores abordam este desafio principalmente com recompensas de perceção explícitas, mas separar os *tokens* de perceção dos *tokens* de raciocínio é difícil, exigindo LLMs adicionais, dados de *ground-truth*, uma separação forçada da perceção do raciocínio pelo modelo de política, ou a aplicação indiscriminada de recompensas a todos os *tokens* de saída. O CPPO resolve este problema ao detetar os *tokens* de perceção através de mudanças de entropia nas saídas do modelo sob imagens de entrada perturbadas. O CPPO estende então a função objetivo de RL com uma Perda de Perceção Contrastante (CPL) que impõe consistência sob perturbações que preservam informação e sensibilidade sob perturbações que removem informação. Experiências mostram que o CPPO supera métodos anteriores baseados em recompensas de perceção, evitando ao mesmo tempo modelos extras, tornando o treino mais eficiente e escalável.
A recuperação de malhas humanas a partir de imagens multivista enfrenta um desafio fundamental: os conjuntos de dados do mundo real contêm anotações de ground-truth imperfeitas que enviesam o treinamento dos modelos, enquanto os dados sintéticos com supervisão precisa sofrem com o gap de domínio. Neste artigo, propomos o DiffProxy, uma nova estrutura que gera proxies humanos consistentes em multivista para recuperação de malhas. Central ao DiffProxy é a utilização de prioridades generativas baseadas em difusão para ligar o treinamento sintético e a generalização no mundo real. As suas principais inovações incluem: (1) um mecanismo multi-condicional para gerar proxies humanos consistentes em multivista e alinhados ao pixel; (2) um módulo de refinamento das mãos que incorpora prompts visuais flexíveis para melhorar os detalhes locais; e (3) um método de escalagem consciente da incerteza em tempo de teste que aumenta a robustez a casos desafiadores durante a otimização. Estes projetos garantem que o processo de recuperação da malha beneficie efetivamente do ground-truth sintético preciso e das vantagens generativas do pipeline baseado em difusão. Treinado inteiramente com dados sintéticos, o DiffProxy atinge desempenho state-of-the-art em cinco benchmarks do mundo real, demonstrando forte generalização zero-shot, particularmente em cenários desafiadores com oclusões e vistas parciais. Página do projeto: https://wrk226.github.io/DiffProxy.html
A segmentação semântica semissupervisionada de imagens de sensoriamento remoto (SR) oferece uma solução promissora para aliviar o fardo da anotação exaustiva, mas luta fundamentalmente com o desvio de pseudo-rótulos, um fenômeno em que o viés de confirmação leva ao acúmulo de erros durante o treinamento. Neste trabalho, propomos o Co2S, uma estrutura estável de segmentação semissupervisionada de SR que funde sinergicamente conhecimentos prévios de modelos visão-linguagem e modelos auto supervisionados. Especificamente, construímos uma arquitetura dual-heterogênea composta por dois modelos de base visual distintos baseados em ViT, inicializados com CLIP e DINOv3 pré-treinados, para mitigar o acúmulo de erros e o desvio de pseudo-rótulos. Para incorporar efetivamente esses conhecimentos prévios distintos, é introduzido um mecanismo de coguia semântica explícita-implícita que utiliza incorporações de texto e consultas aprendíveis para fornecer orientação a nível de classe explícita e implícita, respectivamente, aprimorando conjuntamente a consistência semântica. Além disso, é desenvolvida uma estratégia de fusão colaborativa de características globais-locais para fundir efetivamente a informação contextual global capturada pelo CLIP com os detalhes locais produzidos pelo DINOv3, permitindo que o modelo gere resultados de segmentação altamente precisos. Experimentos extensos em seis conjuntos de dados populares demonstram a superioridade do método proposto, que alcança consistentemente desempenho líder em vários protocolos de partição e diversos cenários. A página do projeto está disponível em https://xavierjiezou.github.io/Co2S/.
A segmentação de imagens médicas com múltiplos anotadores é um problema de pesquisa importante, mas requer conjuntos de dados anotados que são dispendiosos para coletar. A imagem dermatoscópica de lesões cutâneas permite que especialistas humanos e sistemas de IA observem estruturas morfológicas que de outra forma não seriam discerníveis em fotografias clínicas regulares. No entanto, atualmente não existem conjuntos de dados de segmentação de lesões cutâneas (SLC) com múltiplos anotadores, em grande escala e publicamente disponíveis, com anotações individuais para imagens dermatoscópicas de lesões cutâneas. Apresentamos o ISIC MultiAnnot++, um grande conjunto de dados público de segmentação de lesões cutâneas com múltiplos anotadores para imagens do Arquivo ISIC. O conjunto de dados final contém 17.684 máscaras de segmentação abrangendo 14.967 imagens dermatoscópicas, onde 2.394 imagens dermatoscópicas possuem entre 2 a 5 segmentações por imagem, tornando-o o maior conjunto de dados de SLC publicamente disponível. Adicionalmente, metadados sobre a segmentação, incluindo o nível de habilidade dos anotadores e a ferramenta de segmentação utilizada, estão incluídos, permitindo pesquisas sobre tópicos como a modelagem de preferências específicas do anotador para segmentação e a análise de metadados do anotador. Fornecemos uma análise sobre as características deste conjunto de dados, partições de dados curadas e máscaras de segmentação de consenso.
**À medida que os agentes de Modelos de Linguagem de Grande Escala (LLMs) são cada vez mais incumbidos de tomadas de decisão autónomas de alto risco, a transparência dos seus processos de raciocínio tornou-se uma preocupação crítica de segurança. Embora o prompting de Cadeia de Pensamento (CoT) permita que os agentes gerem traços de raciocínio legíveis por humanos, permanece incerto se estes traços são condutores generativos fiéis da saída do modelo ou meramente racionalizações *post-hoc*. Apresentamos o Projeto Ariadne, uma nova estrutura de XAI que utiliza Modelos Causais Estruturais (SCMs) e lógica contrafactual para auditar a integridade causal do raciocínio agentivo. Ao contrário dos métodos de interpretabilidade existentes que dependem de similaridade textual superficial, o Projeto Ariadne realiza intervenções rígidas (*do-calculus*) em nós intermédios de raciocínio – invertendo sistematicamente a lógica, negando premissas e revertendo afirmações factuais – para medir a Sensibilidade Causal (φ) da resposta final. A nossa avaliação empírica de modelos de última geração revela uma persistente Lacuna de Fidelidade. Definimos e detetamos um modo de falha generalizado, denominado Desacoplamento Causal, no qual os agentes exibem uma densidade de violação (ρ) de até 0,77 em domínios factuais e científicos. Nestes casos, os agentes chegam a conclusões idênticas apesar de lógicas internas contraditórias, provando que os seus traços de raciocínio funcionam como um "Teatro do Raciocínio", enquanto a tomada de decisão é governada por *priors* paramétricos latentes. As nossas descobertas sugerem que as arquiteturas agentivas atuais são inerentemente propensas a explicações infiéis, e propomos a Pontuação Ariadne como um novo benchmark para alinhar a lógica declarada com a ação do modelo.**
Apresentamos a materiomúsica como um arcabouço generativo que conecta as estruturas hierárquicas da matéria com a lógica composicional da música. Através de proteínas, teias de aranha e dinâmicas de chama, princípios vibracionais e arquitetônicos reaparecem como hierarquias tonais, progressões harmônicas e forma musical de longo alcance. Utilizando mapeamentos reversíveis, de espectros moleculares para tons musicais e de redes tridimensionais para instrumentos tocáveis, mostramos como o som funciona como uma sonda científica, uma inversão epistêmica na qual a escuta se torna um modo de ver e a composição musical se torna um projeto para a matéria. Esses mapeamentos escavam o tempo profundo: padrões originados em vibrações moleculares de femtosegundos ou em histórias evolutivas de bilhões de anos tornam-se audíveis. Postulamos que a novidade na ciência e na arte emerge quando as restrições não podem ser satisfeitas dentro dos graus de liberdade existentes, forçando a expansão do espaço de configurações viáveis. A imperfeição seletiva fornece o mecanismo que restaura o equilíbrio entre coerência e adaptabilidade. O suporte quantitativo vem da enumeração exaustiva de todas as 2^12 escalas musicais, revelando que os sistemas culturalmente significativos se agrupam em um corredor de entropia e defeitos intermediários, paralelizando diretamente o ótimo de Hall-Petch, onde densidades intermediárias de defeitos maximizam a resistência do material. A iteração desses mapeamentos cria colisões produtivas entre a criatividade humana e a física, gerando nova informação à medida que estruturas musicais encontram restrições evolutivas. Mostramos como modelos de IA baseados em enxame compõem música exibindo assinaturas estruturais semelhantes às humanas, como conectividade de mundo pequeno, integração modular e coerência de longo alcance, sugerindo uma rota além da interpolação em direção à invenção. Demonstramos que a ciência e a arte são atos generativos de construção de mundos sob restrição, tendo a vibração como uma gramática compartilhada que organiza a estrutura através das escalas.
Os Modelos de Base Geoespaciais (GFMs) têm se mostrado eficazes em diversas aplicações subsequentes, incluindo tarefas de segmentação semântica, classificação e regressão. No entanto, no caso do mapeamento de inundações usando o conjunto de dados Sen1Flood11 como tarefa subsequente, os GFMs têm dificuldade em superar a U-Net de referência, destacando a limitação do modelo em capturar nuances locais críticas. Para resolver isso, apresentamos o Prithvi-Complementary Adaptive Fusion Encoder (CAFE), que integra o codificador pré-treinado do GFM Prithvi com um ramo residual de CNN paralelo aprimorado por Módulos de Atenção Convolucional (CAM). O Prithvi-CAFE permite um ajuste fino rápido e eficiente por meio de adaptadores no Prithvi e realiza uma fusão multiescala e multinível com características da CNN, capturando detalhes locais críticos enquanto preserva dependências de longo alcance. Alcançamos resultados de última geração em dois conjuntos de dados abrangentes de mapeamento de inundações: Sen1Flood11 e FloodPlanet. Nos dados de teste do Sen1Flood11, o Prithvi-CAFE (IoU 83,41) supera o Prithvi original (IoU 82,50) e outros GFMs principais (TerraMind 82,90, DOFA 81,54, spectralGPT: 81,02). A melhoria é ainda mais pronunciada no local de teste retido, onde o Prithvi-CAFE atinge um IoU de 81,37 em comparação com a U-Net de referência (70,57) e o Prithvi original (72,42). No FloodPlanet, o Prithvi-CAFE também supera a U-Net de referência e outros GFMs, atingindo um IoU de 64,70 em comparação com a U-Net (60,14), Terramind (62,33), DOFA (59,15) e Prithvi 2.0 (61,91). Nosso Prithvi-CAFE, proposto de forma simples, mas eficaz, demonstra um forte potencial para melhorar tarefas de segmentação onde dados multiespectrais e multimodais fornecem informações complementares e os detalhes locais são críticos. O código foi disponibilizado em https://github.com/Sk-2103/Prithvi-CAFE.
Os modelos de difusão texto-imagem podem gerar conteúdo nocivo ou protegido por direitos autorais, motivando pesquisas sobre a eliminação de conceitos. No entanto, as abordagens existentes concentram-se principalmente na eliminação de conceitos a partir de prompts de texto, negligenciando outras modalidades de entrada que são cada vez mais críticas em aplicações do mundo real, como edição de imagens e geração personalizada. Essas modalidades podem se tornar superfícies de ataque, onde conceitos eliminados ressurgem apesar das defesas. Para preencher essa lacuna, apresentamos o M-ErasureBench, uma nova estrutura de avaliação multimodal que avalia sistematicamente métodos de eliminação de conceitos em três modalidades de entrada: prompts de texto, *embeddings* aprendidos e latentes invertidos. Para as duas últimas, avaliamos tanto o acesso em caixa-branca quanto em caixa-preta, resultando em cinco cenários de avaliação. Nossa análise mostra que os métodos existentes alcançam um forte desempenho de eliminação contra prompts de texto, mas falham amplamente sob *embeddings* aprendidos e latentes invertidos, com uma Taxa de Reprodução de Conceitos (CRR) superior a 90% no cenário de caixa-branca. Para abordar essas vulnerabilidades, propomos o IRECE (*Inference-time Robustness Enhancement for Concept Erasure*), um módulo *plug-and-play* que localiza conceitos-alvo por meio de atenção cruzada e perturba os latentes associados durante a remoção de ruído. Experimentos demonstram que o IRECE restaura consistentemente a robustez, reduzindo a CRR em até 40% no cenário mais desafiador de inversão latente em caixa-branca, preservando a qualidade visual. Até onde sabemos, o M-ErasureBench fornece o primeiro benchmark abrangente de eliminação de conceitos além dos prompts de texto. Juntamente com o IRECE, nosso benchmark oferece salvaguardas práticas para a construção de modelos generativos protetores mais confiáveis.