Artigos de pesquisa em IA selecionados diariamente com traduções
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR, na sigla em inglês) demonstrou recentemente sucesso notável em aprimorar as capacidades de raciocínio de LLMs (Modelos de Linguagem de Grande Escala), particularmente em tarefas de matemática e programação. Acredita-se amplamente que o RLVR permite que os LLMs se autoaprimorem continuamente, adquirindo assim habilidades de raciocínio que superam a capacidade dos modelos base correspondentes. Neste estudo, no entanto, reexaminamos criticamente essa suposição ao medir a métrica pass@k com valores grandes de k para explorar o limite da capacidade de raciocínio dos modelos em uma ampla gama de famílias de modelos e benchmarks. Surpreendentemente, o RL não elicia, de fato, padrões de raciocínio fundamentalmente novos. Embora os modelos treinados com RL superem seus modelos base em valores menores de k (por exemplo, k=1), os modelos base podem alcançar uma pontuação pass@k comparável ou até maior em relação aos seus equivalentes treinados com RL em valores grandes de k. Os caminhos de raciocínio gerados pelos modelos treinados com RL já estão incluídos na distribuição de amostragem dos modelos base, sugerindo que a maioria das habilidades de raciocínio manifestadas nos modelos treinados com RL já são obtidas pelos modelos base. Uma análise mais aprofundada mostra que o treinamento com RL impulsiona o desempenho ao inclinar a distribuição de saída do modelo em direção a caminhos que têm maior probabilidade de gerar recompensas, amostrando assim respostas corretas de forma mais eficiente. Mas isso também resulta em um limite mais estreito de capacidade de raciocínio em comparação com os modelos base. Resultados semelhantes são observados em tarefas de raciocínio visual treinadas com RLVR. Além disso, descobrimos que a destilação pode genuinamente introduzir novos conhecimentos no modelo, diferentemente do RLVR. Essas descobertas destacam uma limitação crítica do RLVR no avanço das habilidades de raciocínio dos LLMs, o que nos leva a repensar fundamentalmente o impacto do treinamento com RL em LLMs de raciocínio e a necessidade de um paradigma melhor. Página do Projeto: https://limit-of-RLVR.github.io
A geração aumentada por recuperação (RAG) capacita grandes modelos de linguagem a acessar corpus externos e privados, permitindo respostas factualmente consistentes em domínios específicos. Ao explorar a estrutura inerente do corpus, os métodos RAG baseados em grafos enriquecem ainda mais esse processo, construindo um índice de grafo de conhecimento e aproveitando a natureza estrutural dos grafos. No entanto, as abordagens atuais de RAG baseadas em grafos raramente priorizam o design das estruturas de grafos. Grafos mal projetados não apenas impedem a integração perfeita de diversos algoritmos de grafos, mas também resultam em inconsistências no fluxo de trabalho e em desempenho degradado. Para liberar ainda mais o potencial dos grafos para RAG, propomos o NodeRAG, um framework centrado em grafos que introduz estruturas de grafos heterogêneas, permitindo a integração holística e contínua de metodologias baseadas em grafos no fluxo de trabalho RAG. Ao se alinhar de perto com as capacidades dos LLMs, esse framework garante um processo totalmente coeso e eficiente de ponta a ponta. Por meio de extensos experimentos, demonstramos que o NodeRAG apresenta vantagens de desempenho em relação a métodos anteriores, como GraphRAG e LightRAG, não apenas em tempo de indexação, tempo de consulta e eficiência de armazenamento, mas também na entrega de um desempenho superior em benchmarks de perguntas e respostas multi-hop e em avaliações abertas head-to-head com um número mínimo de tokens de recuperação. Nosso repositório no GitHub pode ser acessado em https://github.com/Terry-Xu-666/NodeRAG.
A qualidade e a diversidade dos dados são fundamentais para a construção de conjuntos de dados eficazes para ajuste por instrução. Com a crescente disponibilidade de conjuntos de dados de ajuste por instrução de código aberto, é vantajoso selecionar automaticamente subconjuntos de alta qualidade e diversidade a partir de uma grande quantidade de dados. Os métodos existentes geralmente priorizam a qualidade das instâncias e utilizam regras heurísticas para manter a diversidade. No entanto, a ausência de uma visão abrangente de toda a coleção frequentemente leva a resultados subótimos. Além disso, as regras heurísticas geralmente se concentram na distância ou no agrupamento dentro do espaço de incorporação, o que falha em capturar com precisão a intenção de instruções complexas no espaço semântico. Para preencher essa lacuna, propomos um método unificado para quantificar o conteúdo de informação dos conjuntos de dados. Esse método modela o espaço semântico construindo um grafo de rótulos e quantifica a diversidade com base na distribuição de informação dentro do grafo. Com base nessa medição, introduzimos ainda um método de amostragem eficiente que seleciona amostras de dados iterativamente para Maximizar o Ganho de Informação (MIG) no espaço semântico. Experimentos em diversos conjuntos de dados e modelos base demonstram que o MIG supera consistentemente os métodos state-of-the-art. Notavelmente, o modelo ajustado com 5\% dos dados do Tulu3 amostrados pelo MIG alcança desempenho comparável ao modelo SFT oficial treinado no conjunto de dados completo, com melhorias de +5,73\% no AlpacaEval e +6,89\% no Wildbench.
Trabalhos anteriores indicam que grandes modelos de linguagem exibem um significativo "viés para o inglês", ou seja, eles frequentemente apresentam melhor desempenho quando as tarefas são apresentadas em inglês. Curiosamente, observamos que o uso de certos outros idiomas em tarefas de raciocínio pode resultar em um desempenho superior ao do inglês. No entanto, esse fenômeno ainda é pouco explorado. Neste artigo, exploramos o limite superior do aproveitamento do multilinguismo em tarefas de raciocínio, sugerindo que o raciocínio multilíngue promete limites superiores significativamente (em quase 10 pontos Acc@k) e robustamente (tolerância a variações na qualidade da tradução e na escolha do idioma) mais altos do que o raciocínio exclusivamente em inglês. Além de analisar a razão por trás desse limite superior e os desafios para alcançá-lo, também descobrimos que os métodos comuns de seleção de respostas não conseguem atingir esse limite superior, devido às suas limitações e vieses. Essas percepções podem abrir caminho para pesquisas futuras voltadas a aproveitar plenamente o potencial do raciocínio multilíngue em LLMs.
Exploramos a tarefa de reconstrução geométrica de imagens capturadas a partir de uma mistura de visões terrestres e aéreas. As abordagens atuais baseadas em aprendizado de última geração falham em lidar com a extrema variação de ponto de vista entre pares de imagens aéreas e terrestres. Nossa hipótese é que a falta de conjuntos de dados de alta qualidade e co-registrados de imagens aéreas e terrestres para treinamento é uma razão fundamental para essa falha. Esses dados são difíceis de montar precisamente porque é difícil reconstruí-los de forma escalável. Para superar esse desafio, propomos uma estrutura escalável que combina renderizações pseudo-sintéticas a partir de malhas 3D de cidades inteiras (por exemplo, Google Earth) com imagens reais de nível terrestre obtidas de forma colaborativa (por exemplo, MegaDepth). Os dados pseudo-sintéticos simulam uma ampla gama de pontos de vista aéreos, enquanto as imagens reais obtidas de forma colaborativa ajudam a melhorar a fidelidade visual para imagens de nível terrestre onde as renderizações baseadas em malhas carecem de detalhes suficientes, efetivamente preenchendo a lacuna de domínio entre imagens reais e renderizações pseudo-sintéticas. Usando esse conjunto de dados híbrido, ajustamos finamente vários algoritmos de última geração e alcançamos melhorias significativas em tarefas reais de generalização zero-shot entre imagens aéreas e terrestres. Por exemplo, observamos que a linha de base DUSt3R localiza menos de 5% dos pares aéreos-terrestres dentro de 5 graus de erro de rotação da câmera, enquanto o ajuste fino com nossos dados aumenta a precisão para quase 56%, abordando um ponto crítico de falha no tratamento de grandes mudanças de ponto de vista. Além da estimativa da câmera e da reconstrução de cenas, nosso conjunto de dados também melhora o desempenho em tarefas subsequentes, como a síntese de novas visões em cenários desafiadores de imagens aéreas e terrestres, demonstrando o valor prático de nossa abordagem em aplicações do mundo real.
Embora compreender os limites de conhecimento dos LLMs seja crucial para prevenir alucinações, as pesquisas sobre os limites de conhecimento dos LLMs têm se concentrado predominantemente no inglês. Neste trabalho, apresentamos o primeiro estudo que analisa como os LLMs reconhecem os limites de conhecimento em diferentes idiomas, investigando suas representações internas ao processar perguntas conhecidas e desconhecidas em múltiplos idiomas. Nossos estudos empíricos revelam três descobertas principais: 1) As percepções dos LLMs sobre os limites de conhecimento são codificadas nas camadas intermediárias a intermediárias superiores em diferentes idiomas. 2) As diferenças linguísticas na percepção dos limites de conhecimento seguem uma estrutura linear, o que motiva nossa proposta de um método de alinhamento sem treinamento que transfere efetivamente a capacidade de percepção dos limites de conhecimento entre idiomas, ajudando assim a reduzir o risco de alucinação em idiomas de baixo recurso; 3) O ajuste fino em pares de perguntas bilíngues de tradução aprimora ainda mais o reconhecimento dos limites de conhecimento pelos LLMs entre idiomas. Dada a ausência de bancos de testes padrão para análise de limites de conhecimento multilíngue, construímos um conjunto de avaliação multilingue composto por três tipos representativos de dados de limites de conhecimento. Nosso código e conjuntos de dados estão publicamente disponíveis em https://github.com/DAMO-NLP-SG/LLM-Multilingual-Knowledge-Boundaries.
O projeto de arquiteturas de base eficientes e eficazes tem sido o cerne dos esforços de pesquisa para aprimorar a capacidade dos modelos fundamentais. Inspirados pelo fenômeno cognitivo humano de viés atencional — a tendência natural de priorizar certos eventos ou estímulos —, reconceituamos arquiteturas neurais, incluindo Transformers, Titans e redes neurais recorrentes lineares modernas, como módulos de memória associativa que aprendem um mapeamento de chaves e valores usando um objetivo interno, denominado viés atencional. Surpreendentemente, observamos que a maioria dos modelos de sequência existentes utiliza (1) similaridade de produto escalar ou (2) objetivos de regressão L2 como seu viés atencional. Indo além desses objetivos, apresentamos um conjunto de configurações alternativas de viés atencional, juntamente com suas aproximações eficazes para estabilizar o procedimento de treinamento. Em seguida, reinterpretamos os mecanismos de esquecimento em arquiteturas modernas de aprendizado profundo como uma forma de regularização de retenção, fornecendo um novo conjunto de portas de esquecimento para modelos de sequência. Com base nessas percepções, apresentamos Miras, um framework geral para projetar arquiteturas de aprendizado profundo com base em quatro escolhas: (i) arquitetura de memória associativa, (ii) objetivo de viés atencional, (iii) porta de retenção e (iv) algoritmo de aprendizado de memória. Apresentamos três novos modelos de sequência — Moneta, Yaad e Memora — que vão além do poder das RNNs lineares existentes, mantendo um processo de treinamento rápido e paralelizável. Nossos experimentos mostram que diferentes escolhas de design no Miras resultam em modelos com pontos fortes variados. Por exemplo, certas instâncias do Miras alcançam desempenho excepcional em tarefas específicas, como modelagem de linguagem, raciocínio de senso comum e tarefas intensivas em recuperação, superando até mesmo Transformers e outros modelos recorrentes lineares modernos.
A primeira geração de Modelos de Linguagem de Grande Escala - o que poderia ser chamado de "Ato I" da IA generativa (2020-2023) - alcançou um sucesso notável por meio da escalabilidade massiva de parâmetros e dados, mas exibiu limitações fundamentais em termos de latência de conhecimento, raciocínio superficial e processos cognitivos restritos. Durante essa era, a engenharia de prompts emergiu como nossa principal interface com a IA, permitindo comunicação em nível de diálogo por meio de linguagem natural. Agora, testemunhamos o surgimento do "Ato II" (2024-presente), onde os modelos estão em transição de sistemas de recuperação de conhecimento (no espaço latente) para motores de construção de pensamento por meio de técnicas de escalabilidade em tempo de teste. Esse novo paradigma estabelece uma conexão em nível mental com a IA por meio de pensamentos baseados em linguagem. Neste artigo, esclarecemos os fundamentos conceituais da engenharia cognitiva e explicamos por que este momento é crucial para seu desenvolvimento. Desmembramos sistematicamente essas abordagens avançadas por meio de tutoriais abrangentes e implementações otimizadas, democratizando o acesso à engenharia cognitiva e permitindo que cada profissional participe do segundo ato da IA. Disponibilizamos uma coleção de artigos sobre escalabilidade em tempo de teste, regularmente atualizada, no Repositório GitHub: https://github.com/GAIR-NLP/cognition-engineering.
Navegar dilemas de alto risco envolvendo valores conflitantes é desafiador mesmo para humanos, quanto mais para a IA. No entanto, trabalhos anteriores na avaliação das capacidades de raciocínio de modelos de linguagem de grande escala (LLMs) em tais situações têm se limitado a cenários cotidianos. Para preencher essa lacuna, este trabalho primeiro introduz o CLASH (Avaliações de LLMs baseadas em Perspectivas de Personagens em Situações de Alto Risco), um conjunto de dados meticulosamente curado composto por 345 dilemas de alto impacto, juntamente com 3.795 perspectivas individuais de diversos valores. Em particular, projetamos o CLASH de forma a apoiar o estudo de aspectos críticos dos processos de tomada de decisão baseada em valores que estão ausentes em trabalhos anteriores, incluindo a compreensão da ambivalência decisória e do desconforto psicológico, bem como a captura de mudanças temporais nos valores nas perspectivas dos personagens. Ao avaliar 10 modelos de fronteira abertos e fechados, descobrimos vários achados importantes. (1) Mesmo os modelos mais fortes, como GPT-4o e Claude-Sonnet, atingem menos de 50% de precisão na identificação de situações em que a decisão deveria ser ambivalente, enquanto desempenham significativamente melhor em cenários claros. (2) Embora os LLMs prevejam razoavelmente o desconforto psicológico conforme marcado por humanos, eles compreendem de forma inadequada perspectivas que envolvem mudanças de valores, indicando a necessidade de os LLMs raciocinarem sobre valores complexos. (3) Nossos experimentos também revelam uma correlação significativa entre as preferências de valores dos LLMs e sua capacidade de serem direcionados para um determinado valor. (4) Por fim, os LLMs exibem maior capacidade de direcionamento quando engajados no raciocínio de valores a partir de uma perspectiva de terceiros, em comparação com uma configuração em primeira pessoa, embora certos pares de valores se beneficiem exclusivamente da estruturação em primeira pessoa.
A geração de cenas em 3D em nível de cena representa uma fronteira crítica em multimídia e gráficos computacionais, mas as abordagens existentes sofrem com categorias limitadas de objetos ou falta de flexibilidade de edição para aplicações interativas. Neste artigo, apresentamos o HiScene, uma estrutura hierárquica inovadora que preenche a lacuna entre a geração de imagens 2D e a geração de objetos 3D, entregando cenas de alta fidelidade com identidades composicionais e conteúdo estético. Nossa principal percepção é tratar cenas como "objetos" hierárquicos sob visões isométricas, onde uma sala funciona como um objeto complexo que pode ser decomposto em itens manipuláveis. Essa abordagem hierárquica nos permite gerar conteúdo 3D que se alinha com representações 2D, mantendo a estrutura composicional. Para garantir a completude e o alinhamento espacial de cada instância decomposta, desenvolvemos uma técnica de completamento amodal baseada em difusão de vídeo que lida efetivamente com oclusões e sombras entre objetos, e introduzimos a injeção de prioridade de forma para garantir coerência espacial dentro da cena. Resultados experimentais demonstram que nosso método produz arranjos de objetos mais naturais e instâncias completas de objetos adequadas para aplicações interativas, mantendo plausibilidade física e alinhamento com entradas do usuário.
Informações contextuais globais e detalhes locais são essenciais para tarefas de remoção de névoa. Modelos de aprendizado profundo apresentam bom desempenho em imagens pequenas e de baixa resolução, mas enfrentam dificuldades com imagens grandes e de alta resolução devido às limitações de memória da GPU. Como compromisso, eles frequentemente recorrem ao corte de imagens ou à redução de resolução. O primeiro diminui as informações globais, enquanto o último descarta detalhes de alta frequência. Para abordar esses desafios, propomos o DehazeXL, um método de remoção de névoa que equilibra efetivamente o contexto global e a extração de características locais, permitindo a modelagem de ponta a ponta de imagens grandes em hardware GPU convencional. Além disso, para avaliar a eficiência da utilização do contexto global no desempenho da remoção de névoa, projetamos um método de atribuição visual adaptado às características das tarefas de remoção de névoa. Por fim, reconhecendo a falta de conjuntos de dados de referência para remoção de névoa em imagens grandes, desenvolvemos um conjunto de dados de remoção de névoa de ultra-alta resolução (8KDehaze) para apoiar o treinamento e teste de modelos. Ele inclui 10000 pares de imagens de sensoriamento remoto claras e com névoa, cada uma com o tamanho de 8192 por 8192 pixels. Experimentos extensivos demonstram que o DehazeXL pode inferir imagens de até 10240 por 10240 pixels com apenas 21 GB de memória, alcançando resultados de ponta entre todos os métodos avaliados. O código-fonte e o conjunto de dados experimental estão disponíveis em https://github.com/CastleChen339/DehazeXL.
Avanços recentes em modelos de raciocínio em larga escala (LRMs, na sigla em inglês) têm demonstrado a eficácia de escalar a computação em tempo de teste para aprimorar as capacidades de raciocínio em múltiplas tarefas. No entanto, os LRMs geralmente sofrem com problemas de "sobrepensamento", onde os modelos geram etapas de raciocínio significativamente redundantes enquanto trazem ganhos limitados de desempenho. Trabalhos existentes dependem de ajuste fino para mitigar o sobrepensamento, o que requer dados adicionais, configurações de treinamento não convencionais, riscos de desalinhamento de segurança e generalização precária. Por meio de análises empíricas, revelamos uma característica importante do comportamento dos LRMs: a inserção de cadeias de pensamento (CoTs, na sigla em inglês) externas geradas por modelos menores entre os tokens de pensamento (<think> e </think>) pode manipular efetivamente o modelo para gerar menos pensamentos. Com base nessas percepções, propomos um pipeline simples, porém eficiente, chamado ThoughtMani, para permitir que os LRMs ignorem etapas intermediárias desnecessárias e reduzam significativamente os custos computacionais. Realizamos extensos experimentos para validar a utilidade e eficiência do ThoughtMani. Por exemplo, ao ser aplicado ao QwQ-32B no conjunto de dados LiveBench/Code, o ThoughtMani mantém o desempenho original e reduz a contagem de tokens de saída em aproximadamente 30%, com pouca sobrecarga do gerador de CoT. Além disso, descobrimos que o ThoughtMani melhora o alinhamento de segurança em média 10%. Como os fornecedores de modelos geralmente servem modelos de diferentes tamanhos simultaneamente, o ThoughtMani oferece uma maneira eficaz de construir LRMs mais eficientes e acessíveis para aplicações do mundo real.
A adoção generalizada de sistemas de IA na economia depende de sua capacidade de gerar valor econômico que supere seus custos de inferência. Avaliar essa relação requer métricas que considerem tanto o desempenho quanto os custos. Propomos uma estrutura baseada na teoria da produção para avaliar modelos de linguagem, combinando precisão e custo de inferência. Introduzimos o "custo por passagem", o custo monetário esperado para gerar uma solução correta. Em seguida, definimos o "custo por passagem da fronteira" como o menor custo por passagem alcançável entre os modelos disponíveis ou o custo aproximado de contratar um especialista humano. Nossa análise revela insights econômicos distintos. Primeiro, modelos leves são mais custo-efetivos para tarefas quantitativas básicas, modelos grandes para tarefas intensivas em conhecimento e modelos de raciocínio para problemas quantitativos complexos, apesar dos custos mais altos por token. Segundo, o acompanhamento desse custo por passagem da fronteira ao longo do último ano mostra progresso significativo, especialmente para tarefas quantitativas complexas, onde o custo foi reduzido pela metade a cada poucos meses. Terceiro, para rastrear as inovações-chave que impulsionam esse progresso, examinamos fronteiras contrafactuais: estimativas de custo-eficiência sem classes específicas de modelos. Descobrimos que inovações em modelos leves, grandes e de raciocínio foram essenciais para avançar a fronteira em tarefas quantitativas básicas, intensivas em conhecimento e quantitativas complexas, respectivamente. Por fim, avaliamos as reduções de custo proporcionadas por técnicas comuns de inferência, como votação majoritária e autorrefinamento, concluindo que os ganhos marginais de precisão raramente justificam seus custos. Nossas descobertas destacam que inovações complementares no nível do modelo são os principais impulsionadores da custo-eficiência, e nossa estrutura econômica fornece uma ferramenta fundamentada para medir esse progresso e orientar a implantação.
Apesar dos avanços recentes em Modelos de Linguagem para Vídeos de Grande Escala (LVLMs), eles ainda enfrentam dificuldades com a compreensão temporal refinada, apresentam alucinações e frequentemente cometem erros simples em tarefas de questionamento e resposta sobre vídeos, o que representa desafios significativos para sua implantação segura e confiável em aplicações do mundo real. Para abordar essas limitações, propomos um framework de autoalinhamento que permite que os LVLMs aprendam com seus próprios erros. Nosso framework proposto primeiro obtém um conjunto de treinamento de pares de respostas preferidas e não preferidas, onde as respostas não preferidas são geradas incorporando padrões comuns de erros que frequentemente ocorrem devido à compreensão espaço-temporal inadequada, correlações espúrias entre conceitos co-ocorrentes e dependência excessiva de pistas linguísticas, negligenciando a modalidade visual, entre outros. Para facilitar o autoalinhamento dos LVLMs com os pares de respostas preferidas e não preferidas construídos, introduzimos a Otimização de Preferência Regularizada Refinada (RRPO), um método inovador de otimização de preferência que utiliza recompensas refinadas em nível de sub-sequência e regularização KL token-wise para abordar as limitações da Otimização Direta de Preferência (DPO). Demonstramos que o RRPO alcança um alinhamento mais preciso e um treinamento mais estável em comparação com o DPO. Nossos experimentos e análises validam a eficácia de nossa abordagem em diversas tarefas de vídeo, incluindo alucinação em vídeos, compreensão de vídeos curtos e longos e raciocínio temporal refinado.
A Quantificação de Incerteza (UQ) em Modelos de Linguagem (LMs) é crucial para melhorar sua segurança e confiabilidade. As avaliações frequentemente utilizam métricas de desempenho como AUROC para avaliar o quão bem os métodos de UQ (por exemplo, probabilidades negativas de sequência) se correlacionam com funções de correção de tarefas (por exemplo, ROUGE-L). Neste artigo, demonstramos que as funções de correção comumente usadas enviesam as avaliações de UQ ao inflar o desempenho de certos métodos de UQ. Avaliamos 7 funções de correção -- desde métricas baseadas em léxico e embeddings até abordagens de LLM-como-juiz -- em 4 conjuntos de dados x 4 modelos x 6 métodos de UQ. Nossa análise revela que vieses de comprimento nos erros dessas funções de correção distorcem as avaliações de UQ ao interagir com vieses de comprimento nos métodos de UQ. Identificamos as abordagens de LLM-como-juiz como uma das escolhas menos enviesadas em relação ao comprimento e, portanto, uma solução potencial para mitigar esses vieses.
A remoção eficaz de ruído é crucial em tomografias computadorizadas de baixa dose para realçar estruturas sutis e lesões de baixo contraste, ao mesmo tempo que previne erros diagnósticos. Métodos supervisionados enfrentam dificuldades com conjuntos de dados pareados limitados, e abordagens auto-supervisionadas frequentemente exigem múltiplas imagens ruidosas e dependem de redes profundas como a U-Net, oferecendo pouca compreensão sobre o mecanismo de remoção de ruído. Para enfrentar esses desafios, propomos um framework interpretável de remoção de ruído auto-supervisionado para uma única imagem -- Filter2Noise (F2N). Nossa abordagem introduz um Filtro Bilateral Guiado por Atenção que se adapta a cada entrada ruidosa por meio de um módulo leve que prevê parâmetros de filtro variáveis espacialmente, os quais podem ser visualizados e ajustados após o treinamento para uma remoção de ruído controlada pelo usuário em regiões de interesse específicas. Para possibilitar o treinamento com uma única imagem, introduzimos uma nova estratégia de embaralhamento com redução de resolução, juntamente com uma nova função de perda auto-supervisionada que estende o conceito de Noise2Noise para uma única imagem e aborda o ruído espacialmente correlacionado. No conjunto de dados de tomografia computadorizada de baixa dose da Mayo Clinic 2016, o F2N supera o principal método auto-supervisionado para uma única imagem (ZS-N2N) em 4,59 dB de PSNR, ao mesmo tempo que melhora a transparência, o controle do usuário e a eficiência paramétrica. Essas características oferecem vantagens essenciais para aplicações médicas que exigem redução de ruído precisa e interpretável. Nosso código está disponível em https://github.com/sypsyp97/Filter2Noise.git.