Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il Reinforcement Learning con Ricompense Verificabili (RLVR) ha recentemente dimostrato un notevole successo nel potenziare le capacità di ragionamento dei modelli linguistici di grandi dimensioni (LLM), in particolare nei compiti di matematica e programmazione. Si ritiene ampiamente che l'RLVR consenta agli LLM di migliorare continuamente se stessi, acquisendo così nuove abilità di ragionamento che superano la capacità dei modelli base corrispondenti. In questo studio, tuttavia, esaminiamo criticamente questa ipotesi misurando la metrica pass@k con valori elevati di k per esplorare il confine delle capacità di ragionamento dei modelli attraverso una vasta gamma di famiglie di modelli e benchmark. Sorprendentemente, l'RL non evoca, di fatto, nuovi schemi di ragionamento fondamentali. Sebbene i modelli addestrati con RL superino i loro modelli base per valori più piccoli di k (ad esempio, k=1), i modelli base possono raggiungere un punteggio pass@k comparabile o addirittura superiore rispetto alle loro controparti RL per valori elevati di k. I percorsi di ragionamento generati dai modelli addestrati con RL sono già inclusi nella distribuzione di campionamento dei modelli base, suggerendo che la maggior parte delle capacità di ragionamento manifestate nei modelli addestrati con RL siano già ottenute dai modelli base. Un'ulteriore analisi mostra che l'addestramento con RL migliora le prestazioni orientando la distribuzione di output del modello verso percorsi che hanno maggiori probabilità di produrre ricompense, campionando così le risposte corrette in modo più efficiente. Ma ciò comporta anche un confine più ristretto delle capacità di ragionamento rispetto ai modelli base. Risultati simili si osservano nei compiti di ragionamento visivo addestrati con RLVR. Inoltre, scopriamo che la distillazione può introdurre genuinamente nuove conoscenze nel modello, diversamente dall'RLVR. Questi risultati evidenziano una limitazione critica dell'RLVR nel progredire le capacità di ragionamento degli LLM, che ci obbliga a ripensare fondamentalmente l'impatto dell'addestramento con RL nei modelli di ragionamento LLM e la necessità di un paradigma migliore. Pagina del progetto: https://limit-of-RLVR.github.io
La generazione potenziata dal recupero (RAG) consente ai grandi modelli linguistici di accedere a corpus esterni e privati, permettendo risposte fattualmente coerenti in domini specifici. Sfruttando la struttura intrinseca del corpus, i metodi RAG basati su grafi arricchiscono ulteriormente questo processo costruendo un indice di grafi di conoscenza e sfruttando la natura strutturale dei grafi. Tuttavia, gli attuali approcci RAG basati su grafi raramente danno priorità alla progettazione delle strutture dei grafi. Grafi progettati in modo inadeguato non solo ostacolano l'integrazione senza soluzione di continuità di diversi algoritmi di grafi, ma causano anche incoerenze nel flusso di lavoro e un degrado delle prestazioni. Per sfruttare ulteriormente il potenziale dei grafi per RAG, proponiamo NodeRAG, un framework centrato sui grafi che introduce strutture di grafi eterogenee che consentono l'integrazione fluida e olistica delle metodologie basate su grafi nel flusso di lavoro RAG. Allineandosi strettamente alle capacità dei LLM, questo framework garantisce un processo end-to-end completamente coeso ed efficiente. Attraverso esperimenti estensivi, dimostriamo che NodeRAG presenta vantaggi prestazionali rispetto ai metodi precedenti, inclusi GraphRAG e LightRAG, non solo in termini di tempo di indicizzazione, tempo di query ed efficienza di archiviazione, ma anche nel fornire prestazioni superiori nel question-answering su benchmark multi-hop e valutazioni aperte testa a testa con un numero minimo di token di recupero. Il nostro repository GitHub è disponibile all'indirizzo https://github.com/Terry-Xu-666/NodeRAG.
La qualità e la diversità dei dati sono fondamentali per la costruzione di dataset efficaci per il fine-tuning delle istruzioni. Con la crescente disponibilità di dataset open-source per il fine-tuning delle istruzioni, è vantaggioso selezionare automaticamente sottoinsiemi di alta qualità e diversificati da una vasta quantità di dati. I metodi esistenti tipicamente privilegiano la qualità delle istanze e utilizzano regole euristiche per mantenere la diversità. Tuttavia, questa mancanza di una visione complessiva dell'intera raccolta spesso porta a risultati subottimali. Inoltre, le regole euristiche si concentrano generalmente sulla distanza o sul clustering all'interno dello spazio di embedding, il che non riesce a catturare accuratamente l'intento di istruzioni complesse nello spazio semantico. Per colmare questa lacuna, proponiamo un metodo unificato per quantificare il contenuto informativo dei dataset. Questo metodo modella lo spazio semantico costruendo un grafo delle etichette e quantifica la diversità basandosi sulla distribuzione delle informazioni all'interno del grafo. Basandoci su tale misurazione, introduciamo ulteriormente un metodo di campionamento efficiente che seleziona iterativamente i campioni di dati per massimizzare il guadagno informativo (MIG) nello spazio semantico. Esperimenti su vari dataset e modelli di base dimostrano che MIG supera costantemente i metodi all'avanguardia. In particolare, il modello fine-tuned con il 5% dei dati di Tulu3 campionati da MIG raggiunge prestazioni comparabili al modello SFT ufficiale addestrato sull'intero dataset, con miglioramenti del +5,73% su AlpacaEval e del +6,89% su Wildbench.
Ricerche precedenti indicano che i grandi modelli linguistici presentano un significativo "bias verso l'inglese", ovvero spesso ottengono prestazioni migliori quando i compiti sono presentati in inglese. Curiosamente, abbiamo osservato che l'uso di alcune altre lingue nei compiti di ragionamento può portare a prestazioni migliori rispetto all'inglese. Tuttavia, questo fenomeno rimane poco esplorato. In questo articolo, esploriamo il limite superiore dello sfruttamento del multilinguismo nei compiti di ragionamento, suggerendo che il ragionamento multilingue promette limiti superiori significativamente (di quasi 10 punti Acc@k) e robustamente (tolleranza alle variazioni nella qualità della traduzione e nella scelta della lingua) più alti rispetto al ragionamento esclusivamente in inglese. Oltre ad analizzare la ragione dietro questo limite superiore e le sfide per raggiungerlo, scopriamo anche che i metodi comuni di selezione delle risposte non possono raggiungere questo limite, a causa delle loro limitazioni e dei loro bias. Queste intuizioni potrebbero aprire la strada a future ricerche mirate a sfruttare appieno il potenziale del ragionamento multilingue nei LLM.
Esploriamo il compito della ricostruzione geometrica di immagini acquisite da una miscela di viste terrestri e aeree. Gli attuali approcci basati sull'apprendimento di stato dell'arte non riescono a gestire l'estrema variazione del punto di vista tra coppie di immagini aeree-terrestri. La nostra ipotesi è che la mancanza di dataset di alta qualità e co-registrati di immagini aeree-terrestri per l'addestramento sia una ragione chiave di questo fallimento. Tali dati sono difficili da assemblare proprio perché è difficile ricostruirli in modo scalabile. Per superare questa sfida, proponiamo un framework scalabile che combina rendering pseudo-sintetici da mesh 3D di intere città (ad esempio, Google Earth) con immagini reali a livello del terreno raccolte in modo crowdsourced (ad esempio, MegaDepth). I dati pseudo-sintetici simulano un'ampia gamma di punti di vista aerei, mentre le immagini reali raccolte in modo crowdsourced aiutano a migliorare la fedeltà visiva per le immagini a livello del terreno dove i rendering basati su mesh mancano di dettagli sufficienti, colmando efficacemente il divario di dominio tra immagini reali e rendering pseudo-sintetici. Utilizzando questo dataset ibrido, ottimizziamo diversi algoritmi di stato dell'arte e otteniamo miglioramenti significativi su compiti reali di tipo zero-shot aereo-terrestre. Ad esempio, osserviamo che il baseline DUSt3R localizza meno del 5% delle coppie aeree-terrestri entro 5 gradi di errore di rotazione della fotocamera, mentre l'ottimizzazione con i nostri dati aumenta l'accuratezza a quasi il 56%, affrontando un punto di fallimento principale nella gestione di grandi cambiamenti del punto di vista. Oltre alla stima della fotocamera e alla ricostruzione della scena, il nostro dataset migliora anche le prestazioni su compiti downstream come la sintesi di nuove viste in scenari aerei-terrestri impegnativi, dimostrando il valore pratico del nostro approccio in applicazioni reali.
La progettazione di architetture di base efficienti ed efficaci è stata al centro degli sforzi di ricerca per migliorare le capacità dei modelli di fondazione. Ispirati dal fenomeno cognitivo umano del bias attentivo – la naturale tendenza a dare priorità a determinati eventi o stimoli – abbiamo riconcettualizzato le architetture neurali, inclusi i Transformers, i Titans e le moderne reti neurali ricorrenti lineari, come moduli di memoria associativa che apprendono una mappatura di chiavi e valori utilizzando un obiettivo interno, denominato bias attentivo. Sorprendentemente, abbiamo osservato che la maggior parte dei modelli di sequenza esistenti sfruttano o (1) la similarità del prodotto scalare, o (2) obiettivi di regressione L2 come loro bias attentivo. Andando oltre questi obiettivi, presentiamo un insieme di configurazioni alternative di bias attentivo insieme alle loro approssimazioni efficaci per stabilizzare il loro processo di addestramento. Successivamente, reinterpretiamo i meccanismi di dimenticanza nelle moderne architetture di deep learning come una forma di regolarizzazione della ritenzione, fornendo un nuovo insieme di gate di dimenticanza per i modelli di sequenza. Basandoci su queste intuizioni, presentiamo Miras, un framework generale per progettare architetture di deep learning basato su quattro scelte: (i) architettura di memoria associativa, (ii) obiettivo di bias attentivo, (iii) gate di ritenzione e (iv) algoritmo di apprendimento della memoria. Presentiamo tre nuovi modelli di sequenza – Moneta, Yaad e Memora – che superano la potenza delle attuali RNN lineari mantenendo un processo di addestramento parallelo e veloce. I nostri esperimenti mostrano che diverse scelte progettuali in Miras producono modelli con punti di forza variabili. Ad esempio, alcune istanze di Miras raggiungono prestazioni eccezionali in compiti speciali come la modellazione del linguaggio, il ragionamento di senso comune e i compiti intensivi di richiamo, superando persino i Transformers e altri moderni modelli ricorrenti lineari.
La prima generazione di Modelli Linguistici di Grande Scala - quella che potremmo definire "Atto I" dell'IA generativa (2020-2023) - ha raggiunto risultati straordinari grazie a un massiccio aumento di parametri e dati, ma ha mostrato limitazioni fondamentali in termini di latenza delle conoscenze, ragionamento superficiale e processi cognitivi vincolati. Durante questa era, l'ingegneria dei prompt è emersa come la nostra principale interfaccia con l'IA, consentendo una comunicazione a livello di dialogo attraverso il linguaggio naturale. Ora assistiamo all'emergere dell'"Atto II" (2024-presente), in cui i modelli stanno passando da sistemi di recupero delle conoscenze (nello spazio latente) a motori di costruzione del pensiero attraverso tecniche di scalabilità al momento del test. Questo nuovo paradigma stabilisce una connessione a livello mentale con l'IA attraverso pensieri basati sul linguaggio. In questo articolo, chiariamo i fondamenti concettuali dell'ingegneria cognitiva e spieghiamo perché questo momento è cruciale per il suo sviluppo. Scomponiamo sistematicamente questi approcci avanzati attraverso tutorial completi e implementazioni ottimizzate, democratizzando l'accesso all'ingegneria cognitiva e consentendo a ogni praticante di partecipare al secondo atto dell'IA. Forniamo una raccolta regolarmente aggiornata di articoli sulla scalabilità al momento del test nel Repository GitHub: https://github.com/GAIR-NLP/cognition-engineering.
Sebbene comprendere i confini della conoscenza dei modelli linguistici di grandi dimensioni (LLM) sia cruciale per prevenire le allucinazioni, la ricerca sui confini della conoscenza degli LLM si è concentrata prevalentemente sull'inglese. In questo lavoro, presentiamo il primo studio che analizza come gli LLM riconoscono i confini della conoscenza attraverso diverse lingue, esaminando le loro rappresentazioni interne durante l'elaborazione di domande note e sconosciute in più lingue. I nostri studi empirici rivelano tre risultati chiave: 1) Le percezioni dei confini della conoscenza degli LLM sono codificate negli strati intermedi e medio-alti attraverso diverse lingue. 2) Le differenze linguistiche nella percezione dei confini della conoscenza seguono una struttura lineare, il che motiva la nostra proposta di un metodo di allineamento senza addestramento che trasferisce efficacemente la capacità di percezione dei confini della conoscenza tra le lingue, contribuendo così a ridurre il rischio di allucinazioni nelle lingue con risorse limitate; 3) Il fine-tuning su coppie di domande bilingue migliora ulteriormente il riconoscimento dei confini della conoscenza degli LLM tra le lingue. Data l'assenza di banchi di prova standard per l'analisi dei confini della conoscenza cross-linguale, abbiamo costruito una suite di valutazione multilingue che comprende tre tipi rappresentativi di dati sui confini della conoscenza. Il nostro codice e i dataset sono disponibili pubblicamente all'indirizzo https://github.com/DAMO-NLP-SG/LLM-Multilingual-Knowledge-Boundaries.
Affrontare dilemmi ad alto rischio che coinvolgono valori in conflitto è una sfida persino per gli esseri umani, figuriamoci per l'IA. Tuttavia, i precedenti lavori sulla valutazione delle capacità di ragionamento dei modelli linguistici di grandi dimensioni (LLM) in tali situazioni si sono limitati a scenari quotidiani. Per colmare questa lacuna, questo lavoro introduce innanzitutto CLASH (Character perspective-based LLM Assessments in Situations with High-stakes), un dataset accuratamente curato composto da 345 dilemmi ad alto impatto insieme a 3.795 prospettive individuali basate su valori diversi. In particolare, abbiamo progettato CLASH in modo da supportare lo studio di aspetti critici dei processi decisionali basati sui valori che mancano nei lavori precedenti, tra cui la comprensione dell'ambivalenza decisionale e del disagio psicologico, nonché la cattura dei cambiamenti temporali dei valori nelle prospettive dei personaggi. Valutando 10 modelli open e closed frontier, abbiamo scoperto diversi risultati chiave. (1) Anche i modelli più potenti, come GPT-4o e Claude-Sonnet, raggiungono meno del 50% di accuratezza nell'identificare situazioni in cui la decisione dovrebbe essere ambivalente, mentre performano significativamente meglio in scenari chiari. (2) Sebbene gli LLM prevedano ragionevolmente il disagio psicologico come indicato dagli esseri umani, comprendono in modo inadeguato le prospettive che coinvolgono cambiamenti di valori, indicando la necessità per gli LLM di ragionare su valori complessi. (3) I nostri esperimenti rivelano anche una significativa correlazione tra le preferenze di valori degli LLM e la loro capacità di essere orientati verso un determinato valore. (4) Infine, gli LLM mostrano una maggiore capacità di orientamento quando sono impegnati nel ragionamento sui valori da una prospettiva di terza parte, rispetto a una configurazione in prima persona, sebbene alcune coppie di valori traggano un vantaggio unico dall'inquadratura in prima persona.
La generazione 3D a livello di scena rappresenta una frontiera cruciale nel campo della multimedialità e della computer grafica, tuttavia gli approcci esistenti soffrono di categorie di oggetti limitate o mancano di flessibilità di editing per applicazioni interattive. In questo articolo, presentiamo HiScene, un nuovo framework gerarchico che colma il divario tra la generazione di immagini 2D e la generazione di oggetti 3D, offrendo scene ad alta fedeltà con identità compositive e contenuti estetici. La nostra intuizione chiave è trattare le scene come "oggetti" gerarchici in viste isometriche, dove una stanza funziona come un oggetto complesso che può essere ulteriormente scomposto in elementi manipolabili. Questo approccio gerarchico ci consente di generare contenuti 3D allineati alle rappresentazioni 2D, mantenendo al contempo la struttura compositiva. Per garantire la completezza e l'allineamento spaziale di ciascuna istanza scomposta, sviluppiamo una tecnica di completamento amodale basata sulla diffusione video che gestisce efficacemente le occlusioni e le ombre tra gli oggetti, e introduciamo l'iniezione di priorità di forma per assicurare la coerenza spaziale all'interno della scena. I risultati sperimentali dimostrano che il nostro metodo produce disposizioni di oggetti più naturali e istanze di oggetti complete, adatte per applicazioni interattive, mantenendo al contempo la plausibilità fisica e l'allineamento con gli input dell'utente.
Le informazioni contestuali globali e le caratteristiche dettagliate locali sono essenziali per i compiti di rimozione della foschia. I modelli di deep learning performano bene su immagini piccole e a bassa risoluzione, ma incontrano difficoltà con immagini grandi e ad alta risoluzione a causa delle limitazioni della memoria GPU. Come compromesso, spesso ricorrono al taglio delle immagini o al downsampling. Il primo riduce le informazioni globali, mentre il secondo scarta i dettagli ad alta frequenza. Per affrontare queste sfide, proponiamo DehazeXL, un metodo di rimozione della foschia che bilancia efficacemente il contesto globale e l'estrazione di caratteristiche locali, consentendo la modellazione end-to-end di immagini grandi su hardware GPU mainstream. Inoltre, per valutare l'efficienza dell'utilizzo del contesto globale nella performance di rimozione della foschia, progettiamo un metodo di attribuzione visiva adattato alle caratteristiche dei compiti di rimozione della foschia. Infine, riconoscendo la mancanza di dataset di riferimento per la rimozione della foschia in immagini grandi, abbiamo sviluppato un dataset di rimozione della foschia a ultra-alta risoluzione (8KDehaze) per supportare l'addestramento e il testing dei modelli. Include 10000 coppie di immagini remote sensing chiare e con foschia, ciascuna di dimensioni 8192 per 8192 pixel. Esperimenti estensivi dimostrano che DehazeXL può inferire immagini fino a 10240 per 10240 pixel con solo 21 GB di memoria, raggiungendo risultati all'avanguardia tra tutti i metodi valutati. Il codice sorgente e il dataset sperimentale sono disponibili su https://github.com/CastleChen339/DehazeXL.
I recenti progressi nei modelli di ragionamento su larga scala (LRM) hanno dimostrato l'efficacia del ridimensionamento del calcolo al momento del test per migliorare le capacità di ragionamento in molteplici compiti. Tuttavia, gli LRM soffrono tipicamente di problemi di "overthinking", in cui i modelli generano passaggi di ragionamento significativamente ridondanti mentre offrono guadagni di prestazioni limitati. Il lavoro esistente si affina al fine-tuning per mitigare l'overthinking, il che richiede dati aggiuntivi, configurazioni di addestramento non convenzionali, rischi di disallineamento della sicurezza e scarsa generalizzazione. Attraverso un'analisi empirica, riveliamo un'importante caratteristica del comportamento degli LRM: posizionare CoT esterni generati da modelli più piccoli tra i token di pensiero (<think> e </think>) può manipolare efficacemente il modello per generare meno pensieri. Basandoci su queste intuizioni, proponiamo una pipeline semplice ma efficiente, ThoughtMani, per consentire agli LRM di bypassare passaggi intermedi non necessari e ridurre significativamente i costi computazionali. Abbiamo condotto esperimenti estesi per validare l'utilità e l'efficienza di ThoughtMani. Ad esempio, quando applicato a QwQ-32B sul dataset LiveBench/Code, ThoughtMani mantiene le prestazioni originali e riduce il conteggio dei token di output di circa il 30%, con un sovraccarico minimo dal generatore di CoT. Inoltre, scopriamo che ThoughtMani migliora l'allineamento della sicurezza in media del 10%. Poiché i fornitori di modelli servono tipicamente modelli di dimensioni diverse simultaneamente, ThoughtMani offre un modo efficace per costruire LRM più efficienti e accessibili per applicazioni nel mondo reale.
L'adozione diffusa dei sistemi di intelligenza artificiale nell'economia dipende dalla loro capacità di generare valore economico che superi i costi di inferenza. Valutare questo compromesso richiede metriche che tengano conto sia delle prestazioni che dei costi. Proponiamo un framework basato sulla teoria della produzione per valutare i modelli linguistici combinando accuratezza e costo di inferenza. Introduciamo il concetto di "costo-per-passaggio", il costo monetario atteso per generare una soluzione corretta. Definiamo quindi il "costo-per-passaggio di frontiera" come il costo-per-passaggio minimo raggiungibile tra i modelli disponibili o il "costo-per-passaggio dell'esperto umano", utilizzando il costo approssimativo di assumere un esperto. La nostra analisi rivela intuizioni economiche distinte. In primo luogo, i modelli leggeri sono i più convenienti per compiti quantitativi di base, i modelli di grandi dimensioni per quelli ad alta intensità di conoscenza e i modelli di ragionamento per problemi quantitativi complessi, nonostante i costi per token più elevati. In secondo luogo, monitorando questo costo-per-passaggio di frontiera nell'ultimo anno si osserva un progresso significativo, in particolare per i compiti quantitativi complessi, dove il costo si è approssimativamente dimezzato ogni pochi mesi. In terzo luogo, per tracciare le innovazioni chiave che guidano questo progresso, esaminiamo le frontiere controfattuali: stime dell'efficienza dei costi senza specifiche classi di modelli. Scopriamo che le innovazioni nei modelli leggeri, di grandi dimensioni e di ragionamento sono state essenziali per spingere la frontiera nei compiti quantitativi di base, ad alta intensità di conoscenza e quantitativi complessi, rispettivamente. Infine, valutiamo le riduzioni di costo ottenute con tecniche comuni di inferenza come il voto a maggioranza e l'autoraffinamento, rilevando che i guadagni marginali in accuratezza raramente giustificano i costi. I nostri risultati sottolineano che le innovazioni complementari a livello di modello sono i principali motori dell'efficienza dei costi, e il nostro framework economico fornisce uno strumento metodologico per misurare questo progresso e guidare l'implementazione.
Nonostante i recenti progressi nei Modelli Linguistici per Video di Grande Scala (LVLM), essi continuano a lottare con la comprensione temporale fine, generano allucinazioni e spesso commettono errori semplici anche in compiti di risposta a domande su video di base, tutti aspetti che rappresentano sfide significative per il loro impiego sicuro e affidabile in applicazioni del mondo reale. Per affrontare queste limitazioni, proponiamo un framework di auto-allineamento che consente agli LVLM di apprendere dai propri errori. Il nostro framework proposto ottiene inizialmente un insieme di addestramento di coppie di risposte preferite e non preferite, dove le risposte non preferite sono generate incorporando modelli di errore comuni che spesso si verificano a causa di una comprensione spazio-temporale inadeguata, correlazioni spurie tra concetti co-occorrenti e un'eccessiva dipendenza da indizi linguistici trascurando la modalità visiva, tra gli altri. Per facilitare l'auto-allineamento degli LVLM con le coppie di risposte preferite e non preferite costruite, introduciamo l'Optimizzazione delle Preferenze Regolarizzata e Raffinata (RRPO), un nuovo metodo di ottimizzazione delle preferenze che utilizza ricompense raffinate a livello di sotto-sequenza e una regolarizzazione KL token-wise per affrontare le limitazioni dell'Optimizzazione Diretta delle Preferenze (DPO). Dimostriamo che RRPO raggiunge un allineamento più preciso e un addestramento più stabile rispetto a DPO. I nostri esperimenti e analisi convalidano l'efficacia del nostro approccio in una varietà di compiti video, tra cui allucinazioni video, comprensione di video brevi e lunghi e ragionamento temporale fine.
La Quantificazione dell'Incertezza (Uncertainty Quantification, UQ) nei Modelli Linguistici (Language Models, LMs) è fondamentale per migliorarne la sicurezza e l'affidabilità. Le valutazioni spesso utilizzano metriche di prestazione come l'AUROC per valutare quanto bene i metodi di UQ (ad esempio, le probabilità negative delle sequenze) si correlano con le funzioni di correttezza del compito (ad esempio, ROUGE-L). In questo articolo, dimostriamo che le funzioni di correttezza comunemente utilizzate distorcono le valutazioni di UQ gonfiando le prestazioni di determinati metodi di UQ. Valutiamo 7 funzioni di correttezza -- da metriche basate su lessico e su embedding ad approcci LLM-as-a-judge -- su 4 dataset x 4 modelli x 6 metodi di UQ. La nostra analisi rivela che i pregiudizi legati alla lunghezza negli errori di queste funzioni di correttezza distorcono le valutazioni di UQ interagendo con i pregiudizi legati alla lunghezza nei metodi di UQ. Identifichiamo gli approcci LLM-as-a-judge come tra le scelte meno influenzate dalla lunghezza e quindi una potenziale soluzione per mitigare questi pregiudizi.
La riduzione efficace del rumore è cruciale nella TC a bassa dose per migliorare le strutture sottili e le lesioni a basso contrasto, prevenendo al contempo errori diagnostici. I metodi supervisionati incontrano difficoltà con dataset accoppiati limitati, mentre gli approcci auto-supervisionati spesso richiedono più immagini rumorose e si basano su reti profonde come la U-Net, offrendo poca comprensione del meccanismo di riduzione del rumore. Per affrontare queste sfide, proponiamo un framework interpretabile di riduzione del rumore auto-supervisionato su singola immagine -- Filter2Noise (F2N). Il nostro approccio introduce un Filtro Bilaterale Guidato dall'Attenzione, adattato a ciascun input rumoroso attraverso un modulo leggero che predice parametri di filtro variabili spazialmente, che possono essere visualizzati e regolati post-addestramento per una riduzione del rumore controllata dall'utente in specifiche regioni di interesse. Per abilitare l'addestramento su singola immagine, introduciamo una nuova strategia di downsampling shuffle con una funzione di perdita auto-supervisionata che estende il concetto di Noise2Noise a una singola immagine e affronta il rumore correlato spazialmente. Sul dataset Mayo Clinic 2016 a bassa dose TC, F2N supera il principale metodo auto-supervisionato su singola immagine (ZS-N2N) di 4.59 dB PSNR, migliorando al contempo trasparenza, controllo dell'utente ed efficienza parametrica. Queste caratteristiche offrono vantaggi chiave per applicazioni mediche che richiedono una riduzione del rumore precisa e interpretabile. Il nostro codice è disponibile su https://github.com/sypsyp97/Filter2Noise.git.