Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Reinforcement Learning met Verifieerbare Beloningen (RLVR) heeft recentelijk opmerkelijke successen geboekt in het verbeteren van de redeneervaardigheden van LLMs, met name bij wiskundige en programmeertaken. Er wordt algemeen aangenomen dat RLVR LLMs in staat stelt om zichzelf continu te verbeteren, waardoor ze nieuwe redeneervaardigheden verwerven die de capaciteit van de corresponderende basismodellen overstijgen. In deze studie onderzoeken we deze aanname echter kritisch opnieuw door de pass@k-metric te meten met grote waarden van k om de grenzen van de redeneervaardigheden van de modellen te verkennen over een breed scala aan modelfamilies en benchmarks. Verrassend genoeg leidt RL niet tot fundamenteel nieuwe redeneerpatronen. Hoewel RL-getrainde modellen hun basismodellen overtreffen bij kleinere waarden van k (bijv. k=1), kunnen basismodellen een vergelijkbare of zelfs hogere pass@k-score behalen in vergelijking met hun RL-tegenhangers bij grote k-waarden. De redeneerpaden die door RL-getrainde modellen worden gegenereerd, zijn al opgenomen in de steekproefverdeling van de basismodellen, wat suggereert dat de meeste redeneervaardigheden die in RL-getrainde modellen worden getoond, al door basismodellen zijn verworven. Verdere analyse toont aan dat RL-training de prestaties verbetert door de uitvoeringsverdeling van het model te beïnvloeden in de richting van paden die eerder beloningen opleveren, waardoor correcte antwoorden efficiënter worden bemonsterd. Dit resulteert echter ook in een smallere grens van redeneervaardigheden in vergelijking met basismodellen. Soortgelijke resultaten worden waargenomen bij visuele redeneertaken die met RLVR zijn getraind. Bovendien ontdekken we dat distillatie daadwerkelijk nieuwe kennis in het model kan introduceren, in tegenstelling tot RLVR. Deze bevindingen benadrukken een kritische beperking van RLVR in het bevorderen van de redeneervaardigheden van LLMs, wat ons dwingt om fundamenteel na te denken over de impact van RL-training in redenerende LLMs en de behoefte aan een beter paradigma. Projectpagina: https://limit-of-RLVR.github.io
Retrieval-augmented generation (RAG) stelt grote taalmodelen in staat om toegang te krijgen tot externe en privécorpora, waardoor feitelijk consistente antwoorden in specifieke domeinen mogelijk worden. Door gebruik te maken van de inherente structuur van het corpus, verrijken op grafieken gebaseerde RAG-methoden dit proces verder door een kennisgraafindex op te bouwen en de structurele aard van grafieken te benutten. Huidige op grafieken gebaseerde RAG-benaderingen besteden echter zelden prioriteit aan het ontwerp van grafiekstructuren. Slecht ontworpen grafieken belemmeren niet alleen de naadloze integratie van diverse grafiekalgoritmen, maar resulteren ook in inconsistenties in de workflow en verminderde prestaties. Om het potentieel van grafieken voor RAG verder te benutten, stellen we NodeRAG voor, een grafiekgericht framework dat heterogene grafiekstructuren introduceert, waardoor op grafieken gebaseerde methodologieën naadloos en holistisch kunnen worden geïntegreerd in de RAG-workflow. Door nauw aan te sluiten bij de mogelijkheden van LLM's, zorgt dit framework voor een volledig samenhangend en efficiënt end-to-end proces. Door middel van uitgebreide experimenten tonen we aan dat NodeRAG prestatievoordelen vertoont ten opzichte van eerdere methoden, waaronder GraphRAG en LightRAG, niet alleen in indextijd, querytijd en opslagefficiëntie, maar ook in het leveren van superieure vraag-antwoordprestaties op multi-hop benchmarks en open-ended head-to-head evaluaties met een minimaal aantal retrieval tokens. Onze GitHub-repository is te vinden op https://github.com/Terry-Xu-666/NodeRAG.
Data kwaliteit en diversiteit zijn essentieel voor het opbouwen van effectieve instructie-afstemmingsdatasets. % Met de toenemende beschikbaarheid van open-source instructie-afstemmingsdatasets, is het voordelig om automatisch hoogwaardige en diverse subsets te selecteren uit een grote hoeveelheid data. % Bestaande methoden prioriteren doorgaans de kwaliteit van individuele instanties en gebruiken heuristische regels om diversiteit te behouden. % Echter, het ontbreken van een alomvattend overzicht van de gehele collectie leidt vaak tot suboptimale resultaten. % Bovendien richten heuristische regels zich meestal op afstand of clustering binnen de embeddingruimte, wat niet nauwkeurig de intentie van complexe instructies in de semantische ruimte vastlegt. % Om deze kloof te overbruggen, stellen we een uniforme methode voor om de informatie-inhoud van datasets te kwantificeren. Deze methode modelleert de semantische ruimte door een labelgrafiek te construeren en kwantificeert diversiteit op basis van de verdeling van informatie binnen de grafiek. % Op basis van een dergelijke meting introduceren we verder een efficiënte steekproefmethode die data samples iteratief selecteert om de Informatie Winst (Maximize the Information Gain, MIG) in de semantische ruimte te maximaliseren. % Experimenten op verschillende datasets en basismodellen tonen aan dat MIG consistent beter presteert dan state-of-the-art methoden. % Opmerkelijk is dat het model, afgestemd met 5\% van de Tulu3-data geselecteerd door MIG, vergelijkbare prestaties bereikt als het officiële SFT-model getraind op de volledige dataset, met verbeteringen van +5.73\% op AlpacaEval en +6.89\% op Wildbench.
Eerder onderzoek geeft aan dat grote taalmodelen een aanzienlijke "Engelse bias" vertonen, wat betekent dat ze vaak beter presteren wanneer taken in het Engels worden gepresenteerd. Interessant genoeg hebben we waargenomen dat het gebruik van bepaalde andere talen in redeneertaken betere prestaties kan opleveren dan Engels. Dit fenomeen blijft echter onderbelicht. In dit artikel onderzoeken we de bovengrens van het benutten van meertaligheid in redeneertaken, waarbij we suggereren dat meertalig redeneren een aanzienlijk (met bijna 10 Acc@k-punten) en robuust (tolerantie voor variaties in vertaalkwaliteit en taalgebruik) hogere bovengrens belooft dan redeneren in alleen Engels. Naast het analyseren van de reden achter deze bovengrens en de uitdagingen om deze te bereiken, constateren we ook dat gangbare methoden voor antwoordselectie deze bovengrens niet kunnen bereiken vanwege hun beperkingen en biases. Deze inzichten kunnen de weg vrijmaken voor toekomstig onderzoek gericht op het volledig benutten van het potentieel van meertalig redeneren in LLM's.
We onderzoeken de taak van geometrische reconstructie van afbeeldingen die zijn vastgelegd vanuit een mix van grond- en luchtbeelden. Huidige state-of-the-art, op leren gebaseerde benaderingen slagen er niet in om de extreme variatie in gezichtspunten tussen lucht-grond beeldparen te hanteren. Onze hypothese is dat het ontbreken van hoogwaardige, geco-registreerde lucht-grond datasets voor training een belangrijke reden is voor dit falen. Dergelijke data is moeilijk samen te stellen, juist omdat het moeilijk is om op een schaalbare manier te reconstrueren. Om deze uitdaging te overwinnen, stellen we een schaalbare framework voor dat pseudo-synthetische weergaven van 3D stadswijdemodellen (bijv. Google Earth) combineert met echte, op grondniveau verzamelde crowd-sourced afbeeldingen (bijv. MegaDepth). De pseudo-synthetische data simuleert een breed scala aan luchtgezichten, terwijl de echte, crowd-sourced afbeeldingen helpen om de visuele kwaliteit te verbeteren voor grondniveau afbeeldingen waar mesh-gebaseerde weergaven onvoldoende detail hebben, waardoor effectief de domeinkloof tussen echte afbeeldingen en pseudo-synthetische weergaven wordt overbrugd. Met behulp van deze hybride dataset fine-tunen we verschillende state-of-the-art algoritmen en behalen we significante verbeteringen op real-world, zero-shot lucht-grond taken. Bijvoorbeeld, we observeren dat de baseline DUSt3R minder dan 5% van de lucht-grond paren lokaliseert binnen 5 graden camerarotatiefout, terwijl fine-tuning met onze data de nauwkeurigheid verhoogt tot bijna 56%, wat een belangrijk falen aanpakt bij het omgaan met grote gezichtspuntveranderingen. Naast cameraschatting en scènereconstructie, verbetert onze dataset ook de prestaties op downstream taken zoals nieuwe-weergave synthese in uitdagende lucht-grond scenario's, wat de praktische waarde van onze aanpak in real-world toepassingen aantoont.
Het ontwerpen van efficiënte en effectieve architectonische backbones staat centraal in onderzoeksinspanningen om de capaciteit van foundation-modellen te verbeteren. Geïnspireerd door het menselijke cognitieve fenomeen van aandachtelijke bias—de natuurlijke neiging om bepaalde gebeurtenissen of stimuli te prioriteren—herinterpreteren we neurale architecturen, waaronder Transformers, Titans en moderne lineaire recurrent neural networks, als associatieve geheugenmodules die een mapping van sleutels en waarden leren met behulp van een intern doel, aangeduid als aandachtelijke bias. Verrassend genoeg hebben we waargenomen dat de meeste bestaande sequentiemodellen ofwel (1) dot-product similariteit, ofwel (2) L2-regressiedoelen gebruiken als hun aandachtelijke bias. Voorbij deze doelen presenteren we een reeks alternatieve aandachtelijke bias-configuraties, samen met hun effectieve benaderingen om hun trainingsprocedure te stabiliseren. Vervolgens herinterpreteren we vergetelheidsmechanismen in moderne deep learning-architecturen als een vorm van retentieregularisatie, waarbij we een nieuwe set vergeetpoorten voor sequentiemodellen introduceren. Op basis van deze inzichten presenteren we Miras, een algemeen framework voor het ontwerpen van deep learning-architecturen gebaseerd op vier keuzes: (i) associatieve geheugenarchitectuur, (ii) aandachtelijk bias-doel, (iii) retentiepoort, en (iv) geheugenleeralgoritme. We presenteren drie nieuwe sequentiemodellen—Moneta, Yaad en Memora—die verder gaan dan de kracht van bestaande lineaire RNN's, terwijl ze een snel paralleliseerbaar trainingsproces behouden. Onze experimenten laten zien dat verschillende ontwerpkeuzes in Miras modellen met uiteenlopende sterktes opleveren. Zo behalen bepaalde instanties van Miras uitzonderlijke prestaties in specifieke taken zoals taalmodellering, gezond verstand redeneren en recall-intensieve taken, waarbij ze zelfs Transformers en andere moderne lineaire recurrent modellen overtreffen.
De eerste generatie van Large Language Models - wat we zouden kunnen noemen "Act I" van generatieve AI (2020-2023) - behaalde opmerkelijke successen door enorme schaalvergroting van parameters en data, maar vertoonde fundamentele beperkingen op het gebied van kennislatentie, oppervlakkig redeneren en beperkte cognitieve processen. In deze periode ontstond prompt engineering als onze primaire interface met AI, waardoor dialoogniveau-communicatie via natuurlijke taal mogelijk werd. We zien nu de opkomst van "Act II" (2024-heden), waarbij modellen in transitie zijn van kennisretrievalsystemen (in latente ruimte) naar denkconstructiemotoren door middel van test-time scaling-technieken. Dit nieuwe paradigma creëert een denkniveau-verbinding met AI via taalgebaseerde gedachten. In dit artikel verhelderen we de conceptuele fundamenten van cognitie-engineering en leggen we uit waarom dit moment cruciaal is voor de ontwikkeling ervan. We breken deze geavanceerde benaderingen systematisch uiteen door middel van uitgebreide tutorials en geoptimaliseerde implementaties, waardoor toegang tot cognitie-engineering wordt gedemocratiseerd en elke beoefenaar kan deelnemen aan de tweede act van AI. We bieden een regelmatig bijgewerkte verzameling papers over test-time scaling in de GitHub Repository: https://github.com/GAIR-NLP/cognition-engineering.
Hoewel het begrijpen van de kennisgrenzen van LLM's cruciaal is om hallucinatie te voorkomen, heeft onderzoek naar de kennisgrenzen van LLM's zich voornamelijk gericht op het Engels. In dit werk presenteren we de eerste studie die analyseert hoe LLM's kennisgrenzen herkennen in verschillende talen door hun interne representaties te onderzoeken bij het verwerken van bekende en onbekende vragen in meerdere talen. Onze empirische studies onthullen drie belangrijke bevindingen: 1) De perceptie van kennisgrenzen door LLM's is gecodeerd in de middelste tot middel-bovenste lagen in verschillende talen. 2) Taalverschillen in de perceptie van kennisgrenzen volgen een lineaire structuur, wat ons motiveert om een trainingsvrije uitlijningsmethode voor te stellen die de perceptie van kennisgrenzen effectief overdraagt tussen talen, waardoor het risico op hallucinatie in talen met weinig bronnen wordt verminderd; 3) Fine-tuning op tweetalige vraagpaarvertaling verbetert verder de herkenning van kennisgrenzen door LLM's in verschillende talen. Gezien het ontbreken van standaard testomgevingen voor cross-linguale kennisgrenzenanalyse, construeren we een meertalige evaluatiesuite die bestaat uit drie representatieve typen kennisgrenzendata. Onze code en datasets zijn openbaar beschikbaar op https://github.com/DAMO-NLP-SG/LLM-Multilingual-Knowledge-Boundaries.
Het navigeren door hoogrisicodilemma's met tegenstrijdige waarden is uitdagend, zelfs voor mensen, laat staan voor AI. Eerdere onderzoeken naar het redeneervermogen van grote taalmmodellen (LLMs) in dergelijke situaties waren echter beperkt tot alledaagse scenario's. Om deze kloof te dichten, introduceert dit werk eerst CLASH (Character perspective-based LLM Assessments in Situations with High-stakes), een zorgvuldig samengestelde dataset bestaande uit 345 hoogimpactdilemma's en 3.795 individuele perspectieven van diverse waarden. In het bijzonder is CLASH ontworpen om de studie van kritieke aspecten van waardegebaseerde besluitvormingsprocessen te ondersteunen die in eerdere onderzoeken ontbraken, waaronder het begrijpen van besluitambivalentie en psychologisch ongemak, evenals het vastleggen van temporele verschuivingen in waarden vanuit de perspectieven van personages. Door 10 open en gesloten frontiermodellen te benchmarken, onthullen we verschillende belangrijke bevindingen. (1) Zelfs de sterkste modellen, zoals GPT-4o en Claude-Sonnet, behalen minder dan 50% nauwkeurigheid in het identificeren van situaties waarin het besluit ambivalent zou moeten zijn, terwijl ze aanzienlijk beter presteren in duidelijke scenario's. (2) Hoewel LLMs redelijk goed psychologisch ongemak kunnen voorspellen zoals gemarkeerd door mensen, begrijpen ze perspectieven met waardeveranderingen onvoldoende, wat aangeeft dat LLMs complexe waarden moeten kunnen redeneren. (3) Onze experimenten tonen ook een significante correlatie tussen de waardepreferenties van LLMs en hun stuurbaarheid naar een bepaalde waarde. (4) Ten slotte vertonen LLMs een grotere stuurbaarheid wanneer ze betrokken zijn bij waarderedenering vanuit een derdepersoonsperspectief, vergeleken met een eerste-persoonsopzet, hoewel bepaalde waardeparen uniek profiteren van de eerste-persoonsframing.
Scene-level 3D-generatie vertegenwoordigt een cruciaal front in multimedia en computergraphics, maar bestaande benaderingen lijden ofwel onder beperkte objectcategorieën of ontberen bewerkingsflexibiliteit voor interactieve toepassingen. In dit artikel presenteren we HiScene, een nieuw hiërarchisch raamwerk dat de kloof overbrugt tussen 2D-beeldgeneratie en 3D-objectgeneratie, en hoogwaardige scènes levert met compositionele identiteiten en esthetische scène-inhoud. Onze belangrijkste inzicht is het behandelen van scènes als hiërarchische "objecten" onder isometrische weergaven, waarbij een kamer functioneert als een complex object dat verder kan worden opgedeeld in manipuleerbare items. Deze hiërarchische aanpak stelt ons in staat om 3D-inhoud te genereren die aansluit bij 2D-representaties, terwijl de compositionele structuur behouden blijft. Om de volledigheid en ruimtelijke uitlijning van elk opgedeeld exemplaar te waarborgen, ontwikkelen we een op video-diffusie gebaseerde amodale completeringstechniek die effectief omgaat met occlusies en schaduwen tussen objecten, en introduceren we shape prior injection om ruimtelijke samenhang binnen de scène te garanderen. Experimentele resultaten tonen aan dat onze methode natuurlijkere objectarrangementen en complete objectexemplaren produceert die geschikt zijn voor interactieve toepassingen, terwijl fysieke plausibiliteit en uitlijning met gebruikersinvoer behouden blijven.
Globale contextuele informatie en lokale detailkenmerken zijn essentieel voor taken gericht op het verwijderen van mist. Deep learning-modellen presteren goed op kleine, laagresolutie afbeeldingen, maar ondervinden problemen met grote, hoogresolutie afbeeldingen vanwege beperkingen in GPU-geheugen. Als compromis nemen ze vaak hun toevlucht tot het opdelen van afbeeldingen of het verlagen van de resolutie. Het eerste vermindert de globale informatie, terwijl het laatste hoogfrequente details weglaat. Om deze uitdagingen aan te pakken, stellen we DehazeXL voor, een methode voor het verwijderen van mist die effectief een balans vindt tussen globale context en lokale feature-extractie, waardoor end-to-end modellering van grote afbeeldingen op gangbare GPU-hardware mogelijk wordt. Daarnaast hebben we, om de efficiëntie van het gebruik van globale context bij het verwijderen van mist te evalueren, een visuele attributiemethode ontworpen die is afgestemd op de kenmerken van mistverwijderingstaken. Tot slot, erkennend dat er een gebrek is aan benchmarkdatasets voor het verwijderen van mist in grote afbeeldingen, hebben we een ultrahoogresolutie dataset voor mistverwijdering ontwikkeld (8KDehaze) om modeltraining en -testen te ondersteunen. Deze bevat 10.000 paren van heldere en mistige remote sensing-afbeeldingen, elk met een grootte van 8192 bij 8192 pixels. Uitgebreide experimenten tonen aan dat DehazeXL afbeeldingen tot 10240 bij 10240 pixels kan verwerken met slechts 21 GB geheugen, waarbij het state-of-the-art resultaten behaalt onder alle geëvalueerde methoden. De broncode en het experimentele dataset zijn beschikbaar op https://github.com/CastleChen339/DehazeXL.
Recente ontwikkelingen in grote redeneermodellen (LRMs) hebben de effectiviteit aangetoond van het opschalen van rekentijd tijdens het testen om de redeneervaardigheden bij meerdere taken te verbeteren. LRMs hebben echter vaak last van "overdenkproblemen", waarbij modellen aanzienlijk overbodige redeneerstappen genereren terwijl dit slechts beperkte prestatieverbeteringen oplevert. Bestaande werkwijzen vertrouwen op fine-tuning om overdenken te verminderen, wat extra data vereist, onconventionele trainingsopstellingen, risicovolle veiligheidsmisalignering en slechte generalisatie met zich meebrengt. Door empirische analyse onthullen we een belangrijk kenmerk van LRM-gedrag: het plaatsen van externe CoTs (Chain-of-Thoughts) gegenereerd door kleinere modellen tussen de denktokens (<think> en </think>) kan het model effectief manipuleren om minder gedachten te genereren. Op basis van deze inzichten stellen we een eenvoudige maar efficiënte pipeline voor, ThoughtMani, waarmee LRMs onnodige tussenstappen kunnen omzeilen en de rekentijd aanzienlijk kunnen verminderen. We voeren uitgebreide experimenten uit om de bruikbaarheid en efficiëntie van ThoughtMani te valideren. Wanneer bijvoorbeeld toegepast op QwQ-32B op de LiveBench/Code-dataset, behoudt ThoughtMani de oorspronkelijke prestaties en vermindert het aantal uitvoertokens met ongeveer 30%, met weinig overhead van de CoT-generator. Bovendien ontdekken we dat ThoughtMani de veiligheidsalignering gemiddeld met 10% verbetert. Omdat modelleveranciers doorgaans modellen van verschillende groottes tegelijkertijd aanbieden, biedt ThoughtMani een effectieve manier om efficiëntere en toegankelijkere LRMs te bouwen voor real-world toepassingen.
De brede adoptie van AI-systemen in de economie hangt af van hun vermogen om economische waarde te genereren die hoger is dan hun inferentiekosten. Het evalueren van deze afweging vereist metrieken die zowel prestaties als kosten in rekening brengen. Wij stellen een raamwerk voor, gebaseerd op productietheorie, voor het evalueren van taalmodellen door nauwkeurigheid en inferentiekosten te combineren. We introduceren "cost-of-pass", de verwachte monetaire kosten voor het genereren van een correcte oplossing. Vervolgens definiëren we de "frontier cost-of-pass" als de minimale cost-of-pass die haalbaar is over beschikbare modellen of de "menselijke expert", gebruikmakend van de geschatte kosten van het inhuren van een expert. Onze analyse onthult duidelijke economische inzichten. Ten eerste zijn lichtgewicht modellen het meest kosteneffectief voor basale kwantitatieve taken, grote modellen voor kennisintensieve taken, en redeneermodellen voor complexe kwantitatieve problemen, ondanks hogere kosten per token. Ten tweede laat het volgen van deze frontier cost-of-pass over het afgelopen jaar significante vooruitgang zien, met name voor complexe kwantitatieve taken waar de kosten ongeveer elke paar maanden zijn gehalveerd. Ten derde onderzoeken we, om belangrijke innovaties die deze vooruitgang drijven te traceren, tegenfeitelijke grenzen: schattingen van kostenefficiëntie zonder specifieke modelklassen. We constateren dat innovaties in lichtgewicht, grote en redeneermodellen essentieel zijn geweest voor het verleggen van de grens in respectievelijk basale kwantitatieve, kennisintensieve en complexe kwantitatieve taken. Tot slot beoordelen we de kostenverlagingen die worden geboden door veelgebruikte inferentietechnieken zoals meerderheidsstemming en zelfverfijning, en concluderen dat hun marginale nauwkeurigheidswinsten zelden hun kosten rechtvaardigen. Onze bevindingen benadrukken dat complementaire innovaties op modelniveau de belangrijkste drijvers zijn van kostenefficiëntie, en ons economische raamwerk biedt een principieel instrument om deze vooruitgang te meten en de implementatie te begeleiden.
Ondanks recente vooruitgang in Grote Video Taalmodellen (LVLMs), hebben ze nog steeds moeite met fijnmazig temporeel begrip, vertonen ze hallucinaties, en maken ze vaak eenvoudige fouten bij zelfs simpele video-vraag-antwoordtaken, wat allemaal aanzienlijke uitdagingen vormt voor hun veilige en betrouwbare inzet in real-world toepassingen. Om deze beperkingen aan te pakken, stellen we een zelf-uitlijningsframework voor dat LVLMs in staat stelt te leren van hun eigen fouten. Ons voorgestelde framework verkrijgt eerst een trainingsset van geprefereerde en niet-geprefereerde antwoordparen, waarbij niet-geprefereerde antwoorden worden gegenereerd door veelvoorkomende foutpatronen te incorporeren die vaak ontstaan door onvoldoende spatio-temporeel begrip, valse correlaties tussen gelijktijdig voorkomende concepten, en overmatige afhankelijkheid van linguïstische signalen terwijl de visuele modaliteit wordt verwaarloosd, onder andere. Om de zelf-uitlijning van LVLMs met de geconstrueerde geprefereerde en niet-geprefereerde antwoordparen te vergemakkelijken, introduceren we Refined Regularized Preference Optimization (RRPO), een nieuwe voorkeursoptimalisatiemethode die gebruikmaakt van sub-sequentieniveau verfijnde beloningen en token-wise KL-regularisatie om de beperkingen van Direct Preference Optimization (DPO) aan te pakken. We tonen aan dat RRPO een preciezere uitlijning en stabielere training bereikt in vergelijking met DPO. Onze experimenten en analyses valideren de effectiviteit van onze aanpak voor diverse videotaken, waaronder video-hallucinatie, kort- en langvideo-begrip, en fijnmazig temporeel redeneren.
Onzekerheidskwantificering (UQ) in taalmodelen (LMs) is cruciaal voor het verbeteren van hun veiligheid en betrouwbaarheid. Evaluaties maken vaak gebruik van prestatiemetrics zoals AUROC om te beoordelen hoe goed UQ-methoden (bijvoorbeeld negatieve sequentiekansen) correleren met taakcorrectheidsfuncties (bijvoorbeeld ROUGE-L). In dit artikel tonen we aan dat veelgebruikte correctheidsfuncties UQ-evaluaties bevooroordelen door de prestaties van bepaalde UQ-methoden te overdrijven. We evalueren 7 correctheidsfuncties – van lexicale en op embeddings gebaseerde metrics tot LLM-als-rechterbenaderingen – over 4 datasets x 4 modellen x 6 UQ-methoden. Onze analyse onthult dat lengtevooroordelen in de fouten van deze correctheidsfuncties UQ-beoordelingen verstoren door te interageren met lengtevooroordelen in UQ-methoden. We identificeren LLM-als-rechterbenaderingen als een van de minst lengtebevooroordeelde keuzes en daarmee een mogelijke oplossing om deze vooroordelen te verminderen.
Effectieve ruisreductie is cruciaal bij CT-scans met lage dosis om subtiele structuren en laagcontrastlaesies te versterken en diagnostische fouten te voorkomen. Gesuperviseerde methoden worstelen met beperkte gepaarde datasets, en zelfgesuperviseerde benaderingen vereisen vaak meerdere ruisachtige afbeeldingen en vertrouwen op diepe netwerken zoals U-Net, wat weinig inzicht biedt in het ruisreductiemechanisme. Om deze uitdagingen aan te pakken, stellen we een interpreteerbaar zelfgesuperviseerd raamwerk voor ruisreductie met één afbeelding voor -- Filter2Noise (F2N). Onze aanpak introduceert een Attention-Guided Bilateral Filter dat wordt aangepast aan elke ruisachtige invoer via een lichtgewicht module die ruimtelijk variërende filterparameters voorspelt, die na de training kunnen worden gevisualiseerd en aangepast voor gebruikersgestuurde ruisreductie in specifieke interessegebieden. Om training met één afbeelding mogelijk te maken, introduceren we een nieuwe downsampling shuffle-strategie met een nieuwe zelfgesuperviseerde verliesfunctie die het concept van Noise2Noise uitbreidt naar één afbeelding en ruimtelijk gecorreleerde ruis aanpakt. Op de Mayo Clinic 2016 low-dose CT-dataset presteert F2N 4,59 dB PSNR beter dan de toonaangevende zelfgesuperviseerde methode met één afbeelding (ZS-N2N), terwijl het transparantie, gebruikerscontrole en parametrische efficiëntie verbetert. Deze functies bieden belangrijke voordelen voor medische toepassingen die precieze en interpreteerbare ruisreductie vereisen. Onze code wordt gedemonstreerd op https://github.com/sypsyp97/Filter2Noise.git.