Dagelijks geselecteerde AI onderzoekspapers met vertalingen
In dit artikel introduceren we Medical SAM 2 (MedSAM-2), een geavanceerd segmentatiemodel dat gebruikmaakt van het SAM 2-framework om zowel 2D- als 3D-medische beeldsegmentatietaken aan te pakken. Door de filosofie van het behandelen van medische beelden als video's te omarmen, is MedSAM-2 niet alleen toepasbaar op 3D-medische beelden, maar ontgrendelt het ook een nieuwe One-prompt Segmentation-capaciteit. Hierdoor kunnen gebruikers een prompt geven voor slechts één of een specifiek beeld dat gericht is op een object, waarna het model hetzelfde type object in alle daaropvolgende beelden autonoom kan segmenteren, ongeacht de temporele relaties tussen de beelden. We hebben MedSAM-2 geëvalueerd op een verscheidenheid aan medische beeldvormingsmodaliteiten, waaronder abdominale organen, optische schijven, hersentumoren, schildklierknobbels en huidlaesies, en vergeleken met state-of-the-art modellen in zowel traditionele als interactieve segmentatie-instellingen. Onze bevindingen tonen aan dat MedSAM-2 niet alleen bestaande modellen in prestaties overtreft, maar ook superieure generalisatie vertoont over een reeks medische beeldsegmentatietaken. Onze code zal worden vrijgegeven op: https://github.com/MedicineToken/Medical-SAM2
Grootschalige zelfgesuperviseerde voorafgaande training heeft de weg geëffend voor één fundamenteel model om vele verschillende visuele taken aan te kunnen. De meeste methoden voor voorafgaande training trainen één model van een bepaalde grootte tegelijk. Echter vereisen diverse reken- of opslagbeperkingen in praktijkscenario's aanzienlijke inspanningen om een reeks modellen van verschillende groottes te ontwikkelen voor implementatie. Daarom stellen we in deze studie een nieuw drietakig zelfgesuperviseerd trainingsraamwerk voor, genaamd POA (Pre-training Once for All), om het bovengenoemde probleem aan te pakken. Onze aanpak introduceert een innovatieve elastische studenttak in een modern zelfdistillatieparadigma. Bij elke stap van de voorafgaande training nemen we willekeurig een sub-netwerk uit de oorspronkelijke student om de elastische student te vormen en trainen we alle takken op een zelfdistillerende manier. Eenmaal voorgetraind, maakt POA het mogelijk om vooraf getrainde modellen van diverse groottes te extraheren voor downstream taken. Opmerkelijk is dat de elastische student de gelijktijdige voorafgaande training van meerdere modellen met verschillende groottes mogelijk maakt, wat ook fungeert als een extra ensemble van modellen van verschillende groottes om de representatielearning te verbeteren. Uitgebreide experimenten, waaronder k-nearest neighbors, lineaire probing evaluatie en beoordelingen op meerdere downstream taken, demonstreren de effectiviteit en voordelen van onze POA. Het behaalt state-of-the-art prestaties met ViT, Swin Transformer en ResNet backbones, en produceert ongeveer honderd modellen van verschillende groottes via één enkele voorafgaande trainingssessie. De code is beschikbaar op: https://github.com/Qichuzyy/POA.
Entiteitenkoppeling (EL) en Relatie-extractie (RE) zijn fundamentele taken binnen Natuurlijke Taalverwerking en vormen kritieke componenten in een breed scala aan toepassingen. In dit artikel introduceren we ReLiK, een Retriever-Reader-architectuur voor zowel EL als RE, waarbij, gegeven een invoertekst, de Retriever-module de identificatie van kandidaat-entiteiten of -relaties die mogelijk in de tekst voorkomen, op zich neemt. Vervolgens is het de taak van de Reader-module om de relevante opgehaalde entiteiten of relaties te onderscheiden en hun afstemming met de bijbehorende tekstuele segmenten vast te stellen. Opmerkelijk is dat we een innovatieve invoerrepresentatie voorstellen die de kandidaat-entiteiten of -relaties samen met de tekst integreert, waardoor het mogelijk wordt om entiteiten te koppelen of relaties te extraheren in een enkele voorwaartse doorloop en om de contextualisatiemogelijkheden van vooraf getrainde taalmodellen volledig te benutten, in tegenstelling tot eerdere Retriever-Reader-gebaseerde methoden, die een voorwaartse doorloop voor elke kandidaat vereisen. Onze formulering van EL en RE behaalt state-of-the-art prestaties in zowel in-domein als out-of-domein benchmarks, terwijl gebruik wordt gemaakt van een academisch budget voor training en met een inferentiesnelheid die tot 40x hoger ligt dan die van concurrenten. Tot slot laten we zien hoe onze architectuur naadloos kan worden gebruikt voor Informatie-extractie (cIE), d.w.z. EL + RE, en een nieuwe state of the art vestigt door een gedeelde Reader in te zetten die gelijktijdig entiteiten en relaties extraheert.
Gegeven een 3D-mesh, streven we ernaar om 3D-texturen te synthetiseren die overeenkomen met willekeurige tekstuele beschrijvingen. Huidige methoden voor het genereren en assembleren van texturen uit bemonsterde aanzichten resulteren vaak in opvallende naden of overmatige gladheid. Om deze problemen aan te pakken, presenteren we TexGen, een nieuw multi-view bemonsterings- en herbemonsteringsraamwerk voor textuurgeneratie dat gebruikmaakt van een vooraf getraind tekst-naar-beeld diffusiemodel. Voor consistente bemonstering van aanzichten, handhaven we eerst een textuurkaart in RGB-ruimte die geparametriseerd is door de denoiseringsstap en die na elke bemonsteringsstap van het diffusiemodel wordt bijgewerkt om de aanzichtsdiscrepantie geleidelijk te verminderen. Een aandacht-gestuurde multi-view bemonsteringsstrategie wordt gebruikt om de uiterlijke informatie over aanzichten te verspreiden. Om textuurdetails te behouden, ontwikkelen we een ruisherbemonsteringstechniek die helpt bij het schatten van ruis, waarbij invoer wordt gegenereerd voor volgende denoiseringsstappen, zoals bepaald door de tekstprompt en de huidige textuurkaart. Door middel van uitgebreide kwalitatieve en kwantitatieve evaluaties tonen we aan dat onze voorgestelde methode aanzienlijk betere textuurkwaliteit produceert voor diverse 3D-objecten met een hoge mate van aanzichtsconsistentie en rijke uiterlijke details, wat huidige state-of-the-art methoden overtreft. Bovendien kan onze voorgestelde textuurgeneratietechniek ook worden toegepast op textuurbewerking terwijl de oorspronkelijke identiteit behouden blijft. Meer experimentele resultaten zijn beschikbaar op https://dong-huo.github.io/TexGen/.
Het vermogen van generatieve grote taalmmodellen (LLMs) om in-context leren uit te voeren, heeft geleid tot een groot aantal onderzoeken naar de beste manier om modellen aan te sturen voor verschillende natuurlijke taalverwerkingstaken. In dit artikel richten we ons op machinaal vertalen (MT), een taak waarvan is aangetoond dat deze baat heeft bij in-context vertaalvoorbeelden. Er zijn echter nog geen systematische studies gepubliceerd over de beste manier om voorbeelden te selecteren, en er zijn gemengde resultaten gerapporteerd over het nut van op gelijkenis gebaseerde selectie ten opzichte van willekeurige selectie. Wij presenteren een studie die meerdere LLMs en meerdere in-context voorbeeldretrievalstrategieën omvat, waarbij we meertalige zinembeddingen vergelijken. We behandelen verschillende taalrichtingen, die verschillende niveaus van taalhulpbronnen vertegenwoordigen (Engels naar Frans, Duits, Swahili en Wolof). In tegenstelling tot eerder gepubliceerde resultaten, vinden we dat de gelijkenis van zinembeddingen MT kan verbeteren, vooral voor taalrichtingen met weinig hulpbronnen, en bespreken we de balans tussen diversiteit en kwaliteit van de selectiepool. We benadrukken ook potentiële problemen bij de evaluatie van LLM-gebaseerde MT en stellen een geschikter evaluatieprotocol voor, waarbij we de COMET-metric aanpassen voor de evaluatie van LLMs. Code en uitvoer zijn vrij beschikbaar op https://github.com/ArmelRandy/ICL-MT.
Multimodale modellen die audio en taal gezamenlijk verwerken, bieden veelbelovende mogelijkheden voor audiobegrip en worden steeds vaker toegepast in het muziekdomein. Door gebruikers in staat te stellen via tekst te zoeken en informatie te verkrijgen over een bepaald audiofragment, hebben deze modellen het potentieel om een verscheidenheid aan muziekbegriptaken mogelijk te maken via taalgebaseerde interfaces. Hun evaluatie brengt echter aanzienlijke uitdagingen met zich mee, en het blijft onduidelijk hoe hun vermogen om muziekgerelateerde invoer correct te interpreteren effectief kan worden beoordeeld met huidige methoden. Gemotiveerd door dit probleem introduceren we MuChoMusic, een benchmark voor het evalueren van muziekbegrip in multimodale taalmodellen die zich richten op audio. MuChoMusic bestaat uit 1.187 meerkeuzevragen, allemaal gevalideerd door menselijke annotators, over 644 muziektracks afkomstig uit twee openbaar beschikbare muziekdatasets, en bestrijkt een breed scala aan genres. De vragen in de benchmark zijn ontworpen om kennis en redeneervaardigheden te beoordelen over verschillende dimensies die fundamentele muzikale concepten en hun relatie tot culturele en functionele contexten omvatten. Door de holistische analyse die de benchmark mogelijk maakt, evalueren we vijf open-source modellen en identificeren we verschillende valkuilen, waaronder een overmatige afhankelijkheid van de taalmodaliteit, wat wijst op een behoefte aan betere multimodale integratie. Data en code zijn openbaar beschikbaar.
We presenteren RelBench, een openbare benchmark voor het oplossen van voorspellende taken over relationele databases met grafneurale netwerken. RelBench biedt databases en taken die diverse domeinen en schalen omvatten, en is bedoeld als een fundamentele infrastructuur voor toekomstig onderzoek. We gebruiken RelBench om de eerste uitgebreide studie uit te voeren van Relationeel Deep Learning (RDL) (Fey et al., 2024), dat voorspellende modellen van grafneurale netwerken combineert met (diepe) tabelmodellen die initiële entiteitsrepresentaties extraheren uit ruwe tabellen. End-to-end geleerde RDL-modellen benutten volledig het voorspellende signaal dat is gecodeerd in primaire-foreign key-koppelingen, wat een significante verschuiving markeert van het dominante paradigma van handmatige feature engineering gecombineerd met tabelmodellen. Om RDL grondig te evalueren tegen deze eerdere gouden standaard, voeren we een diepgaande gebruikersstudie uit waarin een ervaren datawetenschapper handmatig features ontwerpt voor elke taak. In deze studie leert RDL betere modellen terwijl het benodigde menselijke werk met meer dan een orde van grootte wordt verminderd. Dit toont de kracht van deep learning aan voor het oplossen van voorspellende taken over relationele databases, wat vele nieuwe onderzoeksmogelijkheden opent die door RelBench worden mogelijk gemaakt.
Welke latente kenmerken zijn gecodeerd in taalmodel (LM) representaties? Recent onderzoek naar het trainen van sparse autoencoders (SAEs) om interpreteerbare kenmerken in LM-representaties te ontwarren, heeft veelbelovende resultaten opgeleverd. Het evalueren van de kwaliteit van deze SAEs is echter moeilijk omdat we geen grondwaarheid hebben van interpreteerbare kenmerken die goede SAEs naar verwachting zouden moeten herstellen. Daarom stellen we voor om de voortgang in interpreteerbaar woordenboekleren te meten door te werken in de context van LM's die getraind zijn op schaak- en Othello-transcripties. Deze contexten bieden natuurlijke verzamelingen van interpreteerbare kenmerken – bijvoorbeeld "er staat een paard op F3" – die we gebruiken om begeleide metrieken voor SAE-kwaliteit te ontwikkelen. Om de voortgang in interpreteerbaar woordenboekleren te sturen, introduceren we een nieuwe SAE-trainingsmethode, p-annealing, die de prestaties verbetert op zowel eerder gebruikte onbegeleide metrieken als onze nieuwe metrieken.