ChatPaper.aiChatPaper.ai
Home

arXiv

HuggingFace

PrijzenAccountWerkruimte

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

1

SciLitLLM: Hoe LLM's aan te passen voor het begrijpen van wetenschappelijke literatuur
SciLitLLM: How to Adapt LLMs for Scientific Literature Understanding

Aug 28
BySihang Li, Jin Huang, Jiaxi Zhuang, Yaorui Shi, Xiaochen Cai, Mingjun Xu, Xiang Wang, Linfeng Zhang, Guolin Ke, Hengxing Cai
37
1

Het begrijpen van wetenschappelijke literatuur is cruciaal voor het extraheren van gerichte informatie en het verkrijgen van inzichten, waardoor wetenschappelijke ontdekkingen aanzienlijk worden bevorderd. Ondanks het opmerkelijke succes van Large Language Models (LLM's), hebben ze moeite met het begrijpen van wetenschappelijke literatuur, voornamelijk vanwege (1) een gebrek aan wetenschappelijke kennis en (2) onbekendheid met gespecialiseerde wetenschappelijke taken. Om een LLM te ontwikkelen die gespecialiseerd is in het begrijpen van wetenschappelijke literatuur, stellen we een hybride strategie voor die voortdurende voorafgaande training (CPT) en begeleide fijnafstemming (SFT) integreert, om tegelijkertijd wetenschappelijke domeinkennis te infuseren en het vermogen om instructies te volgen voor domeinspecifieke taken te verbeteren. In dit proces identificeren we twee belangrijke uitdagingen: (1) het construeren van hoogwaardige CPT-corpora, en (2) het genereren van diverse SFT-instructies. We pakken deze uitdagingen aan via een zorgvuldige pijplijn, waaronder PDF-tekstextractie, het corrigeren van parseerfouten, kwaliteitsfiltering en het creëren van synthetische instructies. Door deze strategie toe te passen, presenteren we een reeks LLM's: SciLitLLM, gespecialiseerd in het begrijpen van wetenschappelijke literatuur. Deze modellen laten veelbelovende prestaties zien op benchmarks voor het begrijpen van wetenschappelijke literatuur. Onze bijdragen zijn drievoudig: (1) We presenteren een effectief raamwerk dat CPT en SFT integreert om LLM's aan te passen aan het begrijpen van wetenschappelijke literatuur, wat ook eenvoudig kan worden aangepast aan andere domeinen. (2) We stellen een LLM-gebaseerde synthesemethode voor om diverse en hoogwaardige wetenschappelijke instructies te genereren, wat resulteert in een nieuwe instructieset -- SciLitIns -- voor begeleide fijnafstemming in minder vertegenwoordigde wetenschappelijke domeinen. (3) SciLitLLM behaalt veelbelovende prestatieverbeteringen op benchmarks voor het begrijpen van wetenschappelijke literatuur.

2

CoRe: Context-Geregulariseerd Leren van Tekstembeddingen voor Tekst-naar-Afbeelding Personalisatie
CoRe: Context-Regularized Text Embedding Learning for Text-to-Image Personalization

Aug 28
ByFeize Wu, Yun Pang, Junyi Zhang, Lianyu Pang, Jian Yin, Baoquan Zhao, Qing Li, Xudong Mao
24
7

Recente vooruitgang in tekst-naar-beeld-personalisatie heeft hoogwaardige en controleerbare beeldgeneratie mogelijk gemaakt voor door gebruikers aangedragen concepten. Bestaande methoden hebben echter nog steeds moeite om identiteitsbehoud en tekstuitlijning in balans te brengen. Onze aanpak is gebaseerd op het feit dat het genereren van prompt-uitgelijnde afbeeldingen een precies semantisch begrip van de prompt vereist, wat het nauwkeurig verwerken van de interacties tussen het nieuwe concept en de omringende contexttokens binnen de CLIP-tekstencoder omvat. Om dit aan te pakken, streven we ernaar het nieuwe concept correct in te bedden in de invoerembeddingruimte van de tekstencoder, waardoor een naadloze integratie met bestaande tokens mogelijk wordt. We introduceren Context Regularisatie (CoRe), dat het leren van de tekstembedding van het nieuwe concept verbetert door de contexttokens in de prompt te regulariseren. Dit is gebaseerd op het inzicht dat geschikte uitvoervectoren van de tekstencoder voor de contexttokens alleen kunnen worden bereikt als de tekstembedding van het nieuwe concept correct wordt geleerd. CoRe kan worden toegepast op willekeurige prompts zonder dat de generatie van bijbehorende afbeeldingen vereist is, waardoor de generalisatie van de geleerde tekstembedding wordt verbeterd. Daarnaast kan CoRe dienen als een optimalisatietechniek tijdens de testfase om de generaties voor specifieke prompts verder te verbeteren. Uitgebreide experimenten tonen aan dat onze methode verschillende baseline-methoden overtreft in zowel identiteitsbehoud als tekstuitlijning. De code zal publiekelijk beschikbaar worden gemaakt.

3

UrBench: Een uitgebreide benchmark voor het evalueren van grote multimodale modellen in multi-view stedelijke scenario's
UrBench: A Comprehensive Benchmark for Evaluating Large Multimodal Models in Multi-View Urban Scenarios

Aug 30
ByBaichuan Zhou, Haote Yang, Dairong Chen, Junyan Ye, Tianyi Bai, Jinhua Yu, Songyang Zhang, Dahua Lin, Conghui He, Weijia Li
23
3

Recente evaluaties van Large Multimodal Models (LMMs) hebben hun mogelijkheden in verschillende domeinen onderzocht, waarbij slechts enkele benchmarks zich specifiek richten op stedelijke omgevingen. Bovendien zijn bestaande stedelijke benchmarks beperkt gebleven tot het evalueren van LMMs met basale regio-niveau stedelijke taken onder enkelvoudige perspectieven, wat leidt tot onvolledige evaluaties van de capaciteiten van LMMs in stedelijke omgevingen. Om deze problemen aan te pakken, presenteren we UrBench, een uitgebreide benchmark ontworpen voor het evalueren van LMMs in complexe multi-perspectief stedelijke scenario's. UrBench bevat 11.6K zorgvuldig samengestelde vragen op zowel regio- als rol-niveau die 4 taakdimensies beslaan: Geo-Localisatie, Scene Redenering, Scene Begrip en Object Begrip, in totaal 14 taaktypen. Bij de constructie van UrBench maken we gebruik van gegevens uit bestaande datasets en verzamelen we aanvullende gegevens uit 11 steden, waarbij we nieuwe annotaties creëren met behulp van een cross-view detectie-matching methode. Met deze afbeeldingen en annotaties integreren we vervolgens LMM-gebaseerde, regelgebaseerde en mensgebaseerde methoden om grootschalige hoogwaardige vragen te construeren. Onze evaluaties van 21 LMMs tonen aan dat huidige LMMs moeite hebben in stedelijke omgevingen op verschillende aspecten. Zelfs de best presterende GPT-4o blijft achter bij mensen in de meeste taken, variërend van eenvoudige taken zoals tellen tot complexe taken zoals oriëntatie, lokalisatie en objectattribuutherkenning, met een gemiddeld prestatieverschil van 17,4%. Onze benchmark laat ook zien dat LMMs inconsistente gedragingen vertonen bij verschillende stedelijke perspectieven, vooral met betrekking tot het begrijpen van cross-view relaties. De UrBench datasets en benchmarkresultaten zullen publiekelijk beschikbaar zijn op https://opendatalab.github.io/UrBench/.

4

CrossViewDiff: Een Cross-View Diffusiemodel voor Satelliet-naar-Straatbeeld Synthese
CrossViewDiff: A Cross-View Diffusion Model for Satellite-to-Street View Synthesis

Aug 27
ByWeijia Li, Jun He, Junyan Ye, Huaping Zhong, Zhimeng Zheng, Zilong Huang, Dahua Lin, Conghui He
15
2

Satelliet-naar-straatbeeld-synthese heeft als doel een realistisch straatbeeld te genereren vanuit het bijbehorende satellietbeeld. Hoewel stabiele diffusiemodellen opmerkelijke prestaties hebben laten zien in diverse beeldgeneratietoepassingen, beperkt hun afhankelijkheid van gelijksoortige invoerbeelden om de gegenereerde structuur of textuur te controleren hun toepasbaarheid voor de uitdagende taak van kruisbeeld-synthese. In dit werk stellen we CrossViewDiff voor, een kruisbeeld-diffusiemodel voor satelliet-naar-straatbeeld-synthese. Om de uitdagingen veroorzaakt door de grote discrepantie tussen de beelden aan te pakken, ontwerpen we de satellietscène-structuurschatting en kruisbeeld-textuurtoewijzingsmodules om de structurele en textuurcontroles voor straatbeeld-synthese te construeren. We ontwerpen verder een kruisbeeld-controle-gestuurd denoiseringsproces dat deze controles integreert via een verbeterde kruisbeeld-attentiemodule. Om een uitgebreidere evaluatie van de synthetische resultaten te bereiken, ontwerpen we aanvullend een GPT-gebaseerde scoringsmethode als aanvulling op standaard evaluatiemetrics. We onderzoeken ook het effect van verschillende databronnen (bijv. tekst, kaarten, gebouwhoogtes en multi-temporele satellietbeelden) op deze taak. Resultaten op drie openbare kruisbeeld-datasets tonen aan dat CrossViewDiff de huidige state-of-the-art overtreft op zowel standaard als GPT-gebaseerde evaluatiemetrics, waarbij hoogwaardige straatbeeld-panorama's worden gegenereerd met realistischer structuren en texturen in landelijke, voorstedelijke en stedelijke scènes. De code en modellen van dit werk zullen worden vrijgegeven op https://opendatalab.github.io/CrossViewDiff/.

5

InkubaLM: Een klein taalmodel voor Afrikaanse talen met beperkte bronnen
InkubaLM: A small language model for low-resource African languages

Aug 30
ByAtnafu Lambebo Tonja, Bonaventure F. P. Dossou, Jessica Ojo, Jenalea Rajab, Fadel Thior, Eric Peter Wairagala, Aremu Anuoluwapo, Pelonomi Moiloa, Jade Abbott, Vukosi Marivate, Benjamin Rosman
14
2

Taalmodelen met veel bronnen schieten vaak tekort in de Afrikaanse context, waar er een dringende behoefte is aan modellen die efficiënt, toegankelijk en lokaal relevant zijn, zelfs bij aanzienlijke beperkingen in rekenkracht en data. Dit artikel introduceert InkubaLM, een klein taalmodel met 0,4 miljard parameters, dat prestaties levert die vergelijkbaar zijn met modellen met aanzienlijk meer parameters en uitgebreidere trainingsdata op taken zoals machinaal vertalen, vraag-antwoord, AfriMMLU en de AfriXnli-taak. Opmerkelijk is dat InkubaLM veel grotere modellen overtreft in sentimentanalyse en opmerkelijke consistentie vertoont over meerdere talen. Dit werk vertegenwoordigt een cruciale vooruitgang in het uitdagen van het conventionele paradigma dat effectieve taalmodelen moeten steunen op aanzienlijke bronnen. Ons model en datasets zijn publiekelijk beschikbaar op \url{https://huggingface.co/lelapa} om onderzoek en ontwikkeling van talen met beperkte bronnen aan te moedigen.

6

VQ4DiT: Efficiënte Post-Training Vector Kwantisatie voor Diffusion Transformers
VQ4DiT: Efficient Post-Training Vector Quantization for Diffusion Transformers

Aug 30
ByJuncan Deng, Shuaiting Li, Zeyu Wang, Hong Gu, Kedong Xu, Kejie Huang
11
2

De Diffusion Transformers Models (DiTs) hebben de netwerkarchitectuur getransformeerd van traditionele UNets naar transformers, waarbij ze uitzonderlijke mogelijkheden hebben getoond in beeldgeneratie. Hoewel DiTs veelvuldig zijn toegepast op taken voor het genereren van hoogwaardige video's, belemmert hun grote parameteromvang de inferentie op edge-apparaten. Vectorquantisatie (VQ) kan modelgewichten ontbinden in een codeboek en toewijzingen, waardoor extreme gewichtsquantisatie mogelijk wordt en het geheugengebruik aanzienlijk wordt verminderd. In dit artikel stellen we VQ4DiT voor, een snelle post-training vectorquantisatiemethode voor DiTs. We ontdekten dat traditionele VQ-methoden alleen het codeboek kalibreren zonder de toewijzingen te kalibreren. Dit leidt ertoe dat gewichtssubvectoren onjuist worden toegewezen aan dezelfde toewijzing, wat inconsistente gradienten aan het codeboek oplevert en resulteert in een suboptimaal resultaat. Om deze uitdaging aan te pakken, berekent VQ4DiT de kandidaat-toewijzingsset voor elke gewichtssubvector op basis van de Euclidische afstand en reconstrueert de subvector op basis van het gewogen gemiddelde. Vervolgens wordt, met behulp van de zero-data en block-wise kalibratiemethode, de optimale toewijzing uit de set efficiënt geselecteerd terwijl het codeboek wordt gekalibreerd. VQ4DiT quantiseert een DiT XL/2-model op een enkele NVIDIA A100 GPU binnen 20 minuten tot 5 uur, afhankelijk van de verschillende quantisatie-instellingen. Experimenten tonen aan dat VQ4DiT een nieuwe state-of-the-art bereikt in de afweging tussen modelgrootte en prestaties, waarbij gewichten worden gequantiseerd tot 2-bit precisie terwijl een acceptabele beeldgeneratiekwaliteit behouden blijft.

7

De VoxCeleb Spraakherkenning Challenge: Een Terugblik
The VoxCeleb Speaker Recognition Challenge: A Retrospective

Aug 27
ByJaesung Huh, Joon Son Chung, Arsha Nagrani, Andrew Brown, Jee-weon Jung, Daniel Garcia-Romero, Andrew Zisserman
11
2

De VoxCeleb Speaker Recognition Challenges (VoxSRC) waren een reeks uitdagingen en workshops die jaarlijks plaatsvonden van 2019 tot 2023. De uitdagingen richtten zich voornamelijk op het evalueren van taken op het gebied van sprekerherkenning en diarisering onder verschillende omstandigheden, waaronder: gesloten en open trainingsdata; en begeleide, zelf-begeleide en semi-begeleide training voor domeinaanpassing. De uitdagingen boden ook openbaar beschikbare trainings- en evaluatiedatasets voor elke taak en omstandigheid, waarbij elk jaar nieuwe testdatasets werden vrijgegeven. In dit artikel bieden we een overzicht van deze uitdagingen, waarin we bespreken: wat ze onderzochten; de methoden die door de deelnemers werden ontwikkeld en hoe deze evolueerden; en ook de huidige stand van zaken op het gebied van sprekersverificatie en diarisering. We schetsen de vooruitgang in prestaties over de vijf edities van de uitdaging op een gemeenschappelijke evaluatiedataset en geven een gedetailleerde analyse van hoe de speciale focus van elk jaar de prestaties van de deelnemers beïnvloedde. Dit artikel is bedoeld voor onderzoekers die een overzicht willen van het vakgebied van sprekerherkenning en diarisering, en ook voor organisatoren van uitdagingen die willen profiteren van de successen en de fouten van de VoxSRC-uitdagingen willen vermijden. We sluiten af met een bespreking van de huidige sterke punten van het vakgebied en de openstaande uitdagingen. Projectpagina: https://mm.kaist.ac.kr/datasets/voxceleb/voxsrc/workshop.html

8

Jina-ColBERT-v2: Een Algemeen Toepasbare Multilingual Late Interaction Retriever
Jina-ColBERT-v2: A General-Purpose Multilingual Late Interaction Retriever

Aug 29
ByRohan Jha, Bo Wang, Michael Günther, Saba Sturua, Mohammad Kalim Akram, Han Xiao
9
1

Multi-vector dense modellen, zoals ColBERT, hebben zich zeer effectief bewezen in informatie retrieval. ColBERT's late interaction scoring benadert de gezamenlijke query-document aandacht die wordt gezien in cross-encoders, terwijl het de inferentie-efficiëntie behoudt die dichter ligt bij traditionele dense retrieval modellen, dankzij zijn bi-encoder architectuur en recente optimalisaties in indexering en zoeken. In dit artikel introduceren we verschillende verbeteringen aan de ColBERT modelarchitectuur en trainingspipeline, waarbij we gebruikmaken van technieken die succesvol zijn gebleken in het meer gevestigde single-vector embedding model paradigma, met name die geschikt zijn voor heterogene meertalige data. Ons nieuwe model, Jina-ColBERT-v2, toont sterke prestaties over een reeks Engelse en meertalige retrieval taken, terwijl het ook de opslagvereisten met tot wel 50% vermindert in vergelijking met eerdere modellen.

9

CURLoRA: Stabiele Continue Fine-Tuning van LLM's en Mitigatie van Catastrofaal Vergeten
CURLoRA: Stable LLM Continual Fine-Tuning and Catastrophic Forgetting Mitigation

Aug 26
ByMuhammad Fawi
8
3

Dit artikel introduceert CURLoRA, een nieuwe benadering voor het finetunen van grote taalmmodellen (LLM's) die CUR-matrixdecompositie benut in de context van Low-Rank Adaptation (LoRA). Onze methode richt zich op twee kritieke uitdagingen bij het finetunen van LLM's: het beperken van catastrofaal vergeten tijdens continu leren en het verminderen van het aantal trainbare parameters. We stellen een unieke aanpassing voor in het CUR-decompositieproces, waarbij omgekeerde waarschijnlijkheden worden gebruikt voor kolom- en rijselectie, wat fungeert als een impliciete regularisatie, en waarbij de U-matrix wordt geïnitialiseerd als een nulmatrix die uitsluitend wordt gefinetuned. We tonen via experimenten op meerdere datasets aan dat CURLoRA standaard LoRA overtreft in het beperken van catastrofaal vergeten. Het behoudt modelstabiliteit en prestaties over taken heen, terwijl het aantal trainbare parameters aanzienlijk wordt verminderd. Onze resultaten laten zien dat CURLoRA zeer goede en stabiele taaknauwkeurigheid bereikt, terwijl de perplexiteitsscores van het basismodel ongewijzigd blijven in vergelijking met LoRA bij continu finetunen, vooral in scenario's met beperkte data.

10

ClimDetect: Een Benchmarkdataset voor Detectie en Toeschrijving van Klimaatverandering
ClimDetect: A Benchmark Dataset for Climate Change Detection and Attribution

Aug 28
BySungduk Yu, Brian L. White, Anahita Bhiwandiwalla, Musashi Hinck, Matthew Lyle Olson, Tung Nguyen, Vasudev Lal
8
1

Het detecteren en toeschrijven van temperatuurstijgingen als gevolg van klimaatverandering is cruciaal voor het begrijpen van opwarming van de aarde en het begeleiden van aanpassingsstrategieën. De complexiteit van het onderscheiden van door de mens veroorzaakte klimaatsignalen van natuurlijke variabiliteit heeft traditionele detectie- en toeschrijvingsmethoden (D&A) uitgedaagd, die specifieke "vingerafdrukken" in klimaatresponsvariabelen proberen te identificeren. Deep learning biedt potentieel voor het herkennen van deze complexe patronen in uitgebreide ruimtelijke datasets. Het ontbreken van standaardprotocollen heeft echter consistente vergelijkingen tussen studies belemmerd. Wij introduceren ClimDetect, een gestandaardiseerde dataset van meer dan 816k dagelijkse klimaatsnapshots, ontworpen om de nauwkeurigheid van modellen bij het identificeren van klimaatsignalen te verbeteren. ClimDetect integreert verschillende invoer- en doelvariabelen die in eerder onderzoek zijn gebruikt, wat vergelijkbaarheid en consistentie waarborgt. We onderzoeken ook de toepassing van vision transformers (ViT) op klimaatdata, een nieuwe en moderniserende aanpak in deze context. Onze open-access data en code dienen als benchmark voor het bevorderen van klimaatwetenschap door verbeterde modelevaluaties. ClimDetect is publiek toegankelijk via de Huggingface datasetrepository op: https://huggingface.co/datasets/ClimDetect/ClimDetect.

11

SurveySum: Een Dataset voor het Samenvatten van Meerdere Wetenschappelijke Artikelen tot een Overzichtsgedeelte
SurveySum: A Dataset for Summarizing Multiple Scientific Articles into a Survey Section

Aug 29
ByLeandro Carísio Fernandes, Gustavo Bartz Guedes, Thiago Soares Laitz, Thales Sales Almeida, Rodrigo Nogueira, Roberto Lotufo, Jayr Pereira
8
1

Documentensamenvatting is een taak waarbij teksten worden ingekort tot beknopte en informatieve samenvattingen. Dit artikel introduceert een nieuwe dataset die is ontworpen voor het samenvatten van meerdere wetenschappelijke artikelen in een sectie van een overzichtsartikel. Onze bijdragen zijn: (1) SurveySum, een nieuwe dataset die de leemte opvult in domeinspecifieke samenvattingshulpmiddelen; (2) twee specifieke pijplijnen om wetenschappelijke artikelen samen te vatten in een sectie van een overzichtsartikel; en (3) de evaluatie van deze pijplijnen met behulp van meerdere metrieken om hun prestaties te vergelijken. Onze resultaten benadrukken het belang van hoogwaardige retrievalsfasen en de impact van verschillende configuraties op de kwaliteit van gegenereerde samenvattingen.

12

VLM4Bio: Een benchmarkdataset om vooraf getrainde visie-taalmodellen te evalueren voor het ontdekken van eigenschappen uit biologische afbeeldingen
VLM4Bio: A Benchmark Dataset to Evaluate Pretrained Vision-Language Models for Trait Discovery from Biological Images

Aug 28
ByM. Maruf, Arka Daw, Kazi Sajeed Mehrab, Harish Babu Manogaran, Abhilash Neog, Medha Sawhney, Mridul Khurana, James P. Balhoff, Yasin Bakis, Bahadir Altintas, Matthew J. Thompson, Elizabeth G. Campolongo, Josef C. Uyeda, Hilmar Lapp, Henry L. Bart, Paula M. Mabee, Yu Su, Wei-Lun Chao, Charles Stewart, Tanya Berger-Wolf, Wasila Dahdul, Anuj Karpatne
8
1

Afbeeldingen worden steeds meer het belangrijkste middel om de biodiversiteit op de planeet vast te leggen, wat nieuwe mogelijkheden biedt om wetenschappelijke ontdekkingen in het veld van de organismale biologie te versnellen, vooral met de opkomst van grote vision-language modellen (VLMs). We onderzoeken of vooraf getrainde VLMs wetenschappers kunnen helpen bij het beantwoorden van een reeks biologisch relevante vragen zonder aanvullende fine-tuning. In dit artikel evalueren we de effectiviteit van 12 state-of-the-art (SOTA) VLMs op het gebied van organismale biologie met behulp van een nieuwe dataset, VLM4Bio, die bestaat uit 469K vraag-antwoordparen met 30K afbeeldingen van drie groepen organismen: vissen, vogels en vlinders, en die vijf biologisch relevante taken omvat. We onderzoeken ook de effecten van het toepassen van promptingtechnieken en tests voor redeneerhallucinaties op de prestaties van VLMs, wat nieuw licht werpt op de mogelijkheden van huidige SOTA VLMs bij het beantwoorden van biologisch relevante vragen met behulp van afbeeldingen. De code en datasets voor het uitvoeren van alle analyses die in dit artikel worden gerapporteerd, zijn te vinden op https://github.com/sammarfy/VLM4Bio.

13

Automatische Differentiële Diagnose met Transformer-Gebaseerde Multi-Label Sequentieclassificatie
Automatic Differential Diagnosis using Transformer-Based Multi-Label Sequence Classification

Aug 28
ByAbu Adnan Sadi, Mohammad Ashrafuzzaman Khan, Lubaba Binte Saber
7
1

Naarmate het vakgebied van kunstmatige intelligentie vordert, worden ondersteunende technologieën steeds breder ingezet in alle sectoren. De gezondheidszorg vormt hierop geen uitzondering, met talrijke studies die worden uitgevoerd om hulpmiddelen te ontwikkelen voor zorgprofessionals. Automatische diagnosesystemen zijn een dergelijk nuttig hulpmiddel dat kan assisteren bij diverse taken, waaronder het verzamelen van patiëntinformatie, het analyseren van testresultaten en het diagnosticeren van patiënten. Het idee om systemen te ontwikkelen die een differentiële diagnose kunnen stellen, is echter grotendeels over het hoofd gezien in het merendeel van deze onderzoeken. In deze studie stellen we een transformer-gebaseerde aanpak voor om differentiële diagnoses te stellen op basis van de leeftijd, het geslacht, de medische geschiedenis en de symptomen van een patiënt. We gebruiken de DDXPlus-dataset, die informatie verschaft over differentiële diagnoses voor patiënten op basis van 49 ziektebeelden. Ten eerste stellen we een methode voor om de tabelvormige patiëntgegevens uit de dataset te verwerken en om te zetten in patiëntrapporten, zodat ze geschikt zijn voor ons onderzoek. Daarnaast introduceren we twee gegevensmodificatiemodules om de trainingsgegevens te diversifiëren en daardoor de robuustheid van de modellen te verbeteren. We benaderen de taak als een multi-label classificatieprobleem en voeren uitgebreide experimenten uit met vier transformer-modellen. Alle modellen toonden veelbelovende resultaten door een F1-score van meer dan 97% te behalen op de afgezonderde testset. Bovendien ontwerpen we aanvullende gedragstests om een breder inzicht te krijgen in de modellen. Specifiek voor een van onze testcases hebben we een aangepaste testset van 100 samples voorbereid met behulp van een arts. De resultaten op de aangepaste set toonden aan dat onze voorgestelde gegevensmodificatiemodules de generalisatiecapaciteiten van het model verbeterden. We hopen dat onze bevindingen toekomstige onderzoekers waardevolle inzichten zullen bieden en hen zullen inspireren om betrouwbare systemen te ontwikkelen voor automatische differentiële diagnose.

14

Grootschalige Multi-omische Biosequentie Transformers voor het Modelleren van Peptide-Nucleotide Interacties
Large-Scale Multi-omic Biosequence Transformers for Modeling Peptide-Nucleotide Interactions

Aug 29
BySully F. Chen, Robert J. Steele, Beakal Lemeneh, Shivanand P. Lad, Eric Oermann
5
1

De transformer-architectuur heeft een revolutie teweeggebracht in de bioinformatica en heeft vooruitgang gestimuleerd in het begrijpen en voorspellen van de eigenschappen van biomoleculen. Bijna al het onderzoek naar grootschalige biosequentie-transformers heeft zich gericht op één domein tegelijk (single-omisch), meestal nucleotiden of peptiden. Deze modellen hebben een ongelooflijk succes geboekt in downstream-taken binnen elk domein en hebben vooral opmerkelijke doorbraken bereikt in sequenties van peptiden en structurele modellering. Echter, deze single-omische modellen zijn van nature niet in staat om multi-omische taken te modelleren, waarvan een van de biologisch meest kritische de interacties tussen nucleotiden en peptiden is. Wij presenteren ons werk aan de eerste multi-omische nucleotide-peptide foundation-modellen. We laten zien dat deze multi-omische modellen (MOMs) gezamenlijke representaties kunnen leren tussen verschillende single-omische verdelingen die emergent consistent zijn met de Centrale Dogma van de moleculaire biologie, ondanks dat ze alleen getraind zijn op ongelabelde biosequenties. We demonstreren verder dat MOMs kunnen worden gefinetuned om state-of-the-art resultaten te behalen bij taken gericht op peptide-nucleotide-interacties, namelijk het voorspellen van de verandering in Gibbs vrije energie ({\Delta}G) van de bindingsinteractie tussen een gegeven oligonucleotide en peptide, evenals het effect op deze bindingsinteractie door mutaties in de oligonucleotidesequentie ({\Delta}{\Delta}G). Opmerkelijk genoeg laten we zien dat multi-omische biosequentie-transformers emergent nuttige structurele informatie leren zonder enige voorafgaande structurele training, waardoor we kunnen voorspellen welke peptide-residuen het meest betrokken zijn bij de peptide-nucleotide-bindingsinteractie. Tot slot leveren we bewijs dat multi-omische biosequentiemodellen niet inferieur zijn aan foundation-modellen die getraind zijn op single-omische verdelingen, wat suggereert dat een meer gegeneraliseerde of fundamentele aanpak geschikt is voor het bouwen van deze modellen.

15

GIFT-SW: Gaussiaans ruis Geïnjecteerde Fijnafstemming van Belangrijke Gewichten voor LLM's
GIFT-SW: Gaussian noise Injected Fine-Tuning of Salient Weights for LLMs

Aug 27
ByMaxim Zhelnin, Viktor Moskvoretskii, Egor Shvetsov, Egor Venediktov, Mariya Krylova, Aleksandr Zuev, Evgeny Burnaev
3
3

Parameter Efficient Fine-Tuning (PEFT) methoden hebben aan populariteit gewonnen en het gebruik van Large Language Models (LLMs) gedemocratiseerd. Recente studies hebben aangetoond dat een kleine subset van gewichten een significante invloed heeft op de prestaties. Gebaseerd op deze observatie introduceren we een nieuwe PEFT-methode, genaamd Gaussian noise Injected Fine Tuning of Salient Weights (GIFT-SW). Onze methode werkt alleen de belangrijke kolommen bij, terwijl Gaussiaanse ruis wordt geïnjecteerd in de niet-belangrijke kolommen. Om deze kolommen te identificeren, hebben we een gegeneraliseerde gevoeligheidsmetriek ontwikkeld die metriek uit eerdere studies uitbreidt en verenigt. Experimenten met LLaMA-modellen laten zien dat GIFT-SW zowel volledige fine-tuning als moderne PEFT-methoden overtreft binnen hetzelfde rekenbudget. Bovendien biedt GIFT-SW praktische voordelen om de prestaties van modellen die onderworpen zijn aan mixed-precision kwantisatie te herstellen, terwijl de belangrijke gewichten in volledige precisie worden gehouden.

16

Iteratieve Grafiekuitlijning
Iterative Graph Alignment

Aug 29
ByFangyuan Yu, Hardeep Singh Arora, Matt Johnson
2
2

Door diverse narratieven te comprimeren, gaan grote taalmodellen (LLMs) verder dan memorisatie en bereiken ze intelligentie door generaliseerbare causale relaties vast te leggen. Ze kampen echter met lokale 'representatiehiaten' als gevolg van onvoldoende diversiteit in de trainingsdata, wat hun praktische bruikbaarheid beperkt, vooral bij taken die strikte naleving van regels vereisen. Traditionele uitlijningsmethoden die zwaar leunen op menselijke annotaties zijn inefficiënt en niet schaalbaar. Recente zelfuitlijningsmethoden schieten ook tekort, omdat ze vaak afhankelijk zijn van zelfselectie gebaseerd op prompting en op memorisatie gebaseerd leren. Om deze problemen aan te pakken, introduceren we Iteratieve Grafiek Uitlijning (IGA), een annotatievrij, op regels gebaseerd uitlijningsalgoritme. Een leraarmodel (VLM) gebruikt Iteratieve Grafiek Prompting (IGP) om logische grafieken en referentieantwoorden te creëren. Het studentmodel (LLM) identificeert lokale kennislacunes door te proberen zijn antwoorden af te stemmen op deze referenties, waarbij het samenwerkt met hulpmodellen om diverse antwoorden te genereren. Deze uitgelijnde antwoorden worden vervolgens gebruikt voor iteratieve supervised fine-tuning (SFT). Onze evaluaties in vijf op regels gebaseerde scenario's tonen de effectiviteit van IGP aan, met een verbetering van 73,12% in uitlijning voor Claude Sonnet 3.5, en Llama3-8B-Instruct behaalt een verbetering van 86,20%, wat Claude Sonnet 3.5 overtreft in op regels gebaseerde uitlijning.

Aug 30
Sep 2
Sep 3