Dagelijks geselecteerde AI onderzoekspapers met vertalingen
In tegenstelling tot de heersende consensus dat kleine modellen inherent geen robuuste redeneervermogen hebben, introduceert dit rapport VibeThinker-1.5B, een dicht model met 1,5 miljard parameters dat is ontwikkeld via ons Spectrum-to-Signal Principle (SSP). Dit principe daagt de gangbare aanpak uit om modelparameters op te schalen om capaciteiten te vergroten, zoals te zien is bij modellen als DeepSeek R1 (671B) en Kimi k2 (>1T). Het SSP-raamwerk gebruikt eerst een Two-Stage Diversity-Exploring Distillation (SFT) om een breed spectrum aan oplossingen te genereren, gevolgd door MaxEnt-Guided Policy Optimization (RL) om het correcte signaal te versterken. Met totale trainingskosten van slechts $7.800 toont VibeThinker-1.5B superieure redeneercapaciteiten in vergelijking met gesloten modellen zoals Magistral Medium en Claude Opus 4, en presteert het gelijkwaardig aan open-sourcemodellen zoals GPT OSS-20B Medium. Opmerkelijk is dat het het 400 keer grotere DeepSeek R1 overtreft op drie wiskundige benchmarks: AIME24 (80,3 vs. 79,8), AIME25 (74,4 vs. 70,0) en HMMT25 (50,4 vs. 41,7). Dit is een aanzienlijke verbetering ten opzichte van het basismodel (respectievelijk 6,7, 4,3 en 0,6). Op LiveCodeBench V6 behaalt het een score van 51,1, wat beter is dan Magistral Medium (50,3) en het basismodel (0,0). Deze bevindingen tonen aan dat kleine modellen redeneervermogen kunnen bereiken dat vergelijkbaar is met dat van grote modellen, waardoor de trainings- en inferentiekosten aanzienlijk worden verlaagd en geavanceerd AI-onderzoek zo wordt gedemocratiseerd.
Het ontwikkelen van betrouwbare computergebruik-agenten vereist grounding: het nauwkeurig verbinden van natuurlijke-taalinstructies met de juiste elementen op het scherm. Hoewel er grote datasets bestaan voor web- en mobiele interacties, zijn hoogwaardige bronnen voor desktopomgevingen beperkt. Om deze leemte op te vullen, introduceren wij GroundCUA, een grootschalige desktop-groundingdataset opgebouwd uit expertdemonstraties van mensen. Deze bestrijkt 87 applicaties in 12 categorieën en omvat 56K schermafbeeldingen, waarbij elk schermelement zorgvuldig is geannoteerd voor een totaal van meer dan 3.56 miljoen door mensen geverifieerde annotaties. Uit deze demonstraties genereren we diverse instructies die een breed scala aan real-world taken omvatten, waardoor hoogwaardige data voor modeltraining wordt verschaft. Met GroundCUA ontwikkelen we de GroundNext-familie van modellen die instructies afbeelden op hun doel-UI-elementen. Zowel op 3B- als 7B-schaal behaalt GroundNext state-of-the-art resultaten op vijf benchmarks met supervised fine-tuning, terwijl minder dan een tiende van de trainingsdata van eerder werk nodig is. Reinforcement learning na de training verbetert de prestaties verder, en wanneer geëvalueerd in een agentische setting op de OSWorld-benchmark met o3 als planner, bereikt GroundNext vergelijkbare of superieure resultaten ten opzichte van modellen die met aanzienlijk meer data zijn getraind. Deze resultaten tonen de cruciale rol aan van hoogwaardige, expert-gedreven datasets bij de vooruitgang van general-purpose computergebruik-agenten.
Grote Taalmodellen (LLM's) hebben opmerkelijke successen geboekt in conversatiesystemen door mensachtige antwoorden te genereren. Ze kunnen echter tekortschieten, vooral wanneer er rekening moet worden gehouden met personalisatie of specifieke kennis. In praktijksituaties is het onrealistisch om te verwachten dat gebruikers deze fouten zelf detecteren en om een nieuw antwoord vragen. Een manier om dit probleem aan te pakken, is het antwoord te verfijnen voordat het aan de gebruiker wordt teruggegeven. Terwijl bestaande benaderingen zich richten op het verfijnen van antwoorden binnen één enkel LLM, heeft deze methode moeite om de diverse aspecten te overwegen die nodig zijn voor effectieve gesprekken. In dit werk stellen we voor om antwoorden te verfijnen via een multi-agent raamwerk, waarbij elke agent een specifieke rol krijgt toegewezen voor elk aspect. We richten ons op drie cruciale aspecten voor conversatiekwaliteit: feitelijkheid, personalisatie en samenhang. Elke agent is verantwoordelijk voor het beoordelen en verfijnen van één van deze aspecten, en hun feedback wordt vervolgens samengevoegd om het algehele antwoord te verbeteren. Om de samenwerking tussen hen te verbeteren, introduceren we een dynamische communicatiestrategie. In plaats van een vaste volgorde van agents te volgen, selecteert en coördineert onze aanpak adaptief de meest relevante agents op basis van de specifieke eisen van elke query. We valideren ons raamwerk op uitdagende conversatiedatasets en tonen aan dat het significant beter presteert dan relevante baseline-methoden, vooral bij taken die kennis, de persona van de gebruiker, of beide betreffen.
Gemaskerde diffusiemodellen hebben competitieve resultaten behaald bij diverse taken, waaronder taalgeneratie. Vanwege het iteratieve verfijningsproces wordt de inferentie echter vaak beperkt door een trage en statische samplesnelheid. Om dit probleem te ondervangen, introduceren we `KL-Adaptive Stability Sampling' (KLASS), een snelle maar effectieve samplingmethode die gebruikmaakt van token-level KL-divergentie om stabiele, hoogvertrouwensvoorspellingen te identificeren. Door meerdere tokens per iteratie te demaskeren zonder extra modeltraining, versnelt onze aanpak de generatie aanzienlijk met behoud van samplekwaliteit. Op redeneerbenchmarks behaalt KLASS tot 2,78x snelheidswinst in kloktijd en verbetert de prestaties ten opzichte van standaard gretige decodering, waarmee state-of-the-art resultaten worden bereikt onder op diffusie gebaseerde samplers. We valideren KLASS verder in diverse domeinen, waaronder tekst-, beeld- en moleculaire generatie, en tonen aan dat het een breed toepasbare sampler is voor verschillende modellen.
Grote taalmodel(len) hebben een aanzienlijke vooruitgang geboekt op het gebied van meertalige automatische vertaling (MMT), maar brede taaldekking, consistente vertaalkwaliteit en Engelstalige vertekening blijven uitdagingen. Om deze problemen aan te pakken, introduceren we LMT, een reeks grootschalige meertalige vertaalmodellen gecentreerd rond zowel Chinees als Engels, die 60 talen en 234 vertaalrichtingen bestrijken. Tijdens de ontwikkeling identificeren we een voorheen over het hoofd gezien fenomeen van directionele degeneratie, waarbij symmetrische multi-way fine-tuning data de omgekeerde richtingen (X naar En/Zh) overbenadrukken, wat leidt tot excessieve many-to-one mapping en verslechterde vertaalkwaliteit. We stellen Strategische Downsampling voor, een eenvoudige maar effectieve methode om deze degeneratie te verminderen. Daarnaast ontwerpen we Parallel Multilingual Prompting (PMP), dat gebruikmaakt van typologisch verwante hulptalen om cross-linguale transfer te verbeteren. Door rigoureuze datacuratie en verfijnde adaptatiestrategieën bereikt LMT state-of-the-art prestaties onder modellen met vergelijkbare taaldekking, waarbij ons 4B-model (LMT-60-4B) de aanzienlijk grotere Aya-101-13B- en NLLB-54B-modellen met ruime marge overtreft. We brengen LMT uit in vier formaten (0.6B/1.7B/4B/8B) om toekomstig onderzoek te katalyseren en sterke basislijnen te bieden voor inclusieve, schaalbare en hoogwaardige MMT \href{https://github.com/NiuTrans/LMT{https://github.com/NiuTrans/LMT}}.
Versterkend Leren met Verifieerbare Beloningen (RLVR) verbetert de redeneerprestaties van grote taalmodellem betrouwbaar, maar lijkt slechts een kleine fractie parameters te wijzigen. Wij herbezien deze paradox en tonen aan dat sparseïteit een oppervlakkig artefact is van een model-geconditioneerde optimalisatiebias: voor een vast voorgetraind model, localiseren updates zich consistent tot geprefereerde parameterregio's, die sterk consistent zijn over verschillende runs en grotendeels onveranderlijk voor datasets en RL-recepten. Wij verklaren deze dynamiek mechanistisch met een Drie-Poorten Theorie: Poort I (KL-Anker) legt een KL-beperkte update op; Poort II (Modelgeometrie) stuurt de stap weg van principale richtingen naar subspaces met lage kromming die het spectrum behouden; en Poort III (Precisie) verbergt micro-updates in niet-geprefereerde regio's, waardoor de bias weg van de principale richtingen eruitziet als sparseïteit. Vervolgens valideren wij deze theorie en geven voor het eerst een karakterisering op parameterniveau van RLVR's leer dynamiek: RLVR leert weg van de principale richtingen in de gewichtsruimte, behaalt winst via minimale spectrale verschuiving, gereduceerde rotatie in de principale subspace en uitlijning van updates buiten de principale richtingen. Daarentegen richt SFT zich op principale gewichten, vervormt het spectrum en blijft zelfs achter bij RLVR. Samen bieden deze resultaten de eerste verklaring in de parameterruimte van RLVR's trainingsdynamiek, en onthullen duidelijke regelmatigheden in hoe parameters evolueren. Cruciaal is dat wij aantonen dat RL opereert in een distinct optimalisatieregime vergeleken met SFT, waardoor het direct aanpassen van parameter-efficiënte fine-tuningmethoden (PEFT) uit het SFT-tijdperk gebrekkig kan zijn, zoals blijkt uit onze casestudies over geavanceerde sparse fine-tuning en LoRA-varianten. Wij hopen dat dit werk een pad uitstippelt naar een inzicht in RLVR als een open boek en het ontwerp van geometrie-bewuste, voor RLVR inherente leer algoritmen, in plaats van hergebruikte heuristieken uit het SFT-tijdperk.
De prestaties van grote taalmmodellen (LLM's) en grote multimodale modellen (LMM's) zijn sterk afhankelijk van de kwaliteit en schaal van hun vooraf getrainde datasets. Recent onderzoek toont aan dat grote multimodale modellen die zijn getraind op natuurlijke documenten waarin afbeeldingen en tekst door elkaar heen lopen, beter presteren dan modellen die uitsluitend zijn getraind op afbeelding-tekstparen over een breed scala aan benchmarks. Dit wordt bereikt door gebruik te maken van geavanceerde vooraf getrainde modellen om semantische uitlijning, consistentie in beeldreeksen en tekstuele samenhang af te dwingen. Voor het Arabisch heeft het gebrek aan hoogwaardige multimodale datasets die de documentstructuur behouden, echter de vooruitgang beperkt. In dit artikel presenteren we onze pijplijn Wasm voor het verwerken van de Common Crawl-dataset om een nieuwe Arabische multimodale dataset te creëren die uniek markdown-output biedt. In tegenstelling tot bestaande Arabische corpora die zich uitsluitend richten op tekstextractie, behoudt onze aanpak de structurele integriteit van webinhoud, terwijl flexibiliteit wordt gehandhaafd voor zowel tekstuele als multimodale voorafgaande trainingsscenario's. Wij bieden een uitgebreide vergelijkende analyse van onze gegevensverwerkingspijplijn ten opzichte van die gebruikt voor grote bestaande datasets, waarbij de convergenties in filterstrategieën worden belicht en onze specifieke ontwerpkeuzes worden gerechtvaardigd. Om toekomstig onderzoek te ondersteunen, geven wij een representatieve datasetdump samen met de multimodale verwerkingspijplijn voor het Arabisch openbaar vrij.
Reinforcement Learning met Verifieerbare Beloningen (RLVR) heeft de videobegripcapaciteiten van Multimodale Large Language Models (MLLM's) aanzienlijk verbeterd. De snelle vooruitgang van MLLM's overtreft echter de complexiteit van bestaande videodatasets, terwijl de handmatige annotatie van nieuwe, hoogwaardige data onbetaalbaar duur blijft. Dit werk onderzoekt een cruciale vraag: Kan de rijke, intrinsieke informatie in video's worden benut om zelf hoogwaardige, verifieerbare trainingsdata te genereren? Om dit te onderzoeken, introduceren we drie zelfgesuperviseerde pretext-taken: Anomaly Grounding, Object Counting en Temporal Jigsaw. We construeren de Video Intrinsic Understanding Benchmark (VIUBench) om hun moeilijkheidsgraad te valideren, waaruit blijkt dat state-of-the-art MLLM's significant moeite hebben met deze taken. Voortbouwend op deze pretext-taken ontwikkelen we de VideoSSR-30K-dataset en stellen we VideoSSR voor, een nieuw zelfgesuperviseerd reinforcement learning-framework voor video's ten behoeve van RLVR. Uitgebreide experimenten op 17 benchmarks, verspreid over vier belangrijke videodomeinen (General Video QA, Long Video QA, Temporal Grounding en Complex Reasoning), tonen aan dat VideoSSR de modelprestaties consistent verbetert, met een gemiddelde verbetering van meer dan 5%. Deze resultaten positioneren VideoSSR als een krachtig basiskader voor de ontwikkeling van geavanceerder videobegrip in MLLM's. De code is beschikbaar op https://github.com/lcqysl/VideoSSR.
Grote Taalmodellen (LLM's) kampen met fundamentele uitdagingen bij redeneren over lange contexten: veel documenten overschrijden hun beperkte contextvensters, terwijl de prestaties op teksten die wel binnen de limieten passen, verslechteren naarmate de sequentielengte toeneemt. Dit maakt aanvulling met externe geheugenframeworks noodzakelijk. Huidige oplossingen, die zijn geëvolueerd van retrievel met semantische embeddings naar meer geavanceerde gestructureerde knowledge graph-representaties voor verbeterde betekenisverlening en associativiteit, zijn toegesneden op feitelijke retrievel en slagen er niet in om in tijd en ruimte verankerde narratieve representaties op te bouwen die nodig zijn voor het volgen van entiteiten door episodische gebeurtenissen. Om deze kloof te overbruggen, stellen we de Generatieve Semantische Werkruimte (GSW) voor, een neuro-geïnspireerd generatief geheugenframework dat gestructureerde, interpreteerbare representaties opbouwt van zich ontwikkelende situaties. Dit stelt LLM's in staat te redeneren over evoluerende rollen, acties en ruimtelijk-temporele contexten. Ons framework bestaat uit een Operator, die inkomende observaties afbeeldt op intermediare semantische structuren, en een Verzoener, die deze integreert in een persistente werkruimte die temporele, ruimtelijke en logische coherentie afdwingt. Op de Episodische Geheugen Benchmark (EpBench) huet_episodic_2025, bestaande uit corpora met een lengte van 100k tot 1M tokens, presteert GSW tot 20% beter dan bestaande op RAG gebaseerde baseline-methoden. Bovendien is GSW zeer efficiënt: het reduceert het aantal query-time context tokens met 51% vergeleken met de op een na meest token-efficiënte baseline, wat de inferentietijdkosten aanzienlijk verlaagt. In bredere zin biedt GSW een concrete blauwdruk om LLM's te voorzien van een mensachtig episodisch geheugen, waarmee de weg wordt geëffend voor capabelere agents die over lange tijdsperioden kunnen redeneren.
Verzoeken aan grote taalmodellen (LLM's) worden voornamelijk verwerkt door topmodellen in gecentraliseerde cloudinfrastructuur. De snelgroeiende vraag zet dit paradigma onder druk, en cloudaanbieders hebben moeite de infrastructuur in hetzelfde tempo op te schalen. Twee ontwikkelingen stellen ons in staat dit paradigma te herzien: kleine LM's (≤20B actieve parameters) bereiken nu competitieve prestaties ten opzichte van topmodellen voor veel taken, en lokale accelerators (zoals de Apple M4 Max) draaien deze modellen met interactieve latentietijden. Dit roept de vraag op: kan lokale inferentie de vraag zinvol herverdelen van gecentraliseerde infrastructuur? Om dit te beantwoorden, moet worden gemeten of lokale LM's real-world verzoeken accuraat kunnen beantwoorden en of ze dit efficiënt genoeg kunnen doen om praktisch haalbaar te zijn op apparaten met beperkt vermogen (zoals laptops). Wij stellen *intelligence per watt* (IPW), taaknauwkeurigheid gedeeld door een eenheid vermogen, voor als maatstaf om de capaciteit en efficiëntie van lokale inferentie voor model-acceleratorparen te beoordelen. Wij voeren een grootschalige empirische studie uit met meer dan 20 state-of-the-art lokale LM's, 8 accelerators en een representatieve subset van LLM-verkeer: 1 miljoen real-world, enkelvoudige chat- en redeneerverzoeken. Voor elk verzoek meten we nauwkeurigheid, energieverbruik, latentie en vermogen. Onze analyse levert 3 bevindingen op. Ten eerste kunnen lokale LM's 88,7% van de enkelvoudige chat- en redeneerverzoeken accuraat beantwoorden, waarbij de nauwkeurigheid per domein varieert. Ten tweede is de IPW van 2023 tot 2025 met een factor 5,3 verbeterd en is de dekking van lokale verzoeken gestegen van 23,2% naar 71,3%. Ten derde behalen lokale accelerators minstens 1,4x lagere IPW dan cloudaccelerators die identieke modellen draaien, wat een significante optimalisatieruimte blootlegt. Deze bevindingen tonen aan dat lokale inferitie de vraag betekenisvol kan herverdelen van gecentraliseerde infrastructuur, waarbij IPW fungeert als de kritieke maatstaf voor het volgen van deze transitie. Wij stellen onze IPW-profileringsomgeving beschikbaar voor systematische *intelligence-per-watt* benchmarking.
In moderne sequentiële besluitvormingssystemen is de constructie van een optimale kandidaat-actieruimte cruciaal voor efficiënte inferentie. Bestaande methoden vertrouwen echter op handmatig gedefinieerde actieruimten die niet schaalbaar zijn, of maken gebruik van ongestructureerde ruimten die een uitputtende zoektocht computationeel onhaalbaar maken. In dit artikel stellen we een nieuw raamwerk voor, genaamd DynaAct, voor het automatisch construeren van een compacte actieruimte om sequentieel redeneren in complexe probleemoplossingsscenario's te verbeteren. Onze methode schat eerst een benadering van de complete actieruimte door algemene schetsen te extraheren die zijn waargenomen in een corpus met diverse complexe redeneerproblemen, waarbij gebruik wordt gemaakt van grote taalmodel(len). Vervolgens formuleren we een submodulaire functie die kandidaatacties gezamenlijk evalueert op basis van hun nut voor de huidige staat en hun diversiteit, en gebruiken we een gulzig algoritme om een optimale kandidaatverzameling te selecteren. Uitgebreide experimenten op zes diverse standaardbenchmarks tonen aan dat onze aanpak de algehele prestaties aanzienlijk verbetert, terwijl efficiënte inferentie wordt behouden zonder aanzienlijke vertraging te introduceren. De implementatie is beschikbaar op https://github.com/zhaoxlpku/DynaAct.
Achtergrond: Grote Taalmodellen zijn ontstaan met het potentieel om een revolutie te ontketenen in softwareontwikkeling (bijv. automatisering van processen, transformatie van de arbeidskracht). Hoewel studies begonnen zijn met het onderzoeken van de waargenomen impact van LLM's op softwareontwikkeling, is er behoefte aan empirische studies om te begrijpen hoe de voorwaartse en achterwaartse effecten van het gebruik van LLM's in balans kunnen worden gebracht. Doel: Wij onderzochten hoe LLM's softwareontwikkeling beïnvloeden en hoe deze impact vanuit het perspectief van een softwareontwikkelaar beheerd kan worden. Methode: Wij voerden 22 interviews uit met softwareprofessionals verspreid over 3 rondes van dataverzameling en -analyse, tussen oktober 2024 en september 2025. Wij gebruikten socio-technische grounded theory (STGT) voor data-analyse om de reacties van de geïnterviewden rigoureus te analyseren. Resultaten: Wij identificeerden de voordelen (bijv. het handhaven van de softwareontwikkelingsflow, het verbeteren van het mentale model van ontwikkelaars en het bevorderen van ondernemerschap) en nadelen (bijv. negatieve impact op de persoonlijkheid van ontwikkelaars en schade aan hun reputatie) van het gebruik van LLM's op individueel, team-, organisatie- en maatschappelijk niveau; alsmede best practices voor de adoptie van LLM's. Conclusie: Cruciaal is dat wij de afwegingen presenteren waarmee softwareprofessionals, teams en organisaties worden geconfronteerd bij het werken met LLM's. Onze bevindingen zijn bijzonder nuttig voor softwareteamleiders en IT-managers om de haalbaarheid van LLM's binnen hun specifieke context te beoordelen.
Alignment heeft de uitvoerkwaliteit van grote taalmodellen (LLM's) aanzienlijk verbeterd, maar ten koste van de diversiteit, wat leidt tot sterk gelijkende uitvoer bij opeenvolgende generaties. Wij stellen Base-Aligned Model Collaboration (BACo) voor, een raamwerk voor modelcollaboratie op tokenniveau tijdens de inferentie, dat dynamisch een basis-LLM combineert met zijn gealigneerde tegenhanger om diversiteit en kwaliteit te optimaliseren. Geïnspireerd door eerder werk (Fei et al., 2025) gebruikt BACo routeringsstrategieën die bij elke token bepalen van welk model moet worden gedecodeerd, op basis van de onzekerheid van de volgende-tokenvoorspelling en de semantische rol van de voorspelde inhoud. Eerdere methoden om diversiteit te bevorderen, zoals hertraining, promptengineering en multi-samplingmethoden, verbeteren de diversiteit, maar gaan vaak ten koste van de kwaliteit of vereisen kostbare decoding of post-training. BACo daarentegen bereikt zowel hoge diversiteit als kwaliteit achteraf in één enkele doorloop, en biedt tegelijkertijd sterke beheerbaarheid. Wij onderzoeken een familie van routeringsstrategieën. Over drie open-eindgeneratietaken en 13 metrieken voor diversiteit en kwaliteit heen, overtreft BACo consistent state-of-the-art inferentie-baselines. Met onze beste router bereikt BACo een gezamenlijke verbetering van 21,3% in diversiteit en kwaliteit. Menselijke evaluaties reflecteren eveneens deze verbeteringen. De resultaten suggereren dat samenwerking tussen basis- en gealigneerde modellen diversiteit en kwaliteit kan optimaliseren en beheersen.
Temporaal zoeken heeft als doel een minimale set relevante frames te identificeren uit tienduizenden frames op basis van een gegeven zoekopdracht, en dient als basis voor nauwkeurig begrip van lange video's. Bestaande werkwijzen proberen de zoekruimte geleidelijk te verkleinen. Deze benaderingen zijn echter meestal gebaseerd op een handmatig ontworpen zoekproces, waardoor end-to-end optimalisatie voor het leren van optimale zoekstrategieën ontbreekt. In dit artikel stellen we TimeSearch-R voor, dat temporaal zoeken herformuleert als een interleaved tekst-video denkproces, waarbij het zoeken naar videofragmenten naadloos wordt geïntegreerd in het redeneerproces via reinforcement learning (RL). Het toepassen van RL-trainingsmethoden, zoals Group Relative Policy Optimization (GRPO), op videoredenering kan echter leiden tot ongesuperviseerde tussenliggende zoekbeslissingen. Dit resulteert in onvoldoende exploratie van de video-inhoud en inconsistente logische redenering. Om deze problemen aan te pakken, introduceren we GRPO met Completeness Self-Verification (GRPO-CSV), dat gezochte videoframes verzamelt uit het interleaved redeneerproces en hetzelfde beleidsmodel gebruikt om de volledigheid van de gezochte frames te verifiëren, waardoor de volledigheid van de videoredenering wordt verbeterd. Daarnaast construeren we datasets die specifiek zijn ontworpen voor de SFT-koude-start en RL-training van GRPO-CSV, waarbij we samples met zwakke temporele afhankelijkheden filteren om de taakmoeilijkheid te vergroten en de temporele zoekcapaciteiten te verbeteren. Uitgebreide experimenten tonen aan dat TimeSearch-R significante verbeteringen bereikt op temporele zoekbenchmarks zoals Haystack-LVBench en Haystack-Ego4D, evenals op benchmarks voor lang-video begrip zoals VideoMME en MLVU. Opmerkelijk is dat TimeSearch-R een nieuwe state-of-the-art vestigt op LongVideoBench met een verbetering van 4,1% ten opzichte van het basismodel Qwen2.5-VL en 2,0% ten opzichte van het geavanceerde videoredeneermodel Video-R1. Onze code is beschikbaar op https://github.com/Time-Search/TimeSearch-R.
Harde negatieven zijn essentieel voor het trainen van effectieve retrievalsystemen. Het minen van harde negatieven berust typisch op het rangschikken van documenten met behulp van cross-encoders of statische embeddingmodellen op basis van similariteitsmaten zoals de cosinusafstand. Het minen van harde negatieven is bijzonder uitdagend in biomedische en wetenschappelijke domeinen vanwege de moeilijkheid om bron- en hard-negatiefdocumenten te onderscheiden. Gerefereerde documenten delen echter van nature contextuele relevantie met het brondocument zonder duplicaten te zijn, waardoor ze bij uitstek geschikt zijn als harde negatieven. In dit werk stellen we BiCA voor: Biomedische Dense Retrieval met Citation-Aware Harde Negatieven, een aanpak voor het minen van harde negatieven door gebruik te maken van citatielinks in 20.000 PubMed-artikelen om een domeinspecifieke, kleine dense retriever te verbeteren. We fine-tunen de GTE_small- en GTE_base-modellen met deze op citaties gebaseerde negatieven en observeren consistente verbeteringen in zero-shot dense retrieval met nDCG@10 voor zowel in-domein als out-of-domein taken op BEIR, en overtreffen de baselineprestaties op long-tailed onderwerpen in LoTTE met Success@5. Onze bevindingen benadrukken het potentieel van het gebruik van documentlinkstructuren om hoogwaardige informatieve negatieven te genereren, wat state-of-the-art prestaties mogelijk maakt met minimale fine-tuning en een pad demonstreert naar zeer data-efficiënte domeinadaptatie.