Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren methoden om te kwantificeren hoe Large Language Models (LLM's) contextuele informatie coderen en opslaan, waarbij blijkt dat tokens die vaak als onbeduidend worden gezien (bijvoorbeeld lidwoorden, leestekens) verrassend veel context bevatten. Opmerkelijk is dat het verwijderen van deze tokens — met name stopwoorden, lidwoorden en komma's — consequent de prestaties op MMLU en BABILong-4k verslechtert, zelfs als alleen irrelevante tokens worden verwijderd. Onze analyse toont ook een sterke correlatie tussen contextualisering en lineariteit, waarbij lineariteit meet hoe nauwkeurig de transformatie van de embeddings van de ene laag naar de volgende kan worden benaderd door een enkele lineaire afbeelding. Deze bevindingen onderstrepen het verborgen belang van vul-tokens voor het behoud van context. Voor verder onderzoek presenteren we LLM-Microscope, een open-source toolkit die token-level non-lineariteit beoordeelt, contextueel geheugen evalueert, bijdragen van tussenliggende lagen visualiseert (via een aangepaste Logit Lens) en de intrinsieke dimensionaliteit van representaties meet. Deze toolkit belicht hoe schijnbaar triviale tokens cruciaal kunnen zijn voor begrip op lange termijn.
Grote Taalmodellen (LLMs) hebben uitzonderlijke begripsvaardigheden en een uitgebreide kennisbasis getoond, wat suggereert dat LLMs efficiënte hulpmiddelen kunnen zijn voor het automatisch genereren van enquêtes. Recent onderzoek naar het automatisch genereren van enquêtes blijft echter beperkt door enkele kritieke beperkingen, zoals een beperkte contextvenster, gebrek aan diepgaande inhoudelijke discussie en de afwezigheid van systematische evaluatiekaders. Geïnspireerd door menselijke schrijfprocessen, stellen we SurveyX voor, een efficiënt en gestructureerd systeem voor het automatisch genereren van enquêtes dat het samenstellingsproces van enquêtes opsplitst in twee fasen: de Voorbereidingsfase en de Generatiefase. Door innovatief online referentie-ophaling, een voorbewerkingsmethode genaamd AttributeTree, en een herpolijstingsproces te introduceren, verbetert SurveyX de effectiviteit van het samenstellen van enquêtes aanzienlijk. Experimentele evaluatieresultaten tonen aan dat SurveyX bestaande systemen voor het automatisch genereren van enquêtes overtreft in inhoudskwaliteit (0,259 verbetering) en citatiekwaliteit (1,76 verbetering), en benadert de prestaties van menselijke experts op meerdere evaluatiedimensies. Voorbeelden van enquêtes gegenereerd door SurveyX zijn beschikbaar op www.surveyx.cn.
Het begrijpen van moleculen is essentieel voor het begrijpen van organismen en het bevorderen van vooruitgang in geneesmiddelenontdekking, wat interdisciplinaire kennis vereist op het gebied van chemie en biologie. Hoewel grote moleculaire taalmodellen aanzienlijke successen hebben geboekt bij het interpreteren van moleculaire structuren, zijn hun instructiedatasets beperkt tot de specifieke kennis uit taakgerichte datasets en dekken ze niet volledig de fundamentele kenmerken van moleculen, wat hun mogelijkheden als algemene moleculaire assistenten belemmert. Om dit probleem aan te pakken, stellen we Mol-LLaMA voor, een groot moleculair taalmodel dat de algemene kennis over moleculen beheerst via multi-modale instructieafstemming. Hiertoe ontwerpen we belangrijke gegevenstypen die de fundamentele kenmerken van moleculen omvatten, waarbij essentiële kennis uit moleculaire structuren wordt geïntegreerd. Daarnaast introduceren we een module die complementaire informatie uit verschillende moleculaire encoders integreert, waarbij de unieke voordelen van verschillende moleculaire representaties worden benut. Onze experimentele resultaten tonen aan dat Mol-LLaMA in staat is de algemene kenmerken van moleculen te begrijpen en relevante antwoorden te genereren op gebruikersvragen met gedetailleerde uitleg, wat het potentieel ervan als algemene assistent voor moleculaire analyse suggereert.
We introduceren PhotoDoodle, een nieuw raamwerk voor beeldbewerking dat is ontworpen om het maken van foto-doodles te vergemakkelijken door kunstenaars in staat te stellen decoratieve elementen over foto's heen te plaatsen. Foto-doodles maken is uitdagend omdat de toegevoegde elementen naadloos geïntegreerd moeten lijken met de achtergrond, wat realistische blending, perspectiefuitlijning en contextuele samenhang vereist. Bovendien moet de achtergrond zonder vervorming behouden blijven, en moet de unieke stijl van de kunstenaar efficiënt worden vastgelegd op basis van beperkte trainingsdata. Deze vereisten worden niet aangepakt door eerdere methoden die zich voornamelijk richten op globale stijloverdracht of regionaal inpainten. De voorgestelde methode, PhotoDoodle, maakt gebruik van een tweefasige trainingsstrategie. Eerst trainen we een algemeen beeldbewerkingsmodel, OmniEditor, met behulp van grootschalige data. Vervolgens verfijnen we dit model met EditLoRA door gebruik te maken van een kleine, door kunstenaars samengestelde dataset van voor-en-na beeldparen om onderscheidende bewerkingsstijlen en -technieken vast te leggen. Om de consistentie in de gegenereerde resultaten te verbeteren, introduceren we een mechanisme voor hergebruik van positionele codering. Daarnaast publiceren we een PhotoDoodle-dataset met zes hoogwaardige stijlen. Uitgebreide experimenten tonen de geavanceerde prestaties en robuustheid van onze methode aan in gepersonaliseerde beeldbewerking, wat nieuwe mogelijkheden opent voor artistieke creatie.
Wereldmodellen die omgevingsveranderingen voorspellen op basis van acties zijn cruciaal voor autonome rijsystemen met sterke generalisatie. De heersende rijsimulatiemodellen zijn voornamelijk gebaseerd op videovoorspellingsmodellen. Hoewel deze modellen hoogwaardige videosequenties kunnen genereren met geavanceerde op diffusie gebaseerde generatoren, worden ze beperkt door hun voorspellingsduur en algehele generalisatievermogen. In dit artikel onderzoeken we een oplossing voor dit probleem door het combineren van generatieverlies met MAE-stijl contextleren op featureniveau. Concreet realiseren we dit doel met drie belangrijke ontwerpen: (1) Een schaalbaarder Diffusion Transformer (DiT)-structuur getraind met een extra maskerconstructietaak. (2) We introduceren diffusiegerelateerde maskertokens om de vage relaties tussen maskerreconstructie en het generatieve diffusieproces aan te pakken. (3) We breiden de maskerconstructietaak uit naar het ruimtelijk-temporele domein door rijgewijze maskers te gebruiken voor verschoven zelf-attentie in plaats van gemaskeerde zelf-attentie zoals in MAE. Vervolgens passen we een rijgewijze cross-view module aan om dit maskerontwerp te ondersteunen. Op basis van deze verbeteringen stellen we MaskGWM voor: een generaliseerbaar rijsimulatiemodel geïmplementeerd met videomaskerreconstructie. Ons model bevat twee varianten: MaskGWM-long, gericht op langetermijnvoorspelling, en MaskGWM-mview, toegewijd aan multiview-generatie. Uitgebreide experimenten op standaardbenchmarks valideren de effectiviteit van de voorgestelde methode, waaronder normale validatie van de Nuscene-dataset, langetermijnrollouts van de OpenDV-2K-dataset en zero-shot-validatie van de Waymo-dataset. Kwantitatieve metingen op deze datasets tonen aan dat onze methode de state-of-the-art rijsimulatiemodellen aanzienlijk verbetert.
Dit artikel identificeert de misinterpretatie van de context als een significant probleem tijdens het redeneerproces van grote taalmodellen, variërend van kleinere modellen zoals Llama3.2-3B-Instruct tot state-of-the-art modellen zoals DeepSeek-R1. Bijvoorbeeld, in de zin "10 dollar per kilo" kunnen LLM's mogelijk niet herkennen dat "per" "voor elk" betekent, wat leidt tot rekenfouten. We introduceren een nieuwe, post-training benadering genaamd **Stick to the Facts (SIFT)** om dit aan te pakken. SIFT maakt gebruik van toenemende rekencapaciteit tijdens inferentie om het redeneren van LLM's te verankeren in contexten. De kern van SIFT is de *Sticker*, die door het model zelf wordt gegenereerd om expliciet de belangrijkste informatie binnen de context te benadrukken. Gegeven de gecureerde Sticker, genereert SIFT twee voorspellingen -- één vanuit de originele query en één vanuit de query aangevuld met de Sticker. Als deze verschillen, wordt de Sticker sequentieel verfijnd via *forward* optimalisatie (om de geëxtraheerde feiten beter af te stemmen op de query) en *inverse* generatie (om in overeenstemming te zijn met de inherente neigingen van het model) voor meer betrouwbare redeneeruitkomsten. Studies over diverse modellen (van 3B tot 100B+) en benchmarks (bijv. GSM8K, MATH-500) tonen consistente prestatieverbeteringen. Opmerkelijk is dat SIFT de pass@1 nauwkeurigheid van DeepSeek-R1 op AIME2024 verbetert van 78,33% naar **85,67**%, wat een nieuwe state-of-the-art in de open-source gemeenschap vestigt. De code is beschikbaar op https://github.com/zhijie-group/SIFT.
Het visueel koppelen van overeenkomende aanwijzingen is een cruciale vaardigheid in het dagelijks leven, zoals het identificeren van dezelfde persoon op meerdere foto's op basis van hun kenmerken, zelfs zonder te weten wie ze zijn. Ondanks de uitgebreide kennis die vision-language modellen (VLMs) bezitten, is het grotendeels onbekend of ze in staat zijn om deze fundamentele taak uit te voeren. Om dit aan te pakken, introduceren we VLM^2-Bench, een benchmark ontworpen om te beoordelen of VLMs visueel overeenkomende aanwijzingen kunnen koppelen, met 9 subtaken en meer dan 3.000 testgevallen. Een uitgebreide evaluatie van acht open-source VLMs en GPT-4o, samen met verdere analyse van verschillende taal- en visiegerichte promptingmethoden, leidt tot in totaal acht belangrijke bevindingen. We identificeren kritieke uitdagingen in het vermogen van modellen om visuele aanwijzingen te koppelen, waarbij een significant prestatieverschil wordt benadrukt waarbij zelfs GPT-4o 34,80% achterblijft op mensen. Op basis van deze inzichten pleiten we voor (i) het verbeteren van de kernvisuele capaciteiten om de aanpassingsvermogen te vergroten en de afhankelijkheid van voorkennis te verminderen, (ii) het vaststellen van duidelijkere principes voor het integreren van taalgebaseerd redeneren in visiegerichte taken om onnodige vooroordelen te voorkomen, en (iii) het verschuiven van visie-tekst trainingsparadigma's naar het bevorderen van het vermogen van modellen om onafhankelijk relaties tussen visuele aanwijzingen te structureren en af te leiden.
Grote taalmodellen (LLMs) hebben opmerkelijke prestaties getoond in complexe redeneertaken, maar hun efficiëntie wordt belemmerd door de aanzienlijke geheugen- en rekenkosten die gepaard gaan met het genereren van lange tokens. In dit artikel stellen we LightThinker voor, een nieuwe methode die LLMs in staat stelt om tijdens het redeneren dynamisch tussenliggende gedachten te comprimeren. Geïnspireerd door menselijke cognitieve processen, comprimeert LightThinker uitgebreide denkstappen tot compacte representaties en verwijdert de oorspronkelijke redeneerketens, waardoor het aantal tokens dat in het contextvenster wordt opgeslagen aanzienlijk wordt verminderd. Dit wordt bereikt door het model te trainen op wanneer en hoe compressie moet worden uitgevoerd via dataconstructie, het toewijzen van verborgen toestanden aan gecondenseerde kern-tokens, en het creëren van gespecialiseerde aandachtmaskers. Daarnaast introduceren we de Dependency (Dep) metriek om de mate van compressie te kwantificeren door de afhankelijkheid van historische tokens tijdens het genereren te meten. Uitgebreide experimenten op vier datasets en twee modellen tonen aan dat LightThinker het piekgeheugengebruik en de inferentietijd vermindert, terwijl het competitieve nauwkeurigheid behoudt. Ons werk biedt een nieuwe richting voor het verbeteren van de efficiëntie van LLMs in complexe redeneertaken zonder in te leveren op prestaties. Code zal worden vrijgegeven op https://github.com/zjunlp/LightThinker.
Het schalen van de effectieve contextlengte is essentieel voor de vooruitgang van grote taalmodellen (LLMs) richting kunstmatige algemene intelligentie (AGI). De kwadratische toename in rekencomplexiteit die inherent is aan traditionele aandachtmechanismen vormt echter een belemmerende overhead. Bestaande benaderingen leggen ofwel sterk bevooroordeelde structuren op, zoals sink- of venster-aandacht die taakspecifiek zijn, of wijzigen het aandachtmechanisme radicaal in lineaire benaderingen, waarvan de prestaties in complexe redeneertaken nog onvoldoende zijn onderzocht. In dit werk stellen we een oplossing voor die het principe van "minder structuur" volgt, waardoor het model zelfstandig kan bepalen waar het aandacht aan moet besteden, in plaats van vooraf bepaalde biases in te voeren. We introduceren Mixture of Block Attention (MoBA), een innovatieve benadering die de principes van Mixture of Experts (MoE) toepast op het aandachtmechanisme. Deze nieuwe architectuur toont superieure prestaties bij taken met lange contexten en biedt een belangrijk voordeel: de mogelijkheid om naadloos over te schakelen tussen volledige en spaarzame aandacht, wat de efficiëntie verhoogt zonder het risico te lopen de prestaties te compromitteren. MoBA is al ingezet om de lange-contextverzoeken van Kimi te ondersteunen en toont significante vooruitgang in efficiënte aandachtberekening voor LLMs. Onze code is beschikbaar op https://github.com/MoonshotAI/MoBA.
Naarmate het gebruik van grote taalmodel (LLM) agenten blijft groeien, worden hun veiligheidskwetsbaarheden steeds duidelijker. Uitgebreide benchmarks evalueren verschillende aspecten van LLM-veiligheid door de veiligheid grotendeels te baseren op algemene standaarden, waarbij gebruikerspecifieke standaarden over het hoofd worden gezien. Echter kunnen veiligheidsstandaarden voor LLM variëren op basis van gebruikerspecifieke profielen in plaats van universeel consistent te zijn voor alle gebruikers. Dit roept een kritieke onderzoeksvraag op: Handelen LLM-agenten veilig wanneer rekening wordt gehouden met gebruikerspecifieke veiligheidsstandaarden? Ondanks het belang hiervan voor het veilige gebruik van LLM, bestaan er momenteel geen benchmarkdatasets om de gebruikerspecifieke veiligheid van LLM's te evalueren. Om deze leemte te vullen, introduceren we U-SAFEBENCH, de eerste benchmark die is ontworpen om het gebruikerspecifieke aspect van LLM-veiligheid te beoordelen. Onze evaluatie van 18 veelgebruikte LLM's toont aan dat huidige LLM's niet veilig handelen wanneer rekening wordt gehouden met gebruikerspecifieke veiligheidsstandaarden, wat een nieuwe ontdekking in dit veld markeert. Om deze kwetsbaarheid aan te pakken, stellen we een eenvoudige oplossing voor op basis van chain-of-thought, waarvan we de effectiviteit aantonen in het verbeteren van gebruikerspecifieke veiligheid. Onze benchmark en code zijn beschikbaar op https://github.com/yeonjun-in/U-SafeBench.
De mogelijkheid om instructies over meerdere beurten te volgen vormt een kerncompetentie van grote taalmodellen (LLMs) in praktijktoepassingen. Bestaande evaluatiebenchmarks richten zich voornamelijk op het voldoen aan gedetailleerde beperkingen en het beoordelen van domeinspecifieke capaciteiten, maar negeren de cruciale structurele afhankelijkheid tussen dialoogbeurten die multi-turn interacties onderscheidt van single-turn interacties. Deze structurele afhankelijkheid weerspiegelt niet alleen de gebruikersintentie, maar stelt ook een tweede dimensie vast voor de evaluatie van het volgen van instructies, naast het voldoen aan beperkingen. Om dit hiaat aan te pakken, stellen we StructFlowBench voor, een benchmark voor het volgen van instructies over meerdere beurten met modellering van structurele flow. De benchmark introduceert innovatief een structureel flow-raamwerk dat zes fundamentele inter-turn relaties omvat, wat niet alleen nieuwe structurele beperkingen introduceert voor model evaluatie, maar ook dient als generatieparameters voor het creëren van op maat gemaakte dialoogflows die zijn afgestemd op specifieke scenario's. Door gevestigde LLM-gebaseerde automatische evaluatiemethodologieën te hanteren, voeren we systematische evaluaties uit van 13 toonaangevende open-source en closed-source LLMs. Experimentele resultaten onthullen aanzienlijke tekortkomingen in het begrip van huidige modellen van multi-turn dialoogstructuren. De code is beschikbaar op https://github.com/MLGroupJLU/StructFlowBench.
Materialensynthese is van cruciaal belang voor innovaties zoals energieopslag, katalyse, elektronica en biomedische apparaten. Toch berust het proces sterk op empirische, trial-and-error-methoden die worden geleid door expertintuïtie. Ons werk heeft als doel de materiaalwetenschappelijke gemeenschap te ondersteunen door een praktische, data-gedreven bron te bieden. We hebben een uitgebreide dataset samengesteld van 17.000 door experts geverifieerde syntheserecepten uit open-access literatuur, die de basis vormt van onze nieuw ontwikkelde benchmark, AlchemyBench. AlchemyBench biedt een end-to-end raamwerk dat onderzoek ondersteunt naar grote taalmodellen toegepast op synthesenvoorspelling. Het omvat belangrijke taken, waaronder de voorspelling van grondstoffen en apparatuur, het genereren van synthesemethoden en het voorspellen van karakterisatieresultaten. We stellen een LLM-as-a-Judge raamwerk voor dat grote taalmodellen gebruikt voor geautomatiseerde evaluatie, wat een sterke statistische overeenstemming met expertbeoordelingen aantoont. Over het algemeen bieden onze bijdragen een ondersteunende basis voor het verkennen van de mogelijkheden van LLM's bij het voorspellen en begeleiden van materialensynthese, wat uiteindelijk de weg effent voor efficiënter experimenteel ontwerp en versnelde innovatie in de materiaalwetenschap.
Dit artikel introduceert de Korean National Educational Test Benchmark (KoNET), een nieuwe benchmark die is ontworpen om Multimodale Generatieve AI-systemen te evalueren aan de hand van Koreaanse nationale onderwijsexamens. KoNET bestaat uit vier examens: de Korean Elementary General Educational Development Test (KoEGED), Middle (KoMGED), High (KoHGED), en de College Scholastic Ability Test (KoCSAT). Deze examens staan bekend om hun strenge normen en diverse vraagstellingen, wat een uitgebreide analyse van AI-prestaties op verschillende onderwijsniveaus mogelijk maakt. Door zich te richten op het Koreaans, biedt KoNET inzichten in de prestaties van modellen in minder onderzochte talen. We evalueren een reeks modellen - open-source, open-access en gesloten API's - door moeilijkheidsgraden, vakdiversiteit en menselijke foutpercentages te onderzoeken. De code en datasetbuilder zullen volledig open-source worden gemaakt op https://github.com/naver-ai/KoNET.
Grote taalmodellen hebben opmerkelijke vooruitgang geboekt in wiskundig redeneren, waarbij gebruik wordt gemaakt van keten-van-gedachten en schaling van rekentijd tijdens testen. Er blijven echter veel open vragen over de wisselwerking tussen het gebruik van redeneertokens en nauwkeurigheidswinst. Met name bij het vergelijken van modellen over verschillende generaties is het onduidelijk of verbeterde prestaties het gevolg zijn van langere redeneerketens of efficiënter redeneren. We analyseren systematisch de lengte van de keten-van-gedachten bij o1-mini en o3-mini varianten op de Omni-MATH-benchmark, en constateren dat o3-mini (m) superieure nauwkeurigheid bereikt zonder langere redeneerketens te vereisen dan o1-mini. Bovendien tonen we aan dat de nauwkeurigheid over het algemeen afneemt naarmate redeneerketens langer worden bij alle modellen en rekensettings, zelfs wanneer rekening wordt gehouden met de moeilijkheidsgraad van de vragen. Deze nauwkeurigheidsdaling is aanzienlijk kleiner bij meer bekwame modellen, wat suggereert dat nieuwe generaties redeneermodellen rekentijd tijdens testen effectiever benutten. Ten slotte benadrukken we dat hoewel o3-mini (h) een marginale nauwkeurigheidswinst behaalt ten opzichte van o3-mini (m), dit gebeurt door aanzienlijk meer redeneertokens toe te wijzen aan alle problemen, zelfs degenen die o3-mini (m) al kan oplossen. Deze bevindingen bieden nieuwe inzichten in de relatie tussen modelcapaciteit en redeneerlengte, met implicaties voor efficiëntie, schaling en evaluatiemethodologieën.
Het genereren van eiwitruggengraten speelt een centrale rol in de novo eiwitontwerp en is van groot belang voor veel biologische en medische toepassingen. Hoewel diffusie- en stromingsgebaseerde generatieve modellen potentiële oplossingen bieden voor deze uitdagende taak, genereren ze vaak eiwitten met ongewenste ontwerpbaarheid en lijden ze onder computationele inefficiëntie. In deze studie stellen we een nieuwe gecorrigeerde quaternionstroom (ReQFlow) matching-methode voor voor snelle en hoogwaardige generatie van eiwitruggengraten. In het bijzonder genereert onze methode een lokale translatie en een 3D-rotatie uit willekeurige ruis voor elk residu in een eiwitketen, waarbij elke 3D-rotatie wordt weergegeven als een eenheidsquaternion en de stroom ervan wordt geconstrueerd door sferische lineaire interpolatie (SLERP) in een exponentieel formaat. We trainen het model door quaternionstroom (QFlow) matching met gegarandeerde numerieke stabiliteit en corrigeren het QFlow-model om de inferentie te versnellen en de ontwerpbaarheid van gegenereerde eiwitruggengraten te verbeteren, wat leidt tot het voorgestelde ReQFlow-model. Experimenten tonen aan dat ReQFlow state-of-the-art prestaties bereikt in het genereren van eiwitruggengraten, terwijl het veel minder bemonsteringsstappen en aanzienlijk minder inferentietijd vereist (bijvoorbeeld 37x sneller dan RFDiffusion en 62x sneller dan Genie2 bij het genereren van een ruggengraat met een lengte van 300), wat de effectiviteit en efficiëntie ervan aantoont. De code is beschikbaar op https://github.com/AngxiaoYue/ReQFlow.
Vooruitgang in grote taalmmodellen (LLM's) en hun toenemend gebruik in medische vraag-antwoordtoepassingen vereisen een rigoureuze evaluatie van hun betrouwbaarheid. Een kritieke uitdaging ligt in hallucinatie, waarbij modellen plausibele maar feitelijk onjuiste uitvoer genereren. In het medische domein brengt dit serieuze risico's met zich mee voor patiëntveiligheid en klinische besluitvorming. Om dit aan te pakken, introduceren we MedHallu, de eerste benchmark die specifiek is ontworpen voor het detecteren van medische hallucinaties. MedHallu bestaat uit 10.000 hoogwaardige vraag-antwoordparen afgeleid van PubMedQA, waarbij hallucinerende antwoorden systematisch zijn gegenereerd via een gecontroleerde pijplijn. Onze experimenten tonen aan dat state-of-the-art LLM's, waaronder GPT-4o, Llama-3.1 en het medisch gefinetunede UltraMedical, moeite hebben met deze binaire hallucinatiedetectietaak, waarbij het beste model een F1-score van slechts 0,625 behaalt voor het detecteren van hallucinaties in de "moeilijke" categorie. Door middel van bidirectionele entailment-clustering laten we zien dat moeilijker te detecteren hallucinaties semantisch dichter bij de grondwaarheid liggen. Via experimenten tonen we ook aan dat het integreren van domeinspecifieke kennis en het introduceren van een "weet ik niet zeker"-categorie als een van de antwoordcategorieën de precisie en F1-scores met tot wel 38% verbetert ten opzichte van de basislijnen.
Afstelmethodevrije benaderingen die grootschalige, vooraf getrainde videodiffusiemodellen aanpassen voor identiteitsbehoudende tekst-naar-video-generatie (IPT2V) hebben recentelijk aan populariteit gewonnen vanwege hun effectiviteit en schaalbaarheid. Er blijven echter aanzienlijke uitdagingen bestaan om tevredenstellende gezichtsbewegingen te bereiken terwijl de identiteit ongewijzigd blijft. In dit werk presenteren we een nieuw afstelmethodevrij IPT2V-raamwerk door de gezichtskennis van het vooraf getrainde videomodel, gebaseerd op diffusietransformers (DiT), te versterken, genaamd FantasyID. In essentie wordt een 3D-gezichtsgeometrie-prior opgenomen om plausibele gezichtsstructuren tijdens videosynthese te waarborgen. Om te voorkomen dat het model kopieer-plak-snelkoppelingen leert die simpelweg het referentiegezicht over frames repliceren, is een multi-view gezichtsaugmentatiestrategie ontworpen om diverse 2D-gezichtsuitdrukkingskenmerken vast te leggen, waardoor de dynamiek van gezichtsuitdrukkingen en hoofdposities wordt vergroot. Daarnaast wordt, na het combineren van de 2D- en 3D-kenmerken als leidraad, in plaats van naïef cross-attention te gebruiken om leidraadsignalen in DiT-lagen te injecteren, een leerbaar laagbewust adaptief mechanisme ingezet om de samengevoegde kenmerken selectief in elke individuele DiT-laag te injecteren, wat een gebalanceerde modellering van identiteitsbehoud en bewegingsdynamiek bevordert. Experimentele resultaten valideren de superioriteit van ons model ten opzichte van de huidige afstelmethodevrije IPT2V-methoden.
In dit artikel gaan we de uitdaging aan om strikte schema-naleving af te dwingen bij de generatie van grote taalmodellen (LLM's) door gebruik te maken van de redeneercapaciteiten van LLM's. Op basis van het DeepSeek R1 reinforcement learning-framework traint onze aanpak de gestructureerde redeneervaardigheden van een model met 1,5 miljard parameters via een nieuwe pijplijn die synthetische constructie van redeneerdatasets combineert met aangepaste beloningsfuncties onder Group Relative Policy Optimization (GRPO). Specifiek voeren we eerst R1 reinforcement learning uit op een dataset van 20K ongestructureerde-naar-gestructureerde voorbeelden, in lijn met de oorspronkelijke DeepSeek R1-methoden, om kernredeneervaardigheden te ontwikkelen. Vervolgens voeren we supervised fine-tuning uit op een aparte dataset van 10K redeneervoorbeelden, met de focus op het verfijnen van schema-naleving voor downstream taken. Ondanks de relatief bescheiden trainingsomvang, die ongeveer 20 uur op een 8xH100 GPU-cluster voor GRPO-training en 3 uur op 1xA100 voor SFT vereist, toont ons model robuuste prestaties in het afdwingen van schema-consistentie. We vergelijken onze ThinkJSON-aanpak met de originele DeepSeek R1 (671B), gedistilleerde versies van DeepSeek R1 (Qwen-1.5B en Qwen-7B), en Gemini 2.0 Flash (70B), en demonstreren de effectiviteit ervan in real-world toepassingen. Onze resultaten benadrukken de praktische bruikbaarheid van een resource-efficiënt framework voor schema-gebonden tekstgeneratie.
Het bemonsteren van diffusiemodellen is een traag iteratief proces dat hun praktische inzetbaarheid belemmert, vooral voor interactieve toepassingen. Om de generatiesnelheid te versnellen, distilleren recente benaderingen een meerstaps diffusiemodel in een enkelstaps studentgenerator via variatie-score-distillatie, waarbij de verdeling van monsters gegenereerd door de student wordt afgestemd op de verdeling van de leraar. Deze benaderingen gebruiken echter de omgekeerde Kullback-Leibler (KL)-divergentie voor verdelingsovereenkomst, die bekend staat om zijn moduszoekende karakter. In dit artikel generaliseren we de verdelingsovereenkomstbenadering met behulp van een nieuw f-divergentie-minimalisatiekader, genaamd f-distill, dat verschillende divergenties omvat met verschillende afwegingen in termen van modusdekking en trainingsvariantie. We leiden de gradiënt van de f-divergentie tussen de leraar- en studentverdelingen af en laten zien dat deze wordt uitgedrukt als het product van hun scoreverschillen en een gewichtsfunctie bepaald door hun dichtheidsratio. Deze gewichtsfunctie benadrukt van nature monsters met een hogere dichtheid in de leraarverdeling bij gebruik van een minder moduszoekende divergentie. We merken op dat de populaire variatie-score-distillatiebenadering met de omgekeerde KL-divergentie een speciaal geval is binnen ons kader. Empirisch tonen we aan dat alternatieve f-divergenties, zoals forward-KL en Jensen-Shannon-divergenties, de huidige beste variatie-score-distillatiemethoden overtreffen in beeldgeneratietaken. Met name bij gebruik van Jensen-Shannon-divergentie bereikt f-distill de huidige state-of-the-art prestaties voor enkelstapsgeneratie op ImageNet64 en zero-shot tekst-naar-beeldgeneratie op MS-COCO. Projectpagina: https://research.nvidia.com/labs/genair/f-distill
Met de groeiende adoptie van Retrieval-Augmented Generation (RAG) in documentverwerking is robuuste tekstherkenning steeds kritischer geworden voor kennis extractie. Hoewel OCR (Optical Character Recognition) voor Engels en andere talen profiteert van grote datasets en goed ingeburgerde benchmarks, wordt Arabische OCR geconfronteerd met unieke uitdagingen vanwege het cursieve schrift, de tekststroom van rechts naar links, en complexe typografische en kalligrafische kenmerken. Wij presenteren KITAB-Bench, een uitgebreide Arabische OCR-benchmark die de lacunes in huidige evaluatiesystemen opvult. Onze benchmark bestaat uit 8.809 samples verdeeld over 9 belangrijke domeinen en 36 subdomeinen, en omvat diverse documenttypen, waaronder handgeschreven tekst, gestructureerde tabellen, en gespecialiseerde dekking van 21 grafiektypen voor business intelligence. Onze bevindingen tonen aan dat moderne visie-taalmodellen (zoals GPT-4, Gemini en Qwen) traditionele OCR-benaderingen (zoals EasyOCR, PaddleOCR en Surya) gemiddeld met 60% overtreffen in Character Error Rate (CER). Bovendien belichten we significante beperkingen van huidige Arabische OCR-modellen, met name in PDF-naar-Markdown-conversie, waar het beste model Gemini-2.0-Flash slechts 65% nauwkeurigheid behaalt. Dit onderstreept de uitdagingen bij het nauwkeurig herkennen van Arabische tekst, waaronder problemen met complexe lettertypen, fouten in cijferherkenning, woordverlenging en detectie van tabelstructuren. Dit werk stelt een rigoureus evaluatiekader vast dat verbeteringen in Arabische documentanalysemethoden kan aansturen en de prestatiekloof met Engelse OCR-technologieën kan overbruggen.
Bestaande benchmarks testen Large Multimodal Models (LMMs) niet op hun interactieve intelligentie met menselijke gebruikers, wat essentieel is voor de ontwikkeling van algemene AI-assistenten. Wij ontwerpen InterFeedback, een interactief raamwerk dat op elke LMM en dataset kan worden toegepast om deze vaardigheid autonoom te beoordelen. Daarnaast introduceren we InterFeedback-Bench, dat interactieve intelligentie evalueert met behulp van twee representatieve datasets, MMMU-Pro en MathVerse, om 10 verschillende open-source LMMs te testen. Verder presenteren we InterFeedback-Human, een nieuw verzamelde dataset van 120 gevallen die is ontworpen voor het handmatig testen van interactieve prestaties in toonaangevende modellen zoals OpenAI-o1 en Claude-3.5-Sonnet. Onze evaluatieresultaten tonen aan dat zelfs state-of-the-art LMMs (zoals OpenAI-o1) hun resultaten in minder dan 50% van de gevallen kunnen corrigeren op basis van menselijke feedback. Onze bevindingen wijzen op de noodzaak van methoden die het vermogen van LMMs om feedback te interpreteren en er baat bij te hebben, kunnen verbeteren.
Met de exponentiële groei van onderzoek die mogelijk wordt gemaakt door moderne technologie en verbeterde toegankelijkheid, zijn wetenschappelijke ontdekkingen steeds meer gefragmenteerd geraakt, zowel binnen als tussen verschillende vakgebieden. Dit maakt het uitdagend om de betekenis, nieuwigheid, incrementele bevindingen en equivalente ideeën tussen gerelateerde werken te beoordelen, met name die afkomstig zijn uit verschillende onderzoeksgemeenschappen. Grote taalmodellen (LLM's) hebben recentelijk sterke kwantitatieve en kwalitatieve redeneervaardigheden getoond, en debatten tussen multi-agent LLM's hebben potentie getoond in het omgaan met complexe redeneertaken door diverse perspectieven en redeneerpaden te verkennen. Geïnspireerd door dit, introduceren wij Tree-of-Debate (ToD), een raamwerk dat wetenschappelijke artikelen omzet in LLM-persona's die debatteren over hun respectievelijke nieuwigheden. Om gestructureerd, kritisch redeneren te benadrukken in plaats van zich uitsluitend te richten op uitkomsten, bouwt ToD dynamisch een debatboom op, waardoor een fijnmazige analyse van onafhankelijke nieuwheidsargumenten binnen wetenschappelijke artikelen mogelijk wordt. Door experimenten met wetenschappelijke literatuur uit verschillende domeinen, geëvalueerd door expertonderzoekers, tonen we aan dat ToD informatieve argumenten genereert, artikelen effectief met elkaar vergelijkt en onderzoekers ondersteunt bij hun literatuuronderzoek.
Het voorspellen van het juiste moment om te beginnen met spreken in realistische omgevingen blijft een fundamentele uitdaging voor conversatie-agents. Wij introduceren EgoSpeak, een nieuw framework voor realtime voorspelling van spraakinitiatie in egocentrische streamingvideo. Door het gesprek te modelleren vanuit het eerste-persoonsperspectief van de spreker, is EgoSpeak afgestemd op mensachtige interacties waarbij een conversatie-agent continu zijn omgeving moet observeren en dynamisch moet beslissen wanneer hij moet spreken. Onze aanpak overbrugt de kloof tussen vereenvoudigde experimentele opstellingen en complexe natuurlijke gesprekken door vier belangrijke capaciteiten te integreren: (1) eerste-persoonsperspectief, (2) RGB-verwerking, (3) online verwerking en (4) onbewerkte videoverwerking. We presenteren ook YT-Conversation, een diverse verzameling van natuurlijke gespreksvideo's van YouTube, als bron voor grootschalige voorafgaande training. Experimenten op EasyCom en Ego4D tonen aan dat EgoSpeak in realtime beter presteert dan willekeurige en op stilte gebaseerde basislijnen. Onze resultaten benadrukken ook het belang van multimodale input en contextlengte bij het effectief beslissen wanneer te spreken.
De toonaangevende AI-bedrijven richten zich steeds meer op het ontwikkelen van generalistische AI-agenten — systemen die autonoom kunnen plannen, handelen en doelen kunnen nastreven voor bijna alle taken die mensen kunnen uitvoeren. Hoewel deze systemen zeer nuttig kunnen zijn, vormt ongereguleerde AI-agentschap een aanzienlijk risico voor de openbare veiligheid en beveiliging, variërend van misbruik door kwaadwillende actoren tot een mogelijk onomkeerbaar verlies van menselijke controle. We bespreken hoe deze risico's voortkomen uit de huidige AI-trainingsmethoden. Inderdaad hebben verschillende scenario's en experimenten aangetoond dat AI-agenten zich kunnen bezighouden met bedrog of doelen kunnen nastreven die niet door menselijke operators zijn gespecificeerd en die in strijd zijn met menselijke belangen, zoals zelfbehoud. In navolging van het voorzorgsprincipe zien we een sterke behoefte aan veiligere, maar nog steeds nuttige alternatieven voor de huidige op agentschap gerichte ontwikkeling. Daarom stellen we als een kernbouwsteen voor verdere vooruitgang de ontwikkeling voor van een niet-agentisch AI-systeem dat van ontwerp af aan betrouwbaar en veilig is, wat we Scientist AI noemen. Dit systeem is ontworpen om de wereld te verklaren op basis van observaties, in plaats van acties te ondernemen om mensen na te bootsen of te behagen. Het bestaat uit een wereldmodel dat theorieën genereert om data te verklaren en een vraag-antwoord-inferentiemachine. Beide componenten werken met een expliciet begrip van onzekerheid om de risico's van overmoedige voorspellingen te beperken. Gezien deze overwegingen zou een Scientist AI kunnen worden gebruikt om menselijke onderzoekers te ondersteunen bij het versnellen van wetenschappelijke vooruitgang, inclusief op het gebied van AI-veiligheid. In het bijzonder kan ons systeem worden ingezet als een vangrail tegen AI-agenten die mogelijk worden gecreëerd ondanks de betrokken risico's. Uiteindelijk kan de focus op niet-agentische AI de voordelen van AI-innovatie mogelijk maken terwijl de risico's die gepaard gaan met de huidige ontwikkeling worden vermeden. We hopen dat deze argumenten onderzoekers, ontwikkelaars en beleidsmakers zullen motiveren om dit veiligere pad te verkiezen.
Stijlembeddingen zijn nuttig voor stilistische analyse en stijloverdracht; echter, zijn er tot nu toe alleen Engelse stijlembeddingen beschikbaar gemaakt. Wij introduceren Multilingual StyleDistance (mStyleDistance), een meertalig stijlembeddingsmodel dat is getraind met behulp van synthetische data en contrastief leren. We trainen het model op data van negen talen en creëren een meertalige STEL-or-Content benchmark (Wegmann et al., 2022) die dient om de kwaliteit van de embeddingen te beoordelen. We gebruiken onze embeddingen ook in een taak voor auteursverificatie waarbij verschillende talen betrokken zijn. Onze resultaten tonen aan dat mStyleDistance-embeddingen bestaande modellen overtreffen op deze meertalige stijlbenchmarks en goed generaliseren naar onbekende kenmerken en talen. We stellen ons model publiekelijk beschikbaar op https://huggingface.co/StyleDistance/mstyledistance.
We tonen aan dat het Large Language Model uit Power Law Decoder Representations (PLDR-LLM) een fundamenteel model is waarvan de deductieve uitvoer invariantetensoren zijn, op een kleine verstoring na. PLDR-LLM leert een singulariteitsvoorwaarde voor de deductieve uitvoer die het mogelijk maakt dat de eenmaal afgeleide energie-krommingstensor G_{LM} het diepe neuraal netwerk van power law graph attention (PLGA) vervangt dat de deductieve uitvoer genereert tijdens inferentie. We demonstreren dat een cache voor G_{LM} (G-cache) en KV-cache op een eenvoudige manier kunnen worden geïmplementeerd om de inferentietijd te verbeteren. De invariantie en generaliseerbare aard van de deductieve uitvoer is van zeer hoge kwaliteit, waarbij de deductieve uitvoer dezelfde RMSE- en determinantwaarden heeft tot op 15 decimalen na caching, en zero-shot benchmarkscores ongewijzigd blijven. Ablatiestudies tonen aan dat geleerde deductieve uitvoer verschillende verlies- en nauwkeurigheidskenmerken heeft in vergelijking met modellen die vooraf zijn getraind met overgedragen, willekeurig geïnitialiseerde of identiteitstensoren als een constante tensoroperator, en dat een LLM met scaled-dot product attention (SDPA) een speciaal geval is van PLDR-LLM waarbij G_{LM} vooraf is gedefinieerd als identiteit. De waargenomen invariantiekenmerk introduceert een nieuwe asymmetrie tussen de trainings- en inferentiefasen met caching. We schetsen de waargenomen gemeenschappelijke kenmerken van de deductieve uitvoer voor de geleerde singulariteitsvoorwaarde. We bieden een implementatie van een trainings- en inferentiekader voor PLDR-LLM met KV-cache en G-cache.
Het schatten van menselijke en cameratrajecten met nauwkeurige schaal in het wereldcoördinatensysteem vanuit een monovideo is een zeer gewenst maar uitdagend en slecht gesteld probleem. In deze studie streven we ernaar om expressieve parametrische menselijke modellen (d.w.z. SMPL-X) en bijbehorende cameraposities gezamenlijk te herstellen, door gebruik te maken van de synergie tussen drie cruciale elementen: de wereld, de mens en de camera. Onze aanpak is gebaseerd op twee belangrijke observaties. Ten eerste herstellen SMPL-X-schattingsmethoden in het cameraframe moeiteloos de absolute menselijke diepte. Ten tweede bieden menselijke bewegingen inherent absolute ruimtelijke aanwijzingen. Door deze inzichten te integreren, introduceren we een nieuw raamwerk, genaamd WHAC, om wereldgebaseerde expressieve menselijke houding- en vormschatting (EHPS) naast camerapositieschatting mogelijk te maken, zonder te vertrouwen op traditionele optimalisatietechnieken. Daarnaast presenteren we een nieuwe synthetische dataset, WHAC-A-Mole, die nauwkeurig geannoteerde mensen en camera's bevat, en diverse interactieve menselijke bewegingen en realistische cameratrajecten omvat. Uitgebreide experimenten op zowel standaard als nieuw opgezette benchmarks benadrukken de superioriteit en effectiviteit van ons raamwerk. We zullen de code en dataset openbaar beschikbaar maken.
Grote taalmodelen (LLMs) hebben indrukwekkende capaciteiten getoond bij het diagnosticeren van ziekten. Hun effectiviteit bij het identificeren van zeldzamere ziekten, die van nature moeilijker te diagnosticeren zijn, blijft echter een open vraag. De prestaties bij zeldzame ziekten zijn cruciaal met de toenemende inzet van LLMs in gezondheidszorgomgevingen. Dit is vooral belangrijk als een huisarts een zeldzamere prognose moet stellen op basis van alleen een patiëntgesprek, zodat de juiste vervolgstappen kunnen worden genomen. Daartoe zijn verschillende klinische beslissingsondersteuningssystemen ontworpen om zorgverleners te ondersteunen bij het identificeren van zeldzame ziekten. Hun bruikbaarheid is echter beperkt vanwege hun gebrek aan kennis over veelvoorkomende aandoeningen en moeilijkheden in het gebruik. In dit artikel stellen we RareScale voor om de kennis van LLMs te combineren met expertsystemen. We gebruiken gezamenlijk een expertsysteem en een LLM om gesprekken over zeldzame ziekten te simuleren. Deze gegevens worden gebruikt om een model te trainen dat kandidaten voor zeldzame ziekten voorspelt. De kandidaten van dit kleinere model worden vervolgens gebruikt als aanvullende invoer voor een black-box LLM om de uiteindelijke differentiële diagnose te stellen. Zo stelt RareScale een balans mogelijk tussen zeldzame en veelvoorkomende diagnoses. We presenteren resultaten voor meer dan 575 zeldzame ziekten, beginnend met Abdominale Actinomycose en eindigend met de Ziekte van Wilson. Onze aanpak verbetert de basisprestaties van black-box LLMs aanzienlijk met meer dan 17% in Top-5 nauwkeurigheid. We constateren ook dat onze kandidaatgeneratieprestaties hoog zijn (bijvoorbeeld 88,8% op gpt-4o gegenereerde gesprekken).
Multi-modale 3D-objectherkenning heeft aanzienlijke aandacht gekregen, maar huidige benaderingen gaan vaak uit van volledige gegevensbeschikbaarheid en rigide uitlijning tussen alle modaliteiten. Wij presenteren CrossOver, een nieuw raamwerk voor cross-modale 3D-sceneherkenning via flexibele, scene-niveau modaliteitsuitlijning. In tegenstelling tot traditionele methoden die uitgelijnde modaliteitsgegevens vereisen voor elk objectexemplaar, leert CrossOver een uniforme, modaliteitsagnostische inbeddingsruimte voor scènes door modaliteiten - RGB-afbeeldingen, puntenwolken, CAD-modellen, plattegronden en tekstbeschrijvingen - uit te lijnen met versoepelde beperkingen en zonder expliciete objectsemantiek. Door gebruik te maken van dimensiespecifieke encoders, een meerfasig trainingspijplijn en emergent cross-modale gedragingen, ondersteunt CrossOver robuuste scèneretrieval en objectlokalisatie, zelfs bij ontbrekende modaliteiten. Evaluaties op de ScanNet- en 3RScan-datasets tonen de superieure prestaties aan over diverse metrieken, wat de aanpassingsvermogen voor real-world toepassingen in 3D-sceneherkenning benadrukt.
Grote Taalmodellen (LLMs) hebben aanzienlijke vooruitgang geboekt in natuurlijke taalverwerking, maar hun potentieel voor politieke besluitvorming met grote gevolgen blijft grotendeels onontgonnen. Dit artikel behandelt deze leemte door zich te richten op de toepassing van LLMs in het besluitvormingsproces van de Verenigde Naties (VN), waar de inzet bijzonder hoog is en politieke beslissingen verstrekkende gevolgen kunnen hebben. We introduceren een nieuwe dataset die bestaat uit openbaar beschikbare verslagen van de VN-Veiligheidsraad (UNSC) van 1994 tot 2024, inclusief conceptresoluties, stemmingsresultaten en diplomatieke toespraken. Met behulp van deze dataset stellen we de United Nations Benchmark (UNBench) voor, de eerste uitgebreide benchmark die is ontworpen om LLMs te evalueren op vier onderling verbonden politieke wetenschapstaken: co-penholderbeoordeling, vertegenwoordigerstemmingssimulatie, voorspelling van conceptadoptie en generatie van vertegenwoordigerverklaringen. Deze taken beslaan de drie fasen van het VN-besluitvormingsproces—opstellen, stemmen en bespreken—en hebben als doel om het vermogen van LLMs om politieke dynamiek te begrijpen en te simuleren te beoordelen. Onze experimentele analyse toont het potentieel en de uitdagingen van het toepassen van LLMs in dit domein, en biedt inzicht in hun sterke en zwakke punten in de politieke wetenschap. Dit werk draagt bij aan het groeiende snijvlak van AI en politieke wetenschap en opent nieuwe onderzoeks- en praktijktoepassingen in mondiaal bestuur. Het UNBench Repository is toegankelijk via: https://github.com/yueqingliang1/UNBench.
We beschouwen het probleem van het voorspellen van genexpressies op basis van DNA-sequenties. Een belangrijke uitdaging bij deze taak is het vinden van de regulatoire elementen die genexpressies controleren. Hier introduceren we Seq2Exp, een Sequence to Expression-netwerk dat expliciet is ontworpen om regulatoire elementen te ontdekken en te extraheren die doelgenexpressies sturen, waardoor de nauwkeurigheid van de genexpressievoorspelling wordt verbeterd. Onze aanpak vangt de causale relatie tussen epigenomische signalen, DNA-sequenties en hun bijbehorende regulatoire elementen. Specifiek stellen we voor om de epigenomische signalen en de DNA-sequentie te decomponeren, geconditioneerd op de causale actieve regulatoire elementen, en passen we een informatiebottleneck toe met de Beta-verdeling om hun effecten te combineren terwijl niet-causale componenten worden gefilterd. Onze experimenten tonen aan dat Seq2Exp bestaande baseline-methoden overtreft in genexpressievoorspellings taken en invloedrijke regio's ontdekt in vergelijking met veelgebruikte statistische methoden voor piekdetectie zoals MACS3. De broncode is vrijgegeven als onderdeel van de AIRS-bibliotheek (https://github.com/divelab/AIRS/).
Gebruikersspecificaties of juridische kaders vereisen vaak dat informatie wordt verwijderd uit vooraf getrainde modellen, waaronder grote taalmodellen (LLM's). Dit vereist het verwijderen of "vergeten" van een reeks datapunten uit een reeds getraind model, wat doorgaans de prestaties op andere datapunten vermindert. Er moet dus een balans worden gevonden tussen het verwijderen van informatie en het intact houden van de andere capaciteiten van het model, waarbij een mislukking in het balanceren van deze afweging leidt tot slechte verwijdering of een onbruikbaar model. Hiertoe stellen we UPCORE (Utility-Preserving Coreset Selection) voor, een methode-onafhankelijk dataselectiekader om bijkomende schade tijdens het afleren te beperken. We ontdekken dat de modelschade gecorreleerd is met de variantie van de modelrepresentaties op de vergeetverzameling, en selectief snoeien we de vergeetverzameling om uitbijters te verwijderen, waardoor modeldegradatie na afleren wordt geminimaliseerd. We evalueren UPCORE over drie standaard aflermethoden en behalen consequent een superieure balans tussen de concurrerende doelstellingen van verwijderingsefficiëntie en modelbehoud. Om deze afweging beter te evalueren, introduceren we een nieuwe metriek, waarbij het gebied-onder-de-curve (AUC) over standaard metrieken wordt gemeten. We constateren dat UPCORE zowel standaard metrieken als AUC verbetert, profiterend van positieve overdracht tussen de coreset en gesnoeide punten, terwijl negatieve overdracht van de vergeetverzameling naar punten buiten deze verzameling wordt verminderd.
Deep learning heeft aanzienlijke successen geboekt op het gebied van veranderingsdetectie (CD) in remote sensing-beelden, maar er blijven twee grote uitdagingen bestaan: het gebrek aan open-source CD-datasets van sub-meter resolutie die allesomvattend zijn, en de moeilijkheid om consistente en bevredigende detectieresultaten te behalen over beelden met variërende veranderingsgebieden. Om deze problemen aan te pakken, introduceren we de JL1-CD dataset, die 5.000 paren van 512 x 512 pixel beelden bevat met een resolutie van 0,5 tot 0,75 meter. Daarnaast stellen we een multi-teacher knowledge distillation (MTKD) framework voor CD voor. Experimentele resultaten op de JL1-CD en SYSU-CD datasets tonen aan dat het MTKD-framework de prestaties van CD-modellen met verschillende netwerkarchitecturen en parameterformaten aanzienlijk verbetert, wat resulteert in nieuwe state-of-the-art resultaten. De code is beschikbaar op https://github.com/circleLZY/MTKD-CD.
We presenteren een open-source benchmark en evaluatieframework voor het beoordelen van het omgaan met emotionele grenzen in Large Language Models (LLMs). Met behulp van een dataset van 1156 prompts in zes talen hebben we drie toonaangevende LLMs (GPT-4o, Claude-3.5 Sonnet en Mistral-large) geëvalueerd op hun vermogen om gepaste emotionele grenzen te handhaven via patroongestuurde responsanalyse. Ons framework kwantificeert reacties aan de hand van zeven belangrijke patronen: directe weigering, verontschuldiging, uitleg, afleiding, erkenning, grenzen stellen en emotioneel bewustzijn. De resultaten tonen aanzienlijke variatie in de benaderingen van grensbeheer, waarbij Claude-3.5 de hoogste algemene score behaalde (8,69/10) en langere, genuanceerdere reacties produceerde (gemiddeld 86,51 woorden). We identificeerden een aanzienlijk prestatieverschil tussen Engelstalige (gemiddelde score 25,62) en niet-Engelstalige interacties (< 0,22), waarbij Engelstalige reacties een aanzienlijk hogere weigeringsgraad lieten zien (43,20% vs. < 1% voor niet-Engelstalig). Patroonanalyse onthulde modelspecifieke strategieën, zoals Mistrals voorkeur voor afleiding (4,2%) en consistent lage empathiescores bij alle modellen (< 0,06). Beperkingen omvatten mogelijke oversimplificatie door patroonherkenning, gebrek aan contextueel begrip in de responsanalyse en binaire classificatie van complexe emotionele reacties. Toekomstig werk zou zich moeten richten op genuanceerdere scoringsmethoden, uitbreiding van taaldekking en onderzoek naar culturele variaties in verwachtingen rond emotionele grenzen. Onze benchmark en methodologie bieden een basis voor systematische evaluatie van de emotionele intelligentie en grensstellende capaciteiten van LLMs.