Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Wij introduceren Being-H0.5, een fundamenteel Vision-Language-Action (VLA) model ontworpen voor robuuste kruis-embodiment generalisatie over diverse robotplatforms. Terwijl bestaande VLA's vaak worstelen met morfologische heterogeniteit en dataschaarste, stellen wij een mensgericht leerparadigma voor dat menselijke interactiesporen behandelt als een universele "moedertaal" voor fysieke interactie. Om dit te ondersteunen, presenteren wij UniHand-2.0, het grootste embodied pre-training recept tot nu toe, bestaande uit meer dan 35.000 uur aan multimodale data over 30 verschillende robot-embodiments. Onze aanpak introduceert een Uniforme Actieruimte die heterogene robotbesturingen afbeeldt op semantisch uitgelijnde slots, waardoor robots met weinig middelen vaardigheden kunnen opbouwen vanuit menselijke data en hoogwaardige platforms. Gebouwd op deze mensgerichte basis, ontwerpen wij een uniform sequentieel modelleer- en multi-task pre-training paradigma om menselijke demonstraties en robotuitvoering te verbinden. Architecturaal maakt Being-H0.5 gebruik van een Mixture-of-Transformers ontwerp met een nieuw Mixture-of- Flow (MoF) raamwerk om gedeelde motorische primitieven te ontkoppelen van gespecialiseerde embodiment-specifieke experts. Ten slotte introduceren wij, om kruis-embodiment beleid stabiel te maken in de echte wereld, Manifold-Preserving Gating voor robuustheid onder sensorische verschuiving en Universal Async Chunking om gechunkte besturing te universaliseren over embodiments met verschillende latentie- en besturingsprofielen. Empirisch tonen wij aan dat Being-H0.5 state-of-the-art resultaten behaalt op gesimuleerde benchmarks, zoals LIBERO (98.9%) en RoboCasa (53.9%), terwijl het ook sterke kruis-embodiment capaciteiten vertoont op vijf robotplatforms.
Probleemoplossing, een complexe Software Engineering (SWE) taak die integraal deel uitmaakt van praktijkgerichte ontwikkeling, is naar voren gekomen als een boeiende uitdaging voor kunstmatige intelligentie. De oprichting van benchmarks zoals SWE-bench toonde aan dat deze taak bijzonder moeilijk is voor grote taalmodellen, wat de evolutie van autonome codeeragentschappen aanzienlijk heeft versneld. Dit artikel presenteert een systematisch overzicht van dit opkomende domein. We beginnen met het onderzoeken van dataconstructiepijplijnen, waarbij we automatische verzamelings- en synthesemethoden behandelen. Vervolgens geven we een uitgebreide analyse van methodologieën, variërend van trainingsvrije raamwerken met hun modulaire componenten tot trainingsgebaseerde technieken, zoals supervised fine-tuning en reinforcement learning. Daarna bespreken we kritische analyses van data-kwaliteit en agentgedrag, naast praktische toepassingen. Ten slotte identificeren we belangrijke uitdagingen en schetsen we veelbelovende richtingen voor toekomstig onderzoek. Een open-source repository wordt onderhouden op https://github.com/DeepSoftwareAnalytics/Awesome-Issue-Resolution om te dienen als een dynamische bron op dit gebied.
De laatste jaren is er een groeiende belangstelling voor het uitbreiden van grote taalmodel(len) naar agent-gebaseerde systemen. Hoewel de effectiviteit van agents voortdurend verbetert, wordt de efficiëntie, die cruciaal is voor inzet in de praktijk, vaak over het hoofd gezien. Dit artikel onderzoekt daarom de efficiëntie aan de hand van drie kernelementen van agents: geheugen, tool-gebruik en planning, waarbij rekening wordt gehouden met kosten zoals latentie, tokens, stappen, enz. Met als doel een uitgebreid onderzoek uit te voeren naar de efficiëntie van het agent-systeem zelf, bespreken we een breed scala aan recente benaderingen die verschillen in implementatie, maar vaak terugvallen op gedeelde principes op hoog niveau, waaronder (maar niet beperkt tot) het begrenzen van context via compressie en beheer, het ontwerpen van reinforcement learning-beloningen om tool-aanroepen te minimaliseren, en het inzetten van gecontroleerde zoekmechanismen om de efficiëntie te verbeteren, hetgeen we gedetailleerd bespreken. Dienovereenkomstig karakteriseren we efficiëntie op twee complementaire manieren: het vergelijken van effectiviteit onder een vast kostenbudget, en het vergelijken van kosten bij een vergelijkbaar niveau van effectiviteit. Deze afweging kan ook worden bekeken door de Pareto-frontier tussen effectiviteit en kosten. Vanuit dit perspectief onderzoeken we ook op efficiëntie gerichte benchmarks door evaluatieprotocollen voor deze componenten samen te vatten en veelgebruikte efficiëntiemetrieken uit zowel benchmark- als methodologische studies te consolideren. Bovendien bespreken we de belangrijkste uitdagingen en toekomstige richtingen, met als doel veelbelovende inzichten te bieden.
Video's brengen rijkere informatie over dan afbeeldingen of tekst, doordat ze zowel ruimtelijke als temporele dynamiek vastleggen. De meeste bestaande methoden voor video-aanpassing vertrouwen echter op referentiebeelden of taakspecifieke temporele voorkennis, waardoor de inherente rijkdom aan ruimtelijk-temporele informatie in video's niet volledig wordt benut. Dit beperkt de flexibiliteit en generalisatie van videogeneratie. Om deze beperkingen aan te pakken, presenteren wij OmniTransfer, een uniform raamwerk voor ruimtelijk-temporele videotransfer. Het benut multi-view-informatie over frames heen om de uiterlijke consistentie te verbeteren en gebruikt temporele signalen voor fijnmazige temporele controle. Om diverse videotransfertaken te verenigen, bevat OmniTransfer drie kernontwerpelementen: Taakbewuste Positionele Bias, die referentievideo-informatie adaptief aanwendt om temporele uitlijning of uiterlijke consistentie te verbeteren; Referentie-ontkoppeld Causal Learning, dat referentie- en doeltakken scheidt voor precieze referentie-overdracht met verbeterde efficiëntie; en Taakadaptieve Multimodale Uitlijning, die multimodale semantische richtlijnen gebruikt om verschillende taken dynamisch te onderscheiden en aan te pakken. Uitgebreide experimenten tonen aan dat OmniTransfer superieure prestaties levert bij uiterlijke transfer (ID en stijl) en temporele transfer (camerabeweging en video-effecten), terwijl het pose-geleide methoden evenaart in bewegingsoverdracht zonder poses te gebruiken. Dit vestigt een nieuw paradigma voor flexibele, hoogwaardige videogeneratie.
Het begrijpen en redeneren over de fysieke wereld vereist ruimtelijke intelligentie: het vermogen om geometrie, perspectief en ruimtelijke relaties te interpreteren voorbij 2D-waarneming. Hoewel recente vision large models (VLMs) uitblinken in visueel begrip, blijven ze fundamenteel 2D-waarnemers en hebben ze moeite met echt 3D-redeneren. Wij introduceren Think3D, een raamwerk dat VLM-agenten in staat stelt om met 3D-ruimte te denken. Door gebruik te maken van 3D-reconstructiemodellen die puntenwolken en cameraposities herstellen uit afbeeldingen of video's, stelt Think3D de agent in staat om de ruimte actief te manipuleren via camera-gebaseerde operaties en ego/globale view-switching, waardoor ruimtelijk redeneren wordt getransformeerd in een interactief 3D chain-of-thought-proces. Zonder extra training verbetert Think3D de ruimtelijke redeneerprestaties van geavanceerde modellen zoals GPT-4.1 en Gemini 2.5 Pro aanzienlijk, met gemiddelde winsten van +7,8% op BLINK Multi-view en MindCube, en +4,7% op VSI-Bench. We tonen verder aan dat kleinere modellen, die moeite hebben met ruimtelijke exploratie, aanzienlijk profiteren van een reinforcement learning-beleid dat het model in staat stelt om informatieve gezichtspunten en operaties te selecteren. Met RL neemt het voordeel van toolgebruik toe van +0,7% naar +6,8%. Onze bevindingen tonen aan dat trainingsvrije, tool-augmented ruimtelijke exploratie een haalbare weg is naar meer flexibel en menselijk 3D-redeneren in multimodale agenten, waarmee een nieuwe dimensie van multimodale intelligentie wordt gevestigd. Code en gewichten zijn vrijgegeven op https://github.com/zhangzaibin/spagent.
Mechanistische Interpretabiliteit (MI) is naar voren gekomen als een essentiële benadering om de ondoorzichtige besluitvorming van Grote Taalmodellen (LLM's) te ontrafelen. Bestaande overzichten behandelen MI echter voornamelijk als een observationele wetenschap, waarbij analytische inzichten worden samengevat maar een systematisch kader voor actieve interventie ontbreekt. Om deze kloof te overbruggen, presenteren wij een praktisch overzicht, gestructureerd rond de pijplijn: "Lokaliseren, Sturen en Verbeteren". We categoriseren Lokalisatie- (diagnose) en Stuurmethoden (interventie) formeel op basis van specifieke Interpreteerbare Objecten om een rigoureus interventieprotocol vast te stellen. Verder tonen we aan hoe dit kader tastbare verbeteringen mogelijk maakt op het gebied van Afstemming, Capaciteit en Efficiëntie, waardoor MI effectief wordt geoperationaliseerd als een bruikbare methodologie voor modeloptimalisatie. De gecureerde literatuurlijst van dit werk is beschikbaar op https://github.com/rattlesnakey/Awesome-Actionable-MI-Survey.
Hoewel Multimodale Large Language Models (MLLM's) een sterke omnimodale perceptie vertonen, blijft hun vermogen om toekomstige gebeurtenissen te voorspellen op basis van audiovisuele aanwijzingen grotendeels onontgonnen, aangezien bestaande benchmarks zich voornamelijk richten op retrospectief begrip. Om deze kloof te overbruggen, introduceren we FutureOmni, de eerste benchmark die is ontworpen om omnimodale toekomstvoorspelling vanuit audiovisuele omgevingen te evalueren. De geëvalueerde modellen moeten cross-modale causale en temporele redenering uitvoeren, evenals effectief gebruikmaken van interne kennis om toekomstige gebeurtenissen te voorspellen. FutureOmni is geconstrueerd via een schaalbare, door een LLM-ondersteunde pijplijn met menselijke betrokkenheid en bevat 919 video's en 1.034 meerkeuzevragen over 8 primaire domeinen. Evaluaties van 13 omnimodale en 7 uitsluitend op video gebaseerde modellen tonen aan dat huidige systemen moeite hebben met audiovisuele toekomstvoorspelling, met name in scenario's met veel spraak, waarbij de beste nauwkeurigheid van 64,8% wordt behaald door Gemini 3 Flash. Om deze beperking te verlichten, hebben we een instructie-afstembare dataset van 7.000 voorbeelden samengesteld en stellen we een Omni-Modal Future Forecasting (OFF) trainingsstrategie voor. Evaluaties op FutureOmni en populaire audiovisuele en uitsluitend op video gebaseerde benchmarks tonen aan dat OFF de toekomstvoorspelling en generalisatie verbetert. We geven alle code (https://github.com/OpenMOSS/FutureOmni) en datasets (https://huggingface.co/datasets/OpenMOSS-Team/FutureOmni) openbaar vrij.
Bestaande onderzoeken nemen in toenemende mate geheugencentrische mechanismen over om lange contexten segmentgewijs te verwerken, waarbij effectief geheugenbeheer een van de cruciale capaciteiten is die grote taalmodelen in staat stelt om informatie over de gehele sequentie te verspreiden. Het is daarom essentieel om beloningsmodellen (RMs) in te zetten om geheugenkwaliteit automatisch en betrouwbaar te evalueren. In dit werk introduceren we MemoryRewardBench, de eerste benchmark die systematisch het vermogen van RMs onderzoekt om langetermijngeheugenbeheerprocessen te beoordelen. MemoryRewardBench omvat zowel taken voor het begrip van lange contexten als voor langere tekstgeneratie, met 10 verschillende settings met uiteenlopende geheugenbeheerpatronen en contextlengtes variërend van 8K tot 128K tokens. Evaluaties van 13 state-of-the-art RMs tonen een krimpende prestatiekloof tussen open-source en propriëtaire modellen aan, waarbij nieuwere generaties modellen consistent beter presteren dan hun voorgangers, ongeacht het aantal parameters. We leggen verder de capaciteiten en fundamentele beperkingen van huidige RMs bloot bij het evalueren van LLM-geheugenbeheer in uiteenlopende settings.
Wij presenteren LightOnOCR-2-1B, een end-to-end meertalig visie-taalmodel met 1B parameters dat documentafbeeldingen (zoals PDF's) omzet in schone, natuurlijk geordende tekst zonder breekbare OCR-pipelines. Getraind op een grootschalige, hoogwaardige distillatiemix met een sterke dekking van scans, Franse documenten en wetenschappelijke PDF's, behaalt LightOnOCR-2 state-of-the-art resultaten op OlmOCR-Bench, terwijl het 9 keer kleiner en aanzienlijk sneller is dan de eerder best presterende modellen. We breiden het uitvoerformaat verder uit om genormaliseerde begrenzingsvakken voor ingebedde afbeeldingen te voorspellen, waarbij we lokalisatie introduceren tijdens de voorafgaande training via een 'resume'-strategie en deze verfijnen met RLVR op basis van IoU-beloningen. Ten slotte verbeteren we de robuustheid met checkpoint-gemiddelden en taak-rekenkundige fusie. We geven de modelcheckpoints vrij onder Apache 2.0, en geven de dataset en de LightOnOCR-bbox-bench evaluatie publiekelijk vrij onder hun respectievelijke licenties.
Het bereiken van menselijk prestatieniveau in Vision-and-Language Navigation (VLN) vereist dat een belichaamde agent multimodale instructies en visueel-ruimtelijke context gezamenlijk begrijpt, terwijl hij redeneert over lange actiesequenties. Recente werken, zoals NavCoT en NavGPT-2, tonen de potentie van Chain-of-Thought (CoT)-redeneren aan voor het verbeteren van interpreteerbaarheid en planning over lange tijdshorizonnen. Bovendien valideren multimodale extensies zoals OctoNav-R1 en CoT-VLA CoT verder als een veelbelovende weg naar mensachtige navigatieredenering. Echter, bestaande benaderingen kampen met kritieke tekortkomingen: puur tekstuele CoT's missen ruimtelijke verankering en overfitten snel aan schaars geannoteerde redeneerstappen, terwijl multimodale CoT's ernstige tokeninflatie veroorzaken door het genereren van verbeeldde visuele observaties, wat real-time navigatie onpraktisch maakt. In dit werk stellen we FantasyVLN voor, een uniform impliciet redeneerkader dat de voordelen van CoT-redeneren behoudt zonder expliciete tokenoverhead. Specifiek worden verbeeldde visuele tokens tijdens de CoT-redeneertraining gecodeerd in een compacte latente ruimte met behulp van een vooraf getrainde Visuele AutoRegressor (VAR), en leert het model gezamenlijk van tekstuele, visuele en multimodale CoT-modussen onder een uniforme multi-CoT-strategie. Tijdens inferentie voert ons model directe instructie-naar-actie-mapping uit, terwijl het toch profiteert van redeneringsbewuste representaties. Uitgebreide experimenten op LH-VLN tonen aan dat onze aanpak redeneringsbewuste doch real-time navigatie bereikt, waarmee succespercentages en efficiëntie worden verbeterd en de inferentielatentie met een orde van grootte wordt verminderd vergeleken met expliciete CoT-methoden.
Beloningsgestuurde zoekmethoden hebben een sterk potentieel getoond bij het verbeteren van gereedschapsgebruikende agentschappen door het effectief sturen van steekproefname en exploratie in complexe actieruimten. Als kernontwerp maken deze zoekmethoden gebruik van procesbeloningsmodellen (PRM's) om stapsgewijze beloningen te bieden, wat een fijnmazigere monitoring mogelijk maakt. Er bestaat echter een gebrek aan systematische en betrouwbare evaluatiebenchmarks voor PRM's in gereedschapsgebruikende contexten. In dit artikel introduceren we ToolPRMBench, een grootschalige benchmark die specifiek is ontworpen om PRM's voor gereedschapsgebruikende agentschappen te evalueren. ToolPRMBench is gebaseerd op verschillende representatieve gereedschapsgebruikende benchmarks en zet agenttrajecten om in stapsgewijze testgevallen. Elk geval bevat de interactiegeschiedenis, een correcte actie, een plausibele maar incorrecte alternatieve actie, en relevante gereedschapsmetadata. We gebruiken respectievelijk offline steekproefname om lokale eenstapsfouten te isoleren en online steekproefname om realistische meerstapsfouten uit volledige agentuitvoeringen vast te leggen. Een multi-LLM-verificatiepipeline wordt voorgesteld om labelruis te verminderen en de datakwaliteit te waarborgen. We voeren uitgebreide experimenten uit met grote taalmodel(len), algemene PRM's en gereedschapsspecifieke PRM's op ToolPRMBench. De resultaten tonen duidelijke verschillen in PRM-effectiviteit en belichten het potentieel van gespecialiseerde PRM's voor gereedschapsgebruik. Code en data worden vrijgegeven op https://github.com/David-Li0406/ToolPRMBench.
Agentisch zoeken is recent naar voren gekomen als een krachtig paradigma, waarbij een agent meerstapsredenering afwisselt met on-demand retrieval om complexe vragen op te lossen. Ondanks dit succes blijft de vraag hoe een retriever voor agentisch zoeken moet worden ontworpen grotendeels ononderzocht. Bestaande zoekagenten maken doorgaans gebruik van op gelijkenis gebaseerde retrievers, terwijl gelijkaardige passages niet altijd nuttig zijn voor het genereren van het uiteindelijke antwoord. In dit artikel stellen we een nieuw trainingsraamwerk voor retrievers voor, speciaal toegesneden op agentisch zoeken. In tegenstelling tot retrievers die zijn ontworpen voor single-turn retrieval-augmented generation (RAG) en alleen afgaan op lokale passage-nuttigheid, stellen we voor om zowel lokale query-passage-relevantie als globale antwoordnauwkeurigheid te gebruiken om de nuttigheid van een passage in een multi-turn agentische zoekomgeving te meten. We introduceren verder een iteratieve trainingsstrategie, waarbij de zoekagent en de retriever bidirectioneel en iteratief worden geoptimaliseerd. Anders dan RAG-retrievers die slechts éénmaal worden getraind met vaste vragen, wordt onze retriever continu verbeterd met behulp van evoluerende en hogerkwalitatieve queries van de agent. Uitgebreide experimenten op zeven single-hop en multi-hop QA-benchmarks tonen aan dat onze retriever, genaamd , consistent sterke baseline-methoden overtreft across verschillende zoekagenten. Onze code is beschikbaar op: https://github.com/8421BCD/Agentic-R.
Concept-gebaseerde verklaringen kwantificeren hoe hoogwaardige concepten (zoals geslacht of ervaring) het modelgedrag beïnvloeden, wat cruciaal is voor besluitvormers in hoog-risicodomeinen. Recent werk evalueert de betrouwbaarheid van dergelijke verklaringen door ze te vergelijken met referentie causale effecten die geschat zijn vanuit counterfactuals. In de praktijk vertrouwen bestaande benchmarks op kostbare, door mensen geschreven counterfactuals die dienen als een onvolmaakte benadering. Om dit aan te pakken, introduceren we een raamwerk voor het construeren van datasets die structurele counterfactual paren bevatten: LIBERTy (LLM-gebaseerd Interventie Benchmark voor Uitlegbaarheid met Referentiedoelen). LIBERTy is gegrondvest in expliciet gedefinieerde Structurele Causale Modellen (SCM's) van de tekstgeneratie; interventies op een concept planten zich voort door het SCM totdat een LLM de counterfactual genereert. We introduceren drie datasets (ziekte-detectie, CV-screening en voorspelling van geweld op de werkplek) samen met een nieuwe evaluatiemetriek, order-betrouwbaarheid. Hiermee evalueren we een breed scala aan methoden over vijf modellen en identificeren we een aanzienlijke verbeteringsruimte voor concept-gebaseerde verklaringen. LIBERTy maakt ook een systematische analyse mogelijk van de modelgevoeligheid voor interventies: we constateren dat propriëtaire LLM's een aanzienlijk verminderde gevoeligheid voor demografische concepten vertonen, waarschijnlijk als gevolg van post-training mitigatie. Over het geheel genomen biedt LIBERTy een broodnodige benchmark voor het ontwikkelen van betrouwbare uitlegbare methoden.
Ondanks recente vooruitgang worstelen medische foundation-modellen nog steeds met het verenigen van visueel begrip en generatie, aangezien deze taken inherent tegenstrijdige doelstellingen hebben: semantische abstractie versus pixel-level reconstructie. Bestaande benaderingen, doorgaans gebaseerd op autoregressieve architecturen met gedeelde parameters, leiden vaak tot gecompromitteerde prestaties in één of beide taken. Om dit aan te pakken, presenteren wij UniX, een next-generation verenigd medisch foundation-model voor begrip en generatie van thoraxfoto's. UniX ontkoppelt de twee taken in een autoregressieve tak voor begrip en een diffusietak voor hoogwaardige generatie. Cruciaal is dat een cross-modale self-attention-mechanisme wordt geïntroduceerd om het generatieproces dynamisch te sturen met begripskenmerken. Gekoppeld aan een rigoureus data-opschoningsproces en een meerfasige trainingsstrategie, stelt deze architectuur synergetische samenwerking tussen taken mogelijk, terwijl de sterke punten van diffusiemodellen worden benut voor superieure generatie. Op twee representatieve benchmarks behaalt UniX een verbetering van 46,1% in begripsprestaties (Micro-F1) en een winst van 24,2% in generatiekwaliteit (FD-RadDino), met slechts een kwart van de parameters van LLM-CXR. Door prestaties te leveren die gelijkwaardig zijn aan taakspecifieke modellen, vestigt ons werk een schaalbaar paradigma voor synergetisch medisch beeldbegrip en -generatie. Code en modellen zijn beschikbaar op https://github.com/ZrH42/UniX.
Zelfspel met grote taalmodellen is naar voren gekomen als een veelbelovend paradigma voor het bereiken van zelfverbeterende kunstmatige intelligentie. Bestaande zelfspelraamwerken kampen echter vaak met instabiliteit tijdens de optimalisatie, veroorzaakt door (i) niet-stationaire doelstellingen als gevolg van solver-afhankelijke beloningsfeedback voor de Vragensteller, en (ii) bootstrapfouten afkomstig van zelfgegenereerde pseudo-labels die worden gebruikt om de Oplosser te trainen. Om deze uitdagingen het hoofd te bieden, introduceren we DARC (Decoupled Asymmetric Reasoning Curriculum), een raamwerk met twee fasen dat het zelf-evolutieproces stabiliseert. Eerst trainen we de Vragensteller om moeilijkheidsgekalibreerde vragen te synthetiseren, gebaseerd op expliciete moeilijkheidsgraden en externe corpora. Vervolgens trainen we de Oplosser met een asymmetrisch zelfdistillatiemechanisme, waarbij een document-ondersteunde leraar hoogwaardige pseudo-labels genereert om de student-Oplosser, die geen documenttoegang heeft, te trainen. Empirische resultaten tonen aan dat DARC model-agnostisch is en een gemiddelde verbetering van 10.9 punten oplevert over negen redeneerbenchmarks en drie onderliggende modellen. Bovendien presteert DARC consistent beter dan alle baseline-methoden en benadert het de prestaties van volledig gesuperviseerde modellen zonder afhankelijk te zijn van menselijke annotaties. De code is beschikbaar op https://github.com/RUCBM/DARC.
Huidige grootschalige taalmodelmodellen (LLM's) vertonen een kritieke modale kloof: ze beschikken over uitgebreide semantische kennis, maar missen de procedurele verankering om de onveranderlijke wetten van de fysieke wereld te respecteren. Hierdoor functioneren deze agents impliciet weliswaar als wereldmodellen, maar lijden hun simulaties vaak aan fysieke hallucinaties – ze genereren plannen die logisch consistent zijn, maar fysiek onuitvoerbaar. Bestaande afstemmingsstrategieën zijn voornamelijk gebaseerd op resource-intensieve training of fine-tuning, waarbij geprobeerd wordt dynamische omgevingsregels te comprimeren tot statische modelparameters. Deze parametrische encapsulatie is echter inherent rigide en kan moeilijk omgaan met de open-eindige variabiliteit van fysieke dynamieken zonder continue, kostbare hertraining. Om deze kloof te overbruggen, introduceren we WorldMind, een raamwerk dat autonoom een symbolische Wereldkenniskennisbank construeert door omgevingsfeedback te synthetiseren. Concreet verenigt het Proceservaring om fysieke haalbaarheid af te dwingen via voorspellingsfouten en Doelervaring om taakoptimaliteit te sturen via succesvolle trajecten. Experimenten op EB-ALFRED en EB-Habitat tonen aan dat WorldMind superieure prestaties bereikt in vergelijking met baseline-methoden, met opmerkelijke overdraagbaarheid tussen modellen en omgevingen.
Productie-LLM-systemen vertrouwen vaak op aparte modellen voor veiligheid en andere classificatie-intensieve stappen, wat de latentie, VRAM-behoefte en operationele complexiteit verhoogt. Wij hergebruiken in plaats daarvan reeds betaalde rekencapaciteit van het servende LLM: we trainen lichtgewicht probes op zijn verborgen toestanden en voorspellen labels in dezelfde voorwaartse pass die voor generatie wordt gebruikt. We benaderen classificatie als representatieselectie over de volledige token-laag verborgen-toestand tensor, in plaats van ons te committeren aan een vaste token of vaste laag (bijv. eerste-token logits of final-layer pooling). Om dit te implementeren, introduceren we een tweetraps-aggregator die (i) tokens binnen elke laag samenvat en (ii) over de laagsamenvattingen aggregeert om één enkele representatie voor classificatie te vormen. We concretiseren deze template met direct pooling, een 100K-parameter scoring-attention gate, en een downcast multi-head self-attention (MHA) probe met tot 35M trainbare parameters. Op veiligheids- en sentimentbenchmarks overtreffen onze probes logit-only hergebruik (bijv. MULI) en zijn ze concurrerend met aanzienlijk grotere taakspecifieke baselines, terwijl ze de latentie bijna gelijk aan serven behouden en de VRAM- en latentiekosten van een apart guard-model pipeline vermijden.
Lange chain-of-thought (CoT) trajecten bieden rijke supervisiesignalen voor het distilleren van redeneervaardigheden van teacher- naar student-LLM's. Zowel eerder onderzoek als onze eigen experimenten tonen echter aan dat trajecten van sterkere teachers niet noodzakelijk betere studenten opleveren, wat het belang van data-student geschiktheid bij distillatie benadrukt. Bestaande methoden beoordelen geschiktheid voornamelijk via de likelihood van de student, waarbij trajecten die nauw aansluiten bij het huidige gedrag van het model worden bevoordeeld, maar meer informatieve trajecten over het hoofd worden gezien. Om dit aan te pakken, stellen we de Rank-Surprisal Ratio (RSR) voor, een eenvoudige metriek die zowel alignment als informatiewaarde vastlegt om de geschiktheid van een redeneertraject te beoordelen. RSR is gemotiveerd door de observatie dat effectieve trajecten typisch een lage absolute waarschijnlijkheid combineren met relatief hoog gerangschikte tokens onder het studentmodel, waardoor een balans wordt gevonden tussen de sterkte van het leersignaal en gedragsalignment. Concreet wordt RSR gedefinieerd als de verhouding tussen de gemiddelde token-gewijze rangorde van een traject en zijn gemiddelde negatieve log-waarschijnlijkheid, en is eenvoudig te berekenen en te interpreteren. Over vijf studentmodellen en redeneertrajecten van 11 diverse teachers heen, correleert RSR sterk met de prestaties na training (gemiddelde Spearman 0.86), waarbij het bestaande metrieken overtreft. We tonen verder de praktische bruikbaarheid aan, zowel bij trajectselectie als bij teacherselectie.
Pixelgebaseerde reinforcement learning-agenten falen vaak onder puur visuele distributieverschuivingen, zelfs wanneer de latente dynamiek en beloningen ongewijzigd blijven, maar bestaande benchmarks verstrengelen meerdere bronnen van verschuiving en belemmeren systematische analyse. Wij introduceren KAGE-Env, een inheems JAX 2D-platformspel dat het observatieproces factoriseert in onafhankelijk bestuurbare visuele assen, terwijl het onderliggende controleprobleem ongewijzigd blijft. Door constructie beïnvloedt het variëren van een visuele as de prestaties uitsluitend via de geïnduceerde staat-voorwaardelijke actieverdeling van een pixelbeleid, wat een zuivere abstractie biedt voor visuele generalisatie. Voortbouwend op deze omgeving definiëren we KAGE-Bench, een benchmark van zes bekende-assen-suites bestaande uit 34 train-evaluatie configuratieparen die individuele visuele verschuivingen isoleren. Met een standaard PPO-CNN-basislijn observeren we sterke as-afhankelijke mislukkingen, waarbij achtergrond- en fotometrische verschuivingen de succesratio vaak doen instorten, terwijl verschuivingen in agent-uiterlijk relatief goedaardig zijn. Verschillende verschuivingen behouden voorwaartse beweging maar breken taakvoltooiing, wat aantoont dat beloning alleen generalisatiefouten kan verhullen. Ten slotte maakt de volledig gevectoriseerde JAX-implementatie tot 33M omgevingsstappen per seconde mogelijk op een enkele GPU, wat snelle en reproduceerbare sweeps over visuele factoren mogelijk maakt. Code: https://avanturist322.github.io/KAGEBench/.
Foneemherkenning (PR) fungeert als de atomische interface voor taalagnostische modellering bij cross-linguale spraakverwerking en fonetische analyse. Ondanks langdurige inspanningen in de ontwikkeling van PR-systemen, meten huidige evaluaties alleen de oppervlakkige transcriptienauwkeurigheid. Wij introduceren PRiSM, de eerste open-source benchmark die is ontworpen om blinde vlekken in de fonetische perceptie bloot te leggen door middel van intrinsieke en extrinsieke evaluatie van PR-systemen. PRiSM standaardiseert op transcriptie gebaseerde evaluatie en beoordeelt de downstream-toepasbaarheid in klinische, educatieve en meertalige contexten met transcriptie- en representatietests. Wij constateren dat diverse taalblootstelling tijdens de training cruciaal is voor PR-prestaties, dat encoder-CTC-modellen het meest stabiel zijn, en dat gespecialiseerde PR-modellen nog steeds beter presteren dan Large Audio Language Models. PRiSM brengt code, recepten en datasets uit om het vakgebied te bewegen naar meertalige spraakmodellen met robuuste fonetische capaciteiten: https://github.com/changelinglab/prism.
Outcome-reward reinforcement learning (RL) heeft zijn effectiviteit bewezen bij het verbeteren van de redeneervaardigheden van grote taalmmodellen (LLM's). Echter, standaard RL kent credits uitsluitend toe op het niveau van het uiteindelijke antwoord, waarbij volledige redeneersporen worden bestraft als de uitkomst incorrect is, en alle stappen uniform worden versterkt wanneer deze correct is. Hierdoor kunnen correcte tussenstappen worden ontmoedigd in mislukte sporen, terwijl onterechte stappen worden versterkt in geslaagde sporen. Wij verwijzen naar deze foutmodus als het probleem van credit assignment. Hoewel een natuurlijk middel is om een procesbeloningsmodel te trainen, blijft het een uitdaging om dergelijke modellen nauwkeurig te optimaliseren om corrigerende redeneerstappen te identificeren. Wij introduceren Intervention Training (InT), een trainingsparadigma waarin het model fijnmazige credit assignment uitvoert op zijn eigen redeneersporen door korte, gerichte correcties voor te stellen die trajecten sturen naar een hogere beloning. Gebruikmakend van referentieoplossingen die vaak beschikbaar zijn in wiskundige redeneerdatasets en profiterend van het feit dat het verifiëren van een modelgegenereerde oplossing eenvoudiger is dan het vanaf nul genereren van een correcte, identificeert het model de eerste fout in zijn redenering en stelt het een eenstapsinterventie voor om het traject terug te leiden naar de correcte oplossing. Vervolgens passen we supervised fine-tuning (SFT) toe op de on-policy rollout tot aan het foutpunt, geconcateneerd met de interventie, waardoor de fout wordt gelokaliseerd naar de specifieke stap die de mislukking veroorzaakte. Wij tonen aan dat het resulterende model dient als een veel betere initialisatie voor RL-training. Na het uitvoeren van InT en daaropvolgende fine-tuning met RL, verbeteren we de nauwkeurigheid met bijna 14% ten opzichte van een 4B-parameter basismodel op IMO-AnswerBench, waarbij grotere open-source modellen zoals gpt-oss-20b worden overtroffen.
Wij presenteren een hybride methodologie voor het genereren van grootschalige semantische-relatiedatasets in talen met weinig bronnen, gedemonstreerd via een uitgebreid corpus van semantische relaties voor het Turks. Onze aanpak integreert drie fasen: (1) FastText-embeddingen met agglomeratieve clustering om semantische clusters te identificeren, (2) Gemini 2.5-Flash voor geautomatiseerde classificatie van semantische relaties, en (3) integratie met gecuratiseerde woordenboeken. De resulterende dataset omvat 843.000 unieke Turkse semantische paren verdeeld over drie relatietypes (synoniemen, antoniemen, co-hyponiemen) en vertegenwoordigt een 10-voudige schaalvergroting ten opzichte van bestaande bronnen tegen minimale kosten ($65). Wij valideren de dataset via twee downstream-taken: een embeddingmodel dat een top-1-retrievalnauwkeurigheid van 90% behaalt en een classificatiemodel dat een F1-macro-score van 90% bereikt. Onze schaalbare protocollering lost het kritieke probleem van dataschaarste op voor Turkse NLP en toont toepasbaarheid voor andere talen met weinig bronnen. Wij stellen de dataset en modellen publiekelijk beschikbaar.
Remote sensing veranderingsdetectie heeft als doel om scèneveranderingen tussen twee tijdstippen te lokaliseren en te karakteriseren, en is cruciaal voor toepassingen zoals milieumonitoring en rampenbeoordeling. Visuele autoregressieve modellen (VAR's) hebben recentelijk indrukwekkende beeldgeneratiecapaciteiten getoond, maar hun toepassing voor pixelgebaseerde discriminatieve taken blijft beperkt vanwege zwakke beheersbaarheid, suboptimale dense-prestaties en exposure bias. Wij introduceren RemoteVAR, een nieuw VAR-gebaseerd kader voor veranderingsdetectie dat deze beperkingen aanpakt door autoregressieve voorspelling te conditioneren op multi-resolutie gefuseerde bi-temporele kenmerken via cross-attention, en door een autoregressieve trainingsstrategie te hanteren die specifiek is ontworpen voor de predictie van veranderingskaarten. Uitgebreide experimenten op standaard veranderingsdetectiebenchmarks tonen aan dat RemoteVAR consistente en significante verbeteringen biedt ten opzichte van sterke op diffusie en transformers gebaseerde baseline-modellen, waarmee een competitief autoregressief alternatief voor remote sensing veranderingsdetectie wordt gevestigd. Code zal beschikbaar zijn op https://github.com/yilmazkorkmaz1/RemoteVAR.
Neuronale embeddings hebben een beruchte blinde vlek: ze kunnen niet betrouwbaar onderscheid maken tussen synoniemen en antoniemen. Als gevolg daarvan voorkomt het verhogen van de gelijkenisdrempel vaak niet dat tegenpolen bij elkaar worden gegroepeerd. Wij hebben een grootschalig semantisch clusteringsysteem gebouwd dat specifiek is ontworpen om dit probleem rechtstreeks aan te pakken. Onze pijplijn verwerkt 15 miljoen lexicale eenheden, evalueert een enorme 520 miljoen potentiële relaties en genereert uiteindelijk 2,9 miljoen semantische clusters met hoge precisie. Het systeem levert drie primaire bijdragen. Ten eerste introduceren we een gelabelde dataset van 843.000 conceptparen die synonimie, antonimie en co-hyponimie omspant, opgebouwd via Gemini 2.5-Flash LLM-augmentatie en geverifieerd met behulp van door mensen samengestelde woordenboekbronnen. Ten tweede stellen we een gespecialiseerde driedelige semantische relatie-discriminator voor die een macro-F1-score van 90% behaalt, wat robuuste disambiguatie mogelijk maakt die verder gaat dan ruwe embeddingsgelijkenis. Ten derde introduceren we een nieuw soft-to-hard clusteringalgoritme dat semantische drift beperkt, waardoor foutieve transitieve ketens worden voorkomen (bijv. heet -> pikant -> pijn -> depressie) en tegelijkertijd polysemie wordt opgelost. Onze aanpak hanteert een topologiebewuste tweefasen procedure van expansie-snoei met topologische stemmen, die ervoor zorgt dat elke term aan precies één semantisch coherent cluster wordt toegewezen. De resulterende bron maakt semantisch zoeken en retrieval-augmented generation met hoge precisie mogelijk, met name voor morfologisch rijke en talen met weinig bronmateriaal, waar bestaande synoniemendatabanken schaars blijven.
Instructie-afstemming is een standaardparadigma voor het aanpassen van grote taalmodellen (LLM's), maar moderne instructiedatasets zijn groot, luidruchtig en redundant, waardoor fine-tuning op volledige data kostbaar en vaak onnodig is. Bestaande dataselectiemethoden bouwen ofwel dure gradient-datastores of wijzen statische scores toe op basis van een zwakke proxy, waarbij ze grotendeels de evoluerende onzekerheid negeren en zo een cruciale bron van LLM-interpreteerbaarheid mislopen. Wij stellen GRADFILTERING voor, een doel-agnostisch, onzekerheidsbewust dataselectiekader dat gebruikmaakt van een kleine GPT-2-proxy met een LoRA-ensemble en de gradients per voorbeeld aggregeert tot een Gradient Signaal-Ruim-verhouding (G-SNR) nuttigheidswaarde. Onze methode evenaart of overtreft willekeurige subsets en sterke baselines in de meeste LLM-as-a-judge-evaluaties evenals in menselijke beoordeling. Bovendien convergeren door GRADFILTERING geselecteerde subsets sneller dan competitieve filters onder hetzelfde rekenbudget, wat het voordeel van onzekerheidsbewuste scoring weerspiegelt.
Naarmate grote taalmodellen (LLM's) worden getraind op steeds ondoorzichtiger corpora, zijn lidmaatschapsinferentie-aanvallen (MIA's) voorgesteld om te controleren of gecopyrighteerde teksten tijdens de training zijn gebruikt, ondanks groeiende zorgen over hun betrouwbaarheid onder realistische omstandigheden. Wij onderzoeken of MIA's kunnen dienen als toelaatbaar bewijs in adversariële geschillen over auteursrecht, waarbij een beschuldigde modelontwikkelaar de trainingsgegevens kan verhullen met behoud van semantische inhoud, en formaliseren deze setting via een rechter-aanklager-beschuldigde communicatieprotocol. Om de robuustheid onder dit protocol te testen, introduceren we SAGE (Structure-Aware SAE-Guided Extraction), een parafraseerframework geleid door Sparse Autoencoders (SAE's) dat trainingsgegevens herschrijft om de lexicale structuur te wijzigen met behoud van semantische inhoud en downstream nut. Onze experimenten tonen aan dat state-of-the-art MIA's afnemen wanneer modellen worden gefinetuned op door SAGE gegenereerde parafrases, wat aangeeft dat hun signalen niet robuust zijn tegen semantiekbehoudende transformaties. Hoewel er in bepaalde finetuning-regimes enige datalekken blijven bestaan, suggereren deze resultaten dat MIA's broos zijn in adversariële settings en onvoldoende, op zichzelf, als een opzichzelfstaand mechanisme voor auteursrechtaudits van LLM's.
Wij presenteren SciCoQA, een dataset voor het detecteren van discrepanties tussen wetenschappelijke publicaties en hun codebases om getrouwe implementaties te waarborgen. We construeren SciCoQA op basis van GitHub-issues en reproduceerbaarheidspapers, en om onze dataset op te schalen, stellen we een methode voor synthetische datageneratie voor om paper-code-discrepanties te construeren. We analyseren de paper-code-discrepanties in detail en stellen discrepantietypen en -categorieën voor om de optredende mismatches beter te begrijpen. In totaal bestaat onze dataset uit 611 paper-code-discrepanties (81 reële, 530 synthetische), die diverse computationele wetenschapsdisciplines omvatten, waaronder AI, Natuurkunde, Kwantitatieve Biologie en andere. Onze evaluatie van 21 LLM's benadrukt de moeilijkheidsgraad van SciCoQA, met name voor instanties die ontbrekende paperdetails, lange-contextinvoer en gegevens buiten de pre-trainingscorpus van de modellen omvatten. Het best presterende model in onze evaluatie, GPT-5, kan slechts 45,7% van de paper-code-discrepanties uit de praktijk detecteren.
Differentieel Private Stochastische Gradiëntdaling (DP-SGD) is het dominante paradigma voor private training, maar de fundamentele beperkingen ervan onder worst-case adversariële privacydefinities zijn nog steeds slecht begrepen. Wij analyseren DP-SGD in het kader van f-differentiële privacy, dat privacy karakteriseert via hypothese-testen trade-off curves, en bestuderen geschud sampling over een enkele epoch met M gradientupdates. Wij leiden een expliciete suboptimale bovengrens af voor de bereikbare trade-off curve. Dit resultaat induceert een geometrische ondergrens voor de scheiding κ, wat de maximale afstand is tussen de trade-off curve van het mechanisme en de ideale willekeurige-raden lijn. Omdat een grote scheiding een significant adversarieel voordeel impliceert, vereist zinvolle privacy een kleine κ. Echter, wij bewijzen dat het afdwingen van een kleine scheiding een strikte ondergrens oplegt aan de Gaussische ruismultiplicator σ, wat direct de bereikbare bruikbaarheid beperkt. In het bijzonder, onder het standaard worst-case adversariële model, moet geschudde DP-SGD voldoen aan σ ≥ 1/√(2 ln M) of κ ≥ 1/8 (1 - 1/(4π ln M)), en kan dus niet tegelijkertijd sterke privacy en hoge bruikbaarheid bereiken. Hoewel deze bovengrens asymptotisch verdwijnt als M → ∞, is de convergentie extreem traag: zelfs voor praktisch relevante aantallen updates blijft de vereiste ruisomvang aanzienlijk. Wij tonen verder aan dat dezelfde beperking zich uitstrekt tot Poisson subsampling op constante factoren na. Onze experimenten bevestigen dat de ruisniveaus die door deze grens worden geïmpliceerd leiden tot een significante accuratiedegradatie bij realistische trainingsinstellingen, wat dus een kritieke bottleneck aantoont in DP-SGD onder standaard worst-case adversariële aannames.
Taaluitingen van emoties zoals depressie, angst en traumagerelateerde toestanden zijn alomtegenwoordig in klinische notities, counselingsdialogen en online mentale gezondheidsgemeenschappen. Nauwkeurige herkenning van deze emoties is essentieel voor klinische triage, risicobeoordeling en tijdige interventie. Hoewel grote taalmodellen (LLM's) een sterke generalisatiecapaciteit hebben getoond bij emotie-analysetaken, blijft hun diagnostische betrouwbaarheid in hoog-risico, contextintensieve medische settingen zeer gevoelig voor promptontwerp. Bovendien worden bestaande methoden geconfronteerd met twee belangrijke uitdagingen: emotionele comorbiditeit, waarbij meerdere verweven emotionele toestanden de voorspelling bemoeilijken, en inefficiënte exploratie van klinisch relevante aanwijzingen. Om deze uitdagingen aan te pakken, stellen wij APOLO voor (Automated Prompt Optimization for Linguistic Emotion Diagnosis), een raamwerk dat systematisch een bredere en fijnmazigere promptruimte verkent om de diagnostische efficiëntie en robuustheid te verbeteren. APOLO formuleert instructieverfijning als een Partieel Observeerbaar Markov Beslissingsproces en adopteert een multi-agent samenwerkingsmechanisme met de rollen Planner, Leraar, Criticus, Student en Doel. Binnen dit gesloten-lus raamwerk definieert de Planner een optimalisatietraject, terwijl de Leraar-Criticus-Student agenten iteratief prompts verfijnen om de redeneerstabiliteit en effectiviteit te verbeteren; de Doel-agent bepaalt vervolgens of de optimalisatie wordt voortgezet op basis van prestatie-evaluatie. Experimentele resultaten tonen aan dat APOLO consistent de diagnostische nauwkeurigheid en robuustheid verbetert across domeinspecifieke en gestratificeerde benchmarks. Dit demonstreert een schaalbaar en generaliseerbaar paradigma voor betrouwbare LLM-toepassingen in de geestelijke gezondheidszorg.
Recente op LLM's gebaseerde data-agents hebben als doel datawetenschapstaken te automatiseren, variërend van data-analyse tot deep learning. De open-eindige aard van real-world datawetenschapsproblemen, die vaak meerdere taxonomieën omvatten en geen standaardantwoorden hebben, vormt echter een grote uitdaging voor evaluatie. Om dit aan te pakken, introduceren we DSAEval, een benchmark bestaande uit 641 real-world datawetenschapsproblemen gebaseerd op 285 diverse datasets, die zowel gestructureerde als ongestructureerde data omvatten (bijvoorbeeld beeld en tekst). DSAEval bevat drie onderscheidende kenmerken: (1) Multimodale Omgevingsperceptie, waarmee agents observaties uit meerdere modaliteiten, waaronder tekst en beeld, kunnen interpreteren; (2) Multi-Query Interacties, die de iteratieve en cumulatieve aard van real-world datawetenschapsprojecten weerspiegelen; en (3) Multi-dimensionale Evaluatie, die een holistische beoordeling biedt over redenering, code en resultaten. We evalueren systematisch 11 geavanceerde agentische LLM's met behulp van DSAEval. Onze resultaten tonen aan dat Claude-Sonnet-4.5 de sterkste algehele prestaties bereikt, GPT-5.2 het meest efficiënt is, en MiMo-V2-Flash de beste prijs-kwaliteitverhouding heeft. We demonstreren verder dat multimodale perceptie consistent de prestaties op beeldgerelateerde taken verbetert, met winsten variërend van 2,04% tot 11,30%. Over het algemeen presteren huidige datawetenschapsagents goed op gestructureerde data en routine data-analyseworkflows, maar blijven er aanzienlijke uitdagingen bestaan in ongestructureerde domeinen. Tot slot bieden we kritische inzichten en schetsen we toekomstige onderzoeksrichtingen om de ontwikkeling van datawetenschapsagents te bevorderen.
Veel studenten hebben geen toegang tot begeleiding door ervaren onderzoeksexperts. Wij onderzoeken of een AI-mentor undergraduate-studenten van een idee naar een paper kan leiden. We ontwikkelden METIS, een tool-ondersteunde, fasebewuste assistent met literatuurzoekfunctie, samengestelde richtlijnen, methodologiechecks en geheugen. We evalueren METIS tegenover GPT-5 en Claude Sonnet 4.5 over zes schrijffasen heen, met behulp van LLM-as-a-judge paarsgewijze voorkeuren, rubrieken vanuit een studentenperspectief, korte meerronde tutoring, en checks op bewijs/naleving. Op 90 enkelronde prompts prefereerden LLM-beoordelaars METIS in 71% van de gevallen boven Claude Sonnet 4.5 en in 54% boven GPT-5. Studentenscores (helderheid/uitvoerbaarheid/aansluiting bij randvoorwaarden; 90 prompts x 3 beoordelaars) zijn over alle fasen hoger. In meerronde sessies (vijf scenario's per agent) levert METIS een licht hogere eindkwaliteit op dan GPT-5. De verbeteringen concentreren zich in document-gefundeerde fasen (D-F), wat consistent is met fasebewuste routering en onderbouwing. Faalmodi zijn onder meer voortijdige tool-routering, oppervlakkige onderbouwing en incidentele fase-misclassificatie.
Actief leren (AL) heeft het potentieel om de annotatiekosten voor 3D-biomedische beeldsegmentatie aanzienlijk te verlagen, aangezien het labelen van volumetrische data door experts tijdrovend en duur is. Toch slagen bestaande AL-methoden er niet in om consistent beter te presteren dan verbeterde, op 3D-data aangepaste, steekproefsgewijze basislijnen, waardoor het veld zonder een betrouwbare oplossing blijft zitten. Wij introduceren Class-stratified Scheduled Power Predictive Entropy (ClaSP PE), een eenvoudige en effectieve querystrategie die twee belangrijke beperkingen van standaard op onzekerheid gebaseerde AL-methoden aanpakt: klasse-onbalans en redundantie in vroege selecties. ClaSP PE combineert klasse-gestratificeerd bevragen om dekking van ondervertegenwoordigde structuren te garanderen, en logaritmische power-noising met een afnemend schema om querydiversiteit in de vroege AL-fase af te dwingen en exploitatie later aan te moedigen. In onze evaluatie in 24 experimentele settingen met vier 3D-biomedische datasets binnen de uitgebreide nnActive-benchmark, is ClaSP PE de enige methode die over het algemeen beter presteert dan de verbeterde steekproefsgewijze basislijnen, zowel in termen van segmentatiekwaliteit met statistisch significante winst, als qua annotatie-efficiëntie. Verder simuleren we de praktijktoepassing expliciet door onze methode te testen op vier niet eerder gezien datasets zonder handmatige aanpassing, waarbij alle experimentparameters worden ingesteld volgens vooraf gedefinieerde richtlijnen. De resultaten bevestigen dat ClaSP PE robuust generaliseert naar nieuwe taken zonder datasetspecifieke afstemming. Binnen het nnActive-framework presenteren we overtuigend bewijs dat een AL-methode consistent beter kan presteren dan op 3D-segmentatie aangepaste steekproefsgewijze basislijnen, zowel qua prestaties als annotatie-efficiëntie in een realistische, productie-achtijke scenario. Onze open-source-implementatie en duidelijke implementatierichtlijnen maken het direct toepasbaar in de praktijk. Code is beschikbaar op https://github.com/MIC-DKFZ/nnActive.