Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote taalmodellen (LLMs) zijn geëvolueerd naar agentische systemen die in staat zijn tot autonoom gereedschapsgebruik en meerstaps redeneren voor complexe probleemoplossing. Post-trainingsbenaderingen die voortbouwen op algemene basis-modellen presteren echter consistent slechter bij agentische taken, met name in open-source implementaties. Wij identificeren de oorzaak: het ontbreken van robuuste agentische basis-modellen dwingt modellen tijdens de post-training om tegelijkertijd diverse agentische gedragingen te leren en deze af te stemmen op expertdemonstraties, wat fundamentele optimalisatiespanningen creëert. Daarom zijn wij de eersten die het voorstel doen om Agentische Continue Pre-training (Agentic CPT) op te nemen in de trainingspijplijn van diepe onderzoeksagenten om krachtige agentische basis-modellen te bouwen. Op basis van deze benadering ontwikkelen wij een diep onderzoeksagent-model genaamd AgentFounder. Wij evalueren onze AgentFounder-30B op 10 benchmarks en behalen state-of-the-art prestaties terwijl het sterke gereedschapsgebruik behoudt, met name 39,9% op BrowseComp-en, 43,3% op BrowseComp-zh en 31,5% Pass@1 op HLE.
Dit artikel behandelt open-ended deep research (OEDR), een complexe uitdaging waarbij AI-agenten grootschalige informatie van het web moeten synthetiseren tot inzichtelijke rapporten. Huidige benaderingen kampen met tweeledige beperkingen: statische onderzoekspijplijnen die planning loskoppelen van het verzamelen van bewijs, en one-shot generatieparadigma's die gemakkelijk lijden onder lang-contextfouten zoals "verlies in het midden" en hallucinaties. Om deze uitdagingen aan te pakken, introduceren we WebWeaver, een nieuw dual-agent framework dat het menselijke onderzoeksproces nabootst. De planner opereert in een dynamische cyclus, waarbij het verzamelen van bewijs iteratief wordt afgewisseld met het optimaliseren van een overzicht om een uitgebreid, bron-gebaseerd overzicht te produceren dat is gekoppeld aan een geheugenbank van bewijs. De schrijver voert vervolgens een hiërarchisch ophaal- en schrijfproces uit, waarbij het rapport sectie voor sectie wordt samengesteld. Door gericht alleen het nodige bewijs uit de geheugenbank op te halen voor elk deel, worden lang-contextproblemen effectief gemitigeerd. Ons framework vestigt een nieuwe state-of-the-art op belangrijke OEDR benchmarks, waaronder DeepResearch Bench, DeepConsult en DeepResearchGym. Deze resultaten valideren onze mensgerichte, iteratieve methodologie, en tonen aan dat adaptieve planning en gerichte synthese cruciaal zijn voor het produceren van hoogwaardige, betrouwbare en goed gestructureerde rapporten.
Het overstijgen van menselijke cognitieve beperkingen vormt een cruciaal front in de training van LLM's. Propriëtaire agentische systemen zoals DeepResearch hebben bovenmenselijke prestaties getoond op extreem complexe informatiezoekbenchmarks zoals BrowseComp, een prestatie die voorheen onhaalbaar was. Wij stellen dat hun succes berust op een geavanceerd redeneerpatroon dat afwezig is in open-source modellen: het vermogen om extreme onzekerheid systematisch te verminderen bij het navigeren door uitgestrekte informatielandschappen. Op basis van dit inzicht introduceren we WebSailor, een complete post-trainingsmethodologie ontworpen om deze cruciale capaciteit in te bouwen. Onze aanpak omvat het genereren van nieuwe, hoog-onzekerheidstaken via gestructureerde steekproeven en informatieverduistering, RFT cold start, en een efficiënt agentisch RL-trainingsalgoritme, Duplicating Sampling Policy Optimization (DUPO). Met deze geïntegreerde pijplijn presteert WebSailor aanzienlijk beter dan alle open-source agents in complexe informatiezoektaken, waarbij het de prestaties van propriëtaire agents evenaart en de capaciteitskloof dicht.
Large Language Model (LLM)-gebaseerde webagents vertonen sterke prestaties op kennisintensieve taken, maar worden belemmerd door beperkingen in het contextvenster binnen paradigma's zoals ReAct. Complexe queries met meerdere entiteiten, verweven relaties en hoge onzekerheid vereisen uitgebreide zoekcycli die snel het contextbudget uitputten voordat volledige oplossingen worden bereikt. Om deze uitdaging te overwinnen, introduceren we ReSum, een nieuw paradigma dat onbeperkte exploratie mogelijk maakt door periodieke contextsamenvatting. ReSum zet groeiende interactiegeschiedenissen om in compacte redeneertoestanden, waardoor het bewustzijn van eerdere ontdekkingen behouden blijft terwijl contextbeperkingen worden omzeild. Voor paradigma-aanpassing stellen we ReSum-GRPO voor, dat GRPO integreert met gesegmenteerde trajecttraining en voordeeluitzending om agents vertrouwd te maken met samenvatting-gestuurd redeneren. Uitgebreide experimenten met webagents van verschillende schalen over drie benchmarks tonen aan dat ReSum een gemiddelde absolute verbetering van 4,5\% biedt ten opzichte van ReAct, met verdere winsten tot 8,2\% na ReSum-GRPO-training. Opmerkelijk is dat ons WebResummer-30B (een ReSum-GRPO-getrainde versie van WebSailor-30B) met slechts 1K trainingsamples een Pass@1 van 33,3\% behaalt op BrowseComp-zh en 18,3\% op BrowseComp-en, waarmee het bestaande open-source webagents overtreft.
Geavanceerde agentische intelligentie is een vereiste voor het inzetten van grote taalmodel(len) in praktische, real-world toepassingen. Diverse real-world API's vereisen precieze, robuuste functie-aanroepintelligentie, waarvoor agents deze capaciteiten moeten ontwikkelen door interactie in uiteenlopende omgevingen. De breedte van de functie-aanroepcompetentie hangt nauw samen met de diversiteit van de omgevingen waarin agents worden getraind. In dit werk schalen we omgevingen op als een stap richting het bevorderen van algemene agentische intelligentie. Dit leidt tot twee centrale uitdagingen: (i) hoe omgevingen op een principiële manier op te schalen, en (ii) hoe agentische capaciteiten effectief te trainen op basis van ervaringen die voortkomen uit interacties met deze omgevingen. Om deze uitdagingen aan te pakken, ontwerpen we een schaalbaar framework dat automatisch heterogene omgevingen construeert die volledig gesimuleerd zijn, waardoor de ruimte van functie-aanroepscenario's systematisch wordt verbreed. We passen verder een tweefasenstrategie voor agent-finetuning toe: eerst worden agents voorzien van fundamentele agentische capaciteiten, waarna ze worden gespecialiseerd voor domeinspecifieke contexten. Uitgebreide experimenten op agentische benchmarks, tau-bench, tau2-Bench en ACEBench, tonen aan dat ons getrainde model, AgentScaler, de functie-aanroepcapaciteit van modellen aanzienlijk verbetert.
Recente ontwikkelingen in diep-onderzoekssystemen hebben het potentieel aangetoond van AI-agenten om autonoom kennis te ontdekken en te synthetiseren uit externe bronnen. In dit artikel introduceren we WebResearcher, een nieuw raamwerk voor het bouwen van dergelijke agenten via twee belangrijke componenten: (1) WebResearcher, een iteratief diep-onderzoeksparadigma dat diep onderzoek herformuleert als een Markov-beslissingsproces, waarbij agenten periodiek bevindingen consolideren in evoluerende rapporten terwijl ze gefocuste werkruimtes behouden, waardoor de contextverstikking en ruisvervuiling die bestaande mono-contextuele benaderingen teisteren, worden overwonnen; en (2) WebFrontier, een schaalbare datasynthese-engine die hoogwaardige trainingsgegevens genereert door middel van tool-augmented complexiteitsescalatie, waardoor de systematische creatie van onderzoeks taken mogelijk wordt die de kloof tussen passieve kennisherinnering en actieve kennisconstructie overbruggen. Opmerkelijk is dat we vaststellen dat de trainingsgegevens uit ons paradigma de tool-gebruikscapaciteiten zelfs voor traditionele mono-contextuele methoden aanzienlijk verbeteren. Bovendien schaalt ons paradigma van nature door parallel denken, waardoor gelijktijdige multi-agent exploratie mogelijk wordt voor meer uitgebreide conclusies. Uitgebreide experimenten over 6 uitdagende benchmarks tonen aan dat WebResearcher state-of-the-art prestaties bereikt, en zelfs frontier propriëtaire systemen overtreft.
Het creëren van hoogwaardige 3D-assets, een hoeksteen van moderne gameontwikkeling, is lange tijd gekenmerkt door arbeidsintensieve en gespecialiseerde workflows. Dit artikel presenteert Hunyuan3D Studio, een end-to-end AI-gestuurd contentcreatieplatform dat is ontworpen om de gameproductiepijplijn te revolutioneren door het genereren van game-ready 3D-assets te automatiseren en te stroomlijnen. In de kern integreert Hunyuan3D Studio een reeks geavanceerde neurale modules (zoals Part-level 3D Generation, Polygon Generation, Semantic UV, etc.) in een samenhangend en gebruiksvriendelijk systeem. Dit geïntegreerde framework maakt het mogelijk om een enkel conceptbeeld of tekstuele beschrijving snel om te zetten in een volledig gerealiseerd, productieklaar 3D-model met geoptimaliseerde geometrie en hoogwaardige PBR-texturen. We tonen aan dat assets die door Hunyuan3D Studio worden gegenereerd niet alleen visueel overtuigend zijn, maar ook voldoen aan de strikte technische eisen van hedendaagse game-engines, waardoor de iteratietijd aanzienlijk wordt verkort en de drempel voor 3D-contentcreatie wordt verlaagd. Door een naadloze brug te bieden van creatieve intentie naar technisch asset, vertegenwoordigt Hunyuan3D Studio een significante sprong voorwaarts voor AI-ondersteunde workflows in gameontwikkeling en interactieve media.
We herzien policy-gradient optimalisatie voor Large Language Models (LLMs) vanuit een single-stream perspectief. Gangbare groep-gebaseerde methoden zoals GRPO verminderen variantie met on-the-fly baselines, maar lijden onder kritieke tekortkomingen: frequente gedegenereerde groepen wissen leer signalen, en synchronisatie barrières belemmeren schaalbaarheid. We introduceren Single-stream Policy Optimization (SPO), dat deze problemen bij ontwerp elimineert. SPO vervangt per-groep baselines met een persistente, KL-adaptieve waardetracker en normaliseert voordelen globaal over de batch, wat een stabiel, laag-variantie leersignaal biedt voor elk sample. Doordat het groep-vrij is, stelt SPO hogere doorvoer in staat en schaalt het effectief in lange-horizon of tool-geïntegreerde instellingen waar generatietijden variëren. Bovendien maakt de persistente waardetracker van nature een adaptief curriculum mogelijk via geprioriteerde sampling. Experimenten met Qwen3-8B tonen aan dat SPO soepeler convergeert en hogere nauwkeurigheid bereikt dan GRPO, terwijl het verspilde berekeningen op gedegenereerde groepen elimineert. Ablatiestudies bevestigen dat de winsten van SPO voortkomen uit zijn principiële aanpak van baseline schatting en voordeel normalisatie, wat een robuuster en efficiënter pad biedt voor LLM redenering. Over vijf uitdagende wiskunde benchmarks met Qwen3 8B, verbetert SPO de gemiddelde maj@32 met +3.4 procentpunten (pp) ten opzichte van GRPO, aangedreven door substantiële absolute puntwinsten op uitdagende datasets, waaronder +7.3 pp op BRUMO 25, +4.4 pp op AIME 25, +3.3 pp op HMMT 25, en behaalt consistente relatieve winst in pass@k over de geëvalueerde k waarden. Het succes van SPO daagt de heersende trend uit om incidentele complexiteit toe te voegen aan RL algoritmen, en benadrukt een pad waar fundamentele principes, niet architecturale omwegen, de volgende golf van vooruitgang in LLM redenering aandrijven.
We presenteren Spatial Region 3D (SR-3D), een vision-language model dat enkelvoudige 2D-beelden en multi-view 3D-data verbindt via een gedeelde visuele tokenruimte. SR-3D ondersteunt flexibele region prompting, waardoor gebruikers regio's kunnen annoteren met begrenzingsvakken, segmentatiemaskers op elk frame, of direct in 3D, zonder de noodzaak van uitgebreide multi-frame labeling. We bereiken dit door 2D-visuele kenmerken te verrijken met 3D-positionele embeddings, waardoor het 3D-model kan putten uit sterke 2D-priors voor nauwkeurigere ruimtelijke redenering over frames, zelfs wanneer objecten van interesse niet gelijktijdig in hetzelfde beeld voorkomen. Uitgebreide experimenten op zowel algemene 2D vision-language als gespecialiseerde 3D ruimtelijke benchmarks demonstreren dat SR-3D state-of-the-art prestaties behaalt, wat de effectiviteit onderstreept voor het verenigen van 2D- en 3D-representatieruimte bij scenebegrip. Bovendien observeren we toepasbaarheid op in-the-wild video's zonder sensorgegevens van 3D-inputs of grondwaarheid 3D-annotaties, waarbij SR-3D nauwkeurig ruimtelijke relaties en metrische metingen afleidt.
Grote Taalmodellen (LLMs) hebben recentelijk het veld van Automatisch Theorema Bewijzen (ATP) vooruitgebracht, waarbij aanzienlijke prestatieverbeteringen zijn behaald door veelgebruikte schaalstrategieën tijdens het testen, met name reflectieve Chain-of-Thought (CoT) redenering en een verhoogd aantal sampling passes. Beide methoden introduceren echter aanzienlijke rekenkundige overhead voor inferentie. Bovendien reguleren bestaande kostenanalyses doorgaans alleen het aantal sampling passes, terwijl de aanzienlijke verschillen in samplingkosten die door verschillende schaalstrategieën worden geïntroduceerd, worden verwaarloosd. In dit artikel vergelijken we systematisch de efficiëntie van verschillende schaalstrategieën tijdens het testen voor ATP-modellen en tonen we de inefficiëntie aan van de huidige state-of-the-art (SOTA) open-source benaderingen. Vervolgens onderzoeken we benaderingen om het tokengebruik en het aantal sampling passes aanzienlijk te verminderen terwijl de oorspronkelijke prestaties behouden blijven. Specifiek stellen we twee complementaire methoden voor die kunnen worden geïntegreerd in een uniforme EconRL-pipeline voor versterkte voordelen: (1) een dynamisch Chain-of-Thought (CoT) schakelmechanisme ontworpen om onnodig tokenverbruik te verminderen, en (2) Diverse parallel-geschaalde reinforcement learning (RL) met trainbare prefixen om de slaagpercentages te verbeteren onder beperkte sampling passes. Experimenten op miniF2F en ProofNet demonstreren dat onze EconProver vergelijkbare prestaties behaalt als baseline-methoden met slechts 12% van de rekenkundige kosten. Dit werk biedt praktische inzichten voor het implementeren van lichtgewicht ATP-modellen zonder in te leveren op prestaties.
Mensen zijn opmerkelijk data-efficiënt wanneer ze zich aanpassen aan nieuwe, onbekende omstandigheden, zoals het besturen van een nieuwe auto. Moderne robotbesturingssystemen, zoals neurale netwerkbeleidsregels die zijn getraind met Reinforcement Learning (RL), zijn daarentegen sterk gespecialiseerd voor individuele omgevingen. Door deze overfitting is bekend dat ze zelfs bij kleine verschillen, zoals de Simulation-to-Reality (Sim2Real)-kloof, falen en dat ze systeemidentificatie en hertraining vereisen, zelfs bij minimale wijzigingen aan het systeem. In dit werk presenteren we RAPTOR, een methode voor het trainen van een zeer adaptief basisbeleid voor quadrotor-besturing. Onze methode maakt het mogelijk om een enkel, end-to-end neuraal netwerkbeleid te trainen om een breed scala aan quadrotors te besturen. We testen 10 verschillende echte quadrotors van 32 g tot 2,4 kg die ook verschillen in motortype (geborsteld vs. borstelloos), frametype (zacht vs. stijf), propeller type (2/3/4-blad) en vluchtcontroller (PX4/Betaflight/Crazyflie/M5StampFly). We ontdekken dat een klein, drie-lagen beleid met slechts 2084 parameters voldoende is voor zero-shot aanpassing aan een breed scala aan platforms. De aanpassing via In-Context Learning wordt mogelijk gemaakt door het gebruik van een herhaling in de verborgen laag. Het beleid wordt getraind via een nieuw Meta-Imitation Learning-algoritme, waarbij we 1000 quadrotors bemonsteren en voor elk daarvan een leraarbeleid trainen met Reinforcement Learning. Vervolgens worden de 1000 leraren gedistilleerd in een enkel, adaptief studentenbeleid. We ontdekken dat het resulterende basisbeleid binnen milliseconden zero-shot aanpast aan onbekende quadrotors. We testen uitgebreid de mogelijkheden van het basisbeleid onder talrijke omstandigheden (trajectvolging, binnen/buiten, windverstoring, aanraking, verschillende propellers).
Multimodale redenering blijft een fundamentele uitdaging in kunstmatige intelligentie. Ondanks aanzienlijke vooruitgang in tekstgebaseerd redeneren, hebben zelfs state-of-the-art modellen zoals GPT-3 moeite om sterke prestaties te behouden in multimodale scenario's. Om deze kloof te overbruggen, introduceren we een raamwerk voor bijschrift-ondersteund redeneren dat visuele en tekstuele modaliteiten effectief verbindt. Onze aanpak behaalde de eerste plaats in de ICML 2025 AI for Math Workshop & Challenge 2: SeePhys, wat de effectiviteit en robuustheid ervan benadrukt. Bovendien valideren we de generalisatie ervan op de MathVerse-benchmark voor geometrisch redeneren, wat de veelzijdigheid van onze methode aantoont. Onze code is publiekelijk beschikbaar op https://github.com/OpenDCAI/SciReasoner.
We presenteren Stable Part Diffusion 4D (SP4D), een raamwerk voor het genereren van gepaarde RGB- en kinematische onderdeelvideo's vanuit monoscopische invoer. In tegenstelling tot conventionele onderdeelsegmentatiemethoden die vertrouwen op op uiterlijk gebaseerde semantische aanwijzingen, leert SP4D kinematische onderdelen te produceren - structurele componenten die zijn uitgelijnd met objectarticulatie en consistent zijn over verschillende aanzichten en tijd. SP4D maakt gebruik van een dual-branch diffusiemodel dat gezamenlijk RGB-frames en bijbehorende onderdeelsegmentatiekaarten synthetiseert. Om de architectuur te vereenvoudigen en flexibel verschillende aantallen onderdelen mogelijk te maken, introduceren we een ruimtelijk kleurencoderingsschema dat onderdeelmaskers afbeeldt op continue RGB-achtige afbeeldingen. Deze codering stelt de segmentatietak in staat om de latente VAE van de RGB-tak te delen, terwijl onderdeelsegmentatie via eenvoudige nabewerking kan worden hersteld. Een Bidirectional Diffusion Fusion (BiDiFuse)-module verbetert de consistentie tussen de takken, ondersteund door een contrastief onderdeelconsistentieverlies om ruimtelijke en temporele uitlijning van onderdeelvoorspellingen te bevorderen. We tonen aan dat de gegenereerde 2D-onderdeelkaarten naar 3D kunnen worden getransformeerd om skeletstructuren en harmonische skinning-gewichten af te leiden met weinig handmatige aanpassingen. Om SP4D te trainen en evalueren, hebben we KinematicParts20K samengesteld, een gecureerde dataset van meer dan 20K gerigde objecten geselecteerd en verwerkt uit Objaverse XL (Deitke et al., 2023), elk gepaard met multi-view RGB- en onderdeelvideosequenties. Experimenten tonen aan dat SP4D sterk generaliseert naar diverse scenario's, waaronder real-world video's, nieuw gegenereerde objecten en zeldzame gearticuleerde poses, waarbij kinematisch bewuste uitvoer wordt geproduceerd die geschikt is voor downstream animatie- en beweginggerelateerde taken.
Onlangs hebben Multimodale Grote Taalmodellen (MLLMs) aanzienlijke aandacht gekregen in verschillende domeinen. Hun brede adoptie heeft echter ook ernstige veiligheidszorgen doen rijzen. In dit artikel onthullen we een nieuw veiligheidsrisico van MLLMs: de uitvoerpreferentie van MLLMs kan willekeurig worden gemanipuleerd door zorgvuldig geoptimaliseerde afbeeldingen. Dergelijke aanvallen genereren vaak contextueel relevante maar bevooroordeelde reacties die noch expliciet schadelijk noch onethisch zijn, waardoor ze moeilijk te detecteren zijn. Specifiek introduceren we een nieuwe methode, Preference Hijacking (Phi), om de responspreferenties van MLLMs te manipuleren met behulp van een voorkeursgekaapte afbeelding. Onze methode werkt tijdens de inferentiefase en vereist geen aanpassingen aan het model. Daarnaast introduceren we een universele kaapperturbatie – een overdraagbaar component dat in verschillende afbeeldingen kan worden ingebed om MLLM-reacties te kapen naar door de aanvaller gespecificeerde voorkeuren. Experimentele resultaten over verschillende taken tonen de effectiviteit van onze aanpak aan. De code voor Phi is toegankelijk op https://github.com/Yifan-Lan/Phi.
We introduceren een nieuwe trainingsmethodologie genaamd zELO, die de retrievalscore optimaliseert via de analyse dat rankingtaken statisch equivalent zijn aan een Thurstone-model. Op basis van de zELO-methode gebruiken we ongelabelde data om een reeks state-of-the-art open-weight herrankingsmodellen te trainen: zerank-1 en zerank-1-small. Deze modellen behalen de hoogste retrievalscores in meerdere domeinen, waaronder financiën, juridisch, code en STEM, en overtreffen gesloten, propriëtaire herrankers op zowel NDCG@10 als Recall. Deze modellen tonen ook grote veelzijdigheid door hun 0-shot prestaties te behouden op domein-externe en private klantdatasets. De trainingsdata bestond uit 112.000 queries en 100 documenten per query, en werd end-to-end getraind vanaf niet-geannoteerde queries en documenten in minder dan 10.000 H100-uren.
We geven een eenvoudige, volledig correcte en aanname-arme vervanging voor de betwiste "domein-extensie" in Stap 9 van een recent windowed-QFT roosteralgoritme met complex-Gaussiaanse vensters~chen2024quantum. De gepubliceerde Stap~9 lijdt onder een periodiciteit/ondersteuningsmismatch. We presenteren een paar-verschilconstructie die alle onbekende offsets coherent opheft, een exacte uniforme CRT-coset toestand produceert over Z_{P}, en vervolgens de QFT gebruikt om de beoogde modulaire lineaire relatie af te dwingen. De unitaire transformatie is omkeerbaar, gebruikt poly(log M_2) poorten, en behoudt de asymptotiek van het algoritme. Projectpagina: https://github.com/yifanzhang-pro/quantum-lattice.
Recente vooruitgang in compressie van Large Language Models (LLM's), zoals kwantisering en pruning, heeft aanzienlijk succes geboekt. Naarmate deze technieken echter geleidelijk hun respectievelijke grenzen naderen, is het steeds uitdagender geworden om te vertrouwen op een enkele methode voor verdere compressie. In dit werk verkennen we een alternatieve oplossing door kwantisering en sparsity te combineren. Deze gezamenlijke aanpak, hoewel veelbelovend, introduceert nieuwe moeilijkheden vanwege de inherent tegenstrijdige vereisten voor gewichtsverdelingen: kwantisering heeft baat bij compacte bereiken, terwijl pruning profiteert van hoge variantie. Om dit probleem aan te pakken, stellen we Optimal Brain Restoration (OBR) voor, een algemeen en trainingsvrij raamwerk dat pruning en kwantisering uitlijnt door middel van foutcompensatie tussen beide. OBR minimaliseert prestatieverlies bij downstream taken door voort te bouwen op een tweede-orde Hessiaan-doelstelling, die vervolgens wordt hervormd tot een behapbaar probleem via surrogaatbenadering en uiteindelijk een gesloten-vorm oplossing bereikt via groepsfoutcompensatie. Experimenten tonen aan dat OBR agressieve W4A4KV4-kwantisering met 50% sparsity mogelijk maakt op bestaande LLM's, en tot 4,72x versnelling en 6,4x geheugenreductie oplevert in vergelijking met de FP16-dense baseline.
Continuümrobots verbeteren bronchoscopieprocedures door toegang te bieden tot complexe longluchtwegen en gerichte interventies mogelijk te maken. Hun ontwikkeling wordt echter beperkt door het gebrek aan realistische trainings- en testomgevingen: het verzamelen van echte data is moeilijk vanwege ethische beperkingen en zorgen over patiëntveiligheid, en het ontwikkelen van autonomie-algoritmen vereist realistische beeldvorming en fysieke feedback. Wij presenteren ROOM (Realistic Optical Observation in Medicine), een uitgebreid simulatiekader ontworpen voor het genereren van fotorealistische trainingsdata voor bronchoscopie. Door gebruik te maken van patiënt-CT-scans, produceert onze pipeline multi-modale sensordata, waaronder RGB-beelden met realistische ruis en lichtreflecties, metrische dieptekaarten, oppervlaktenormalen, optische stroming en puntenwolken op medisch relevante schalen. We valideren de door ROOM gegenereerde data in twee standaardtaken voor medische robotica – multi-view pose-estimatie en monoculaire diepte-estimatie – en tonen diverse uitdagingen aan die state-of-the-art methoden moeten overwinnen om naar deze medische settings over te dragen. Bovendien laten we zien dat de door ROOM geproduceerde data gebruikt kan worden om bestaande diepte-estimatiemodellen te fine-tunen om deze uitdagingen te overwinnen, wat ook andere downstream-toepassingen zoals navigatie mogelijk maakt. We verwachten dat ROOM grootschalige datageneratie mogelijk maakt over diverse patiëntanatomieën en procedurele scenario's die moeilijk vast te leggen zijn in klinische settings. Code en data: https://github.com/iamsalvatore/room.
Het digitaliseren van pathologische afbeeldingen naar gigapixel Whole Slide Images (WSI's) heeft nieuwe mogelijkheden geopend voor Computational Pathology (CPath). Omdat positief weefsel slechts een klein deel uitmaakt van gigapixel WSI's, richten bestaande Multiple Instance Learning (MIL) methoden zich doorgaans op het identificeren van opvallende instanties via aandachtmechanismen. Dit leidt echter tot een vooroordeel ten gunste van gemakkelijk te classificeren instanties, terwijl uitdagende instanties worden verwaarloosd. Recente studies hebben aangetoond dat moeilijke voorbeelden cruciaal zijn voor het nauwkeurig modelleren van discriminerende grenzen. Door dit idee toe te passen op instantieniveau, ontwikkelen we een nieuw MIL-framework met gemaskeerde harde instantie-mining (MHIM-MIL), dat een Siamese structuur met een consistentiebeperking gebruikt om de moeilijke instanties te verkennen. Met behulp van een klassebewuste instantiekans gebruikt MHIM-MIL een momentumleraar om opvallende instanties te maskeren en impliciet moeilijke instanties te minen voor het trainen van het studentmodel. Om diverse, niet-redundante moeilijke instanties te verkrijgen, passen we grootschalige willekeurige masking toe terwijl we een globaal recyclenetwerk gebruiken om het risico van het verliezen van belangrijke kenmerken te beperken. Bovendien werkt de student de leraar bij met een exponentieel voortschrijdend gemiddelde, wat nieuwe moeilijke instanties identificeert voor volgende trainingsiteraties en de optimalisatie stabiliseert. Experimentele resultaten op taken voor kankerdiagnose, subtypering, overlevingsanalyse en 12 benchmarks tonen aan dat MHIM-MIL de nieuwste methoden overtreft in zowel prestaties als efficiëntie. De code is beschikbaar op: https://github.com/DearCaat/MHIM-MIL.
Differentieel private (DP) synthetische datageneratie is een veelbelovende techniek voor het benutten van privé-datasets die anders niet beschikbaar kunnen worden gesteld voor modeltraining of andere analyses. Hoewel veel onderzoeksliteratuur zich heeft gericht op het genereren van private ongestructureerde tekst- en beeldgegevens, is gestructureerde data (bijv. tabelvormig) in bedrijfsomgevingen gebruikelijker, vaak inclusief natuurlijke taalvelden of -componenten. Bestaande technieken voor het evalueren van synthetische data (bijv. FID) hebben moeite om de structurele eigenschappen en correlaties van dergelijke datasets vast te leggen. In dit werk stellen we Struct-Bench voor, een raamwerk en benchmark voor het evalueren van synthetische datasets afgeleid van gestructureerde datasets die natuurlijke taalgegevens bevatten. Het Struct-Bench-raamwerk vereist dat gebruikers een representatie van hun datasetstructuur opgeven als een contextvrije grammatica (CFG). Onze benchmark omvat 5 real-world en 2 synthetisch gegenereerde datasets, elk geannoteerd met CFG's. We laten zien dat deze datasets een aanzienlijke uitdaging vormen, zelfs voor state-of-the-art DP-methoden voor synthetische datageneratie. Struct-Bench omvat ook referentie-implementaties van verschillende metrieken en een leaderboard, waardoor onderzoekers een gestandaardiseerd evaluatieplatform krijgen om privacy-beschermende methoden voor synthetische datageneratie te benchmarken en te onderzoeken. Daarnaast presenteren we ook een casestudy die laat zien hoe Struct-Bench kan worden gebruikt om de kwaliteit van synthetische data van Private Evolution (PE) op gestructureerde data te verbeteren. De benchmark en de leaderboard zijn openbaar beschikbaar gemaakt op https://struct-bench.github.io.
Automatische differentiatie via digitale signaalverwerkingsalgoritmen voor virtuele analoge modellering heeft recentelijk aan populariteit gewonnen. Deze algoritmen zijn doorgaans computationeel efficiënter dan black-box neurale netwerken die afhankelijk zijn van dichte matrixvermenigvuldigingen. Vanwege hun differentieerbare aard kunnen ze worden geïntegreerd met neurale netwerken en gezamenlijk worden getraind met behulp van gradient descent-algoritmen, wat resulteert in efficiëntere systemen. Bovendien hebben signaalverwerkingsalgoritmen aanzienlijk minder parameters dan neurale netwerken, waardoor de toepassing van de Newton-Raphson-methode mogelijk wordt. Deze methode biedt snellere en robuustere convergentie dan gradient descent, ten koste van kwadratische opslag. Dit artikel presenteert een methode om analoge leveling-versterkers na te bootsen met behulp van een feed-forward digitale compressor waarvan de parameters zijn geoptimaliseerd via de Newton-Raphson-methode. We demonstreren dat een digitale compressor het gedrag van onze doelunit, de Teletronix LA-2A, succesvol kan benaderen. Verschillende strategieën voor het berekenen van de Hessiaan-matrix worden vergeleken. We maken gebruik van parallelle algoritmen voor recursieve filters om efficiënte training op moderne GPU's te bereiken. Het resulterende model is omgezet in een VST-plugin en is open-source beschikbaar op https://github.com/aim-qmul/4a2a.