Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Egomorfe perceptie stelt mensen in staat om de wereld rechtstreeks vanuit hun eigen gezichtspunt te ervaren en te begrijpen. Het vertalen van exocentrische (derdepersoons) video's naar egocentrische (eerstepersoons) video's opent nieuwe mogelijkheden voor immersief begrip, maar blijft zeer uitdagend door extreme variaties in camerapositie en minimale overlap in beeld. Deze taak vereist het getrouw behouden van zichtbare inhoud terwijl onzichtbare regio's op een geometrisch consistente manier worden gesynthetiseerd. Om dit te bereiken, presenteren we EgoX, een nieuw raamwerk voor het genereren van egocentrische video's vanuit een enkele exocentrische input. EgoX benut de voorgetrainde spatiotemporele kennis van grootschalige videodiffusiemodellen via lichtgewicht LoRA-aanpassing en introduceert een uniforme conditioneringsstrategie die exocentrische en egocentrische priors combineert middels breedte- en kanaalsgewijze concatenatie. Daarnaast selecteert een geometrie-gestuurd zelf-attentiemechanisme selectief ruimtelijk relevante regio's, waardoor geometrische coherentie en hoge visuele kwaliteit worden gewaarborgd. Onze aanpak bereikt samenhangende en realistische egocentrische videogeneratie en toont tegelijkertijd sterke schaalbaarheid en robuustheid bij onbekende en in-the-wild video's.
Betrouwbare interpretatie van multimodale gegevens in de tandheelkunde is essentieel voor geautomatiseerde mondzorg, maar huidige multimodale large language models (MLLM's) slagen er onvoldoende in om fijnmazige tandheelkundige visuele details te vatten en missen de nodige redeneervaardigheid voor een nauwkeurige diagnose. Om deze beperkingen aan te pakken, presenteren wij DentalGPT, een gespecialiseerde tandheelkundige MLLM die is ontwikkeld door middel van hoogwaardige injectie van domeinkennis en reinforcement learning. Concreet werd de grootste tot dusver geannoteerde multimodale dataset voor tandheelkunde samengesteld door meer dan 120.000 tandheelkundige afbeeldingen te verzamelen, gekoppeld aan gedetailleerde beschrijvingen die diagnostisch relevante visuele kenmerken benadrukken. Dit maakt het de multimodale dataset met de meest uitgebreide collectie tandheelkundige afbeeldingen tot op heden. Training op deze dataset verbetert het visuele begrip van de MLLM voor tandheelkundige aandoeningen aanzienlijk, terwijl de daaropvolgende reinforcement learning-fase zijn vermogen voor multimodale complexe redenering verder versterkt. Uitgebreide evaluaties op intra-orale en panoramische benchmarks, samen met tandheelkundige subsets van medische VQA-benchmarks, tonen aan dat DentalGPT superieure prestaties levert bij ziekteclassificatie- en tandheelkundige VQA-taken. Het presteert beter dan veel state-of-the-art MLLM's, ondanks dat het slechts 7B parameters heeft. Deze resultaten tonen aan dat hoogwaardige tandheelkundige gegevens gecombineerd met gefaseerde aanpassing een effectieve weg bieden voor het bouwen van capabele en domeingespecialiseerde tandheelkundige MLLM's.
Visuele generatie gebaseerd op representaties van Visuele Fundamentmodellen (VFM's) biedt een veelbelovend uniform raamwerk voor het integreren van visueel begrip, perceptie en generatie. Ondanks dit potentieel blijft de training van grootschalige tekst-naar-beeld diffusiemodellen volledig binnen de VFM-representatieruimte grotendeels onontgonnen. Om deze kloof te overbruggen, schalen we het SVG-raamwerk (Zelf-gesuperviseerde representaties voor Visuele Generatie) op en stellen we SVG-T2I voor om hoogwaardige tekst-naar-beeldsynthese rechtstreeks in het VFM-domein mogelijk te maken. Door gebruik te maken van een standaard tekst-naar-beeld diffusiepijplijn bereikt SVG-T2I competitieve prestaties, met een score van 0.75 op GenEval en 85.78 op DPG-Bench. Deze prestaties valideren de intrinsieke representatiekracht van VFM's voor generatieve taken. We stellen het project volledig open-source, inclusief de auto-encoder en het generatiemodel, samen met hun trainings-, inferentie- en evaluatiepijplijnen en vooraf getrainde gewichten, om verder onderzoek in representatie-gedreven visuele generatie te faciliteren.
Grootschalige videogeneratiemodellen hebben een opmerkelijk potentieel getoond in het modelleren van fotorealistisch uiterlijk en lichtinteracties in realistische scènes. Een gesloten kader dat intrinsieke scèneeigenschappen (zoals albedo, normalen, materiaal en irradiantie) gezamenlijk begrijpt, benut voor videosynthese en bewerkbare intrinsieke representaties ondersteunt, blijft echter onontgonnen. Wij presenteren V-RGBX, het eerste end-to-end kader voor intrinsiek-bewuste videobewerking. V-RGBX verenigt drie kerneigenschappen: (1) inverse rendering van video naar intrinsieke kanalen, (2) fotorealistische videosynthese vanuit deze intrinsieke representaties, en (3) op keyframes gebaseerde videobewerking geconditioneerd op intrinsieke kanalen. De kern van V-RGBX is een vervlochten conditioneringsmechanisme dat intuïtieve, fysiek onderbouwde videobewerking mogelijk maakt via door de gebruiker geselecteerde keyframes, met ondersteuning voor flexibele manipulatie van elke intrinsieke modaliteit. Uitgebreide kwalitatieve en kwantitatieve resultaten tonen aan dat V-RGBX temporeel consistente, fotorealistische video's produceert terwijl keyframe-bewerkingen op een fysiek plausibele manier door sequenties worden gepropageerd. Wij demonstreren de effectiviteit ervan in diverse toepassingen, waaronder object-uiterlijk-bewerking en scène-niveau herbelichting, waarbij de prestaties van eerdere methoden worden overtroffen.
Huidige op diffusie gebaseerde modellen voor portretanimatie richten zich voornamelijk op het verbeteren van de visuele kwaliteit en expressie-realisme, waarbij de generatielatentie en realtime prestaties worden veronachtzaamd. Dit beperkt hun toepassingsbereik in live-streamingscenario's. Wij presenteren PersonaLive, een nieuw op diffusie gebaseerd raamwerk voor realtime portretanimatie tijdens streamen, met multi-fase trainingsrecepten. Concreet hanteren we eerst hybride impliciete signalen, namelijk impliciete gelaatsrepresentaties en 3D-impliciete keypoints, om expressieve beeldniveau-bewegingscontrole te bereiken. Vervolgens wordt een strategie voor appearance-distillatie met minder stappen voorgesteld om redundantie in het denoisingsproces te elimineren, wat de inferentie-efficiëntie aanzienlijk verbetert. Ten slotte introduceren we een autoregressief micro-chunk streaming-generatieparadigma, uitgerust met een glijdende trainingsstrategie en een historisch keyframe-mechanisme, om langetermijnvideogeneratie met lage latentie en stabiliteit mogelijk te maken. Uitgebreide experimenten tonen aan dat PersonaLive state-of-the-art prestaties levert met een versnelling tot 7-22x ten opzichte van eerdere op diffusie gebaseerde portretanimatiemodellen.
Het zelf-attentiemechanisme in Transformer-gebaseerde Large Language Models (LLM's) schaalt kwadratisch met de invoerlengte, waardoor inferentie met lange contexten kostbaar is. Schuifvenster-attentie (SWA) reduceert deze kosten tot lineaire complexiteit, maar het naïef inschakelen van volledige SWA tijdens inferentie voor modellen die zijn voorgetraind met volledige attentie (FA) leidt tot ernstige prestatievermindering bij lange contexten vanwege een mismatch tussen training en inferentie. Dit doet ons afvragen: Kunnen FA-voorgetrainde LLM's goed worden aangepast aan SWA zonder hertraining? Wij onderzoeken dit door Sliding Window Attention Adaptation (SWAA) voor te stellen, een set praktische methoden die vijf technieken combineert voor betere adaptatie: (1) SWA alleen toepassen tijdens prefilling; (2) behoud van "sink"-tokens; (3) interleaving van FA/SWA-lagen; (4) chain-of-thought (CoT); en (5) fine-tuning. Onze experimenten tonen aan dat SWA-adaptatie haalbaar maar niet triviaal is: geen enkele methode volstaat, maar specifieke synergetische combinaties herstellen effectief de oorspronkelijke prestaties bij lange contexten. Wij analyseren verder de prestatie-efficiëntieafwegingen van verschillende SWAA-configuraties en bieden aanbevolen methoden voor diverse scenario's. Onze code is beschikbaar op https://github.com/yuyijiong/sliding-window-attention-adaptation.
Multimodaal leren heeft het visuele begrip snel vooruitgeholpen, grotendeels dankzij multimodale grote-taalmmodellen (MLLM's) die krachtige LLM's als cognitieve kern gebruiken. In visuele generatie worden deze krachtige kernmodellen echter meestal gereduceerd tot globale tekstencoders voor diffusiemodellen, waardoor het grootste deel van hun redeneer- en planningsvermogen onbenut blijft. Dit creëert een kloof: huidige multimodale LLM's kunnen complexe lay-outs, attributen en kennisintensieve scènes ontleden, maar hebben moeite om afbeeldingen of video's te genereren met even precieze en gestructureerde controle. Wij stellen MetaCanvas voor, een lichtgewicht raamwerk dat MLLM's in staat stelt direct te redeneren en plannen in ruimtelijke en ruimtelijk-temporele latente ruimten en nauw aan te sluiten bij diffusiegeneratoren. We implementeren MetaCanvas empirisch op drie verschillende diffusie-backbones en evalueren het op zes taken, waaronder tekst-naar-beeldgeneratie, tekst/beeld-naar-videogeneratie, beeld/videobewerking en in-context videogeneratie, die elk precieze lay-outs, robuuste attribuutbinding en reasoning-intensieve controle vereisen. MetaCanvas presteert consistent beter dan baseline-methoden met globale conditionering, wat suggereert dat het behandelen van MLLM's als latent-space planners een veelbelovende richting is om de kloof tussen multimodaal begrip en generatie te verkleinen.
Primitief-gebaseerde splatting-methoden zoals 3D Gaussian Splatting hebben een revolutie teweeggebracht in de synthese van nieuwe gezichtspunten met real-time rendering. Hun op punten gebaseerde representaties blijven echter onverenigbaar met op meshes gebaseerde pipelines die AR/VR- en game-engines aandrijven. Wij presenteren MeshSplatting, een op meshes gebaseerde reconstructiebenadering die geometrie en uiterlijk gezamenlijk optimaliseert via differentieerbaar renderen. Door connectiviteit af te dwingen via restricted Delaunay-triangulatie en oppervlakteconsistentie te verfijnen, creëert MeshSplatting end-to-end vloeiende, visueel hoogwaardige meshes die efficiënt renderen in real-time 3D-engines. Op Mip-NeRF360 verbetert het de PSNR met +0,69 dB ten opzichte van de huidige state-of-the-art MiLo voor op meshes gebaseerde synthese van nieuwe gezichtspunten, terwijl het twee keer zo snel traint en twee keer minder geheugen gebruikt, waardoor een brug wordt geslagen tussen neurale rendering en interactieve 3D-graphics voor naadloze real-time scène-interactie. De projectpagina is beschikbaar op https://meshsplatting.github.io/.
De werkelijkheid is een dans tussen rigide beperkingen en vervormbare structuren. Voor videomodellen betekent dit het genereren van beweging die zowel de getrouwheid als de structuur behoudt. Ondanks vooruitgang in diffusiemodellen blijft het produceren van realistische, structuurbehoudende beweging een uitdaging, vooral voor gearticuleerde en vervormbare objecten zoals mensen en dieren. Het schalen van trainingsdata alleen heeft tot nu toe gefaald in het oplossen van fysisch ongeloofwaardige overgangen. Bestaande benaderingen steunen op conditionering met ruisgevoelige bewegingsrepresentaties, zoals optische stroming of skeletten geëxtraheerd met een extern, imperfect model. Om deze uitdagingen aan te pakken, introduceren we een algoritme om structuurbehoudende bewegingspriors te distilleren uit een autoregressief videotrackingmodel (SAM2) naar een bidirectioneel videodiffusiemodel (CogVideoX). Met onze methode trainen we SAM2VideoX, dat twee innovaties bevat: (1) een bidirectionele featurefusiemodule die globale structuurbehoudende bewegingspriors extraheert uit een recurrent model zoals SAM2; (2) een Local Gram Flow-verliesfunctie die uitlijnt hoe lokale features samen bewegen. Experimenten op VBench en in humane studies tonen aan dat SAM2VideoX consistente verbeteringen oplevert (+2,60% op VBench, 21-22% lagere FVD, en 71,4% menselijke voorkeur) ten opzichte van eerdere baseline-methoden. Specifiek behalen we op VBench 95,51%, wat REPA (92,91%) met 2,60% overtreft, en verlagen we de FVD naar 360,57, een verbetering van respectievelijk 21,20% en 22,46% ten opzichte van REPA- en LoRA-finetuning. De projectwebsite is te vinden op https://sam2videox.github.io/.
Wij presenteren LEO-RobotAgent, een algemeen taalgestuurd raamwerk voor intelligente robotagenten. Binnen dit raamwerk kunnen grote taalmodellen (LLM's) verschillende soorten robots aansturen om onvoorspelbare complexe taken in uiteenlopende scenario's uit te voeren. Dit raamwerk kenmerkt zich door sterke generalisatie, robuustheid en efficiëntie. Het hieromheen gebouwde toepassingssysteem kan het bidirectionele begrip van mens-robotintenties volledig verbeteren en de drempel voor mens-robotinteractie verlagen. Wat betreft robottaakplanning richten de meeste bestaande onderzoeken zich op de toepassing van grote modellen in scenario's met enkelvoudige taken en voor enkelvoudige robottypes. Deze algoritmen hebben vaak complexe structuren en missen generaliseerbaarheid. Daarom is het voorgestelde LEO-RobotAgent-raamwerk zo veel mogelijk met een gestroomlijnde structuur ontworpen, waardoor grote modellen zelfstandig kunnen denken, plannen en handelen binnen dit duidelijke kader. Wij bieden een modulaire en eenvoudig registreerbare toolset, waardoor grote modellen flexibel diverse tools kunnen aanroepen om aan verschillende eisen te voldoen. Tegelijkertijd integreert het raamwerk een mens-robotinteractiemechanisme, waardoor het algoritme kan samenwerken met mensen als een partner. Experimenten hebben bevestigd dat dit raamwerk eenvoudig kan worden aangepast aan mainstream robotplatforms, waaronder onbemande luchtvaartuigen (UAV's), robotarmen en wielrobots, en efficiënt diverse zorgvuldig ontworpen taken met verschillende complexiteitsniveaus kan uitvoeren. Onze code is beschikbaar op https://github.com/LegendLeoChen/LEO-RobotAgent.
Het pre-trainen van moderne grote taalmodellen vergt enorme rekenkracht en trainingsdata, waardoor de schaalgedragswetten van verschillende modellen een cruciale onderscheidende factor vormen. Discrete diffusietaalmodellen zijn voorgesteld als alternatief voor autoregressieve taalmodellen. Hun schaalgedrag is echter nog niet volledig onderzocht, waarbij eerder onderzoek suggereert dat ze meer data en rekenkracht nodig hebben om de prestaties van autoregressieve modellen te evenaren. Wij bestuderen het schaalgedrag van discrete diffusiemodellen bij verschillende ruistypen door soepel te interpoleren tussen gemaskeerde en uniforme diffusie, waarbij we nauwlettend aandacht besteden aan cruciale hyperparameters zoals batchgrootte en leersnelheid. Onze experimenten tonen aan dat het schaalgedrag van discrete diffusiemodellen sterk afhangt van het ruistype en aanzienlijk verschilt van autoregressieve modellen. Hoewel alle ruistypen convergeren naar vergelijkbare verlieswaarden bij rekengebonden schaling, ontdekken we dat uniforme diffusie meer parameters maar minder data vereist voor rekenzuinige training vergeleken met gemaskeerde diffusie. Dit maakt uniforme diffusie een veelbelovende kandidaat voor data-gebonden scenario's. We schalen ons uniforme diffusiemodel op tot 10B parameters getraind met 10^{22} FLOPs, waarbij we het voorspelde schaalgedrag bevestigen en het daarmee het grootste openbaar bekende uniforme diffusiemodel tot op heden maken.
Wij presenteren SHARP, een methode voor fotorealistische viewsynthese vanuit één enkele afbeelding. Gegeven een enkele foto, schat SHARP de parameters van een 3D Gaussische representatie van de weergegeven scène. Dit gebeurt in minder dan een seconde op een standaard GPU via één enkel voorwaarts pass door een neuraal netwerk. De 3D Gaussische representatie gegenereerd door SHARP kan vervolgens in realtime worden weergegeven, wat hoogwaardige fotorealistische beelden oplevert voor nabije camerastandpunten. De representatie is metrisch, met een absolute schaal, en ondersteunt metrische camerabewegingen. Experimentele resultaten tonen aan dat SHARP robuuste zero-shot generalisatie over datasets biedt. Het vestigt een nieuwe state-of-the-art op meerdere datasets, waarbij de LPIPS-score met 25-34% en de DISTS-score met 21-43% wordt verlaagd ten opzichte van het beste eerdere model, terwijl de synthetiseringstijd met drie grootteordes wordt verkort. Code en gewichten zijn beschikbaar op https://github.com/apple/ml-sharp.
Grote taalmodellen (LLM's) hebben een revolutie teweeggebracht in kunstmatige intelligentie, maar hun enorme geheugen- en rekenvereisten maken agressieve kwantisatie noodzakelijk, waardoor representaties steeds verder richting de theoretische limiet van één bit worden geduwd. Hoewel complexwaardige LLM's, zoals iFairy, een grotere kans bieden op representatie met weinig bits in vergelijking met reëelwaardige tegenhangers, vereisen zij training vanaf nul, waardoor het uitgebreide ecosysteem van vooraf getrainde reëelwaardige foundation-modellen niet benut kan worden. Hier presenteren we Fairy2i, een universeel raamwerk dat vooraf getrainde reëelwaardige lagen omzet in een equivalente wijd-lineaire complexe vorm, waardoor extreem lage-bits kwantisatie mogelijk is terwijl bestaande checkpoints worden hergebruikt. Door een verliesvrij wiskundig equivalent tussen reële en wijd-lineaire afbeeldingen aan te tonen, converteren we standaard Transformers naar het complexe domein en passen we een fasebewust kwantisatieschema toe met een zeer efficiënte codebook van vierdemachts eenheidswortels. Verder introduceren we een recursief residueel kwantisatiemechanisme dat iteratief de kwantisatiefout minimaliseert, waardoor inferentie kan verlopen via efficiënte vermenigvuldigingsvrije accumulatie. We tonen aan dat Fairy2i de prestaties van LLaMA-2 7B bij een effectieve 2-bits precisie herstelt tot niveaus die bijna vergelijkbaar zijn met full-precision basislijnen, waardoor state-of-the-art reëelwaardige binaire en ternaire kwantiseringsmethoden significant worden overtroffen. Dit werk overbrugt de kloof tussen de representatie-efficiëntie van complexwaardige rekenkunde en de praktische bruikbaarheid van vooraf getrainde modellen, en baant zo een nieuwe weg voor efficiënte inferentie op standaardhardware.
LLM-as-judge-evaluatie is de facto de standaard geworden voor het opschalen van modelbeoordeling, maar de praktijk is statistisch onjuist: ongecalibreerde scores kunnen voorkeuren omkeren, naïeve betrouwbaarheidsintervallen voor ongecalibreerde scores bereiken een dekking van bijna 0%, en importance-weighted schatters vallen samen onder beperkte overlap ondanks een hoge effectieve steekproefomvang (ESS). Wij introduceren Causal Judge Evaluation (CJE), een raamwerk dat alle drie de tekortkomingen verhelpt. Op n=4.961 Chatbot Arena-prompts (na filtering vanaf 5k) bereikt CJE 99% paarsgewijze rangschikkingsnauwkeurigheid bij volledige steekproefomvang (94% gemiddeld over configuraties), wat overeenkomt met de kwaliteit van een oracle, tegen 14x lagere kosten (voor het rangschikken van 5 beleidsregels) door een 16x goedkopere beoordelaar te kalibreren met slechts 5% oracle-labels (~250 labels). CJE combineert drie componenten: (i) AutoCal-R, beloningskalibratie via gemiddelde-behoudende isotone regressie; (ii) SIMCal-W, gewichtsstabilisatie via stacking van S-monotone kandidaten; en (iii) Oracle-Onzekerheidsbewuste (OUA) inferentie die kalibratieonzekerheid doorvoert in betrouwbaarheidsintervallen. Wij formaliseren de Coverage-Limited Efficiency (CLE) diagnostiek, die verklaart waarom IPS-stijl schatters falen zelfs wanneer ESS meer dan 90% bedraagt: de logger bezoekt zelden regio's waar doelbeleidsregels geconcentreerd zijn. Belangrijkste bevindingen: SNIPS keert rangschikkingen om zelfs met beloningskalibratie (38% paarsgewijs, negatieve Kendall's tau) door gewichtsinstabiliteit; gekalibreerde IPS blijft bijna willekeurig (47%) ondanks gewichtsstabilisatie, in overeenstemming met CLE; OUA verbetert de dekking van bijna 0% naar ~86% (Direct) en ~96% (gestapelde-DR), waar naïeve intervallen ernstig onder-dekken.
Wij presenteren Particulate, een feed-forward benadering die, uitgaande van een enkel statisch 3D-model van een alledaags object, direct alle attributen van de onderliggende gearticuleerde structuur afleidt, inclusief de 3D-onderdelen, de kinematische structuur en de bewegingsbeperkingen. De kern wordt gevormd door een transformernetwerk, de Part Articulation Transformer, dat een puntenwolk van het invoermodel verwerkt met een flexibele en schaalbare architectuur om alle bovengenoemde attributen te voorspellen met native ondersteuning voor meerdere gewrichten. Wij trainen het end-to-end netwerk op een diverse collectie gearticuleerde 3D-assets uit openbare datasets. Tijdens de inferentiefase vertaalt Particulate de feed-forward voorspelling van het netwerk naar het invoermodel, wat in seconden een volledig gearticuleerd 3D-model oplevert, aanzienlijk sneller dan eerdere benaderingen die per-object optimalisatie vereisen. Particulate kan de gearticuleerde structuur van door AI gegenereerde 3D-assets ook nauwkeurig afleiden, wat de volledige extractie van gearticuleerde 3D-objecten uit een enkele (echte of synthetische) afbeelding mogelijk maakt wanneer het wordt gecombineerd met een kant-en-klare image-to-3D generator. Wij introduceren verder een nieuwe uitdagende benchmark voor 3D-articulatieschatting, samengesteld uit hoogwaardige openbare 3D-assets, en herontwerpen het evaluatieprotocol om consistenter te zijn met menselijke voorkeuren. Kwantitatieve en kwalitatieve resultaten tonen aan dat Particulate state-of-the-art benaderingen significant overtreft.
Stereoscopische foundation-modellen bereiken sterke zero-shot generalisatie, maar blijven rekenkundig onhaalbaar voor realtime toepassingen. Efficiënte stereoscopische architecturen offeren daarentegen robuustheid op voor snelheid en vereisen kostbare per-domein fine-tuning. Om deze kloof te overbruggen, presenteren we Fast-FoundationStereo, een familie van architecturen die voor het eerst sterke zero-shot generalisatie bereiken met een realtime framesnelheid. We hanteren een verdeel-en-heers versnellingsstrategie met drie componenten: (1) knowledge distillation om de hybride backbone te comprimeren tot een enkele efficiënte student; (2) bloksgewijze neurale architectuurzoektocht voor het automatisch ontdekken van optimale kostfilterontwerpen binnen latentiebudgetten, waarbij de zoekcomplexiteit exponentieel wordt gereduceerd; en (3) gestructureerd snoeien om redundantie in de iteratieve verfijningsmodule te elimineren. Verder introduceren we een automatische pseudo-labelingpijplijn waarmee 1,4 miljoen stereo-paren uit praktijkomgevingen worden samengesteld om synthetische trainingsdata aan te vullen en knowledge distillation te vergemakkelijken. Het resulterende model kan meer dan 10x sneller draaien dan FoundationStereo terwijl het de zero-shot nauwkeurigheid dicht benadert, waarmee een nieuwe state-of-the-art wordt gevestigd onder realtime methoden. Projectpagina: https://nvlabs.github.io/Fast-FoundationStereo/
Wij presenteren een visie-actiebeleid dat de eerste plaats behaalde in de BEHAVIOR Challenge van 2025 – een grootschalige benchmark met 50 uiteenlopende huishoudelijke taken met een lange tijdsduur in een fotorealistische simulatie, waarvoor bimanuele manipulatie, navigatie en contextbewuste besluitvorming vereist zijn. Voortbouwend op de Pi0.5-architectuur introduceren wij verschillende innovaties. Onze primaire bijdrage is gecorreleerde ruis voor flow matching, wat de trainings efficiëntie verbetert en correlatiebewuste inpainting mogelijk maakt voor vloeiende actiesequenties. Tevens passen wij leerbare mixed-layer aandacht en System 2 stadiums tracking toe voor het oplossen van ambiguïteit. De training maakt gebruik van multi-sample flow matching om variantie te verminderen, terwijl voor inferentie actiecompressie en challengespecifieke correctieregels worden gebruikt. Onze aanpak behaalt een q-score van 26% over alle 50 taken op zowel de publieke als de private leaderboards.
De integratie van taalmodel(len) (TM's) in gezondheidszorgsystemen biedt grote mogelijkheden voor het verbeteren van medische workflows en besluitvorming. Een kritieke belemmering voor hun adoptie in de praktijk is echter het gebrek aan betrouwbare evaluatie van hun vertrouwenswaardigheid, vooral in meertalige gezondheidszorgomgevingen. Bestaande TM's worden voornamelijk getraind in talen met veel bronnen, waardoor ze niet goed zijn toegerust om de complexiteit en diversiteit van gezondheidszorgvragen in talen met middelmatige en weinig bronnen aan te kunnen. Dit vormt aanzienlijke uitdagingen voor hun inzet in mondiale gezondheidszorgcontexten, waar linguïstische diversiteit cruciaal is. In dit werk presenteren we CLINIC, een uitgebreide meertalige benchmark om de vertrouwenswaardigheid van taalmodel(len) in de gezondheidszorg te evalueren. CLINIC benchmarkt TM's systematisch op vijf belangrijke dimensies van vertrouwenswaardigheid: waarheidsgetrouwheid, eerlijkheid, veiligheid, robuustheid en privacy. Deze worden geoperationaliseerd via 18 uiteenlopende taken, verspreid over 15 talen (waarbij alle grote continenten zijn vertegenwoordigd), en omvatten een breed scala aan cruciale gezondheidszorgonderwerpen zoals ziektebeelden, preventieve maatregelen, diagnostische tests, behandelingen, operaties en medicatie. Onze uitgebreide evaluatie toont aan dat TM's moeite hebben met feitelijke juistheid, vooroordelen vertonen across demografische en linguïstische groepen, en vatbaar zijn voor privacyschendingen en adversariële aanvallen. Door deze tekortkomingen te belichten, legt CLINIC de basis voor het vergroten van het mondiale bereik en de veiligheid van TM's in de gezondheidszorg across diverse talen.
Mensen kunnen complexe activiteiten intuïtief parallel uitvoeren, maar kan een model dit leren door naar één persoon te kijken? Gegeven één egocentrische video, introduceren we het N-Body Probleem: hoe N individuen hypothetisch dezelfde set aan taken kunnen uitvoeren die in deze video wordt waargenomen. Het doel is om de versnelling te maximaliseren, maar een naïeve toewijzing van videosegmenten aan individuen overtreedt vaak realistische beperkingen, wat leidt tot fysiek onmogelijke scenario's zoals twee personen die hetzelfde object gebruiken of dezelfde ruimte bezetten. Om dit aan te pakken, formaliseren we het N-Body Probleem en stellen we een reeks metrieken voor om zowel de prestaties (versnelling, taakdekking) als de haalbaarheid (ruimtelijke botsingen, objectconflicten en causale beperkingen) te evalueren. Vervolgens introduceren we een gestructureerde promptstrategie die een Vision-Language Model (VLM) begeleidt om te redeneren over de 3D-omgeving, objectgebruik en temporele afhankelijkheden om een uitvoerbare parallelle uitvoering te produceren. Op 100 video's van EPIC-Kitchens en HD-EPIC verhoogt onze methode voor N = 2 de actiedekking met 45% ten opzichte van een baseline-prompt voor Gemini 2.5 Pro, terwijl tegelijkertijd de botsingspercentages, object- en causale conflicten respectievelijk met 55%, 45% en 55% worden verlaagd.
Onzekerheidsinschatting is essentieel voor de veilige klinische inzet van medische beeldsegmentatiesystemen, omdat het de identificatie van onbetrouwbare voorspellingen mogelijk maakt en menselijk toezicht ondersteunt. Terwijl eerder werk zich voornamelijk richtte op onzekerheid op pixelniveau, biedt op oriëntatiepunten gebaseerde segmentatie inherente topologische garanties, maar blijft dit vanuit een onzekerheidsperspectief onderbelicht. In dit werk bestuderen we onzekerheidsinschatting voor op anatomische oriëntatiepunten gebaseerde segmentatie van thoraxfoto's. Geïnspireerd door hybride neurale netwerkarchitecturen die standaard convolutionele beeldencoders combineren met op grafieken gebaseerde generatieve decoders, en gebruikmakend van hun variationele latente ruimte, leiden we twee complementaire maten af: (i) latente onzekerheid, rechtstreeks vastgelegd uit de geleerde verdelingsparameters, en (ii) voorspellende onzekerheid, verkregen door meerdere stochastische uitvoervoorspellingen te genereren uit latente steekproeven. Door middel van gecontroleerde corruptie-experimenten tonen we aan dat beide onzekerheidsmaten toenemen met de ernst van de perturbatie, wat zowel globale als lokale degradatie weerspiegelt. We demonstreren dat deze onzekerheidssignalen onbetrouwbare voorspellingen kunnen identificeren door vergelijking met handmatige grondwaarheid, en out-of-distribution detectie ondersteunen op de CheXmask-dataset. Belangrijker nog, we brengen CheXmask-U (huggingface.co/datasets/mcosarinsky/CheXmask-U) uit, een grootschalige dataset van 657.566 thoraxfoto-landmarksegmentaties met onzekerheidsschattingen per knooppunt, waardoor onderzoekers rekening kunnen houden met ruimtelijke variaties in segmentatiekwaliteit bij het gebruik van deze anatomische maskers. Onze bevindingen vestigen onzekerheidsinschatting als een veelbelovende richting om de robuustheid en veilige inzet van op oriëntatiepunten gebaseerde anatomische segmentatiemethoden voor thoraxfoto's te verbeteren. Een volledig werkende interactieve demo van de methode is beschikbaar op huggingface.co/spaces/matiasky/CheXmask-U en de broncode op github.com/mcosarinsky/CheXmask-U.
Het analyseren van grootschalige tekstcorpora vormt een centrale uitdaging in machine learning, cruciaal voor taken zoals het identificeren van ongewenste modelgedragingen of biases in trainingsdata. Bestaande methoden steunen vaak op kostentechniek veeleisende, op grote taalmodellen (LLM's) gebaseerde technieken (bijv. het annoteren van datasetverschillen) of op dense embedding-modellen (bijv. voor clustering), waarbij de controle over de gewenste eigenschappen ontbreekt. Wij stellen voor om sparse autoencoders (SAE's) te gebruiken om SAE-embeddings te creëren: representaties waarvan de dimensies corresponderen met interpreteerbare concepten. Aan de hand van vier data-analysetaken tonen we aan dat SAE-embeddings kosteneffectiever en betrouwbaarder zijn dan LLM's en meer controleerbaar dan dense embeddings. Door gebruik te maken van de grote hypothese-ruimte van SAE's kunnen we inzichten blootleggen zoals (1) semantische verschillen tussen datasets en (2) onverwachte conceptcorrelaties in documenten. Zo vinden we bijvoorbeeld, door modelresponsen te vergelijken, dat Grok-4 vaker ambiguïteiten verduidelijkt dan negen andere frontier-modellen. In vergelijking met LLM's leggen SAE-embeddings grotere verschillen bloot tegen 2-8x lagere kosten en identificeren ze biases betrouwbaarder. Bovendien zijn SAE-embeddings controleerbaar: door concepten te filteren kunnen we (3) documenten clusteren langs assen van interesse en (4) dense embeddings overtreffen bij retrieval op basis van eigenschappen. Met behulp van SAE-embeddings bestuderen we modelgedrag aan de hand van twee casestudies: we onderzoeken hoe het gedrag van OpenAI-modellen in de loop der tijd is veranderd en vinden "trigger"-zinnen die zijn aangeleerd door Tulu-3 (Lambert et al., 2024) vanuit zijn trainingsdata. Deze resultaten positioneren SAE's als een veelzijdig hulpmiddel voor de analyse van ongestructureerde data en benadrukken het onderbelichte belang van het interpreteren van modellen via hun data.