Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Wij presenteren SAM 3D, een generatief model voor visueel onderbouwde 3D-objectreconstructie, dat geometrie, textuur en lay-out voorspelt vanuit een enkele afbeelding. SAM 3D presteert uitstekend op natuurlijke afbeeldingen, waar occlusie en rommeligheid in scènes veelvoorkomend zijn en visuele herkenningsaanwijzingen uit de context een grotere rol spelen. Dit bereiken we met een pijplijn waarbij mens en model in de loop zijn betrokken voor het annoteren van objectvorm, textuur en pose, waardoor we op ongekende schaal visueel onderbouwde 3D-reconstructiedata kunnen aanbieden. We leren van deze data binnen een modern, meerfasig trainingsraamwerk dat synthetische voortraining combineert met aanpassing aan de echte wereld, waardoor de 3D-"databarrière" wordt doorbroken. We behalen aanzienlijke verbeteringen ten opzichte van recent werk, met een winstratio van ten minste 5:1 in voorkeurstests door mensen op objecten en scènes uit de echte wereld. We zullen onze code en modelgewichten, een online demo en een nieuwe uitdagende benchmark voor 3D-objectreconstructie in de vrije wereld vrijgeven.
Grote Taalmodel (LLM) Agenten, vaak getraind met Reinforcement Learning (RL), worden beperkt door een afhankelijkheid van door mensen samengestelde data, wat de schaalbaarheid beperkt en AI vasthoudt aan menselijke kennis. Bestaande zelf-evolutie frameworks bieden een alternatief, maar zijn doorgaans beperkt door de inherente capaciteiten van het model en enkelvoudige interacties, wat de ontwikkeling van complexe curricula met toolgebruik of dynamisch redeneren belemmert. Wij introduceren Agent0, een volledig autonoom framework dat hoogpresterende agenten evolueert zonder externe data via meerstaps co-evolutie en naadloze toolintegratie. Agent0 creëert een symbiotische competitie tussen twee agenten geïnitialiseerd vanuit hetzelfde basis-LLM: een curriculum-agent die steeds uitdagendere frontier-taken voorstelt, en een uitvoerder-agent die leert deze op te lossen. We integreren externe tools om de probleemoplossende capaciteit van de uitvoerder te vergroten; deze verbetering zet op zijn beurt de curriculum-agent onder druk om complexere, tool-bewuste taken te construeren. Door dit iteratieve proces vestigt Agent0 een zichzelf versterkende cyclus die continu hoogwaardige curricula produceert. Empirisch gezien verbetert Agent0 de redeneervaardigheden aanzienlijk, met een verbetering van het Qwen3-8B-Base model van 18% op wiskundig redeneren en 24% op algemene redeneerbenchmarks. Code is beschikbaar op https://github.com/aiming-lab/Agent0.
Welke rol speelt het eerste frame in videogeneratiemodellen? Traditioneel wordt het gezien als het ruimtelijk-temporele startpunt van een video, slechts een zaadje voor de daaropvolgende animatie. In dit werk onthullen we een fundamenteel ander perspectief: videomodellen behandelen het eerste frame impliciet als een conceptuele geheugenbuffer die visuele entiteiten opslaat voor later hergebruik tijdens de generatie. Gebruikmakend van dit inzicht tonen we aan dat het mogelijk is om robuuste en gegeneraliseerde videocontent-aanpassing te bereiken in diverse scenario's, met slechts 20-50 trainingsvoorbeelden zonder architectuurwijzigingen of grootschalige finetuning. Dit onthult een krachtige, over het hoofd gezien capaciteit van videogeneratiemodellen voor referentiegebaseerde videocustomisatie.
Recente vooruitgang in redeneermodellen heeft opmerkelijke successen geboekt in tekst- en visuele domeinen door middel van uitgebreide ketens van redenering. Er doet zich echter een raadselachtig fenomeen voor bij audiotalmodellen: zij presteren consequent beter met minimale of geen redenering, wat een fundamentele vraag oproept – kan audio-intelligentie daadwerkelijk baat hebben bij doordacht nadenken? Wij introduceren Step-Audio-R1, het eerste audioredeneermodel dat met succes redeneervermogens in het audiodomein ontsluit. Via ons voorgestelde Modality-Grounded Reasoning Distillation (MGRD)-raamwerk leert Step-Audio-R1 audio-relevante redeneerketens te genereren die zich daadwerkelijk verankeren in akoestische kenmerken in plaats van losstaande overwegingen te hallucineren. Ons model vertoont sterke audioredeneervermogens, overtreft Gemini 2.5 Pro en bereikt prestaties vergelijkbaar met de state-of-the-art Gemini 3 Pro in uitgebreide audio-begrips- en redeneerbenchmarks voor spraak, omgevingsgeluiden en muziek. Deze resultaten tonen aan dat redeneren een overdraagbaar vermogen is tussen modaliteiten wanneer het adequaat verankerd is, waardoor uitgebreide beraadslaging verandert van een nadeel in een krachtig instrument voor audio-intelligentie. Door het eerste succesvolle audioredeneermodel te vestigen, opent Step-Audio-R1 nieuwe wegen naar de bouw van werkelijk multimodale redeneersystemen die diepgaand denken over alle zintuiglijke modaliteiten heen.
Ondanks aanzienlijke vooruitgang vertonen multimodale foundationmodellen nog steeds verrassende tekortkomingen in ruimtelijke intelligentie. In dit werk onderzoeken we het opschalen van multimodale foundationmodellen om ruimtelijke intelligentie te ontwikkelen binnen de SenseNova-SI-familie, gebouwd op gevestigde multimodale fundamenten zoals visuele begripsmodellen (Qwen3-VL en InternVL3) en geïntegreerde begrips- en generatiemodellen (Bagel). We hanteren een principiële aanpak voor het construeren van hoogwaardige en robuuste ruimtelijke intelligentie door de systematische samenstelling van SenseNova-SI-8M: acht miljoen diverse data-exemplaren volgens een rigoureuze taxonomie van ruimtelijke capaciteiten. SenseNova-SI demonstreert ongekende prestaties op een breed scala aan ruimtelijke intelligentiebenchmarks: 68,7% op VSI-Bench, 43,3% op MMSI, 85,6% op MindCube, 54,6% op ViewSpatial en 50,1% op SITE, met behoud van sterk algemeen multimodaal begrip (bijvoorbeeld 84,9% op MMBench-En). Belangrijker nog: we analyseren de impact van dataschaling, bespreken vroege signalen van emergent generalisatievermogen door diverse datatraining, onderzoeken het risico van overfitting en taalkundige shortcuts, presenteren een voorlopige studie naar ruimtelijke chain-of-thought-redenering en valideren de potentiële downstream-toepassing. SenseNova-SI is een doorlopend project, en dit rapport zal continu worden bijgewerkt. Alle nieuw getrainde multimodale foundationmodellen worden openbaar vrijgegeven om verder onderzoek in deze richting te faciliteren.
Recente vooruitgang in generatieve videomodellen, zoals Veo-3, heeft verrassende zero-shot redeneervaardigheden laten zien, wat een groeiende behoefte creëert aan systematische en betrouwbare evaluatie. Wij introduceren V-ReasonBench, een benchmark die is ontworpen om videoredenering te beoordelen op vier belangrijke dimensies: gestructureerd probleemoplossen, ruimtelijk inzicht, patroongebaseerde inferentie en fysische dynamica. De benchmark is opgebouwd uit zowel synthetische als real-world beeldsequenties en biedt een diverse set van antwoord-verifieerbare taken die reproduceerbaar, schaalbaar en eenduidig zijn. Evaluaties van zes state-of-the-art videomodellen laten duidelijke dimensiegebonden verschillen zien, met sterke variatie in gestructureerd, ruimtelijk, patroongebaseerd en fysisch redeneren. We vergelijken verder videomodellen met sterke beeldmodellen, analyseren veelvoorkomende hallucinatiegedragingen en bestuderen hoe videoduur Chain-of-Frames redeneren beïnvloedt. Over het geheel biedt V-ReasonBench een uniform en reproduceerbaar raamwerk voor het meten van videoredenering en beoogt het de ontwikkeling van modellen met betrouwbaardere, mensgerichte redeneervaardigheden te ondersteunen.
Hoewel taalmodelen een grote impact hebben gekregen in veel real-world toepassingen, blijft videogeneratie grotendeels beperkt tot entertainment. Gemotiveerd door de inherente capaciteit van video om informatie over de fysieke wereld te demonstreren die moeilijk alleen via taal over te brengen is (stel je voor om iemand te leren een das te strikken met alleen tekst), identificeren we een onderbenutte kans om video uit te breiden als een nieuw antwoordmodaliteit voor Next-Event Prediction (NEP), geformaliseerd als Video-Next-Event Prediction (VNEP). Terwijl de gevestigde NEP-taak een video met een procedurele of voorspellende vraag als invoer neemt om het volgende gebeurtenis in tekst te voorspellen, vereist VNEP dynamische video-antwoorden. Deze verschuiving van *vertellen* naar *tonen* ontgrendelt meer intuïtieve en gepersonaliseerde antwoorden voor procedureel leren en creatieve verkenning. Deze taak blijft echter uitdagend voor bestaande modellen, omdat het een begrip vereist van multimodale invoer, instructie-gestuurd redeneren en het genereren van video met visuele en semantische consistentie. Om dit aan te pakken, introduceren we VANS, een model dat reinforcement learning benut om een Vision-Language Model (VLM) af te stemmen met een Video Diffusion Model (VDM) voor VNEP. De kern van VANS is onze voorgestelde Joint-GRPO die het VLM en VDM coördineert om als een eenheid te functioneren. Aangedreven door een gedeelde beloning op hun respectievelijke output, optimaliseert het het VLM om bijschriften te produceren die zowel accuraat als visualisatievriendelijk zijn, terwijl het de VDM begeleidt om video's te genereren die trouw zijn aan deze bijschriften en de visuele inputcontext. Om dit leren mogelijk te maken, creëren we VANS-Data-100K, een toegewijd dataset voor de VNEP-taak. Experimenten op procedurele en voorspellende benchmarks tonen aan dat VANS state-of-the-art prestaties bereikt in zowel videogebeurtenisvoorspelling als -visualisatie. Code is vrijgegeven op https://github.com/KlingTeam/VANS.
Het trainen van een familie van grote taalmodellen voor verschillende schalen en inzetdoelen is buitengewoon kostbaar, omdat voor elke grootte afzonderlijke trainingsrondes nodig zijn. Recent werk over modelcompressie via pruning en knowledge distillation heeft deze kosten verminderd; dit proces vereist echter nog steeds trainingskosten van honderden miljarden tokens per gecomprimeerd model. In dit artikel presenteren we Nemotron Elastic, een raamwerk voor het bouwen van reasoning-georiënteerde LLM's, inclusief hybride Mamba-Attention-architecturen, die meerdere geneste submodellen in één oudermodel insluiten, elk geoptimaliseerd voor verschillende inzetconfiguraties en budgetten. Elk van deze submodellen deelt gewichten met het oudermodel en kan zero-shot worden geëxtraheerd tijdens de inzet zonder aanvullende training of fine-tuning. Wij maken deze functionaliteit mogelijk via een end-to-end getrainde router, nauw gekoppeld aan een tweefasig trainingscurriculum dat specifiek is ontworpen voor reasoning-modellen. We introduceren verder group-aware SSM-elastificatie die de structurele beperkingen van Mamba behoudt, heterogene MLP-elastificatie, genormaliseerde MSE-gebaseerde laagimportantie voor verbeterde diepteselectie, en knowledge distillation die gelijktijdige multi-budgetoptimalisatie mogelijk maakt. We passen Nemotron Elastic toe op het Nemotron Nano V2 12B-model, waarbij gelijktijdig een 9B- en een 6B-model worden geproduceerd met slechts 110B trainings-tokens; dit resulteert in een kostenreductie van meer dan 360x vergeleken met het vanaf nul trainen van modelfamilies, en ongeveer 7x vergeleken met state-of-the-art compressietechnieken. Elk van de geneste modellen presteert even goed of beter dan de state-of-the-art qua nauwkeurigheid. Bovendien maakt, in tegenstelling tot andere compressiemethoden, de geneste capaciteit van onze aanpak het mogelijk om een alles-in-één reasoning-model te hebben dat een constant inzetgeheugen heeft ongeacht het aantal modellen in de familie.
Wij maken MiMo-Embodied open-source, het eerste cross-embodied foundation model dat met succes integreert en state-of-the-art prestaties behaalt in zowel Autonoom Rijden als Embodied AI. MiMo-Embodied vestigt nieuwe records op 17 embodied AI benchmarks voor Taakplanning, Affordantievoorspelling en Ruimtelijk Inzicht, en presteert eveneens uitstekend op 12 autonome rijsimulatie benchmarks voor Omgevingsperceptie, Statusvoorspelling en Rijplanning. Voor deze taken overtreft MiMo-Embodied bestaande open-source, closed-source en gespecialiseerde baseline-modellen aanzienlijk. Onze resultaten tonen aan dat deze twee domeinen, dankzij meerfasig leren, zorgvuldige dataconstructie en CoT/RL-finetuning, een sterke positieve transfer vertonen en elkaar wederzijds versterken. Wij bieden een gedetailleerde analyse van onze modelontwerpen en trainingsmethodologieën om verder onderzoek te vergemakkelijken. Code en modellen zijn beschikbaar op https://github.com/XiaomiMiMo/MiMo-Embodied.
Vision-Language-Action (VLA)-modellen blinken uit in robotmanipulatie, maar worden beperkt door hun sterke afhankelijkheid van expertdemonstraties, wat leidt tot demonstratiebias en de prestaties beperkt. Reinforcement learning (RL) is een cruciale post-trainingstrategie om deze beperkingen te overwinnen, maar huidige VLA-RL-methoden, inclusief groepgebaseerde optimalisatiebenaderingen, worden belemmerd door ernstige beloningsschaarste. Het vertrouwen op binaire succesindicatoren verspilt waardevolle informatie in mislukte trajecten, wat resulteert in lage trainings efficiëntie. Om dit op te lossen, stellen we Self-Referential Policy Optimization (SRPO) voor, een nieuw VLA-RL-raamwerk. SRPO elimineert de noodzaak van externe demonstraties of handmatige beloningsengineering door de eigen succesvolle trajecten van het model, gegenereerd binnen de huidige trainingsbatch, als zelfreferentie te benutten. Hierdoor kunnen we een progressiegewijze beloning toekennen aan mislukte pogingen. Een kerninnovatie is het gebruik van latente wereldrepresentaties om gedragsprogressie robuust te meten. In plaats van te vertrouwen op ruwe pixels of domeinspecifieke fine-tuning te vereisen, gebruiken we de gecomprimeerde, overdraagbare coderingen uit de latente ruimte van een wereldmodel. Deze representaties vangen natuurlijk progressiepatronen over omgevingen heen, waardoor nauwkeurige, gegeneraliseerde trajectvergelijking mogelijk wordt. Empirische evaluaties op de LIBERO-benchmark tonen de efficiëntie en effectiviteit van SRPO aan. Beginnend vanaf een supervised baseline met 48,9% succes, bereikt SRPO een nieuwe state-of-the-art-succesratio van 99,2% in slechts 200 RL-stappen, wat een relatieve verbetering van 103% vertegenwoordigt zonder extra supervisie. Bovendien toont SRPO aanzienlijke robuustheid, met een prestatieverbetering van 167% op de LIBERO-Plus-benchmark.
Ziekenhuizen en gezondheidszorgsystemen zijn afhankelijk van operationele beslissingen die de patiëntenstroom, kosten en kwaliteit van zorg bepalen. Ondanks sterke prestaties op medische kennis en conversatiebenchmarks, kunnen foundation-modellen die zijn getraind op algemene teksten, gespecialiseerde kennis missen die nodig is voor deze operationele beslissingen. Wij introduceren Lang1, een familie van modellen (100M-7B parameters) die zijn voorgetraind op een gespecialiseerd corpus bestaande uit een mix van 80B klinische tokens uit de elektronische patiëntendossiers (EHR's) van NYU Langone Health en 627B tokens van het internet. Om Lang1 grondig te evalueren in realistische settings, ontwikkelden we de REalistic Medical Evaluation (ReMedE), een benchmark afgeleid van 668.331 EHR-notities die vijf kritieke taken evalueert: voorspelling van heropname binnen 30 dagen, voorspelling van sterfte binnen 30 dagen, ligduur, codering van comorbiditeiten en voorspelling van afwijzing van verzekeringsclaims. In zero-shot settings presteren zowel algemene als gespecialiseerde modellen ondermaats op vier van de vijf taken (36,6%-71,7% AUROC), met uitzondering van sterftevoorspelling. Na finetuning presteert Lang1-1B beter dan gefinetunede algemene modellen die tot 70x groter zijn en zero-shot modellen die tot 671x groter zijn, met een verbetering van de AUROC met respectievelijk 3,64%-6,75% en 1,66%-23,66%. We observeerden ook cross-task scaling, waarbij gezamenlijke finetuning op meerdere taken leidde tot verbetering op andere taken. Lang1-1B transferreert effectief naar out-of-distribution settings, inclusief andere klinische taken en een extern gezondheidssysteem. Onze bevindingen suggereren dat voorspellende capaciteiten voor ziekenhuisoperaties expliciete supervised finetuning vereisen, en dat dit finetuningproces efficiënter wordt door in-domein voorpretraining op EHR's. Onze resultaten ondersteunen het opkomende inzicht dat gespecialiseerde LLM's kunnen concurreren met algemene modellen voor gespecialiseerde taken, en tonen aan dat effectieve AI voor gezondheidszorgsystemen de combinatie vereist van in-domein voorpretraining, supervised finetuning en realistische evaluatie die verder gaat dan proxy-benchmarks.
Neuronale informatie-retrievalsystemen presteren uitstekend in talen met veel bronnen, maar zijn nog onderbelicht voor morfologisch rijke, minder rijk bedeelde talen zoals het Turks. Dichte bi-encoders domineren momenteel de Turkse IR, maar laat-interactiemodellen – die token-level representaties behouden voor fijnmazige matching – zijn nog niet systematisch geëvalueerd. Wij introduceren TurkColBERT, de eerste uitgebreide benchmark die dichte encoders en laat-interactiemodellen voor Turkse retrieval vergelijkt. Onze adaptatiepijplijn in twee fasen fine-tunt Engelse en meertalige encoders op Turkse NLI/STS-taken, en zet ze vervolgens om in ColBERT-stijl retrievers met behulp van PyLate getraind op MS MARCO-TR. We evalueren 10 modellen op vijf Turkse BEIR-datasets die wetenschappelijke, financiële en argumentatieve domeinen bestrijken. Resultaten tonen een sterke parameter-efficiëntie: de colbert-hash-nano-tr met 1,0M parameters is 600 keer kleiner dan de dichte encoder turkish-e5-large met 600M parameters, terwijl meer dan 71% van het gemiddelde mAP behouden blijft. Laat-interactiemodellen die 3–5 keer kleiner zijn dan dichte encoders overtreffen deze significant; ColmmBERT-base-TR levert tot +13,8% mAP op domeinspecifieke taken op. Voor productiegereedheid vergelijken we indexeringsalgoritmen: MUVERA+Rerank is 3,33 keer sneller dan PLAID en biedt een relatieve mAP-winst van +1,7%. Dit maakt retrieval met lage latentie mogelijk, waarbij ColmmBERT-base-TR querietijden van 0,54 ms behaalt onder MUVERA. We maken alle checkpoints, configuraties en evaluatiescripts openbaar. Beperkingen zijn onder meer de afhankelijkheid van middelgrote datasets (≤50K documenten) en vertaalde benchmarks, die mogelijk niet volledig de real-world omstandigheden van Turkse retrieval weerspiegelen; grootschaligere MUVERA-evaluaties blijven noodzakelijk.
Wij presenteren NaTex, een raamwerk voor native textuurgeneratie dat textuurkleur direct in 3D-ruimte voorspelt. In tegenstelling tot eerdere benaderingen die afhankelijk zijn van het 'bakken' van 2D multi-view beelden, gesynthetiseerd door geometrie-gestuurde Multi-View Diffusion modellen (MVD's), vermijdt NaTex verschillende inherente beperkingen van de MVD-pijplijn. Deze omvatten moeilijkheden bij het verwerken van geoccludeerde gebieden die inpaint vereisen, het bereiken van precieze mesh-textuur-uitlijning langs grenzen, en het handhaven van cross-view consistentie en coherentie in zowel inhoud als kleurintensiteit. NaTex introduceert een nieuw paradigma dat de bovengenoemde problemen aanpakt door textuur te beschouwen als een dichte kleurenpuntenwolk. Gedreven door dit idee stellen we latente kleurdiffusie voor, bestaande uit een geometrie-bewuste kleurenpuntenwolk VAE en een multi-control diffusion transformer (DiT), volledig vanaf nul getraind met 3D-data, voor textuurreconstructie en -generatie. Om precieze uitlijning mogelijk te maken, introduceren we *native geometry control* dat de DiT conditioneert op directe 3D-ruimtelijke informatie via positionele embeddings en geometrie-latenten. We co-ontwerpen de VAE-DiT-architectuur, waarbij de geometrie-latenten worden geëxtraheerd via een speciale geometrie-tak die nauw gekoppeld is aan de kleur-VAE, wat fijnmazige oppervlaktegeleiding biedt die een sterke correspondentie met de textuur behoudt. Met deze ontwerpen toont NaTex sterke prestaties en overtreft het eerdere methoden aanzienlijk in textuurcoherentie en -uitlijning. Bovendien vertoont NaTex ook sterke generalisatiecapaciteiten, ofwel training-vrij of met eenvoudige *fine-tuning*, voor diverse downstream-toepassingen, zoals materiaalgeneratie, textuurverfijning, en partssegmentatie en -texturering.
Recente vooruitgang in visuele generatie onderzoekt in toenemende mate de integratie van redeneervermogen. Bestaande methodes incorporeren tekstueel redeneren – ofwel vóór (als pre-planning) ofwel na (als post-verfijning) het generatieproces – maar missen multimodale interactie tijdens de generatie zelf. In deze voorlopige studie introduceren we Thinking-while-Generating (TwiG), het eerste gekoppelde framework dat tekstueel redeneren laat co-evolueren gedurende het visuele generatieproces. Terwijl visuele inhoud progressief wordt gegenereerd, wordt tekstueel redeneren tussengevoegd om zowel aanstaande lokale regio's te sturen als te reflecteren op eerder gesynthetiseerde delen. Deze dynamische wisselwerking leidt tot contextbewustere en semantisch rijkere visuele resultaten. Om het potentieel van dit framework te onthullen, onderzoeken we drie strategieën: zero-shot prompting, supervised fine-tuning (SFT) op onze samengestelde TwiG-50K dataset, en reinforcement learning (RL) via een aangepaste TwiG-GRPO-strategie, die elk unieke inzichten bieden in de dynamiek van gekoppeld redeneren. We hopen dat dit werk verder onderzoek inspireert naar de integratie van tekstueel redeneren voor verbeterde visuele generatie. Code wordt vrijgegeven op: https://github.com/ZiyuGuo99/Thinking-while-Generating.
Wij introduceren TimeViper, een hybride vision-language model ontworpen om de uitdagingen van langdurige videobegrip aan te pakken. Het verwerken van lange video's vereist zowel een efficiënte modelarchitectuur als een effectief mechanisme voor het hanteren van uitgebreide temporele contexten. Hiertoe adopteert TimeViper een hybride Mamba-Transformer-backbone die de efficiëntie van state-space modellen combineert met de expressiviteit van attention-mechanismen. Door dit hybride ontwerp onthullen we het *vision-to-text* informatie-aggregatiefenomeen, waarbij informatie progressief stroomt van vision-tokens naar tekst-tokens over toenemende LLM-diepte, wat leidt tot ernstige redundantie van vision-tokens. Gemotiveerd door deze observatie stellen we TransV voor, een token-informatie-transfermodule die vision-tokens overdraagt en comprimeert naar instructie-tokens, terwijl multimodale begripscapaciteiten behouden blijven. Dit ontwerp stelt TimeViper in staat om urenlange video's van meer dan 10.000 frames te verwerken. Uitgebreide experimenten over meerdere benchmarks tonen aan dat TimeViper kan concurreren met state-of-the-art modellen, terwijl het het aantal verwerkte frames significant uitbreidt. Wij analyseren verder de aandachtspatronen van zowel Mamba- als Transformer-lagen, wat nieuwe inzichten biedt in de interpreteerbaarheid van hybride modellen. Dit werk vertegenwoordigt een eerste stap in de richting van het ontwikkelen, interpreteren en comprimeren van hybride Mamba-Transformer-architecturen.
UV-unwrapping vervlakt 3D-oppervlakken naar 2D met minimale vervorming, waarbij het complexe oppervlak vaak moet worden opgedeeld in meerdere charts. Hoewel het uitgebreid is bestudeerd, hebben bestaande UV-unwrapping-methoden vaak moeite met door AI gegenereerde meshes, die doorgaans ruis, onregelmatigheden en een slechte conditie vertonen. Deze methoden produceren vaak sterk gefragmenteerde charts en suboptimale grenzen, wat artefacten introduceert en downstreamtaken belemmert. Wij introduceren PartUV, een op delen gebaseerde UV-unwrapping-pipeline die aanzienlijk minder, op delen uitgelijnde charts genereert, terwijl een lage vervorming behouden blijft. Gebouwd bovenop een recente, op leren gebaseerde decompositiemethode voor delen (PartField), combineert PartUV semantische decompositie op hoog niveau met nieuwe geometrische heuristieken in een top-down recursief raamwerk. Het zorgt ervoor dat de vervorming per chart onder een door de gebruiker gespecificeerde drempelwaarde blijft, terwijl het totale aantal charts wordt geminimaliseerd. De pipeline integreert en breidt parameterisatie- en packingsalgoritmen uit, bevat een speciale aanpak voor niet-manifold en gedegenereerde meshes, en is uitgebreid geparalleliseerd voor efficiëntie. Geëvalueerd over vier diverse datasets, waaronder kunstmatige, CAD-, door AI gegenereerde en algemene vormen, presteert PartUV beter dan bestaande tools en recente neurale methoden in chartaantal en naadlengte, behaalt vergelijkbare vervorming, vertoont hoge slagingspercentages op uitdagende meshes en maakt nieuwe toepassingen mogelijk, zoals packing met meerdere tegels per deel. Onze projectpagina staat op https://www.zhaoningwang.com/PartUV.
Segmentatie van chirurgische video's is cruciaal voor computerondersteunde chirurgie, omdat het een precieze lokalisatie en tracking van instrumenten en weefsels mogelijk maakt. Interactieve Video Object Segmentatie (iVOS) modellen zoals Segment Anything Model 2 (SAM2) bieden prompt-gebaseerde flexibiliteit die verder gaat dan methoden met vooraf gedefinieerde categorieën, maar worden in chirurgische scenario's geconfronteerd met uitdagingen door de domeinkloof en beperkte lange-termijntracking. Om deze beperkingen aan te pakken, construeren we SA-SV, de grootste chirurgische iVOS-benchmark met instantie-niveau spatio-temporele annotaties (masklets) die acht proceduretypen omspant (61k frames, 1.6k masklets), waardoor een uitgebreide ontwikkeling en evaluatie voor lange-termijntracking en zero-shot generalisatie mogelijk wordt. Voortbouwend op SA-SV, stellen we SAM2S voor, een foundation-model dat SAM2 verbetert voor Chirurgische iVOS door: (1) DiveMem, een trainbaar divers geheugenmechanisme voor robuuste lange-termijntracking; (2) temporeel semantisch leren voor instrumentbegrip; en (3) ambiguïteit-resistent leren om annotatie-inconsistenties in multi-source datasets te verminderen. Uitgebreide experimenten tonen aan dat fine-tuning op SA-SV substantiële prestatieverbeteringen mogelijk maakt, waarbij SAM2 gemiddeld 12.99 J\&F wint ten opzichte van de standaard SAM2. SAM2S verbetert de prestaties verder tot een gemiddelde J\&F van 80.42, wat respectievelijk 17.10 en 4.11 punten hoger is dan de standaard en gefinetunede SAM2, terwijl het real-time inferentie van 68 FPS en sterke zero-shot generalisatie behoudt. Code en dataset zullen worden vrijgegeven op https://jinlab-imvr.github.io/SAM2S.
Langdurige training van grote taalmodellen (LLM's) vereist stabiele exploratie om te voorkomen dat het model vervalt in suboptimale gedragspatronen. Entropie is in deze context cruciaal, omdat het de exploratie reguleert en helpt voorkomen dat het model voortijdig convergeert naar suboptimale oplossingen. Bestaande reinforcement learning-methoden hebben echter moeite om een passend entropieniveau te handhaven, aangezien het trainingsproces een mix van positieve en negatieve voorbeelden omvat, die elk op verschillende manieren en op verschillende tijdstappen de entropie beïnvloeden. Om dit aan te pakken, stellen wij Entropiestabilisatie via Proportioneel-Integrale Regeling (EntroPIC) voor, een nieuwe methode die de invloed van positieve en negatieve voorbeelden adaptief aanpast door hun verliescoëfficiënten dynamisch af te stemmen. Deze aanpak stabiliseert de entropie gedurende de hele training, wat zorgt voor efficiënte exploratie en gestage vooruitgang. Wij bieden een uitgebreide theoretische analyse voor zowel on-policy als off-policy leeromgevingen, waarin wordt aangetoond dat EntroPIC effectief is in het regelen van entropie bij grootschalige LLM-training. Experimentele resultaten tonen aan dat onze methode met succes de gewenste entropieniveaus handhaaft, waardoor stabiele en optimale RL-training voor LLM's mogelijk wordt.
Transformer-gebaseerde architecturen worden veelvuldig toegepast in sequentiële aanbevelingssystemen, maar hun toepassing in financiële dienstverlening (FD) brengt specifieke praktische en modelleeruitdagingen met zich mee voor realtime aanbevelingen. Deze omvatten: a) gebruikersinteracties (impliciet en expliciet) over een lange periode, die zich uitstrekken over zowel digitale als fysieke kanalen en een temporeel heterogene context genereren, en b) de aanwezigheid van meerdere onderling verbonden producten die gecoördineerde modellen vereisen om diverse advertentieplaatsingen en gepersonaliseerde feeds te ondersteunen, waarbij concurrerende bedrijfsdoelen in evenwicht moeten worden gehouden. Wij stellen FinTRec voor, een transformer-gebaseerd raamwerk dat deze uitdagingen en de operationele doelstellingen in de FD aanpakt. Hoewel op bomen gebaseerde modellen traditioneel de voorkeur genieten in de FD vanwege hun verklaarbaarheid en afstemming op regelgevende vereisten, toont onze studie aan dat FinTRec een haalbare en effectieve verschuiving naar transformer-gebaseerde architecturen biedt. Door middel van historische simulaties en correlaties met live A/B-testen tonen we aan dat FinTRec consequent beter presteert dan de productieklasse, op bomen gebaseerde baseline. De uniforme architectuur maakt, wanneer afgestemd voor productadaptatie, kruisproduct-signaaldeling mogelijk, verlaagt de trainingskosten en technische schuld, en verbetert tegelijkertijd de offline prestaties voor alle producten. Voor zover ons bekend is dit de eerste uitgebreide studie naar uniforme sequentiële aanbevelingsmodellering in de FD die zowel technische als bedrijfsmatige overwegingen adresseert.
ImageNet-1K linear-probe transfer accuracy blijft de standaard proxy voor de kwaliteit van visuele representaties, maar voorspelt niet langer de prestaties op wetenschappelijke beelddata. Over 46 moderne vision-model checkpoints verklaart de ImageNet top-1 nauwkeurigheid slechts 34% van de variantie op ecologietaken en rangschikt 30% van de modellen boven 75% nauwkeurigheid verkeerd in. Wij presenteren BioBench, een open ecologie vision benchmark die vastlegt wat ImageNet mist. BioBench verenigt 9 openbaar vrijgegeven, toepassingsgerichte taken, 4 taxonomische rijken en 6 acquisitiemodaliteiten (drone-RGB, webvideo, micrografieën, in-situ- en specimenfoto's, camera-trap frames), in totaal 3,1 miljoen afbeeldingen. Een enkele Python-API downloadt gegevens, past lichtgewicht classificators toe op bevroren backbones en rapporteert klasse-gebala
Hoewel recente grote visueel-taalmodelen (LVLMs) sterke multimodale redeneervermogen vertonen, produceren ze vaak ongefundeerde of gehallucineerde antwoorden omdat ze te sterk leunen op linguïstische voorkennis in plaats van visueel bewijs. Deze beperking onderstreept de afwezigheid van een kwantitatieve maatstaf voor hoeveel deze modellen daadwerkelijk visuele informatie gebruiken tijdens het redeneren. Wij stellen Draft and Refine (DnR) voor, een agentframework aangedreven door een vraag-gestuurde gebruiksmeter. De meter kwantificeert de afhankelijkheid van het model van visueel bewijs door eerst een vraag-gestuurde relevantiekaart te construeren om vraag-specifieke aanwijzingen te lokaliseren en vervolgens de afhankelijkheid te meten via relevantie-gestuurd probabilistisch maskeren. Geleid door deze meter verfijnt de DnR-agent zijn initiële concept met gerichte feedback van externe visuele experts. De output van elke expert (zoals vakjes of maskers) wordt weergegeven als visuele aanwijzingen op de afbeelding, en het model wordt opnieuw bevraagd om het antwoord te selecteren dat de grootste verbetering in gebruik oplevert. Dit proces versterkt de visuele verankering zonder hertraining of architectuurwijzigingen. Experimenten op VQA- en beeldbeschrijvingsbenchmarks tonen consistente nauwkeurigheidswinst en verminderde hallucinatie, wat aantoont dat het meten van visueel gebruik een principieel pad biedt naar meer interpreteerbare en op bewijs gebaseerde multimodale agentsystemen.
Recente vooruitgang in beeld-tekst vooraf trainen heeft het visuele begrip aanzienlijk verbeterd door visuele en tekstuele representaties uit te lijnen. Contrastief Taal-Beeld Vooraf Trainen (CLIP) heeft een cruciale rol gespeeld in multimodaal leren. Echter, de focus op enkelvoudige-label, enkelvoudige-granulariteit uitlijning beperkt de effectiviteit ervan in complexe domeinen zoals medische beeldvorming, waar afbeeldingen vaak corresponderen met meerdere hoog-niveau labels (bijvoorbeeld ziekteclassificaties) over verschillende annotatiegranulariteiten (bijvoorbeeld diagnostische beschrijving, klinische verklaring). Om dit aan te pakken, stellen we Multi-Granular Taal Leren (MGLL) voor, een contrastief leerframework ontworpen om zowel multi-label als cross-granulariteit uitlijning te verbeteren. MGLL benut gestructureerde multi-label supervisie, integreert tekstuele beschrijvingen over granulariteiten heen en introduceert soft-label supervisie met puntgewijze beperkingen om de uitlijning te verbeteren. MGLL maakt gebruik van gladde Kullback-Leibler (KL) divergentie om cross-granulariteit consistentie te waarborgen, terwijl het de rekenkundige efficiëntie behoudt als een plug-and-play module voor visie-taalmodellen. Voorgetraind op onze geconstrueerde grootschalige multi-granulaire datasets en geëvalueerd over meerdere datasets, presteert MGLL beter dan andere state-of-the-art methoden in downstream taken. De code is beschikbaar op https://github.com/HUANGLIZI/MGLL{https://github.com/HUANGLIZI/MGLL}.