Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Dit rapport introduceert Kandinsky 5.0, een familie van state-of-the-art foundation-modellen voor de synthese van hoogwaardige afbeeldingen en 10-seconden video’s. Het framework bestaat uit drie kernmodellen: Kandinsky 5.0 Image Lite – een reeks van 6B-parameter modellen voor beeldgeneratie, Kandinsky 5.0 Video Lite – snelle en lichtgewicht 2B-parameter modellen voor tekst-naar-video en beeld-naar-video, en Kandinsky 5.0 Video Pro – 19B-parameter modellen die superieure videogeneratiekwaliteit bereiken. We bieden een uitgebreid overzicht van de levenscyclus van datacuratie – inclusief verzameling, verwerking, filtering en clustering – voor de meerfasige trainingspipeline die uitgebreide voorafgaande training omvat en kwaliteitsverbeterende technieken integreert, zoals zelfsupervised fine-tuning (SFT) en reinforcement learning (RL)-gebaseerde na-training. We presenteren ook nieuwe architectonische, trainings- en inferentie-optimalisaties die Kandinsky 5.0 in staat stellen hoge generatiesnelheden en state-of-the-art prestaties te bereiken voor diverse taken, zoals aangetoond door menselijke evaluatie. Als een grootschalig, publiek beschikbaar generatief framework benut Kandinsky 5.0 het volledige potentieel van zijn voorafgaande training en latere fasen om te worden aangepast voor een breed scala aan generatieve toepassingen. We hopen dat dit rapport, samen met de release van onze open-source code en trainingscheckpoints, de ontwikkeling en toegankelijkheid van hoogwaardige generatieve modellen voor de onderzoeksgemeenschap aanzienlijk zal bevorderen.
Videomodellen hebben opmerkelijke successen geboekt in het genereren van hoogwaardige video's met coherente bewegingsdynamiek. Analoog aan de ontwikkeling van tekstgeneratie naar tekstgebaseerd redeneren in taalmodellering, zet de ontwikkeling van videomodellen ons aan het denken: Kunnen videomodellen redeneren via videogeneratie? Vergeleken met discrete tekstcorpora, verankert video het redeneren in expliciete ruimtelijke structuren en temporele continuïteit, wat het een ideaal substraat maakt voor ruimtelijk redeneren. In dit werk verkennen we het paradigma van redeneren via video en introduceren we VR-Bench – een uitgebreide benchmark ontworpen om de redeneervaardigheden van videomodellen systematisch te evalueren. Gebaseerd op doolhof-oplossingstaken die inherent ruimtelijke planning en meerstapsredenering vereisen, bevat VR-Bench 7.920 procedureel gegenereerde video's verdeeld over vijf doolhoftypes en diverse visuele stijlen. Onze empirische analyse toont aan dat SFT (Supervised Fine-Tuning) de redeneervaardigheid van videomodellen efficiënt kan aanwakkeren. Videomodellen vertonen een sterker ruimtelijk perceptievermogen tijdens het redeneren, presteren beter dan toonaangevende Vision-Language Models (VLM's) en generaliseren goed over diverse scenario's, taken en complexiteitsniveaus. Verder ontdekken we een test-time schaaleffect, waarbij diverse steekproefname tijdens de inferentie de betrouwbaarheid van het redeneren met 10–20% verbetert. Deze bevindingen benadrukken het unieke potentieel en de schaalbaarheid van redeneren via video voor ruimtelijke redeneertaken.
AI-onderzoeksagenten beloven wetenschappelijke vooruitgang te versnellen door het ontwerp, de implementatie en de training van machine learning-modellen te automatiseren. Desalniettemin bevindt het vakgebied zich nog in de kinderschoenen en zijn de belangrijkste factoren die het succes of falen van agenttrajecten bepalen niet volledig begrepen. Wij onderzoeken de rol die diversiteit in ideeontwikkeling speelt bij de prestaties van agenten. Ten eerste analyseren we agenttrajecten op MLE-bench, een bekende benchmark voor het evalueren van AI-onderzoeksagenten, bij verschillende modellen en agentscaffolds. Onze analyse toont aan dat verschillende modellen en agentscaffolds uiteenlopende niveaus van diversiteit in ideeontwikkeling opleveren, en dat beter presterende agenten de neiging hebben tot een grotere diversiteit. Vervolgens voeren we een gecontroleerd experiment uit waarbij we de mate van diversiteit aanpassen, en tonen aan dat een hogere diversiteit leidt tot betere prestaties. Tot slot versterken we onze resultaten door aanvullende evaluatiemetrices te onderzoeken die verder gaan dan de standaard medaille-gebaseerde score van MLE-bench, en laten we zien dat onze bevindingen ook standhouden bij andere prestatiemetrices voor agenten.
Versterkend leren (Reinforcement Learning, RL) biedt een principieel kader om Vision-Language Models (VLMs) te verbeteren voor complexe redeneertaken. Bestaande RL-benaderingen zijn echter vaak afhankelijk van door mensen geannoteerde labels of taakspecifieke heuristieken om verifieerbare beloningen te definiëren, wat beide kostbaar en moeilijk schaalbaar is. Wij introduceren VisPlay, een zelf-evoluerend RL-kader dat VLMs in staat stelt om autonoom hun redeneervermogen te verbeteren met behulp van grote hoeveelheden ongelabelde beeldgegevens. Uitgaande van een enkel basis-VLM, wijst VisPlay het model twee interactieve rollen toe: een Beeld-gestuurde Vragensteller die uitdagende maar toch beantwoordbare visuele vragen formuleert, en een Multimodale Redeneerder die zilveren antwoorden genereert. Deze rollen worden gezamenlijk getraind met Group Relative Policy Optimization (GRPO), dat diversiteits- en moeilijkheidsbeloningen incorporeert om de complexiteit van gegenereerde vragen af te stemmen op de kwaliteit van de zilveren antwoorden. VisPlay schaalt efficiënt over twee modelfamilies. Na training op Qwen2.5-VL en MiMo-VL behaalt VisPlay consistente verbeteringen in visueel redeneren, compositionele generalisatie en het verminderen van hallucinaties op acht benchmarks, waaronder MM-Vet en MMMU, wat een schaalbare weg demonstreert naar zelf-evoluerende multimodale intelligentie. De projectpagina is beschikbaar op https://bruno686.github.io/VisPlay/.
De toepasbaarheid van huidige laesiesegmentatiemodellen voor thoraxfoto's (CXRs) wordt beperkt door zowel een klein aantal doel-labels als de afhankelijkheid van lange, gedetailleerde tekstinvoer op expertniveau, wat een barrière vormt voor praktisch gebruik. Om deze beperkingen aan te pakken, introduceren we een nieuw paradigma: instructie-gestuurde laesiesegmentatie (ILS), dat is ontworpen om diverse laesie-types te segmenteren op basis van eenvoudige, gebruiksvriendelijke instructies. Binnen dit paradigma construeren we MIMIC-ILS, de eerste grootschalige instructie-antwoorddataset voor CXR-laesiesegmentatie, met behulp van onze volledig geautomatiseerde multimodale pijplijn die annotaties genereert uit thoraxfoto's en hun bijbehorende rapporten. MIMIC-ILS bevat 1,1 miljoen instructie-antwoordparen afgeleid van 192.000 afbeeldingen en 91.000 unieke segmentatiemaskers, die zeven belangrijke laesie-types bestrijken. Om de bruikbaarheid empirisch aan te tonen, introduceren we ROSALIA, een visie-taalmodel dat is afgestemd op MIMIC-ILS. ROSALIA kan diverse laesies segmenteren en tekstuele uitleg geven in reactie op gebruikersinstructies. Het model behaalt een hoge segmentatie- en tekstuele nauwkeurigheid in onze nieuw voorgestelde taak, wat de effectiviteit van onze pijplijn en de waarde van MIMIC-ILS als fundamentele bron voor pixel-level CXR-laesielokalisatie benadrukt.
De opkomst van uur-lange video's (zoals colleges, podcasts, documentaires) heeft de vraag naar efficiënte contentstructurering geïntensiveerd. Bestaande methoden worden echter beperkt door kleinschalige training met annotaties die doorgaans kort en grof zijn, wat de generalisatie naar genuanceerde overgangen in lange video's belemmert. Wij introduceren ARC-Chapter, het eerste grootschalige video-hoofdstukkenmodel getraind op meer dan miljoen-niveau lange video-hoofdstukken, met tweetalige, temporeel verankerde en hiërarchische hoofdstukannotaties. Om dit doel te bereiken, hebben we een tweetalig Engels-Chinees hoofdstukkendataset samengesteld via een gestructureerde pijplijn die automatische spraakherkenningstranscripten, scèneteksten en visuele bijschriften verenigt tot meerniveau-annotaties, van korte titels tot lange samenvattingen. We tonen duidelijke prestatieverbeteringen aan door dataschaalvergroting, zowel in datavolume als labelintensiteit. Bovendien ontwerpen we een nieuwe evaluatiemetriek genaamd GRACE, die veel-op-één-segmentoverlappingen en semantische gelijkenis incorporeert, waardoor de flexibiliteit van hoofdstukindeling in de praktijk beter wordt weerspiegeld. Uitgebreide experimenten tonen aan dat ARC-Chapter met een aanzienlijke marge een nieuwe state-of-the-art vestigt, waarbij het de vorige beste methode met 14,0% in F1-score en 11,3% in SODA-score overtreft. Bovendien toont ARC-Chapter uitstekende overdraagbaarheid door de state-of-the-art te verbeteren voor downstreamtaken zoals dichte videobijschrijving op YouCook2.
Wij presenteren MHR, een parametrisch menselijk lichaammodel dat het ontkoppelde skelet/vorm-paradigma van ATLAS combineert met een flexibele, moderne rig en een systeem voor pose-correcties dat is geïnspireerd door de Momentum-bibliotheek. Ons model maakt expressieve, anatomisch plausibele humane animatie mogelijk, ondersteunt niet-lineaire pose-correcties en is ontworpen voor robuuste integratie in AR/VR- en graphics-pipelines.
Wij introduceren MoS (Mixture of States), een nieuw fusieparadigma voor multimodale diffusiemodellen dat modaliteiten samenvoegt met behulp van flexibele, op toestanden gebaseerde interacties. De kern van MoS is een leerbare, token-gewijze router die ruisverwijderingstijdstap- en invoerafhankelijke interacties creëert tussen de verborgen toestanden van modaliteiten, waardoor token-niveau kenmerken nauwkeurig worden uitgelijnd met het diffusietraject. Deze router selecteert spaarzaam de top-k verborgen toestanden en wordt getraind met een ε-greedy strategie, waarbij hij efficiënt contextuele kenmerken selecteert met minimale leerbare parameters en verwaarloosbare rekenkosten. Wij valideren ons ontwerp met tekst-naar-beeldgeneratie (MoS-Image) en -bewerking (MoS-Editing), die state-of-the-art resultaten behalen. Met slechts 3 tot 5 miljard parameters evenaren of overtreffen onze modellen tegenhangers die tot 4 keer groter zijn. Deze bevindingen vestigen MoS als een flexibel en rekenzuinig paradigma voor het schalen van multimodale diffusiemodellen.
Met de opkomst van embodied intelligence als een kernfront in kunstmatige intelligentie-onderzoek moeten simulatiewerelden verder evolueren dan louter fysieke interacties op laag niveau, om complexe, mensgerichte sociale gedragingen te kunnen modelleren. Wij introduceren FreeAskWorld, een interactief simulatiekader dat grote taalmodelen (LLM's) integreert voor gedragsplanning op hoog niveau en semantisch verankerde interactie, geïnformeerd door theorieën over intentie en sociale cognitie. Ons kader ondersteunt schaalbare, realistische mens-agent simulaties en omvat een modulaire datageneratiepijplijn die is toegesneden op diverse embodied taken. Om het kader te valideren, breiden we de klassieke Vision-and-Language Navigation (VLN)-taak uit naar een interactierijke Direction Inquiry-setting, waarin agenten actief navigatie-aanwijzingen kunnen vragen en interpreteren. Wij presenteren en maken publiekelijk beschikbaar FreeAskWorld, een grootschalige benchmarkdataset bestaande uit gereconstrueerde omgevingen, zes uiteenlopende taaktypen, 16 kernobjectcategorieën, 63.429 geannoteerde sampleframes en meer dan 17 uur aan interactiedata ter ondersteuning van training en evaluatie van embodied AI-systemen. Wij evalueren VLN-modellen en menselijke deelnemers in zowel open-loop als closed-loop settings. Experimentele resultaten tonen aan dat modellen die zijn gefinetuned op FreeAskWorld hun oorspronkelijke tegenhangers overtreffen, met verbeterd semantisch begrip en interactievermogen. Deze bevindingen onderstrepen de effectiviteit van sociaal verankerde simulatiekaders voor de vooruitgang van embodied AI-systemen richting geavanceerde planning op hoog niveau en natuurlijkere mens-agent interactie. Cruciaal is dat ons werk benadrukt dat interactie zelf fungeert als een aanvullende informatiedimensie.
Dichte kenmerkenmatching heeft als doel alle correspondenties tussen twee afbeeldingen van een 3D-scène te schatten en is recentelijk de gouden standaard geworden vanwege de hoge nauwkeurigheid en robuustheid. Bestaande dichte matchers falen of presteren echter nog steeds slecht voor veel moeilijke real-world scenario's, en hoogprecisie modellen zijn vaak traag, wat hun toepasbaarheid beperkt. In dit artikel pakken we deze zwakke punten op brede fronten aan via een reeks systematische verbeteringen die samen een aanzienlijk beter model opleveren. We construeren in het bijzonder een nieuwe matchingarchitectuur en verliesfunctie, die, gecombineerd met een samengestelde diverse trainingsdistributie, ons model in staat stelt veel complexe matchingtaken op te lossen. We versnellen de training verder via een ontkoppelde tweefasen pijplijn (eerst matching, dan verfijning) en verminderen tegelijkertijd het geheugengebruik tijdens de verfijning aanzienlijk door middel van een aangepaste CUDA-kernel. Ten slotte benutten we het recente DINOv3 foundation model samen met meerdere andere inzichten om het model robuuster en minder bevooroordeeld te maken. In onze uitgebreide reeks experimenten tonen we aan dat de resulterende nieuwe matcher een nieuwe state-of-the-art vestigt en aanzienlijk nauwkeuriger is dan zijn voorgangers. Code is beschikbaar op https://github.com/Parskatt/romav2
Recente vooruitgang in generatieve AI voor muziek heeft een opmerkelijke geloofwaardigheid en stilistische diversiteit bereikt, maar deze systemen slagen er vaak niet in om af te stemmen op genuanceerde menselijke voorkeuren vanwege de specifieke verliesfuncties die ze gebruiken. Dit pleitbezorgt voor de systematische toepassing van voorkeursafstemmingstechnieken op muziekgeneratie, om de fundamentele kloof tussen computationele optimalisatie en menselijke muzikale waardering te overbruggen. Voortbordurend op recente doorbraken – waaronder grootschalig voorkeursleren van MusicRL, raamwerken voor multi-voorkeursafstemming zoals diffusiegebaseerde voorkeursoptimalisatie in DiffRhythm+, en optimalisatietechnieken tijdens inferentie zoals Text2midi-InferAlign – bespreken we hoe deze technieken de unieke uitdagingen van muziek kunnen aanpakken: temporele samenhang, harmonische consistentie en subjectieve kwaliteitsbeoordeling. We identificeren belangrijke onderzoeksuitdagingen, waaronder schaalbaarheid naar langere composities en betrouwbaarheid in voorkeursmodellering. Vooruitkijkend zien we een toekomst voor muziekgeneratie met voorkeursafstemming die transformerende toepassingen mogelijk maakt in interactieve compositietools en gepersonaliseerde muziekdiensten. Dit werk roept op tot voortgezet interdisciplinair onderzoek dat vooruitgang in machine learning en muziektheorie combineert om muziek-AI-systemen te creëren die werkelijk voldoen aan menselijke creatieve en ervaringsbehoeften.
Wij introduceren Medal S, een medisch segmentatiefoundationmodel dat native-resolutie ruimtelijke en tekstuele prompts ondersteunt binnen een end-to-end trainbaar raamwerk. In tegenstelling tot uitsluitend tekstgebaseerde methoden die ruimtelijk bewustzijn missen, bereikt Medal S een kanaalgewijze uitlijning tussen volumetrische prompts en tekst-embeddings, waardoor onnauwkeurigheden door resolutieverschillen worden verminderd. Door de volledige 3D-context te behouden, verwerkt het efficiënt meerdere masks op native resolutie parallel, wat de prestaties voor multiklasse-segmentatie verbetert. Een lichtgewicht 3D-convolutiemodule maakt precieze verfijning in de voxelruimte mogelijk, geleid door beide prompttypes, en ondersteunt tot 243 klassen across CT, MRI, PET, echografie en microscopie modaliteiten in de BiomedSegFM-dataset. Medal S biedt twee promptingmodi: een tekst-only modus, waarbij modelvoorspellingen dienen als ruimtelijke prompts voor zelfverfijning zonder menselijke input, en een hybride modus, die handmatige annotaties incorporeert voor meer flexibiliteit. Voor 24-klasse segmentatie reduceert parallelle ruimtelijke prompting de inferentietijd met meer dan 90% vergeleken met sequentiële prompting. Wij stellen dynamische resampling voor om doel-patch-ratio-onbalans aan te pakken, waarbij SAT en nnU-Net worden uitgebreid voor data-augmentatie. Verder ontwikkelen we geoptimaliseerde tekstvoorbewerking, een tweefasen-inferentiestrategie en post-processingtechnieken om geheugenefficiëntie, precisie en inferentiesnelheid te verbeteren. Op de gemiddelde vijf-modaliteitenscore van de validatieset presteert Medal S beter dan SAT met een DSC van 75.44 (vs. 69.83), NSD van 77.34 (vs. 71.06), F1 van 38.24 (vs. 24.88) en DSC TP van 65.46 (vs. 46.97). Medal S bereikt excellente prestaties door ruimtelijke precisie te harmoniseren met semantische tekstuele begeleiding, en demonstreert superieure efficiëntie en nauwkeurigheid in multiklasse medische segmentatietaken vergeleken met op sequentiële prompting gebaseerde benaderingen. Medal S zal publiekelijk beschikbaar zijn op https://github.com/yinghemedical/Medal-S.