HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

12 papers found

Kandinsky 5.0: Een Familie van Fundamentmodellen voor Beeld- en Videogeneratie
Kandinsky 5.0: A Family of Foundation Models for Image and Video Generation

Nov 19

ByVladimir Arkhipkin, Vladimir Korviakov, Nikolai Gerasimenko, Denis Parkhomenko, Viacheslav Vasilev, Alexey Letunovskiy, Maria Kovaleva, Nikolai Vaulin, Ivan Kirillov, Lev Novitskiy, Denis Koposov, Nikita Kiselev, Alexander Varlamov, Dmitrii Mikhailov, Vladimir Polovnikov, Andrey Shutkin, Ilya Vasiliev, Julia Agafonova, Anastasiia Kargapoltseva, Anna Dmitrienko, Anastasia Maltseva, Anna Averchenkova, Olga Kim, Tatiana Nikulina, Denis Dimitrov

125

Dit rapport introduceert Kandinsky 5.0, een familie van state-of-the-art foundation-modellen voor de synthese van hoogwaardige afbeeldingen en 10-seconden video’s. Het framework bestaat uit drie kernmodellen: Kandinsky 5.0 Image Lite – een reeks van 6B-parameter modellen voor beeldgeneratie, Kandinsky 5.0 Video Lite – snelle en lichtgewicht 2B-parameter modellen voor tekst-naar-video en beeld-naar-video, en Kandinsky 5.0 Video Pro – 19B-parameter modellen die superieure videogeneratiekwaliteit bereiken. We bieden een uitgebreid overzicht van de levenscyclus van datacuratie – inclusief verzameling, verwerking, filtering en clustering – voor de meerfasige trainingspipeline die uitgebreide voorafgaande training omvat en kwaliteitsverbeterende technieken integreert, zoals zelfsupervised fine-tuning (SFT) en reinforcement learning (RL)-gebaseerde na-training. We presenteren ook nieuwe architectonische, trainings- en inferentie-optimalisaties die Kandinsky 5.0 in staat stellen hoge generatiesnelheden en state-of-the-art prestaties te bereiken voor diverse taken, zoals aangetoond door menselijke evaluatie. Als een grootschalig, publiek beschikbaar generatief framework benut Kandinsky 5.0 het volledige potentieel van zijn voorafgaande training en latere fasen om te worden aangepast voor een breed scala aan generatieve toepassingen. We hopen dat dit rapport, samen met de release van onze open-source code en trainingscheckpoints, de ontwikkeling en toegankelijkheid van hoogwaardige generatieve modellen voor de onderzoeksgemeenschap aanzienlijk zal bevorderen.

Redeneren via Video: De Eerste Evaluatie van het Redeneervermogen van Videomodellen door middel van Doolhof-Oplossende Taken
Reasoning via Video: The First Evaluation of Video Models' Reasoning Abilities through Maze-Solving Tasks

Nov 19

ByCheng Yang, Haiyuan Wan, Yiran Peng, Xin Cheng, Zhaoyang Yu, Jiayi Zhang, Junchi Yu, Xinlei Yu, Xiawu Zheng, Dongzhan Zhou, Chenglin Wu

Videomodellen hebben opmerkelijke successen geboekt in het genereren van hoogwaardige video's met coherente bewegingsdynamiek. Analoog aan de ontwikkeling van tekstgeneratie naar tekstgebaseerd redeneren in taalmodellering, zet de ontwikkeling van videomodellen ons aan het denken: Kunnen videomodellen redeneren via videogeneratie? Vergeleken met discrete tekstcorpora, verankert video het redeneren in expliciete ruimtelijke structuren en temporele continuïteit, wat het een ideaal substraat maakt voor ruimtelijk redeneren. In dit werk verkennen we het paradigma van redeneren via video en introduceren we VR-Bench – een uitgebreide benchmark ontworpen om de redeneervaardigheden van videomodellen systematisch te evalueren. Gebaseerd op doolhof-oplossingstaken die inherent ruimtelijke planning en meerstapsredenering vereisen, bevat VR-Bench 7.920 procedureel gegenereerde video's verdeeld over vijf doolhoftypes en diverse visuele stijlen. Onze empirische analyse toont aan dat SFT (Supervised Fine-Tuning) de redeneervaardigheid van videomodellen efficiënt kan aanwakkeren. Videomodellen vertonen een sterker ruimtelijk perceptievermogen tijdens het redeneren, presteren beter dan toonaangevende Vision-Language Models (VLM's) en generaliseren goed over diverse scenario's, taken en complexiteitsniveaus. Verder ontdekken we een test-time schaaleffect, waarbij diverse steekproefname tijdens de inferentie de betrouwbaarheid van het redeneren met 10–20% verbetert. Deze bevindingen benadrukken het unieke potentieel en de schaalbaarheid van redeneren via video voor ruimtelijke redeneertaken.

Wat is er voor nodig om een goede AI-onderzoeksagent te zijn? Onderzoek naar de rol van ideeëndiversiteit
What Does It Take to Be a Good AI Research Agent? Studying the Role of Ideation Diversity

Nov 19

ByAlexis Audran-Reiss, Jordi Armengol Estapé, Karen Hambardzumyan, Amar Budhiraja, Martin Josifoski, Edan Toledo, Rishi Hazra, Despoina Magka, Michael Shvartsman, Parth Pathak, Justine T Kao, Lucia Cipolina-Kun, Bhavul Gauri, Jean-Christophe Gagnon-Audet, Emanuel Tewolde, Jenny Zhang, Taco Cohen, Yossi Adi, Tatiana Shavrina, Yoram Bachrach

AI-onderzoeksagenten beloven wetenschappelijke vooruitgang te versnellen door het ontwerp, de implementatie en de training van machine learning-modellen te automatiseren. Desalniettemin bevindt het vakgebied zich nog in de kinderschoenen en zijn de belangrijkste factoren die het succes of falen van agenttrajecten bepalen niet volledig begrepen. Wij onderzoeken de rol die diversiteit in ideeontwikkeling speelt bij de prestaties van agenten. Ten eerste analyseren we agenttrajecten op MLE-bench, een bekende benchmark voor het evalueren van AI-onderzoeksagenten, bij verschillende modellen en agentscaffolds. Onze analyse toont aan dat verschillende modellen en agentscaffolds uiteenlopende niveaus van diversiteit in ideeontwikkeling opleveren, en dat beter presterende agenten de neiging hebben tot een grotere diversiteit. Vervolgens voeren we een gecontroleerd experiment uit waarbij we de mate van diversiteit aanpassen, en tonen aan dat een hogere diversiteit leidt tot betere prestaties. Tot slot versterken we onze resultaten door aanvullende evaluatiemetrices te onderzoeken die verder gaan dan de standaard medaille-gebaseerde score van MLE-bench, en laten we zien dat onze bevindingen ook standhouden bij andere prestatiemetrices voor agenten.

VisPlay: Zelf-evoluerende vision-language-modellen vanuit beelden
VisPlay: Self-Evolving Vision-Language Models from Images

Nov 19

ByYicheng He, Chengsong Huang, Zongxia Li, Jiaxin Huang, Yonghui Yang

Versterkend leren (Reinforcement Learning, RL) biedt een principieel kader om Vision-Language Models (VLMs) te verbeteren voor complexe redeneertaken. Bestaande RL-benaderingen zijn echter vaak afhankelijk van door mensen geannoteerde labels of taakspecifieke heuristieken om verifieerbare beloningen te definiëren, wat beide kostbaar en moeilijk schaalbaar is. Wij introduceren VisPlay, een zelf-evoluerend RL-kader dat VLMs in staat stelt om autonoom hun redeneervermogen te verbeteren met behulp van grote hoeveelheden ongelabelde beeldgegevens. Uitgaande van een enkel basis-VLM, wijst VisPlay het model twee interactieve rollen toe: een Beeld-gestuurde Vragensteller die uitdagende maar toch beantwoordbare visuele vragen formuleert, en een Multimodale Redeneerder die zilveren antwoorden genereert. Deze rollen worden gezamenlijk getraind met Group Relative Policy Optimization (GRPO), dat diversiteits- en moeilijkheidsbeloningen incorporeert om de complexiteit van gegenereerde vragen af te stemmen op de kwaliteit van de zilveren antwoorden. VisPlay schaalt efficiënt over twee modelfamilies. Na training op Qwen2.5-VL en MiMo-VL behaalt VisPlay consistente verbeteringen in visueel redeneren, compositionele generalisatie en het verminderen van hallucinaties op acht benchmarks, waaronder MM-Vet en MMMU, wat een schaalbare weg demonstreert naar zelf-evoluerende multimodale intelligentie. De projectpagina is beschikbaar op https://bruno686.github.io/VisPlay/.

Laesiesegmentatie voor borstkasröntgenfoto's met instructiebegeleiding en automatisch gegenereerde grootschalige dataset
Instruction-Guided Lesion Segmentation for Chest X-rays with Automatically Generated Large-Scale Dataset

Nov 19

ByGeon Choi, Hangyul Yoon, Hyunju Shin, Hyunki Park, Sang Hoon Seo, Eunho Yang, Edward Choi

De toepasbaarheid van huidige laesiesegmentatiemodellen voor thoraxfoto's (CXRs) wordt beperkt door zowel een klein aantal doel-labels als de afhankelijkheid van lange, gedetailleerde tekstinvoer op expertniveau, wat een barrière vormt voor praktisch gebruik. Om deze beperkingen aan te pakken, introduceren we een nieuw paradigma: instructie-gestuurde laesiesegmentatie (ILS), dat is ontworpen om diverse laesie-types te segmenteren op basis van eenvoudige, gebruiksvriendelijke instructies. Binnen dit paradigma construeren we MIMIC-ILS, de eerste grootschalige instructie-antwoorddataset voor CXR-laesiesegmentatie, met behulp van onze volledig geautomatiseerde multimodale pijplijn die annotaties genereert uit thoraxfoto's en hun bijbehorende rapporten. MIMIC-ILS bevat 1,1 miljoen instructie-antwoordparen afgeleid van 192.000 afbeeldingen en 91.000 unieke segmentatiemaskers, die zeven belangrijke laesie-types bestrijken. Om de bruikbaarheid empirisch aan te tonen, introduceren we ROSALIA, een visie-taalmodel dat is afgestemd op MIMIC-ILS. ROSALIA kan diverse laesies segmenteren en tekstuele uitleg geven in reactie op gebruikersinstructies. Het model behaalt een hoge segmentatie- en tekstuele nauwkeurigheid in onze nieuw voorgestelde taak, wat de effectiviteit van onze pijplijn en de waarde van MIMIC-ILS als fundamentele bron voor pixel-level CXR-laesielokalisatie benadrukt.

ARC-Chapter: Het structureren van uur-lange video's in navigeerbare hoofdstukken en hiërarchische samenvattingen
ARC-Chapter: Structuring Hour-Long Videos into Navigable Chapters and Hierarchical Summaries

Nov 18

ByJunfu Pu, Teng Wang, Yixiao Ge, Yuying Ge, Chen Li, Ying Shan

De opkomst van uur-lange video's (zoals colleges, podcasts, documentaires) heeft de vraag naar efficiënte contentstructurering geïntensiveerd. Bestaande methoden worden echter beperkt door kleinschalige training met annotaties die doorgaans kort en grof zijn, wat de generalisatie naar genuanceerde overgangen in lange video's belemmert. Wij introduceren ARC-Chapter, het eerste grootschalige video-hoofdstukkenmodel getraind op meer dan miljoen-niveau lange video-hoofdstukken, met tweetalige, temporeel verankerde en hiërarchische hoofdstukannotaties. Om dit doel te bereiken, hebben we een tweetalig Engels-Chinees hoofdstukkendataset samengesteld via een gestructureerde pijplijn die automatische spraakherkenningstranscripten, scèneteksten en visuele bijschriften verenigt tot meerniveau-annotaties, van korte titels tot lange samenvattingen. We tonen duidelijke prestatieverbeteringen aan door dataschaalvergroting, zowel in datavolume als labelintensiteit. Bovendien ontwerpen we een nieuwe evaluatiemetriek genaamd GRACE, die veel-op-één-segmentoverlappingen en semantische gelijkenis incorporeert, waardoor de flexibiliteit van hoofdstukindeling in de praktijk beter wordt weerspiegeld. Uitgebreide experimenten tonen aan dat ARC-Chapter met een aanzienlijke marge een nieuwe state-of-the-art vestigt, waarbij het de vorige beste methode met 14,0% in F1-score en 11,3% in SODA-score overtreft. Bovendien toont ARC-Chapter uitstekende overdraagbaarheid door de state-of-the-art te verbeteren voor downstreamtaken zoals dichte videobijschrijving op YouCook2.

MHR: Momentum Human Rig
MHR: Momentum Human Rig

Nov 19

ByAaron Ferguson, Ahmed A. A. Osman, Berta Bescos, Carsten Stoll, Chris Twigg, Christoph Lassner, David Otte, Eric Vignola, Federica Bogo, Igor Santesteban, Javier Romero, Jenna Zarate, Jeongseok Lee, Jinhyung Park, Jinlong Yang, John Doublestein, Kishore Venkateshan, Kris Kitani, Ladislav Kavan, Marco Dal Farra, Matthew Hu, Matthew Cioffi, Michael Fabris, Michael Ranieri, Mohammad Modarres, Petr Kadlecek, Rinat Abdrashitov, Romain Prévost, Roman Rajbhandari, Ronald Mallet, Russel Pearsall, Sandy Kao, Sanjeev Kumar, Scott Parrish, Te-Li Wang, Tony Tung, Yuan Dong, Yuhua Chen, Yuanlu Xu, Yuting Ye, Zhongshi Jiang

Wij presenteren MHR, een parametrisch menselijk lichaammodel dat het ontkoppelde skelet/vorm-paradigma van ATLAS combineert met een flexibele, moderne rig en een systeem voor pose-correcties dat is geïnspireerd door de Momentum-bibliotheek. Ons model maakt expressieve, anatomisch plausibele humane animatie mogelijk, ondersteunt niet-lineaire pose-correcties en is ontworpen voor robuuste integratie in AR/VR- en graphics-pipelines.

Mengsel van Toestanden: Routering van Token-Level Dynamiek voor Multimodale Generatie
Mixture of States: Routing Token-Level Dynamics for Multimodal Generation

Nov 15

ByHaozhe Liu, Ding Liu, Mingchen Zhuge, Zijian Zhou, Tian Xie, Sen He, Yukang Yang, Shuming Liu, Yuren Cong, Jiadong Guo, Hongyu Xu, Ke Xu, Kam-Woh Ng, Juan C. Pérez, Juan-Manuel~Pérez-Rúa, Tao Xiang, Wei Liu, Shikun Liu, Jürgen Schmidhuber

Wij introduceren MoS (Mixture of States), een nieuw fusieparadigma voor multimodale diffusiemodellen dat modaliteiten samenvoegt met behulp van flexibele, op toestanden gebaseerde interacties. De kern van MoS is een leerbare, token-gewijze router die ruisverwijderingstijdstap- en invoerafhankelijke interacties creëert tussen de verborgen toestanden van modaliteiten, waardoor token-niveau kenmerken nauwkeurig worden uitgelijnd met het diffusietraject. Deze router selecteert spaarzaam de top-k verborgen toestanden en wordt getraind met een ε-greedy strategie, waarbij hij efficiënt contextuele kenmerken selecteert met minimale leerbare parameters en verwaarloosbare rekenkosten. Wij valideren ons ontwerp met tekst-naar-beeldgeneratie (MoS-Image) en -bewerking (MoS-Editing), die state-of-the-art resultaten behalen. Met slechts 3 tot 5 miljard parameters evenaren of overtreffen onze modellen tegenhangers die tot 4 keer groter zijn. Deze bevindingen vestigen MoS als een flexibel en rekenzuinig paradigma voor het schalen van multimodale diffusiemodellen.

FreeAskWorld: Een interactieve en gesloten simulator voor mensgerichte embodied AI
FreeAskWorld: An Interactive and Closed-Loop Simulator for Human-Centric Embodied AI

Nov 17

ByYuhang Peng, Yizhou Pan, Xinning He, Jihaoyu Yang, Xinyu Yin, Han Wang, Xiaoji Zheng, Chao Gao, Jiangtao Gong

Met de opkomst van embodied intelligence als een kernfront in kunstmatige intelligentie-onderzoek moeten simulatiewerelden verder evolueren dan louter fysieke interacties op laag niveau, om complexe, mensgerichte sociale gedragingen te kunnen modelleren. Wij introduceren FreeAskWorld, een interactief simulatiekader dat grote taalmodelen (LLM's) integreert voor gedragsplanning op hoog niveau en semantisch verankerde interactie, geïnformeerd door theorieën over intentie en sociale cognitie. Ons kader ondersteunt schaalbare, realistische mens-agent simulaties en omvat een modulaire datageneratiepijplijn die is toegesneden op diverse embodied taken. Om het kader te valideren, breiden we de klassieke Vision-and-Language Navigation (VLN)-taak uit naar een interactierijke Direction Inquiry-setting, waarin agenten actief navigatie-aanwijzingen kunnen vragen en interpreteren. Wij presenteren en maken publiekelijk beschikbaar FreeAskWorld, een grootschalige benchmarkdataset bestaande uit gereconstrueerde omgevingen, zes uiteenlopende taaktypen, 16 kernobjectcategorieën, 63.429 geannoteerde sampleframes en meer dan 17 uur aan interactiedata ter ondersteuning van training en evaluatie van embodied AI-systemen. Wij evalueren VLN-modellen en menselijke deelnemers in zowel open-loop als closed-loop settings. Experimentele resultaten tonen aan dat modellen die zijn gefinetuned op FreeAskWorld hun oorspronkelijke tegenhangers overtreffen, met verbeterd semantisch begrip en interactievermogen. Deze bevindingen onderstrepen de effectiviteit van sociaal verankerde simulatiekaders voor de vooruitgang van embodied AI-systemen richting geavanceerde planning op hoog niveau en natuurlijkere mens-agent interactie. Cruciaal is dat ons werk benadrukt dat interactie zelf fungeert als een aanvullende informatiedimensie.

RoMa v2: Harder Better Faster Denser Feature Matching
RoMa v2: Harder Better Faster Denser Feature Matching

Nov 19

ByJohan Edstedt, David Nordström, Yushan Zhang, Georg Bökman, Jonathan Astermark, Viktor Larsson, Anders Heyden, Fredrik Kahl, Mårten Wadenbäck, Michael Felsberg

Dichte kenmerkenmatching heeft als doel alle correspondenties tussen twee afbeeldingen van een 3D-scène te schatten en is recentelijk de gouden standaard geworden vanwege de hoge nauwkeurigheid en robuustheid. Bestaande dichte matchers falen of presteren echter nog steeds slecht voor veel moeilijke real-world scenario's, en hoogprecisie modellen zijn vaak traag, wat hun toepasbaarheid beperkt. In dit artikel pakken we deze zwakke punten op brede fronten aan via een reeks systematische verbeteringen die samen een aanzienlijk beter model opleveren. We construeren in het bijzonder een nieuwe matchingarchitectuur en verliesfunctie, die, gecombineerd met een samengestelde diverse trainingsdistributie, ons model in staat stelt veel complexe matchingtaken op te lossen. We versnellen de training verder via een ontkoppelde tweefasen pijplijn (eerst matching, dan verfijning) en verminderen tegelijkertijd het geheugengebruik tijdens de verfijning aanzienlijk door middel van een aangepaste CUDA-kernel. Ten slotte benutten we het recente DINOv3 foundation model samen met meerdere andere inzichten om het model robuuster en minder bevooroordeeld te maken. In onze uitgebreide reeks experimenten tonen we aan dat de resulterende nieuwe matcher een nieuwe state-of-the-art vestigt en aanzienlijk nauwkeuriger is dan zijn voorgangers. Code is beschikbaar op https://github.com/Parskatt/romav2

Generatieve Muziek-AI Afstemmen op Menselijke Voorkeuren: Methoden en Uitdagingen
Aligning Generative Music AI with Human Preferences: Methods and Challenges

Nov 19

ByDorien Herremans, Abhinaba Roy

Recente vooruitgang in generatieve AI voor muziek heeft een opmerkelijke geloofwaardigheid en stilistische diversiteit bereikt, maar deze systemen slagen er vaak niet in om af te stemmen op genuanceerde menselijke voorkeuren vanwege de specifieke verliesfuncties die ze gebruiken. Dit pleitbezorgt voor de systematische toepassing van voorkeursafstemmingstechnieken op muziekgeneratie, om de fundamentele kloof tussen computationele optimalisatie en menselijke muzikale waardering te overbruggen. Voortbordurend op recente doorbraken – waaronder grootschalig voorkeursleren van MusicRL, raamwerken voor multi-voorkeursafstemming zoals diffusiegebaseerde voorkeursoptimalisatie in DiffRhythm+, en optimalisatietechnieken tijdens inferentie zoals Text2midi-InferAlign – bespreken we hoe deze technieken de unieke uitdagingen van muziek kunnen aanpakken: temporele samenhang, harmonische consistentie en subjectieve kwaliteitsbeoordeling. We identificeren belangrijke onderzoeksuitdagingen, waaronder schaalbaarheid naar langere composities en betrouwbaarheid in voorkeursmodellering. Vooruitkijkend zien we een toekomst voor muziekgeneratie met voorkeursafstemming die transformerende toepassingen mogelijk maakt in interactieve compositietools en gepersonaliseerde muziekdiensten. Dit werk roept op tot voortgezet interdisciplinair onderzoek dat vooruitgang in machine learning en muziektheorie combineert om muziek-AI-systemen te creëren die werkelijk voldoen aan menselijke creatieve en ervaringsbehoeften.

Medaille S: Een Spatio-Textueel Prompt Model voor Medische Segmentatie
Medal S: Spatio-Textual Prompt Model for Medical Segmentation

Nov 17

ByPengcheng Shi, Jiawei Chen, Jiaqi Liu, Xinglin Zhang, Tao Chen, Lei Li

Wij introduceren Medal S, een medisch segmentatiefoundationmodel dat native-resolutie ruimtelijke en tekstuele prompts ondersteunt binnen een end-to-end trainbaar raamwerk. In tegenstelling tot uitsluitend tekstgebaseerde methoden die ruimtelijk bewustzijn missen, bereikt Medal S een kanaalgewijze uitlijning tussen volumetrische prompts en tekst-embeddings, waardoor onnauwkeurigheden door resolutieverschillen worden verminderd. Door de volledige 3D-context te behouden, verwerkt het efficiënt meerdere masks op native resolutie parallel, wat de prestaties voor multiklasse-segmentatie verbetert. Een lichtgewicht 3D-convolutiemodule maakt precieze verfijning in de voxelruimte mogelijk, geleid door beide prompttypes, en ondersteunt tot 243 klassen across CT, MRI, PET, echografie en microscopie modaliteiten in de BiomedSegFM-dataset. Medal S biedt twee promptingmodi: een tekst-only modus, waarbij modelvoorspellingen dienen als ruimtelijke prompts voor zelfverfijning zonder menselijke input, en een hybride modus, die handmatige annotaties incorporeert voor meer flexibiliteit. Voor 24-klasse segmentatie reduceert parallelle ruimtelijke prompting de inferentietijd met meer dan 90% vergeleken met sequentiële prompting. Wij stellen dynamische resampling voor om doel-patch-ratio-onbalans aan te pakken, waarbij SAT en nnU-Net worden uitgebreid voor data-augmentatie. Verder ontwikkelen we geoptimaliseerde tekstvoorbewerking, een tweefasen-inferentiestrategie en post-processingtechnieken om geheugenefficiëntie, precisie en inferentiesnelheid te verbeteren. Op de gemiddelde vijf-modaliteitenscore van de validatieset presteert Medal S beter dan SAT met een DSC van 75.44 (vs. 69.83), NSD van 77.34 (vs. 71.06), F1 van 38.24 (vs. 24.88) en DSC TP van 65.46 (vs. 46.97). Medal S bereikt excellente prestaties door ruimtelijke precisie te harmoniseren met semantische tekstuele begeleiding, en demonstreert superieure efficiëntie en nauwkeurigheid in multiklasse medische segmentatietaken vergeleken met op sequentiële prompting gebaseerde benaderingen. Medal S zal publiekelijk beschikbaar zijn op https://github.com/yinghemedical/Medal-S.

Medaille S: Een Spatio-Textueel Prompt Model voor Medische Segmentatie
Medal S: Spatio-Textual Prompt Model for Medical Segmentation

Nov 17

ByPengcheng Shi, Jiawei Chen, Jiaqi Liu, Xinglin Zhang, Tao Chen, Lei Li