Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We presenteren RWKV-7 "Goose", een nieuwe architectuur voor sequentiemodellering, samen met vooraf getrainde taalmodelen die een nieuwe staat-van-de-kunst vestigen in downstream prestaties op het niveau van 3 miljard parameters voor meertalige taken, en die de huidige staat-van-de-kunst prestaties voor de Engelse taal evenaren, ondanks dat ze getraind zijn op aanzienlijk minder tokens dan andere top 3B-modellen. Desalniettemin vereisen RWKV-7-modellen slechts constant geheugengebruik en constante inferentietijd per token. RWKV-7 introduceert een nieuw gegeneraliseerde formulering van de delta-regel met vectorwaardige gating en in-context leersnelheden, evenals een versoepelde waardevervangingsregel. We tonen aan dat RWKV-7 staatstracking kan uitvoeren en alle reguliere talen kan herkennen, terwijl de paralleliseerbaarheid van training behouden blijft. Dit overtreft de mogelijkheden van Transformers onder standaard complexiteitsveronderstellingen, die beperkt zijn tot TC^0. Om de taalmodelleercapaciteit van RWKV-7 te demonstreren, presenteren we ook een uitgebreid open source meertalig corpus van 3,1 biljoen tokens, en trainen we vier RWKV-7-modellen variërend van 0,19 miljard tot 2,9 miljard parameters op deze dataset. Om openheid, reproductie en adoptie te bevorderen, maken we onze modellen en datasetcomponentenlijst beschikbaar op https://huggingface.co/RWKV, en onze trainings- en inferentiecode op https://github.com/RWKV/RWKV-LM, allemaal onder de Apache 2.0-licentie.
Inference-schaling stelt LLM's in staat met ongekende redeneervaardigheden, waarbij reinforcement learning de kerntechniek is om complex redeneren te ontlokken. Echter blijven cruciale technische details van state-of-the-art redenerende LLM's verborgen (zoals in de OpenAI o1 blog en het DeepSeek R1 technisch rapport), waardoor de gemeenschap nog steeds moeite heeft om hun RL-trainingsresultaten te reproduceren. Wij stellen het Decoupled Clip and Dynamic sAmpling Policy Optimization (DAPO) algoritme voor en openbaren volledig een state-of-the-art grootschalig RL-systeem dat 50 punten behaalt op AIME 2024 met het Qwen2.5-32B basismodel. In tegenstelling tot eerdere werken die trainingsdetails achterhouden, introduceren wij vier sleuteltechnieken van ons algoritme die grootschalige LLM RL tot een succes maken. Daarnaast openbaren wij onze trainingscode, die is gebouwd op het verl framework, samen met een zorgvuldig samengesteld en verwerkt dataset. Deze componenten van ons open-source systeem verbeteren de reproduceerbaarheid en ondersteunen toekomstig onderzoek in grootschalige LLM RL.
Synthetische video's worden tegenwoordig veel gebruikt om de schaarste en diversiteit van real-world video's aan te vullen. Huidige synthetische datasets repliceren voornamelijk real-world scenario's, waardoor onmogelijke, tegenstrijdige en anti-realistische videoconcepten onderbelicht blijven. Dit werk beoogt twee vragen te beantwoorden: 1) Kunnen de huidige videogeneratiemodellen effectief prompts volgen om onmogelijke videocontent te creëren? 2) Zijn de huidige videobegripsmodellen goed genoeg om onmogelijke video's te begrijpen? Hiertoe introduceren we IPV-Bench, een nieuwe benchmark ontworpen om vooruitgang in videobegrip en -generatie te evalueren en te bevorderen. IPV-Bench wordt ondersteund door een uitgebreide taxonomie, die 4 domeinen en 14 categorieën omvat. Het bevat diverse scènes die fysieke, biologische, geografische of sociale wetten tarten. Op basis van de taxonomie is een promptsamengesteld om videogeneratiemodellen te evalueren, waarbij hun vermogen om prompts te volgen en creativiteit wordt getest. Daarnaast is een videobenchmark samengesteld om Video-LLM's te beoordelen op hun vermogen om onmogelijke video's te begrijpen, wat met name redenering over temporele dynamiek en wereldkennis vereist. Uitgebreide evaluaties onthullen beperkingen en inzichten voor toekomstige richtingen van videomodellen, waardoor de weg wordt geëffend voor de volgende generatie videomodellen.
Creativiteit is een fundamenteel aspect van intelligentie, waarbij het vermogen om nieuwe en passende oplossingen te genereren in diverse contexten centraal staat. Hoewel Large Language Models (LLMs) uitgebreid zijn geëvalueerd op hun creatieve capaciteiten, blijft de beoordeling van Multimodal Large Language Models (MLLMs) op dit gebied grotendeels onontgonnen. Om deze leemte aan te pakken, introduceren we Creation-MMBench, een multimodale benchmark die specifiek is ontworpen om de creatieve mogelijkheden van MLLMs te evalueren in realistische, beeldgebaseerde taken. De benchmark omvat 765 testgevallen verdeeld over 51 gedetailleerde taken. Om een rigoureuze evaluatie te waarborgen, definiëren we voor elk testgeval specifieke evaluatiecriteria die de beoordeling van zowel de algemene responskwaliteit als de feitelijke consistentie met visuele input sturen. Experimentele resultaten tonen aan dat huidige open-source MLLMs aanzienlijk onderpresteren in vergelijking met propriëtaire modellen bij creatieve taken. Bovendien laat onze analyse zien dat visuele fine-tuning een negatieve impact kan hebben op de creatieve vaardigheden van het basis-LLM. Creation-MMBench biedt waardevolle inzichten voor het bevorderen van MLLM-creativiteit en legt een basis voor toekomstige verbeteringen in multimodale generatieve intelligentie. Volledige data en evaluatiecode zijn vrijgegeven op https://github.com/open-compass/Creation-MMBench.
Menselijke experts blinken uit in fijnmazige visuele discriminatie door domeinkennis te gebruiken om waarnemingskenmerken te verfijnen, een vaardigheid die nog onderontwikkeld is in huidige Multimodale Grote Taalmodellen (MLLMs). Ondanks het bezit van uitgebreide expertniveau kennis, hebben MLLMs moeite om redenering te integreren in visuele waarneming, waarbij ze vaak directe reacties genereren zonder diepgaande analyse. Om deze kloof te overbruggen, introduceren we kennisintensieve visuele verankering (KVG), een nieuwe visuele verankerings taak die zowel fijnmazige waarneming als integratie van domeinspecifieke kennis vereist. Om de uitdagingen van KVG aan te pakken, stellen we DeepPerception voor, een MLLM versterkt met cognitieve visuele waarnemingscapaciteiten. Onze aanpak bestaat uit (1) een geautomatiseerde datasynthesepijplijn die hoogwaardige, kennisafgestemde trainingsmonsters genereert, en (2) een tweefasen trainingsraamwerk dat supervised fine-tuning combineert voor cognitieve redeneringsondersteuning en reinforcement learning om de synergie tussen waarneming en cognitie te optimaliseren. Om de prestaties te benchmarken, introduceren we KVG-Bench, een uitgebreide dataset die 10 domeinen omvat met 1.3K handmatig samengestelde testgevallen. Experimentele resultaten tonen aan dat DeepPerception aanzienlijk beter presteert dan directe fine-tuning, met +8.08% nauwkeurigheidsverbeteringen op KVG-Bench en een +4.60% betere cross-domein generalisatie ten opzichte van baseline benaderingen. Onze bevindingen benadrukken het belang van het integreren van cognitieve processen in MLLMs voor mensachtige visuele waarneming en openen nieuwe richtingen voor onderzoek naar multimodale redenering. De data, codes en modellen zijn vrijgegeven op https://github.com/thunlp/DeepPerception.
Grootschalige, gearticuleerde objecten van hoge kwaliteit zijn dringend nodig voor meerdere taken gerelateerd aan embodied AI. De meeste bestaande methoden voor het creëren van gearticuleerde objecten zijn ofwel data-driven of simulatiegebaseerd, wat beperkt wordt door de schaal en kwaliteit van de trainingsdata of de nauwkeurigheid en intensieve arbeid van de simulatie. In dit artikel stellen we Infinite Mobility voor, een nieuwe methode voor het synthetiseren van hoogwaardige gearticuleerde objecten via procedurele generatie. Gebruikersstudies en kwantitatieve evaluatie tonen aan dat onze methode resultaten kan produceren die de huidige state-of-the-art methoden overtreffen en vergelijkbaar zijn met door mensen geannoteerde datasets in zowel fysieke eigenschappen als meshkwaliteit. Bovendien laten we zien dat onze synthetische data gebruikt kan worden als trainingsdata voor generatieve modellen, wat de volgende stap naar opschaling mogelijk maakt. De code is beschikbaar op https://github.com/Intern-Nexus/Infinite-Mobility.
Audio- en muziekgeneratie zijn uitgegroeid tot cruciale taken in veel toepassingen, maar bestaande benaderingen kampen met aanzienlijke beperkingen: ze werken geïsoleerd zonder geïntegreerde mogelijkheden over verschillende modaliteiten, lijden onder een gebrek aan hoogwaardige, multimodale trainingsdata, en hebben moeite om diverse invoeren effectief te integreren. In dit werk presenteren we AudioX, een geïntegreerd Diffusion Transformer-model voor Anything-to-Audio en Muziekgeneratie. In tegenstelling tot eerdere domeinspecifieke modellen, kan AudioX zowel algemene audio als muziek van hoge kwaliteit genereren, terwijl het flexibele natuurlijke taalcontrole en naadloze verwerking van verschillende modaliteiten biedt, waaronder tekst, video, afbeeldingen, muziek en audio. De belangrijkste innovatie is een multimodale gemaskeerde trainingsstrategie die invoeren over verschillende modaliteiten maskeert en het model dwingt te leren van gemaskeerde invoeren, wat resulteert in robuuste en geïntegreerde cross-modale representaties. Om het gebrek aan data aan te pakken, hebben we twee uitgebreide datasets samengesteld: vggsound-caps met 190K audiobijschriften gebaseerd op de VGGSound-dataset, en V2M-caps met 6 miljoen muziekbijschriften afgeleid van de V2M-dataset. Uitgebreide experimenten tonen aan dat AudioX niet alleen gelijkwaardig is aan of beter presteert dan state-of-the-art gespecialiseerde modellen, maar ook opmerkelijke veelzijdigheid biedt in het omgaan met diverse invoermodaliteiten en generatietaken binnen een geïntegreerde architectuur. De code en datasets zullen beschikbaar zijn op https://zeyuet.github.io/AudioX/.
Grote taalmodellen (LLMs) kunnen een breed scala aan algemene taken uitvoeren met eenvoudige prompts, zonder dat taakspecifieke training nodig is. Multimodale Grote Taalmodellen (MLLMs), gebaseerd op LLMs, hebben indrukwekkend potentieel getoond bij het aanpakken van complexe taken die visuele, auditieve en tekstuele gegevens omvatten. Echter, kritieke kwesties met betrekking tot waarheidsgetrouwheid, veiligheid, o1-achtig redeneren en afstemming op menselijke voorkeuren blijven onvoldoende aangepakt. Deze kloof heeft de opkomst van verschillende afstemmingsalgoritmen gestimuleerd, elk gericht op verschillende toepassingsscenario's en optimalisatiedoelen. Recente studies hebben aangetoond dat afstemmingsalgoritmen een krachtige aanpak zijn om de eerder genoemde uitdagingen op te lossen. In dit artikel streven we ernaar een uitgebreid en systematisch overzicht te bieden van afstemmingsalgoritmen voor MLLMs. Specifiek onderzoeken we vier belangrijke aspecten: (1) de toepassingsscenario's die door afstemmingsalgoritmen worden bestreken, waaronder algemeen beeldbegrip, multi-beeld, video en audio, en uitgebreide multimodale toepassingen; (2) de kernfactoren bij het opbouwen van afstemmingsdatasets, waaronder gegevensbronnen, modelresponsen en voorkeursannotaties; (3) de benchmarks die worden gebruikt om afstemmingsalgoritmen te evalueren; en (4) een bespreking van mogelijke toekomstige richtingen voor de ontwikkeling van afstemmingsalgoritmen. Dit werk beoogt onderzoekers te helpen de huidige vooruitgang in het veld te organiseren en betere afstemmingsmethoden te inspireren. De projectpagina van dit artikel is beschikbaar op https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Alignment.
Beeldbeschrijving is al lang een uitdaging in het onderzoek naar visie en taal. Met de opkomst van LLM's genereren moderne Vision-Language Models (VLM's) gedetailleerde en uitgebreide beeldbeschrijvingen. Het benchmarken van de kwaliteit van dergelijke beschrijvingen blijft echter een onopgelost probleem. Dit artikel behandelt twee belangrijke vragen: (1) Hoe goed presteren huidige VLM's eigenlijk op het gebied van beeldbeschrijving, vooral in vergelijking met mensen? We hebben CapArena gebouwd, een platform met meer dan 6000 paarswijze beschrijvingsgevechten en hoogwaardige voorkeursstemmen van mensen. Onze arena-stijl evaluatie markeert een mijlpaal, waaruit blijkt dat toonaangevende modellen zoals GPT-4o de menselijke prestaties evenaren of zelfs overtreffen, terwijl de meeste open-source modellen achterblijven. (2) Kunnen geautomatiseerde metrieken de kwaliteit van gedetailleerde beschrijvingen betrouwbaar beoordelen? Met behulp van menselijke annotaties van CapArena evalueren we traditionele en recente beschrijvingsmetrieken, evenals VLM-as-a-Judge. Onze analyse toont aan dat hoewel sommige metrieken (bijv. METEOR) een redelijke overeenkomst op beschrijvingsniveau met mensen vertonen, hun systematische vooroordelen leiden tot inconsistenties in modelrangschikking. Daarentegen toont VLM-as-a-Judge een robuust onderscheidingsvermogen op zowel het beschrijvings- als het modelniveau. Op basis van deze inzichten brengen we CapArena-Auto uit, een nauwkeurige en efficiënte geautomatiseerde benchmark voor gedetailleerde beeldbeschrijving, die een correlatie van 94,3% met menselijke rangschikkingen bereikt tegen slechts $4 per test. Data en bronnen worden openbaar gemaakt op https://caparena.github.io.
Residuele verbindingen vormen de kern van moderne deep learning-architecturen, waardoor het mogelijk wordt zeer diepe netwerken te trainen door het verdwijnen van gradiënten te verminderen. Hyper-Verbindingen hebben recentelijk residuele verbindingen gegeneraliseerd door meerdere verbindingssterktes op verschillende dieptes in te voeren, waardoor het wip-effect tussen het verdwijnen van gradiënten en het ineenstorten van representaties wordt aangepakt. Echter, Hyper-Verbindingen verhogen de geheugentoegangskosten door de breedte van verborgen toestanden uit te breiden. In dit artikel stellen we Frac-Verbindingen voor, een nieuwe aanpak die verborgen toestanden in meerdere delen verdeelt in plaats van hun breedte uit te breiden. Frac-Verbindingen behouden gedeeltelijk de voordelen van Hyper-Verbindingen terwijl ze het geheugengebruik verminderen. Om hun effectiviteit te valideren, voeren we grootschalige experimenten uit op taaltaken, waarbij het grootste model een 7B MoE-model is dat getraind is op tot 3T tokens, wat aantoont dat Frac-Verbindingen aanzienlijk beter presteren dan residuele verbindingen.
We introduceren Cosmos-Transfer, een conditioneel wereldgeneratiemodel dat wereldsimulaties kan genereren op basis van meerdere ruimtelijke controle-inputs van verschillende modaliteiten, zoals segmentatie, diepte en randen. In het ontwerp is het ruimtelijke conditionele schema adaptief en aanpasbaar. Het maakt het mogelijk om verschillende conditionele inputs op verschillende ruimtelijke locaties verschillend te wegen. Dit maakt hoogst controleerbare wereldgeneratie mogelijk en vindt toepassing in diverse wereld-naar-wereld transfer use cases, waaronder Sim2Real. We voeren uitgebreide evaluaties uit om het voorgestelde model te analyseren en demonstreren de toepassingen ervan voor Physical AI, waaronder robotics Sim2Real en dataverrijking voor autonome voertuigen. We demonstreren verder een inferentie-schaalstrategie om real-time wereldgeneratie te bereiken met een NVIDIA GB200 NVL72 rack. Om onderzoeksontwikkeling in het veld te versnellen, maken we onze modellen en code openbaar op https://github.com/nvidia-cosmos/cosmos-transfer1.
Het genereren van 3D-scènes met flexibele weergaven, inclusief 360° rotatie en zoomen, vanuit enkele afbeeldingen is uitdagend vanwege een gebrek aan 3D-data. Daarom introduceren we FlexWorld, een nieuw framework dat bestaat uit twee belangrijke componenten: (1) een krachtig video-naar-video (V2V) diffusiemodel om hoogwaardige nieuwe beelden te genereren vanuit onvolledige input die is gerenderd vanuit een grove scène, en (2) een progressief uitbreidingsproces om een complete 3D-scène te construeren. In het bijzonder kan ons V2V-model, door gebruik te maken van een geavanceerd vooraf getraind videomodel en nauwkeurige diepte-geschatte trainingsparen, nieuwe weergaven genereren onder grote variaties in camerapositie. Hierop voortbouwend genereert FlexWorld progressief nieuwe 3D-inhoud en integreert deze in de globale scène via geometrie-bewuste scènefusie. Uitgebreide experimenten tonen de effectiviteit van FlexWorld aan in het genereren van hoogwaardige nieuwe weergavevideo's en flexibele-weergave 3D-scènes vanuit enkele afbeeldingen, waarbij superieure visuele kwaliteit wordt bereikt onder meerdere populaire metrieken en datasets in vergelijking met bestaande state-of-the-art methoden. Kwalitatief benadrukken we dat FlexWorld hoogwaardige scènes kan genereren met flexibele weergaven zoals 360° rotaties en zoomen. Projectpagina: https://ml-gsai.github.io/FlexWorld.
Ondanks snelle vooruitgang op AI-benchmarks, blijft de praktische betekenis van benchmarkprestaties onduidelijk. Om de capaciteiten van AI-systemen te kwantificeren in termen van menselijke capaciteiten, stellen we een nieuwe maatstaf voor: de 50%-taakvoltooiingstijdhorizon. Dit is de tijd die mensen doorgaans nodig hebben om taken te voltooien die AI-modellen met een slagingspercentage van 50% kunnen uitvoeren. We hebben eerst mensen met relevante domeinkennis getimed op een combinatie van RE-Bench, HCAST en 66 nieuwe kortere taken. Op deze taken hebben huidige toonaangevende AI-modellen zoals Claude 3.7 Sonnet een 50%-tijdhorizon van ongeveer 50 minuten. Bovendien is de tijdhorizon van toonaangevende AI-systemen sinds 2019 ongeveer elke zeven maanden verdubbeld, hoewel deze trend in 2024 mogelijk is versneld. De toename van de tijdhorizon van AI-modellen lijkt voornamelijk te worden gedreven door grotere betrouwbaarheid en het vermogen om zich aan te passen aan fouten, gecombineerd met betere logische redeneervaardigheden en het gebruik van hulpmiddelen. We bespreken de beperkingen van onze resultaten – inclusief hun mate van externe validiteit – en de implicaties van toenemende autonomie voor gevaarlijke capaciteiten. Als deze resultaten generaliseerbaar zijn naar praktische softwaretaken, voorspelt extrapolatie van deze trend dat AI-systemen binnen 5 jaar in staat zullen zijn om veel softwaretaken te automatiseren die mensen momenteel een maand kosten.
Het efficiënt modelleren van enorme afbeeldingen is een lang bestaande uitdaging in machine learning. Daarom introduceren we Multi-Scale Attention (MSA). MSA steunt op twee kernideeën: (i) multi-schaal representaties en (ii) bidirectionele communicatie tussen schalen. MSA creëert O(log N) schalen om de afbeelding weer te geven met steeds grovere kenmerken en maakt gebruik van cross-attention om informatie tussen schalen te verspreiden. Vervolgens introduceren we Atlas, een nieuwe neurale netwerkarchitectuur gebaseerd op MSA. We tonen aan dat Atlas de rekentijd-prestatieverhouding van lang-context afbeeldingsmodellering aanzienlijk verbetert in een hoog-resolutie variant van ImageNet 100. Bij een resolutie van 1024px behaalt Atlas-B een nauwkeurigheid van 91,04%, vergelijkbaar met ConvNext-B (91,92%) terwijl het 4,3x sneller is. Atlas is 2,95x sneller en 7,38% beter dan FasterViT, en 2,25x sneller en 4,96% beter dan LongViT. In vergelijking met MambaVision-S, behaalt Atlas-S respectievelijk 5%, 16% en 32% hogere nauwkeurigheid bij 1024px, 2048px en 4096px, terwijl het vergelijkbare uitvoeringstijden heeft. Code voor het reproduceren van onze experimenten en vooraf getrainde modellen is beschikbaar op https://github.com/yalalab/atlas.
Verificatie is cruciaal voor effectief wiskundig redeneren. We presenteren een nieuwe methode voor temporele consistentie waarbij verifiers hun oordelen iteratief verfijnen op basis van de vorige beoordeling. In tegenstelling tot eenmalige verificatie of multi-model debatbenaderingen, maakt onze methode gebruik van consistentie in een reeks zelfreflectie-acties om de nauwkeurigheid van de verificatie te verbeteren. Empirische evaluaties over diverse benchmarks voor het identificeren van fouten in wiskundige processen (Mathcheck, ProcessBench en PRM800K) laten consistente prestatieverbeteringen zien ten opzichte van baseline-methoden. Wanneer toegepast op de recente DeepSeek R1 gedistilleerde modellen, toont onze methode sterke prestaties, waardoor 7B/8B gedistilleerde modellen alle 70B/72B modellen en GPT-4o overtreffen op ProcessBench. Opmerkelijk is dat het gedistilleerde 14B-model met onze methode prestaties bereikt die vergelijkbaar zijn met Deepseek-R1. Onze codes zijn beschikbaar op https://github.com/jcguo123/Temporal-Consistency.
We presenteren Concat-ID, een uniform raamwerk voor identiteit-behoudende videogeneratie. Concat-ID maakt gebruik van Variational Autoencoders om beeldkenmerken te extraheren, die vervolgens worden samengevoegd met videolatenten langs de sequentiedimensie, waarbij uitsluitend 3D zelf-attentiemechanismen worden benut zonder de noodzaak voor aanvullende modules. Een nieuwe cross-video koppelingsstrategie en een meerfasig trainingsregime worden geïntroduceerd om een balans te vinden tussen identiteitsconsistentie en gezichtsbewerkbaarheid, terwijl de natuurlijkheid van de video wordt verbeterd. Uitgebreide experimenten tonen de superioriteit van Concat-ID aan ten opzichte van bestaande methoden in zowel enkelvoudige als meervoudige identiteitsgeneratie, evenals de naadloze schaalbaarheid naar scenario's met meerdere onderwerpen, waaronder virtuele passessies en achtergrond-controleerbare generatie. Concat-ID stelt een nieuwe standaard voor identiteit-behoudende videosynthese en biedt een veelzijdige en schaalbare oplossing voor een breed scala aan toepassingen.
Redeneren is een essentiële capaciteit voor grote taalmodellen (LLMs) om complexe taken aan te pakken, waarbij het identificeren van procesfouten cruciaal is voor het verbeteren van deze vaardigheid. Recentelijk zijn procesniveau beloningsmodellen (PRMs) voorgesteld om stapgewijze beloningen te bieden die reinforcement learning en dataproductie tijdens de training faciliteren en LLMs tijdens de inferentie naar correcte stappen leiden, waardoor de nauwkeurigheid van het redeneren wordt verbeterd. Echter, bestaande benchmarks voor PRMs zijn tekstgebaseerd en richten zich op foutdetectie, waarbij andere scenario's zoals redeneerzoeken worden verwaarloosd. Om deze leemte aan te pakken, introduceren wij MPBench, een uitgebreide, multitask, multimodale benchmark die is ontworpen om de effectiviteit van PRMs in diverse scenario's systematisch te beoordelen. MPBench maakt gebruik van drie evaluatieparadigma's, elk gericht op een specifieke rol van PRMs in het redeneerproces: (1) Stapcorrectheid, dat de juistheid van elke tussenliggende redeneerstap beoordeelt; (2) Antwoordaggregatie, dat meerdere oplossingen aggregeert en de beste selecteert; en (3) Redeneerproceszoeken, dat het zoeken naar optimale redeneerstappen tijdens de inferentie begeleidt. Door deze paradigma's biedt MPBench uitgebreide evaluaties en inzichten in de ontwikkeling van multimodale PRMs.
De overheersende aanpak om tekst-naar-beeldgeneratie te verbeteren, is het schalen tijdens de training, waarbij grotere modellen worden getraind met meer data en grotere rekenkracht. Hoewel effectief, is deze aanpak rekenkundig kostbaar, wat heeft geleid tot een groeiende interesse in schalen tijdens de inferentie om de prestaties te verbeteren. Momenteel is schalen tijdens de inferentie voor tekst-naar-beeld diffusiemodellen grotendeels beperkt tot best-of-N sampling, waarbij meerdere afbeeldingen per prompt worden gegenereerd en een selectiemodel de beste uitvoer kiest. Geïnspireerd door het recente succes van redeneermodellen zoals DeepSeek-R1 in het taaldomein, introduceren we een alternatief voor naïeve best-of-N sampling door tekst-naar-beeld Diffusion Transformers uit te rusten met in-context reflectiecapaciteiten. We stellen Reflect-DiT voor, een methode die Diffusion Transformers in staat stelt hun generaties te verfijnen met behulp van in-context voorbeelden van eerder gegenereerde afbeeldingen samen met tekstuele feedback die de benodigde verbeteringen beschrijft. In plaats van passief te vertrouwen op willekeurige sampling en te hopen op een beter resultaat in een toekomstige generatie, past Reflect-DiT zijn generaties expliciet aan om specifieke aspecten die verbetering vereisen aan te pakken. Experimentele resultaten tonen aan dat Reflect-DiT de prestaties op de GenEval-benchmark verbetert (+0.19) met SANA-1.0-1.6B als basismodel. Bovendien behaalt het een nieuwe state-of-the-art score van 0.81 op GenEval terwijl slechts 20 samples per prompt worden gegenereerd, wat de vorige beste score van 0.80 overtreft, die werd behaald met een aanzienlijk groter model (SANA-1.5-4.8B) met 2048 samples onder de best-of-N aanpak.
Multimodale grote taalmodellen (MLLMs) blinken uit in 2D-visueel begrip, maar blijven beperkt in hun vermogen om te redeneren over 3D-ruimte. In dit werk benutten we grootschalige, hoogwaardige 3D-scènegegevens met open-set annotaties om 1) een nieuw begeleid fine-tuning dataset en 2) een nieuwe evaluatiebenchmark te introduceren, gericht op binnenruimtes. Onze Cubify Anything VQA (CA-VQA) data omvat diverse ruimtelijke taken, waaronder het voorspellen van ruimtelijke relaties, het schatten van metrische afmetingen en afstanden, en 3D-verankering. We tonen aan dat CA-VQA ons in staat stelt om MM-Spatial te trainen, een sterke generalistische MLLM die ook state-of-the-art prestaties behaalt op 3D-ruimtelijk begrip benchmarks, inclusief onze eigen. We laten zien hoe het integreren van metrische diepte en multi-view inputs (beschikbaar in CA-VQA) het 3D-begrip verder kan verbeteren, en demonstreren dat alleen al de data ons model in staat stelt om dieptewaarnemingscapaciteiten te bereiken die vergelijkbaar zijn met toegewijde monoculaire diepteschattingsmodellen. We zullen ons SFT-dataset en benchmark publiceren.
Ondanks hun indrukwekkende capaciteiten, kampen Multimodale Grote Taalmodellen (MLLMs) met uitdagingen op het gebied van fijnmazige perceptie en complex redeneren. Gangbare multimodale voorafgaande trainingsbenaderingen richten zich op het verbeteren van perceptie door te trainen op hoogwaardige beeldbeschrijvingen, vanwege de extreem hoge kosten van het verzamelen van chain-of-thought (CoT) redeneergegevens om het redeneren te verbeteren. Hoewel het gebruik van geavanceerde MLLMs voor het genereren van beschrijvingen de schaalbaarheid vergroot, ontbreekt het de uitvoer vaak aan volledigheid en nauwkeurigheid. In dit artikel introduceren we Self-Improving cognition (SIcog), een zelflerend raamwerk ontworpen om de volgende generatie fundamentele MLLMs te construeren door hun systematische cognitieve capaciteiten te verbeteren via multimodale voorafgaande training met zelf gegenereerde gegevens. Specifiek stellen we Chain-of-Description voor, een benadering die de systematische perceptie van een MLLM verbetert door stapsgewijs visueel begrip mogelijk te maken, wat zorgt voor grotere volledigheid en nauwkeurigheid. Daarnaast nemen we een gestructureerde CoT-redeneertechniek over om MLLMs in staat te stellen diepgaand multimodaal redeneren te integreren. Om een volgende generatie fundamentele MLLM te construeren met zelfverbeterde cognitie, rust SIcog eerst een MLLM uit met systematische perceptie en redeneervaardigheden met behulp van minimale externe annotaties. De verbeterde modellen genereren vervolgens gedetailleerde beschrijvingen en CoT-redeneergegevens, die verder worden gecureerd door zelfconsistentie. Deze gecureerde gegevens worden uiteindelijk gebruikt voor multimodale voorafgaande training om de volgende generatie fundamentele modellen te ontwikkelen. Uitgebreide experimenten op zowel lage- als hoge-resolutie MLLMs over diverse benchmarks tonen aan dat, met slechts 213K zelf gegenereerde voorafgaande trainingsmonsters, SIcog volgende generatie fundamentele MLLMs produceert met aanzienlijk verbeterde cognitie, wat benchmarkleidende prestaties oplevert in vergelijking met gangbare voorafgaande trainingsbenaderingen.
Cross-linguale transfer maakt het mogelijk voor vision-language modellen (VLMs) om visuele taken uit te voeren in verschillende talen met trainingsdata in slechts één taal. Huidige benaderingen vertrouwen op grote vooraf getrainde meertalige taalmodelen. Ze worden echter geconfronteerd met de vloek van meertaligheid, waarbij de prestaties op downstream taken worden opgeofferd voor meertalige capaciteiten, moeite hebben met lexicale ambiguïteiten en achterblijven bij recente ontwikkelingen. In dit werk bestuderen we de schaalwetten van systematische generalisatie met eentalige VLMs voor meertalige taken, waarbij we focussen op de impact van modelgrootte en geziene trainingsvoorbeelden. We stellen Florenz voor, een eentalig encoder-decoder VLM met 0,4B tot 11,2B parameters, dat het vooraf getrainde VLM Florence-2 combineert met het grote taalmodel Gemma-2. Florenz wordt getraind met verschillende rekenbudgetten op een synthetische dataset die bewust onvolledige taaldekking bevat voor beeldbeschrijving, waardoor generalisatie vanuit de volledig gedekte vertaaltaak wordt getest. We tonen aan dat niet alleen het indirect leren van onbekende taak-taalparen een schaalwet volgt, maar ook dat met onze datageneratiepijplijn en de voorgestelde Florenz-modelfamilie beeldbeschrijvingsvaardigheden kunnen ontstaan in een specifieke taal, zelfs wanneer alleen data voor de vertaaltaak beschikbaar is. Fine-tuning op een mix van downstream datasets levert competitieve prestaties op en toont veelbelovende schaaltrends in multimodale machinaal vertalen (Multi30K, CoMMuTE), lexicale disambiguatie (CoMMuTE) en beeldbeschrijving (Multi30K, XM3600, COCO Karpathy).
Grote taalmodellen (LLMs) hebben opmerkelijke prestaties getoond in verschillende taken op het gebied van natuurlijke taalverwerking. Het bereiken van sterke prestaties in gespecialiseerde domeinen zoals wiskundig redeneren en niet-Engelse talen vereist echter vaak uitgebreide training op enorme datasets. Dit artikel onderzoekt een contrasterende aanpak: strategisch fine-tuning op een kleine, hoogwaardige, tweetalige (Engels-Frans) dataset om zowel de redeneervaardigheden als de Franse taalvaardigheid van een groot taalmodel te verbeteren. In plaats van te vertrouwen op schaal, onderzoeken we de hypothese dat gerichte datacuratie en geoptimaliseerde training competitieve, of zelfs superieure, prestaties kunnen bereiken. We demonstreren, door gerichte supervised fine-tuning (SFT) op slechts 2.000 zorgvuldig geselecteerde voorbeelden, significante verbeteringen in wiskundig redeneren. Specifiek toont Pensez 7B een nauwkeurigheidsverbetering van het basismodel tot 20% op de AIME25 en een stijging van 12% op een Frans MATH niveau 5 benchmark. Deze resultaten dagen de heersende aanname uit dat enorme datasets een voorwaarde zijn voor sterke redeneerprestaties in LLMs, en benadrukken het potentieel van strategische datacuratie en geoptimaliseerd fine-tuning voor het verbeteren van zowel gespecialiseerde vaardigheden als meertalige mogelijkheden. Onze bevindingen hebben implicaties voor de efficiënte ontwikkeling van hoogpresterende, meertalige LLMs, vooral in scenario's met beperkte middelen.
De afgelopen jaren hebben Multimodale Large Language Models (MLLMs) opmerkelijke vooruitgang geboekt in taken zoals visuele vraagbeantwoording, visueel begrip en redeneren. Deze indrukwekkende vooruitgang is echter afhankelijk van enorme hoeveelheden data die van het internet zijn verzameld, wat aanzienlijke zorgen oproept over privacy en beveiliging. Om deze problemen aan te pakken, is machine unlearning (MU) naar voren gekomen als een veelbelovende oplossing, waardoor specifieke kennis uit een reeds getraind model kan worden verwijderd zonder dat het model vanaf nul opnieuw getraind hoeft te worden. Hoewel MU voor MLLMs aandacht heeft gekregen, blijven huidige evaluaties van de effectiviteit ervan onvolledig, en is het onderliggende probleem vaak slecht gedefinieerd, wat de ontwikkeling van strategieën voor het creëren van veiligere en betrouwbaardere systemen belemmert. Om deze kloof te overbruggen, introduceren we een benchmark, genaamd PEBench, die een dataset bevat van persoonlijke entiteiten en bijbehorende algemene gebeurtenisscènes, ontworpen om de prestaties van MU voor MLLMs uitgebreid te beoordelen. Met PEBench streven we ernaar een gestandaardiseerd en robuust raamwerk te bieden om onderzoek naar veilige en privacybeschermende multimodale modellen te bevorderen. We hebben 6 MU-methoden gebenchmarkt, waarbij hun sterke punten en beperkingen aan het licht zijn gekomen, en belangrijke uitdagingen en kansen voor MU in MLLMs zijn belicht.
Een ideale model-evaluatie moet twee doelen bereiken: identificeren waar het model faalt en bruikbare richtlijnen voor verbetering bieden. Met het oog op deze doelen voor Language Model (LM)-evaluaties formuleren we het probleem van het genereren van een zwakteprofiel, een set zwaktes uitgedrukt in natuurlijke taal, op basis van de prestaties van een LM op elk individueel geval in een benchmark. We introduceren een reeks kwantitatieve beoordelingen om verschillende methoden voor zwakteprofiling te vergelijken. We stellen ook een methode voor zwakteprofiling voor, genaamd EvalTree. Deze construeert een capaciteitenboom waarbij elk knooppunt een capaciteit vertegenwoordigt die in natuurlijke taal wordt beschreven en is gekoppeld aan een subset van benchmarkgevallen die deze capaciteit specifiek evalueren; vervolgens extraheert het knooppunten waar de LM slecht presteert om een zwakteprofiel te genereren. Op de MATH- en WildChat- benchmarks tonen we aan dat EvalTree baseline-methoden voor zwakteprofiling overtreft door zwaktes nauwkeuriger en uitgebreider te identificeren. Zwakteprofiling maakt verder zwaktegestuurde dataverzameling mogelijk, en trainingsdataverzameling geleid door EvalTree-geïdentificeerde zwaktes verbetert de LM-prestaties meer dan andere dataverzamelingsstrategieën. We laten ook zien hoe EvalTree tekortkomingen blootlegt in de op menselijke stemmen gebaseerde evaluatiepraktijk van Chatbot Arena. Om toekomstig werk te vergemakkelijken, geven we onze code vrij en een interface waarmee beoefenaars de capaciteitenbomen die door EvalTree zijn geconstrueerd, interactief kunnen verkennen.
Multimodale Large Language Models (MLLMs) hebben indrukwekkende mogelijkheden getoond op het gebied van redeneren, maar gaan gepaard met aanzienlijke rekenkosten, wat hun inzet in omgevingen met beperkte middelen beperkt. Ondanks recente inspanningen om de efficiëntie van MLLMs te verbeteren, schieten eerdere oplossingen tekort in het reageren op wisselende runtime-omstandigheden, met name veranderende beschikbaarheid van middelen (bijvoorbeeld concurrentie door de uitvoering van andere programma's op het apparaat). Om deze kloof te overbruggen, introduceren we AdaLLaVA, een adaptief inferentiekader dat leert om tijdens de inferentie operaties in een MLLM dynamisch te herconfigureren, rekening houdend met de invoergegevens en een latentiebudget. We voeren uitgebreide experimenten uit over benchmarks die betrekking hebben op vraag-antwoord, redeneren en hallucinatie. Onze resultaten tonen aan dat AdaLLaVA effectief voldoet aan het invoerlatentiebudget, waarbij verschillende nauwkeurigheids- en latentieafwegingen tijdens runtime worden bereikt. Verder demonstreren we dat AdaLLaVA zich aanpast aan zowel invoerlatentie als -inhoud, kan worden geïntegreerd met tokenselectie voor verbeterde efficiëntie, en generaliseert over verschillende MLLMs. Onze projectwebpagina met code-release is te vinden op https://zhuoyan-xu.github.io/ada-llava/.
Graph domain adaptation is naar voren gekomen als een veelbelovende aanpak om kennisoverdracht tussen verschillende domeinen te vergemakkelijken. Recentelijk zijn er tal van modellen voorgesteld om de generalisatiecapaciteiten op dit gebied te verbeteren. Er is echter nog geen uniforme bibliotheek die bestaande technieken samenbrengt en de implementatie ervan vereenvoudigt. Om deze leemte op te vullen, introduceren we PyGDA, een open-source Python-bibliotheek die speciaal is ontwikkeld voor graph domain adaptation. Als eerste uitgebreide bibliotheek op dit gebied, omvat PyGDA meer dan 20 veelgebruikte methoden voor graph domain adaptation, samen met verschillende soorten grafische datasets. Specifiek biedt PyGDA modulaire componenten, waardoor gebruikers naadloos aangepaste modellen kunnen bouwen met een verscheidenheid aan veelgebruikte utility-functies. Om grootschalige grafieken te verwerken, ondersteunt PyGDA functies zoals sampling en mini-batch verwerking, wat efficiënte berekeningen garandeert. Daarnaast bevat PyGDA ook uitgebreide prestatiebenchmarks en een goed gedocumenteerde, gebruiksvriendelijke API voor zowel onderzoekers als praktijkmensen. Om toegankelijkheid te bevorderen, is PyGDA vrijgegeven onder de MIT-licentie op https://github.com/pygda-team/pygda, en de API-documentatie is te vinden op https://pygda.readthedocs.io/en/stable/.
Generatieve modellen hebben recentelijk opmerkelijke vooruitgang geboekt op het gebied van 3D-objecten. Hun praktische toepassing in vakgebieden zoals engineering blijft echter beperkt, omdat ze niet de vereiste nauwkeurigheid, kwaliteit en beheersbaarheid bieden die nodig zijn voor domeinspecifieke taken. Het finetunen van grote generatieve modellen is een veelbelovend perspectief om deze modellen in deze vakgebieden beschikbaar te maken. Het creëren van hoogwaardige, domeinspecifieke 3D-datasets is cruciaal voor het finetunen van grote generatieve modellen, maar het proces van datafiltering en annotatie blijft een belangrijk knelpunt. Wij presenteren MeshFleet, een gefilterd en geannoteerd 3D-voertuigdataset geëxtraheerd uit Objaverse-XL, de meest uitgebreide openbaar beschikbare verzameling van 3D-objecten. Onze aanpak stelt een pijplijn voor voor geautomatiseerde datafiltering op basis van een kwaliteitsclassificator. Deze classificator is getraind op een handmatig gelabelde subset van Objaverse, waarbij DINOv2- en SigLIP-embeddings worden geïntegreerd, verfijnd door op captions gebaseerde analyse en onzekerheidsschatting. Wij tonen de effectiviteit van onze filtermethode aan door middel van een vergelijkende analyse tegen op captions en esthetische beeldscore gebaseerde technieken en finetuningsexperimenten met SV3D, waarbij het belang van gerichte dataselectie voor domeinspecifieke 3D-generatieve modellering wordt benadrukt.
Het aanpakken van het ophalen van onveilige inhoud uit visueel-taalkundige modellen zoals CLIP is een belangrijke stap naar integratie in de echte wereld. Huidige inspanningen hebben vertrouwd op 'unlearning'-technieken die proberen de kennis van het model over onveilige concepten uit te wissen. Hoewel effectief in het verminderen van ongewenste uitvoer, beperkt 'unlearning' de capaciteit van het model om onderscheid te maken tussen veilige en onveilige inhoud. In dit werk introduceren we een nieuwe benadering die verschuift van 'unlearning' naar een bewustzijnsparadigma door gebruik te maken van de inherente hiërarchische eigenschappen van de hyperbolische ruimte. We stellen voor om veilige en onveilige inhoud te coderen als een hiërarchie van implicaties, waarbij beide in verschillende regio's van de hyperbolische ruimte worden geplaatst. Onze HySAC, Hyperbolic Safety-Aware CLIP, maakt gebruik van implicatie-verliesfuncties om de hiërarchische en asymmetrische relaties tussen veilige en onveilige beeld-tekstparen te modelleren. Deze modellering, die in standaard visueel-taalkundige modellen niet effectief is vanwege hun afhankelijkheid van Euclidische embeddings, geeft het model bewustzijn van onveilige inhoud, waardoor het kan dienen als zowel een multimodale onveilige classificator als een flexibele inhoudsophaler, met de optie om onveilige queries dynamisch om te leiden naar veiligere alternatieven of de oorspronkelijke uitvoer te behouden. Uitgebreide experimenten tonen aan dat onze benadering niet alleen de veiligheidsherkenning verbetert, maar ook een meer aanpasbaar en interpreteerbaar raamwerk voor inhoudsmoderatie in visueel-taalkundige modellen tot stand brengt. Onze broncode is beschikbaar op https://github.com/aimagelab/HySAC.
Met de snelle vooruitgang van grote taalmodellen (LLMs) en visie-taalmodellen (VLMs) is aanzienlijke vooruitgang geboekt in de ontwikkeling van open-vocabulair robotmanipulatiesystemen. Veel bestaande benaderingen negeren echter het belang van objectdynamica, wat hun toepasbaarheid op complexere, dynamische taken beperkt. In dit werk introduceren we KUDA, een open-vocabulair manipulatiesysteem dat dynamica-leren en visuele prompting via keypoints integreert, waarbij zowel VLMs als op leren gebaseerde neurale dynamische modellen worden benut. Onze belangrijkste inzicht is dat een op keypoints gebaseerde doelspecificatie tegelijkertijd interpreteerbaar is door VLMs en efficiënt kan worden vertaald naar kostenfuncties voor modelgebaseerde planning. Gegeven taal-instructies en visuele waarnemingen, wijst KUDA eerst keypoints toe aan de RGB-afbeelding en vraagt het VLM om doelspecificaties te genereren. Deze abstracte, op keypoints gebaseerde representaties worden vervolgens omgezet in kostenfuncties, die worden geoptimaliseerd met behulp van een geleerd dynamisch model om robottrajecten te produceren. We evalueren KUDA op een reeks manipulatietaken, waaronder vrije-vorm taal-instructies over diverse objectcategorieën, interacties met meerdere objecten, en vervormbare of korrelige objecten, wat de effectiviteit van ons raamwerk aantoont. De projectpagina is beschikbaar op http://kuda-dynamics.github.io.
Roadside Collaborative Perception verwijst naar een systeem waarbij meerdere wegkantunits samenwerken om hun perceptuele gegevens te bundelen, waardoor voertuigen worden geholpen bij het verbeteren van hun omgevingsbewustzijn. Bestaande methoden voor wegkantperceptie richten zich op modelontwerp maar negeren dataproblemen zoals kalibratiefouten, schaarse informatie en multi-view consistentie, wat leidt tot slechte prestaties op recent gepubliceerde datasets. Om de wegkant collaboratieve perceptie aanzienlijk te verbeteren en kritieke dataproblemen aan te pakken, presenteren we het eerste simulatiekader RoCo-Sim voor wegkant collaboratieve perceptie. RoCo-Sim is in staat om diverse, multi-view consistente gesimuleerde wegkantgegevens te genereren door dynamische voorgrondbewerking en volledige scène-stijloverdracht van een enkele afbeelding. RoCo-Sim bestaat uit vier componenten: (1) Camera Extrinsic Optimization zorgt voor nauwkeurige 3D naar 2D projectie voor wegkantcamera's; (2) Een nieuwe Multi-View Occlusion-Aware Sampler (MOAS) bepaalt de plaatsing van diverse digitale assets binnen 3D-ruimte; (3) DepthSAM modelleert op innovatieve wijze voorgrond-achtergrondrelaties vanuit enkelvoudige fixed-view afbeeldingen, waardoor multi-view consistentie van de voorgrond wordt gegarandeerd; en (4) Een schaalbaar post-processing toolkit genereert realistischere en verrijkte scènes door stijloverdracht en andere verbeteringen. RoCo-Sim verbetert de wegkant 3D-objectdetectie aanzienlijk en overtreft SOTA-methoden met 83.74 op Rcooper-Intersection en 83.12 op TUMTraf-V2X voor AP70. RoCo-Sim vult een kritieke leemte in wegkantperceptiesimulatie. Code en vooraf getrainde modellen worden binnenkort vrijgegeven: https://github.com/duyuwen-duen/RoCo-Sim
Voertuig-naar-voertuig (V2V) coöperatief autonoom rijden biedt veelbelovende mogelijkheden om de veiligheid te verbeteren door de onzekerheden in waarneming en voorspelling aan te pakken die inherent zijn aan single-agent systemen. Traditionele coöperatieve methoden worden echter beperkt door rigide samenwerkingsprotocollen en een beperkte generalisatie naar onbekende interactieve scenario's. Hoewel LLM-gebaseerde benaderingen gegeneraliseerde redeneervaardigheden bieden, vormen hun uitdagingen in ruimtelijke planning en onstabiele inferentielatentie een belemmering voor hun directe toepassing in coöperatief rijden. Om deze beperkingen aan te pakken, stellen we CoLMDriver voor, het eerste full-pipeline LLM-gebaseerde coöperatieve rijsysteem, dat effectieve op taal gebaseerde onderhandeling en real-time rijcontrole mogelijk maakt. CoLMDriver beschikt over een parallel rijpijplijn met twee belangrijke componenten: (i) een LLM-gebaseerd onderhandelingsmodule binnen een actor-critic paradigma, dat continu samenwerkingsbeleid verfijnt door feedback van eerdere beslissingen van alle voertuigen; en (ii) een intentiegestuurde waypoint-generator, die onderhandelingsresultaten vertaalt naar uitvoerbare waypoints. Daarnaast introduceren we InterDrive, een CARLA-gebaseerd simulatiebenchmark bestaande uit 10 uitdagende interactieve rijsenario's voor het evalueren van V2V-samenwerking. Experimentele resultaten tonen aan dat CoLMDriver bestaande benaderingen significant overtreft, met een 11% hoger slagingspercentage in diverse sterk interactieve V2V-rijsenario's. Code zal worden vrijgegeven op https://github.com/cxliu0314/CoLMDriver.