Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Scalable Vector Graphics (SVG) is een belangrijk beeldformaat dat veel wordt gebruikt in grafisch ontwerp vanwege de resolutieonafhankelijkheid en bewerkbaarheid. Het onderzoek naar het genereren van hoogwaardige SVG heeft voortdurend aandacht getrokken van zowel ontwerpers als onderzoekers in de AIGC-gemeenschap. Bestaande methoden produceren echter ofwel ongestructureerde uitvoer met enorme rekenkosten, of zijn beperkt tot het genereren van monochrome iconen met overgesimplificeerde structuren. Om hoogwaardige en complexe SVG te produceren, stellen we OmniSVG voor, een uniform raamwerk dat gebruikmaakt van vooraf getrainde Vision-Language Models (VLMs) voor end-to-end multimodale SVG-generatie. Door SVG-commando's en coördinaten te parametriseren in discrete tokens, ontkoppelt OmniSVG structurele logica van laagwaardige geometrie voor efficiënte training, terwijl de expressiviteit van complexe SVG-structuren behouden blijft. Om de ontwikkeling van SVG-synthese verder te bevorderen, introduceren we MMSVG-2M, een multimodale dataset met twee miljoen rijk geannoteerde SVG-elementen, samen met een gestandaardiseerd evaluatieprotocol voor conditionele SVG-generatietaken. Uitgebreide experimenten tonen aan dat OmniSVG bestaande methoden overtreft en het potentieel aantoont voor integratie in professionele SVG-ontwerpwerkstromen.
Grote Taalmodellen (LLM's) hebben het vermogen aangetoond om steeds complexere taken aan te pakken door middel van geavanceerd redeneren, het genereren van lange inhoud en het gebruik van tools. Het oplossen van deze taken vereist vaak langdurige berekeningen tijdens de inferentie. Bij menselijk probleemoplossen is een veelgebruikte strategie om het werk te versnellen samenwerking: door het probleem op te delen in sub-taken, verschillende strategieën gelijktijdig te verkennen, enz. Recent onderzoek heeft aangetoond dat LLM's ook parallel kunnen werken door expliciete samenwerkingskaders te implementeren, zoals stemmechanismen of het expliciet creëren van onafhankelijke sub-taken die parallel kunnen worden uitgevoerd. Elk van deze kaders is echter mogelijk niet geschikt voor alle soorten taken, wat hun toepasbaarheid kan beperken. In dit werk stellen we een andere ontwerpaanpak voor: we laten LLM-"werkers" parallel draaien, waarbij ze kunnen synchroniseren via een gelijktijdig bijgewerkte aandachtscache en deze werkers aanmoedigen om te beslissen hoe ze het beste kunnen samenwerken. Onze aanpak stelt de instanties in staat om hun eigen samenwerkingsstrategie te bedenken voor het probleem waarmee ze worden geconfronteerd, terwijl ze elkaars gedeeltelijke voortgang "zien" in de gelijktijdige cache. We implementeren deze aanpak via Hogwild! Inference: een parallelle LLM-inferentie-engine waarbij meerdere instanties van hetzelfde LLM parallel draaien met dezelfde aandachtscache, met "directe" toegang tot elkaars gegenereerde tokens. Hogwild! Inference maakt gebruik van Rotary Position Embeddings (RoPE) om herberekening te voorkomen en tegelijkertijd het parallelle hardwaregebruik te verbeteren. We ontdekken dat moderne LLM's met redeneervermogen inferentie kunnen uitvoeren met een gedeelde Key-Value cache zonder aanvullende fine-tuning.
We introduceren Skywork R1V, een multimodaal redeneermodel dat de R1-serie van grote taalmmodellen (LLM) uitbreidt naar visuele modaliteiten via een efficiënte multimodale transfermethode. Door gebruik te maken van een lichtgewicht visuele projector, vergemakkelijkt Skywork R1V naadloze multimodale aanpassing zonder dat het nodig is om het onderliggende taalmodel of de visuele encoder opnieuw te trainen. Om de visueel-tekstuele uitlijning te versterken, stellen we een hybride optimalisatiestrategie voor die Iteratieve Supervised Fine-Tuning (SFT) combineert met Group Relative Policy Optimization (GRPO), wat de efficiëntie van cross-modale integratie aanzienlijk verbetert. Daarnaast introduceren we een adaptieve Chain-of-Thought-distillatiebenadering voor het genereren van redeneergegevens. Deze benadering optimaliseert dynamisch de lengtes van redeneerketens, waardoor de inferentie-efficiëntie wordt verbeterd en overmatig redeneerdenken wordt voorkomen. Empirische evaluaties tonen aan dat Skywork R1V, met slechts 38B parameters, een competitieve prestaties levert, met een score van 69.0 op de MMMU-benchmark en 67.5 op MathVista. Tegelijkertijd behoudt het robuuste tekstuele redeneerprestaties, wat blijkt uit indrukwekkende scores van 72.0 op AIME en 94.0 op MATH500. De modelgewichten van Skywork R1V zijn openbaar vrijgegeven om openheid en reproduceerbaarheid te bevorderen.
Het landschap van beeldgeneratie heeft zich snel ontwikkeld, van vroege GAN-gebaseerde benaderingen naar diffusiemodellen en, meest recentelijk, naar verenigde generatieve architecturen die begrip en generatietaken proberen te overbruggen. Recente vooruitgang, met name GPT-4o, heeft de haalbaarheid van hoogwaardige multimodale generatie aangetoond, hoewel hun architectonische ontwerp mysterieus en ongepubliceerd blijft. Dit roept de vraag op of beeld- en tekstgeneratie al succesvol zijn geïntegreerd in een verenigd raamwerk voor deze methoden. In dit werk voeren we een empirische studie uit naar de beeldgeneratiecapaciteiten van GPT-4o, waarbij we het benchmarken tegen toonaangevende open-source en commerciële modellen. Onze evaluatie beslaat vier hoofdcategorieën, waaronder tekst-naar-beeld, beeld-naar-beeld, beeld-naar-3D en beeld-naar-X generatie, met meer dan 20 taken. Onze analyse belicht de sterke punten en beperkingen van GPT-4o onder verschillende omstandigheden en plaatst het binnen de bredere evolutie van generatieve modellering. Door dit onderzoek identificeren we veelbelovende richtingen voor toekomstige verenigde generatieve modellen, waarbij we de rol van architectonisch ontwerp en dataschaal benadrukken.
Het afstemmen van grote taalmodellen (LLMs) op menselijke voorkeuren heeft opmerkelijke successen geboekt. Bestaande Chinese voorkeursdatasets worden echter beperkt door hun kleine schaal, beperkte domeindekking en het ontbreken van rigoureuze datavalidatie. Bovendien beperkt de afhankelijkheid van menselijke annotators voor het labelen van instructies en reacties de schaalbaarheid van menselijke voorkeursdatasets aanzienlijk. Om deze uitdagingen aan te pakken, hebben we een LLM-gebaseerde annotatiepijplijn voor Chinese voorkeursdatasets ontworpen zonder menselijke tussenkomst. Specifiek hebben we 92k hoogwaardige Chinese queries gecrawld en zorgvuldig gefilterd, en 15 mainstream LLMs ingezet om gekozen-afgewezen reactieparen te genereren en te scoren. Op basis hiervan introduceren we COIG-P (Chinese Open Instruction Generalist - Preference), een hoogwaardige, grootschalige Chinese voorkeursdataset die bestaat uit 1.009k Chinese voorkeursparen, verdeeld over 6 diverse domeinen: Chat, Code, Wiskunde, Logica, Roman en Rol. Gebaseerd op COIG-P, hebben we om de overhead van het gebruik van LLMs voor scoring te verminderen, een 8B-groot Chinees Beloningsmodel (CRM) getraind en een Chinees Beloningsbenchmark (CRBench) zorgvuldig opgebouwd. Evaluatieresultaten gebaseerd op AlignBench liu2024alignbenchbenchmarkingchinesealignment tonen aan dat COIG-P aanzienlijk beter presteert dan andere Chinese voorkeursdatasets, en het brengt significante prestatieverbeteringen van 2% tot 12% voor respectievelijk de Qwen2/2.5 en Infinity-Instruct-3M-0625 modelreeksen. De resultaten op CRBench demonstreren dat ons CRM een sterke en robuuste scoringscapaciteit heeft. We passen het toe om gekozen-afgewezen reactieparen te filteren in een testset van COIG-P, en onze experimenten tonen aan dat het vergelijkbaar is met GPT-4o in het identificeren van laagwaardige samples, terwijl het efficiënt en kosteneffectief blijft. Onze codes en data zijn vrijgegeven op https://github.com/multimodal-art-projection/COIG-P.
Hoewel onderwerpgestuurde generatie uitgebreid is onderzocht in beeldgeneratie vanwege de brede toepassingen, blijft het uitdagingen bieden op het gebied van dataschaalbaarheid en onderwerpuitbreidbaarheid. Voor de eerste uitdaging is de overgang van het samenstellen van datasets met één onderwerp naar datasets met meerdere onderwerpen en het opschalen ervan bijzonder moeilijk. Voor de tweede uitdaging richten de meeste recente methoden zich op generatie met één onderwerp, wat het moeilijk maakt om ze toe te passen bij scenario's met meerdere onderwerpen. In deze studie stellen we een zeer consistente datasynthesepijplijn voor om deze uitdaging aan te pakken. Deze pijplijn maakt gebruik van de intrinsieke in-context generatiecapaciteiten van diffusietransformers en genereert hoogconsistente gepaarde data met meerdere onderwerpen. Daarnaast introduceren we UNO, dat bestaat uit progressieve cross-modale uitlijning en universele roterende positie-embedding. Het is een multi-image geconditioneerd onderwerp-naar-beeldmodel dat iteratief wordt getraind vanuit een tekst-naar-beeldmodel. Uitgebreide experimenten tonen aan dat onze methode hoge consistentie kan bereiken terwijl de beheersbaarheid wordt gewaarborgd in zowel onderwerpgestuurde generatie met één onderwerp als met meerdere onderwerpen.
De Mixture of Experts (MoE)-architectuur heeft aanzienlijke voordelen getoond, omdat het mogelijk maakt om de modelcapaciteit te vergroten zonder een proportionele toename in rekenkracht. Echter, de grote omvang van MoE-modellen brengt nog steeds aanzienlijke geheugeneisen met zich mee, wat meestal expert offloading vereist op platforms met beperkte middelen en aanzienlijke overhead veroorzaakt. Hybride CPU-GPU-inferentie is voorgesteld om CPU-berekening te benutten om de overhead van het laden van experts te verminderen, maar staat voor grote uitdagingen: enerzijds zijn de expert activatiepatronen van MoE-modellen zeer onstabiel, waardoor de vaste mappingstrategieën in bestaande werken inefficiënt zijn; anderzijds is het hybride CPU-GPU-schema voor MoE inherent complex vanwege de diverse expertgroottes, structuren, ongelijke werkverdeling, enz. Om deze uitdagingen aan te pakken, stellen we in dit artikel HybriMoE voor, een hybride CPU-GPU-inferentiekader dat de resourcebenutting verbetert door een nieuw CPU-GPU-schedulings- en cachebeheersysteem. HybriMoE introduceert (i) een dynamische intra-layer schedulingsstrategie om workloads over CPU en GPU te balanceren, (ii) een impact-gestuurd inter-layer prefetching-algoritme, en (iii) een score-gebaseerd caching-algoritme om de instabiliteit van expertactivatie te verminderen. We implementeren HybriMoE bovenop het kTransformers-framework en evalueren het op drie veelgebruikte MoE-gebaseerde LLM's. Experimentele resultaten tonen aan dat HybriMoE een gemiddelde versnelling bereikt van 1.33 keer in de prefill-fase en 1.70 keer in de decode-fase vergeleken met state-of-the-art hybride MoE-inferentiekaders. Onze code is beschikbaar op: https://github.com/PKU-SEC-Lab/HybriMoE.
Text-to-image (T2I) diffusie-/stroommodellen hebben recentelijk aanzienlijke aandacht getrokken vanwege hun opmerkelijke vermogen om flexibele visuele creaties te leveren. Toch vormt de synthese van hoogwaardige afbeeldingen een aanzienlijke uitdaging vanwege de schaarste en complexiteit van hoogwaardige inhoud. Daarom presenteren wij HiFlow, een trainingsvrij en model-agnostisch raamwerk om het resolutiepotentieel van vooraf getrainde stroommodellen te ontsluiten. Specifiek creëert HiFlow een virtuele referentiestroom binnen de hoogwaardige ruimte die effectief de kenmerken van laagwaardige stroominformatie vastlegt, en biedt het begeleiding voor hoogwaardige generatie via drie belangrijke aspecten: initialisatie-uitlijning voor consistentie van lage frequentie, richtingsuitlijning voor structuurbehoud, en versnellingsuitlijning voor detailgetrouwheid. Door gebruik te maken van deze stroom-uitgelijnde begeleiding, verhoogt HiFlow aanzienlijk de kwaliteit van hoogwaardige afbeeldingssynthese van T2I-modellen en toont het veelzijdigheid in hun gepersonaliseerde varianten. Uitgebreide experimenten valideren de superioriteit van HiFlow in het bereiken van superieure hoogwaardige afbeeldingskwaliteit ten opzichte van huidige state-of-the-art methoden.
Met krachtige grote taalmodellen (LLM's) die bovenmenselijke redeneervaardigheden demonstreren, rijst een kritische vraag: Redeneren LLM's daadwerkelijk, of halen ze simpelweg antwoorden uit hun uitgebreide, van het web geschraapte trainingsdatasets? Openbaar vrijgegeven benchmarks worden onvermijdelijk besmet zodra ze worden opgenomen in latere LLM-trainingssets, wat hun betrouwbaarheid als nauwkeurige beoordelingen ondermijnt. Om dit aan te pakken, introduceren we KUMO, een generatief evaluatieraamwerk dat specifiek is ontworpen om redeneren in LLM's te beoordelen. KUMO combineert synergetisch LLM's met symbolische engines om dynamisch diverse, meerfasige redeneertaken te produceren die gedeeltelijk observeerbaar en aanpasbaar in moeilijkheidsgraad zijn. Via een geautomatiseerde pijplijn genereert KUMO continu nieuwe taken in open-einde domeinen, waardoor modellen worden gedwongen echte generalisatie te tonen in plaats van memorisatie. We hebben 23 state-of-the-art LLM's geëvalueerd op 5.000 taken in 100 domeinen die door KUMO zijn gemaakt, waarbij hun redeneervaardigheden werden afgezet tegen die van universiteitsstudenten. Onze bevindingen tonen aan dat veel LLM's beter presteren dan universitair niveau op eenvoudige redeneertaken, en dat redeneergeschaalde LLM's universitair niveau bereiken op complexe redeneeruitdagingen. Bovendien correleert de prestaties van LLM's op KUMO-taken sterk met resultaten op nieuw vrijgegeven real-world redeneerbenchmarks, wat de waarde van KUMO als een robuust, duurzaam beoordelingsinstrument voor echte LLM-redeneervaardigheden onderstreept.
Recente vooruitgang in Multimodale Grote Taalmodellen (MLLMs) heeft geleid tot aanzienlijke verbeteringen op verschillende multimodale benchmarks. Echter, naarmate evaluaties verschuiven van statische datasets naar open, dynamische omgevingen, blijken huidige game-gebaseerde benchmarks ontoereikend omdat ze visueel gerichte taken missen en niet in staat zijn om de diverse redeneervaardigheden te beoordelen die nodig zijn voor besluitvorming in de echte wereld. Om dit aan te pakken, introduceren we Visual-centric Multiple Abilities Game Evaluation (V-MAGE), een game-gebaseerd evaluatiekader ontworpen om de visuele redeneervaardigheden van MLLMs te beoordelen. V-MAGE omvat vijf diverse spellen met meer dan 30 handgemaakte niveaus, waarbij modellen worden getest op kernvisuele vaardigheden zoals positionering, trajectvolging, timing en visueel geheugen, naast hogere redeneervaardigheden zoals langetermijnplanning en beraadslaging. We gebruiken V-MAGE om toonaangevende MLLMs te evalueren, wat aanzienlijke uitdagingen in hun visuele perceptie en redenering aan het licht brengt. In alle spelomgevingen vertonen de best presterende MLLMs, zoals bepaald door Elo-ratingvergelijkingen, een aanzienlijke prestatiekloof ten opzichte van mensen. Onze bevindingen benadrukken kritieke beperkingen, waaronder verschillende soorten perceptuele fouten gemaakt door de modellen, en suggereren mogelijke verbeteringsmogelijkheden vanuit een agent-gericht perspectief, zoals het verfijnen van agentstrategieën en het aanpakken van perceptuele onnauwkeurigheden. Code is beschikbaar op https://github.com/CSU-JPG/V-MAGE.
Het balanceren van trouwheid en bewerkbaarheid is essentieel bij tekstgebaseerde beeldbewerking (TIE), waarbij fouten vaak leiden tot over- of onderbewerkingsproblemen. Bestaande methoden vertrouwen doorgaans op aandachtinjecties voor structuurbehoud en maken gebruik van de inherente tekstuitlijningsmogelijkheden van vooraf getrainde tekst-naar-beeld (T2I) modellen voor bewerkbaarheid, maar ze missen expliciete en geünificeerde mechanismen om deze twee doelstellingen goed in balans te brengen. In dit werk introduceren we UnifyEdit, een afstelmethode die diffusielatentoptimalisatie uitvoert om een gebalanceerde integratie van trouwheid en bewerkbaarheid binnen een geünificeerd raamwerk mogelijk te maken. In tegenstelling tot directe aandachtinjecties ontwikkelen we twee aandachtgebaseerde beperkingen: een zelfaandacht (SA) behoudsbeperking voor structurele trouwheid, en een kruisaandacht (CA) uitlijningsbeperking om tekstuitlijning te verbeteren voor betere bewerkbaarheid. Het gelijktijdig toepassen van beide beperkingen kan echter leiden tot gradiëntconflicten, waarbij de dominantie van één beperking resulteert in over- of onderbewerking. Om deze uitdaging aan te pakken, introduceren we een adaptieve tijdstapscheduler die de invloed van deze beperkingen dynamisch aanpast, waardoor de diffusielatent naar een optimale balans wordt geleid. Uitgebreide kwantitatieve en kwalitatieve experimenten valideren de effectiviteit van onze aanpak, waarbij de superioriteit ervan wordt aangetoond in het bereiken van een robuuste balans tussen structuurbehoud en tekstuitlijning bij verschillende bewerkingstaken, en andere state-of-the-art methoden overtreft. De broncode zal beschikbaar zijn op https://github.com/CUC-MIPG/UnifyEdit.
Recente vooruitgang in redeneermodellen heeft aanzienlijke verbeteringen in nauwkeurigheid laten zien, met name voor complexe taken zoals wiskundig redeneren, door het gebruik van gedetailleerde en uitgebreide redeneerprocessen. Het genereren van deze uitgebreide redeneersequenties is echter rekenkundig kostbaar en tijdrovend. Om deze inefficiëntie aan te pakken, benutten we de inherente paralleliseerbaarheid van bepaalde taken om het redeneerproces te versnellen. Specifiek, wanneer meerdere parallelle redeneertakken bestaan, decoderen we meerdere tokens per stap met behulp van een gespecialiseerd aandachtmasker, waarbij we ze binnen een enkele sequentie verwerken en zo extra geheugengebruik vermijden. Experimentele resultaten tonen aan dat onze methode een versnelling van meer dan 100% in decodeertijd bereikt, terwijl de kwaliteit van de antwoorden behouden blijft.
Reinforcement finetuning (RFT) heeft groot potentieel getoond voor het verbeteren van de wiskundige redeneervaardigheden van grote taalmodelen (LLMs), maar het is vaak inefficiënt wat betreft steekproeven en rekenkracht, omdat het uitgebreide training vereist. In dit werk introduceren we AdaRFT (Adaptive Curriculum Reinforcement Finetuning), een methode die zowel de efficiëntie als de uiteindelijke nauwkeurigheid van RFT aanzienlijk verbetert door middel van adaptief curriculumleren. AdaRFT past dynamisch de moeilijkheidsgraad van trainingsproblemen aan op basis van de recente beloningssignalen van het model, waardoor ervoor wordt gezorgd dat het model consistent traint op taken die uitdagend maar oplosbaar zijn. Deze adaptieve steekproefstrategie versnelt het leerproces door een optimale moeilijkheidsgraad te handhaven, waardoor verspilde rekenkracht op problemen die te makkelijk of te moeilijk zijn, wordt vermeden. AdaRFT vereist slechts een lichte uitbreiding van standaard RFT-algoritmen zoals Proximal Policy Optimization (PPO), zonder de beloningsfunctie of modelarchitectuur aan te passen. Experimenten op wiskundige datasets van wedstrijdniveau – waaronder AMC, AIME en IMO-stijl problemen – tonen aan dat AdaRFT zowel de trainingsefficiëntie als de redeneerprestaties aanzienlijk verbetert. We evalueren AdaRFT over meerdere dataverdelingen en modelgroottes, waarbij we aantonen dat het het aantal trainingsstappen tot wel 2x vermindert en de nauwkeurigheid aanzienlijk verbetert, wat een schaalbaarder en effectiever RFT-framework biedt.
Bestaande evaluatiekaders voor redeneervaardigheden van Large Language Models (LLMs) en Large Vision-Language Models (LVLMs) richten zich voornamelijk op het beoordelen van tekstgebaseerd redeneren of visueel-taalkundig begrip, met beperkte dynamische interactie tussen tekstuele en visuele beperkingen. Om deze beperking aan te pakken, introduceren we CrossWordBench, een benchmark ontworpen om de redeneervaardigheden van zowel LLMs als LVLMs te evalueren via het medium van kruiswoordpuzzels—een taak die multimodale naleving vereist van semantische beperkingen uit tekstgebaseerde aanwijzingen en kruisende beperkingen uit visuele rasterstructuren. CrossWordBench maakt gebruik van een controleerbaar puzzelgeneratieframework dat puzzels produceert in meerdere formaten (tekst en afbeelding) en biedt verschillende evaluatiestrategieën, variërend van direct puzzeloplossen tot interactieve modi. Onze uitgebreide evaluatie van meer dan 20 modellen toont aan dat redenerende LLMs niet-redenerende modellen aanzienlijk overtreffen door effectief gebruik te maken van kruisende-letterbeperkingen. We laten verder zien dat LVLMs moeite hebben met de taak, waarbij een sterke correlatie wordt aangetoond tussen hun puzzeloplossende prestaties en de nauwkeurigheid van rasterparsing. Onze bevindingen bieden inzichten in de beperkingen van de redeneervaardigheden van huidige LLMs en LVLMs, en bieden een effectieve aanpak voor het creëren van multimodale beperkte taken voor toekomstige evaluaties.
Recente vooruitgang in automatisch theorema bewijzen (ATP) door middel van LLM's heeft het potentieel van formeel redeneren met Lean 4-codes benadrukt. Echter, ATP is nog niet gerevolutioneerd door de recente posttraining-schaalvergroting zoals gedemonstreerd door OpenAI O1/O3 en Deepseek R1. In dit werk onderzoeken we de volledige posttraining van ATP, met als doel deze af te stemmen op doorbraken in redeneermodellen in natuurlijke talen. Om te beginnen trainen we huidige ATP-modellen voortdurend met een hybride dataset, die bestaat uit talrijke statement-bewijsparen en aanvullende data gericht op het integreren van cognitief gedrag dat menselijk redeneren en hypothesenverfijning nabootst. Vervolgens verkennen we reinforcement learning met behulp van uitkomstbeloningen die worden geretourneerd door de Lean 4-compiler. Door onze ontworpen voortdurende training en reinforcement learning-processen hebben we bestaande formele bewijzers, waaronder zowel DeepSeek-Prover-v1.5 als Goedel-Prover, succesvol verbeterd, wat resulteert in state-of-the-art prestaties op het gebied van volledig bewijsgeneratie. We behalen bijvoorbeeld een slagingspercentage van 59,8% (pass@32) op MiniF2F. Dit is een doorlopend project en we zullen onze bevindingen geleidelijk bijwerken, evenals onze data en trainingsdetails vrijgeven.
Imitation learning is naar voren gekomen als een veelbelovende benadering voor het ontwikkelen van generalistische robots. Het schalen van imitation learning voor grote robot foundation models blijft echter een uitdaging vanwege de afhankelijkheid van hoogwaardige expertdemonstraties. Tegelijkertijd zijn er grote hoeveelheden videogegevens beschikbaar die een breed scala aan omgevingen en diverse gedragingen weergeven. Deze gegevens vormen een rijke bron van informatie over dynamiek in de echte wereld en interacties tussen agenten en omgevingen. Het direct benutten van deze gegevens voor imitation learning is echter moeilijk gebleken vanwege het ontbreken van actieannotaties die vereist zijn voor de meeste hedendaagse methoden. In dit werk presenteren we Unified World Models (UWM), een raamwerk dat het mogelijk maakt om zowel video- als actiegegevens te benutten voor beleidsleren. Specifiek integreert een UWM een actiediffusieproces en een videodiffusieproces binnen een uniforme transformer-architectuur, waarbij onafhankelijke diffusietijdstappen elke modaliteit beheersen. We laten zien dat UWM door simpelweg elke diffusietijdstap te controleren flexibel een beleid, een voorwaartse dynamiek, een inverse dynamiek en een videogenerator kan representeren. Door simulaties en experimenten in de echte wereld tonen we aan dat: (1) UWM effectieve voorafgaande training mogelijk maakt op grootschalige multitask-robotdatasets met zowel dynamiek- als actievoorspellingen, wat resulteert in meer generaliseerbare en robuuste beleidsregels dan imitation learning, (2) UWM op natuurlijke wijze leren van actievrije videogegevens faciliteert door onafhankelijke controle van modaliteitsspecifieke diffusietijdstappen, wat de prestaties van fijn afgestelde beleidsregels verder verbetert. Onze resultaten suggereren dat UWM een veelbelovende stap biedt naar het benutten van grote, heterogene datasets voor schaalbaar robotleren, en een eenvoudige unificatie biedt tussen de vaak uiteenlopende paradigma's van imitation learning en wereldmodellering. Video's en code zijn beschikbaar op https://weirdlabuw.github.io/uwm/.
Gegeneraliseerde categorieontdekking (GCD) is een pragmatisch maar onderbelicht probleem, waarbij modellen automatisch nieuwe categorieën moeten clusteren en ontdekken door gebruik te maken van gelabelde voorbeelden uit oude klassen. De uitdaging is dat ongelabelde gegevens zowel oude als nieuwe klassen bevatten. Vroege werken die gebruikmaken van pseudo-labeling met parametrische classificatoren behandelen oude en nieuwe klassen afzonderlijk, wat leidt tot een onbalans in nauwkeurigheid tussen beide. Recente methoden die contrastief leren toepassen, negeren potentiële positieven en zijn losgekoppeld van het clusteringdoel, wat resulteert in bevooroordeelde representaties en suboptimale resultaten. Om deze problemen aan te pakken, introduceren we een uniform en onbevooroordeeld prototype-leerkader, genaamd ProtoGCD, waarin oude en nieuwe klassen worden gemodelleerd met gezamenlijke prototypes en uniforme leerdoelen, waardoor een uniforme modellering tussen oude en nieuwe klassen mogelijk wordt. Specifiek stellen we een dubbelniveau adaptief pseudo-labelingmechanisme voor om bevestigingsbias te verminderen, samen met twee regularisatietermen om gezamenlijk geschiktere representaties voor GCD te leren. Bovendien, voor praktische overwegingen, ontwikkelen we een criterium om het aantal nieuwe klassen te schatten. Verder breiden we ProtoGCD uit om onzichtbare uitschieters te detecteren, waardoor taakniveau-unificatie wordt bereikt. Uitgebreide experimenten tonen aan dat ProtoGCD state-of-the-art prestaties behaalt op zowel generieke als fijnmazige datasets. De code is beschikbaar op https://github.com/mashijie1028/ProtoGCD.