Dagelijks geselecteerde AI onderzoekspapers met vertalingen
In dit artikel onderzoeken we de onderliggende factoren die mogelijk bijdragen aan het verbeteren van de wiskundige redeneervaardigheden van grote taalmodellen (LLMs). We betogen dat de schaalwet voor data in relatie tot wiskundige redeneervaardigheden in moderne LLMs nog lang niet verzadigd is, en benadrukken hoe de kwaliteit van het model verbetert naarmate de hoeveelheid data toeneemt. Om deze bewering te ondersteunen, introduceren we de Skywork-Math modelreeks, die via supervised fine-tuning (SFT) is getraind op gangbare 7B LLMs met behulp van onze voorgestelde Skywork-MathQA dataset van 2,5 miljoen instanties. Skywork-Math 7B heeft indrukwekkende nauwkeurigheden behaald van 51,2% op het competitieniveau MATH-benchmark en 83,9% op de GSM8K-benchmark, uitsluitend met SFT-data, en presteert daarmee beter dan een vroege versie van GPT-4 op MATH. De superieure prestaties van de Skywork-Math-modellen zijn te danken aan onze innovatieve tweefasige data-synthese en model-SFT-pipelines, die drie verschillende augmentatiemethoden en een diverse set van startproblemen omvatten, waardoor zowel de hoeveelheid als de kwaliteit van de Skywork-MathQA dataset over verschillende moeilijkheidsgraden gewaarborgd wordt. Het belangrijkste is dat we verschillende praktische inzichten bieden om de wiskundige redeneervaardigheden van LLMs te verbeteren, zowel voor onderzoeks- als industriële toepassingen.
We hebben aanzienlijke vooruitgang geboekt bij het ontwikkelen van fundamentele videodiffusiemodellen. Omdat deze modellen worden getraind met grootschalige, onbewaakte data, is het cruciaal geworden om deze modellen aan te passen aan specifieke downstream taken. Het aanpassen van deze modellen via supervised fine-tuning vereist het verzamelen van doelgerichte datasets van video's, wat uitdagend en tijdrovend is. In dit werk maken we gebruik van vooraf getrainde beloningsmodellen die zijn geleerd via voorkeuren op basis van krachtige visuele discriminatieve modellen om videodiffusiemodellen aan te passen. Deze modellen bevatten dichte gradientinformatie met betrekking tot gegenereerde RGB-pixels, wat essentieel is voor efficiënt leren in complexe zoekruimten, zoals video's. We laten zien dat het terugpropageren van gradienten van deze beloningsmodellen naar een videodiffusiemodel kan leiden tot een reken- en sample-efficiënte afstemming van het videodiffusiemodel. We presenteren resultaten voor diverse beloningsmodellen en videodiffusiemodellen, waaruit blijkt dat onze aanpak veel efficiënter kan leren in termen van beloningsquery's en rekenkracht dan eerdere gradientvrije benaderingen. Onze code, modelgewichten en meer visualisaties zijn beschikbaar op https://vader-vid.github.io.
Hoewel de meeste huidige grote multimodale modellen (LMMs) al foto's van natuurlijke landschappen en portretten kunnen begrijpen, blijft hun begrip van abstracte afbeeldingen, zoals grafieken, kaarten of lay-outs, en hun visuele redeneervaardigheden vrij rudimentair. Ze hebben vaak moeite met eenvoudige dagelijkse taken, zoals het aflezen van de tijd van een klok, het begrijpen van een stroomdiagram of het plannen van een route met behulp van een wegenkaart. Gezien dit ontwerpen we een multimodale zelf-instructie, waarbij we gebruikmaken van grote taalmmodellen en hun codeervaardigheden om massaal abstracte afbeeldingen en visuele redeneerinstructies te synthetiseren in verschillende dagelijkse scenario's. Onze strategie creëert moeiteloos een multimodale benchmark met 11.193 instructies voor acht visuele scenario's: grafieken, tabellen, gesimuleerde kaarten, dashboards, stroomdiagrammen, relatiegrafieken, plattegronden en visuele puzzels. Deze benchmark, opgebouwd uit eenvoudige lijnen en geometrische elementen, legt de tekortkomingen bloot van de meest geavanceerde LMMs zoals Claude-3.5-Sonnet en GPT-4o in het begrijpen van abstracte afbeeldingen, het redeneren over ruimtelijke relaties en het induceren van visuele elementen. Daarnaast fine-tunen we een LMM met 62.476 synthetische instructies voor grafieken, tabellen en wegenkaarten om de kwaliteit van onze synthetische data te verifiëren. De resultaten tonen een verbeterd begrip van grafieken en prestaties bij kaartnavigatie, en laten ook potentiële voordelen zien voor andere visuele redeneertaken. Onze code is beschikbaar op: https://github.com/zwq2018/Multi-modal-Self-instruct.
Het trainen van Large Language Models (LLMs) is geheugenintensief vanwege het grote aantal parameters en de bijbehorende optimalisatiestatussen. GaLore, een recente methode, vermindert het geheugengebruik door gewichtsgradiënten te projecteren in een laagrangige deelruimte zonder in te leveren op prestaties. GaLore is echter afhankelijk van tijdrovende Singular Value Decomposition (SVD)-operaties om de deelruimte te identificeren, en de frequente updates van de deelruimte leiden tot aanzienlijke overhead in de trainingstijd. Bovendien biedt GaLore minimale verbeteringen in nauwkeurigheid en efficiëntie vergeleken met LoRA in meer toegankelijke fine-tuning-scenario's. Om deze beperkingen aan te pakken, introduceren we Q-GaLore, een nieuwe aanpak die het geheugengebruik aanzienlijk vermindert door kwantisatie en laagrangige projectie te combineren, waardoor de voordelen van GaLore worden overtroffen. Onze methode is gebaseerd op twee belangrijke observaties: (i) de gradiëntdeelruimte vertoont diverse eigenschappen, waarbij sommige lagen vroeg in de training convergeren terwijl andere onderhevig zijn aan frequente veranderingen; (ii) de projectiematrices zijn zeer veerkrachtig tegen laagbit-kwantisatie. Door gebruik te maken van deze inzichten, past Q-GaLore de gradiëntdeelruimte adaptief aan op basis van de convergentiestatistieken, waardoor vergelijkbare prestaties worden bereikt terwijl het aantal SVD-operaties aanzienlijk wordt verminderd. We behouden de projectiematrices in INT4-formaat en gewichten in INT8-formaat, waarbij stochastisch afronden wordt gebruikt om geaccumuleerde gradiëntinformatie vast te leggen. Deze aanpak maakt een hoogprecisie-trainingspad mogelijk met alleen laagprecisie-gewichten. We tonen aan dat Q-GaLore zeer competitieve prestaties bereikt met uitzonderlijke geheugenefficiëntie. Tijdens pre-training maakt Q-GaLore het mogelijk om een LLaMA-7B-model vanaf nul te trainen op een enkele NVIDIA RTX 4060 Ti met slechts 16 GB geheugen. Tijdens fine-tuning vermindert het het geheugengebruik met tot wel 50% vergeleken met LoRA en GaLore, terwijl het consistent beter presteert dan QLoRA bij dezelfde geheugenkosten.
Multi-modale Large Language Models (MLLMs) zijn recentelijk naar voren gekomen als een belangrijk aandachtspunt in zowel de academische wereld als de industrie. Ondanks hun vaardigheid in algemene multi-modale scenario's, blijven de wiskundige probleemoplossende capaciteiten in visuele contexten onvoldoende onderzocht. Wij identificeren drie belangrijke gebieden binnen MLLMs die verbeterd moeten worden: visuele codering van wiskundige diagrammen, diagram-taal-alignment en wiskundige redeneervaardigheden. Dit leidt tot een dringende behoefte aan grootschalige, hoogwaardige data en trainingspijplijnen in visuele wiskunde. In dit artikel stellen wij MAVIS voor, het eerste MAthematical VISual instruction tuning paradigma voor MLLMs, waarbij een reeks wiskundige visuele datasets en gespecialiseerde MLLMs betrokken zijn. Gericht op de drie genoemde problemen, bevat MAVIS drie progressieve trainingsfasen vanaf nul. Eerst stellen wij MAVIS-Caption samen, bestaande uit 558K diagram-bijschrift paren, om een wiskunde-specifieke visuele encoder (CLIP-Math) te finetunen via contrastief leren, afgestemd op verbeterde visuele codering van diagrammen. Vervolgens gebruiken wij MAVIS-Caption om de CLIP-Math uit te lijnen met een large language model (LLM) door middel van een projectielaag, waardoor het vision-taal-alignment in wiskundige domeinen wordt verbeterd. Ten derde introduceren wij MAVIS-Instruct, inclusief 900K zorgvuldig verzamelde en geannoteerde visuele wiskundige problemen, die worden gebruikt om uiteindelijk de MLLM te instruct-tunen voor robuuste wiskundige redeneervaardigheden. In MAVIS-Instruct incorporeren wij complete chain-of-thought (CoT) redeneringen voor elk probleem en minimaliseren wij tekstuele redundantie, waardoor het model zich meer concentreert op de visuele elementen. Data en modellen zijn vrijgegeven op https://github.com/ZrrSkywalker/MAVIS.
We stellen een nieuwe hybride Mamba-Transformer backbone voor, genaamd MambaVision, die specifiek is ontworpen voor visuele toepassingen. Onze kernbijdrage omvat het herontwerpen van de Mamba-formulering om de mogelijkheden voor efficiënte modellering van visuele kenmerken te verbeteren. Daarnaast voeren we een uitgebreide ablatiestudie uit naar de haalbaarheid van het integreren van Vision Transformers (ViT) met Mamba. Onze resultaten tonen aan dat het uitrusten van de Mamba-architectuur met verschillende self-attention blokken in de laatste lagen de modelleringscapaciteit om langetermijn ruimtelijke afhankelijkheden vast te leggen aanzienlijk verbetert. Op basis van onze bevindingen introduceren we een familie van MambaVision-modellen met een hiërarchische architectuur om aan verschillende ontwerpcriteria te voldoen. Voor beeldclassificatie op de ImageNet-1K dataset bereiken de MambaVision-modelvarianten een nieuwe State-of-the-Art (SOTA) prestaties in termen van Top-1 nauwkeurigheid en beelddoorvoer. In downstream taken zoals objectdetectie, instantiesegmentatie en semantische segmentatie op de MS COCO en ADE20K datasets, presteert MambaVision beter dan vergelijkbaar grote backbones en toont het een gunstigere prestaties. Code: https://github.com/NVlabs/MambaVision.
Een snel groeiend aantal toepassingen is afhankelijk van een kleine set gesloten-source taalmodel(len) (LMs). Deze afhankelijkheid kan nieuwe beveiligingsrisico's met zich meebrengen als LMs zelfherkenningscapaciteiten ontwikkelen. Geïnspireerd door methoden voor menselijke identiteitsverificatie, stellen we een nieuwe aanpak voor om zelfherkenning in LMs te beoordelen met behulp van modelgegenereerde "beveiligingsvragen". Onze test kan extern worden uitgevoerd om frontiermodellen te volgen, aangezien deze geen toegang vereist tot interne modelparameters of uitvoerkansen. We gebruiken onze test om zelfherkenning te onderzoeken in tien van de meest capabele open- en gesloten-source LMs die momenteel publiekelijk beschikbaar zijn. Uit onze uitgebreide experimenten blijkt geen empirisch bewijs van algemene of consistente zelfherkenning in enig onderzocht LM. In plaats daarvan suggereren onze resultaten dat LMs, gegeven een set alternatieven, streven naar het kiezen van het "beste" antwoord, ongeacht de oorsprong ervan. Bovendien vinden we aanwijzingen dat voorkeuren over welke modellen de beste antwoorden produceren consistent zijn tussen LMs. Daarnaast onthullen we nieuwe inzichten over positiebiasoverwegingen voor LMs in meerkeuzeomgevingen.
Met de opmerkelijke vooruitgang in beeldgeneratie en open-vorm tekstgeneratie is het creëren van gecombineerde beeld-tekstinhoud een steeds interessanter vakgebied geworden. Multimodale verhaalgeneratie, gekenmerkt door het produceren van narratieve teksten en levendige beelden op een gecombineerde manier, is naar voren gekomen als een waardevolle en praktische taak met brede toepassingen. Deze taak brengt echter aanzienlijke uitdagingen met zich mee, omdat het inzicht vereist in de complexe wisselwerking tussen teksten en beelden, en het vermogen om lange sequenties van samenhangende, contextueel relevante teksten en visuals te genereren. In dit werk stellen we SEED-Story voor, een nieuwe methode die gebruikmaakt van een Multimodaal Taalmodel (MLLM) om uitgebreide multimodale verhalen te genereren. Ons model, gebaseerd op de krachtige begripscapaciteit van MLLM, voorspelt zowel teksttokens als visuele tokens, die vervolgens worden verwerkt met een aangepaste visuele detokenizer om beelden te produceren met consistente personages en stijlen. We introduceren verder een multimodale aandachtssink-mechanisme om de generatie van verhalen met maximaal 25 sequenties (slechts 10 voor training) op een zeer efficiënte autoregressieve manier mogelijk te maken. Daarnaast presenteren we een grootschalige en hoogwaardige dataset genaamd StoryStream voor het trainen van ons model en het kwantitatief evalueren van de taak van multimodale verhaalgeneratie in verschillende aspecten.
Uitzonderlijk wiskundig redeneervermogen is een van de belangrijkste kenmerken die de kracht van grote taalmodellen (LLM's) aantonen. Het vraagstuk hoe de wiskundige vaardigheden van LLM's uitgebreid te definiëren en te evalueren, en zelfs de gebruikerservaring in realistische scenario's te weerspiegelen, is een cruciaal onderwerp geworden. Huidige benchmarks richten zich voornamelijk op probleemoplossend vermogen, wat een aanzienlijk risico op overfitting van het model met zich meebrengt en niet accuraat het echte wiskundige redeneervermogen weergeeft. In dit artikel stellen we dat als een model een probleem echt begrijpt, het robuust en gemakkelijk toepasbaar moet zijn op een diverse reeks taken. Gemotiveerd door dit idee introduceren we MATHCHECK, een zorgvuldig ontworpen checklist voor het testen van taakgeneralizatie en redeneerrobustheid, evenals een automatisch hulpmiddel om checklists efficiënt te genereren. MATHCHECK omvat meerdere wiskundige redeneertaken en robustheidstesttypes om een uitgebreide evaluatie van zowel wiskundig redeneervermogen als gedragstesten mogelijk te maken. Met behulp van MATHCHECK ontwikkelen we MATHCHECK-GSM en MATHCHECK-GEO om respectievelijk wiskundig tekstueel redeneervermogen en multimodaal redeneervermogen te beoordelen, als verbeterde versies van benchmarks zoals GSM8k, GeoQA, UniGeo en Geometry3K. We passen MATHCHECK-GSM en MATHCHECK-GEO toe om meer dan 20 LLM's en 11 MLLM's te evalueren, waarbij we hun algehele wiskundige redeneervermogen beoordelen. Onze resultaten tonen aan dat terwijl toonaangevende LLM's zoals GPT-4o uitblinken in diverse vaardigheden op de checklist, veel andere modelfamilies een significante achteruitgang vertonen. Verdere experimenten geven aan dat, vergeleken met traditionele wiskundebenchmarks, MATHCHECK beter het echte wiskundige vermogen weerspiegelt en wiskundige intelligentie lineairer representeert, wat ons ontwerp ondersteunt. Met MATHCHECK kunnen we gemakkelijk gedetailleerde gedragsanalyses uitvoeren om modellen diepgaand te onderzoeken.
Bestaande Multimodale Grote Taalmodellen (MLLMs) leggen steeds meer nadruk op het complexe begrip van diverse visuele elementen, waaronder meerdere objecten, tekstinformatie en ruimtelijke relaties. Hun ontwikkeling voor uitgebreide visuele waarneming hangt af van de beschikbaarheid van hoogwaardige beeld-tekst datasets die diverse visuele elementen en gedetailleerde beeldbeschrijvingen bieden. De schaarste aan dergelijke hypergedetailleerde datasets belemmert echter momenteel de vooruitgang binnen de MLLM-gemeenschap. Het knelpunt komt voort uit de beperkte waarnemingscapaciteiten van huidige caption engines, die tekortschieten in het leveren van volledige en nauwkeurige annotaties. Om baanbrekend onderzoek van MLLMs op het gebied van uitgebreide visuele waarneming te faciliteren, stellen wij daarom Perceptual Fusion voor, waarbij een low-budget maar zeer effectieve caption engine wordt gebruikt voor volledige en nauwkeurige beeldbeschrijvingen. Specifiek integreert Perceptual Fusion diverse waarnemingsexperts als beeldprioriteiten om expliciete informatie over visuele elementen te bieden en neemt het een efficiënte MLLM als centraal draaipunt om de waarnemingsvaardigheden van geavanceerde MLLMs na te bootsen. We hebben zorgvuldig 1 miljoen zeer representatieve afbeeldingen geselecteerd uit de ongecurateerde LAION-dataset en dichte beschrijvingen gegenereerd met onze engine, genaamd DenseFusion-1M. Uitgebreide experimenten valideren dat onze engine zijn tegenhangers overtreft, waarbij de resulterende dataset de waarnemings- en cognitieve vaardigheden van bestaande MLLMs aanzienlijk verbetert op diverse visie-taalbenchmarks, vooral bij hoge-resolutie afbeeldingen als invoer. De dataset en code zijn openbaar beschikbaar op https://github.com/baaivision/DenseFusion.
We presenteren MELLE, een nieuwe aanpak voor taalmodellering op basis van continue waarden voor tekst-naar-spraaksynthese (TTS). MELLE genereert autoregressief continue mel-spectrogramframes rechtstreeks vanuit een tekstconditie, waardoor de noodzaak voor vectorkwantisatie wordt omzeild, een techniek die oorspronkelijk is ontworpen voor audiocompressie en die in vergelijking met mel-spectrogrammen aan kwaliteit inboet. Specifiek: (i) in plaats van kruisentropieverlies passen we regressieverlies toe met een voorgestelde spectrogramflux-verliesfunctie om de kansverdeling van de continue waarden te modelleren. (ii) we hebben variatie-inferentie geïntegreerd in MELLE om bemonsteringsmechanismen te vergemakkelijken, waardoor de uitvoerdiversiteit en modelrobuustheid worden verbeterd. Experimenten tonen aan dat, in vergelijking met de tweefasen-codec-taalmodellen VALL-E en zijn varianten, de eenfasige MELLE robuustheidsproblemen vermindert door de inherente tekortkomingen van het bemonsteren van discrete codes te vermijden, superieure prestaties behaalt op meerdere metrieken en, het belangrijkst, een meer gestroomlijnd paradigma biedt. Zie https://aka.ms/melle voor demo's van ons werk.
Er is aanzienlijke aandacht besteed aan het integreren van grote taalmmodellen (LLMs) met diverse tools bij de ontwikkeling van algemene agents. Dit stelt de tool-gebruikscapaciteiten van LLMs op de proef. Er zijn echter duidelijke kloof tussen bestaande evaluaties van tool-gebruik en real-world scenario's. Huidige evaluaties maken vaak gebruik van AI-gegenereerde queries, eenstaps taken, dummy tools en tekstuele interacties, wat niet effectief de probleemoplossende vaardigheden van de agents in de echte wereld onthult. Om dit aan te pakken, stellen we GTA voor, een benchmark voor General Tool Agents, met drie hoofdaspecten: (i) Echte gebruikersqueries: door mensen geschreven queries met eenvoudige real-world doelen maar impliciet tool-gebruik, waarbij de LLM de geschikte tools moet bepalen en de oplossingsstappen moet plannen. (ii) Echte geïmplementeerde tools: een evaluatieplatform uitgerust met tools in de categorieën perceptie, operatie, logica en creativiteit om de daadwerkelijke taakuitvoeringsprestaties van de agents te evalueren. (iii) Echte multimodale inputs: authentieke beeldbestanden, zoals ruimtelijke scènes, webpagina-screenshots, tabellen, codefragmenten en gedrukte/handgeschreven materialen, gebruikt als de querycontexten om nauw aan te sluiten bij real-world scenario's. We hebben 229 real-world taken en uitvoerbare toolketens ontworpen om mainstream LLMs te evalueren. Onze bevindingen tonen aan dat real-world gebruikersqueries uitdagend zijn voor bestaande LLMs, waarbij GPT-4 minder dan 50% van de taken voltooit en de meeste LLMs onder de 25% scoren. Deze evaluatie onthult de knelpunten in de tool-gebruikscapaciteiten van huidige LLMs in real-world scenario's, wat een toekomstige richting biedt voor het bevorderen van algemene tool agents. De code en dataset zijn beschikbaar op https://github.com/open-compass/GTA.
De snelle ontwikkeling van grote taalmodelen (LLMs) is de afgelopen jaren duidelijk zichtbaar geweest. Gebaseerd op de krachtige LLMs, breiden multimodale LLMs (MLLMs) de modaliteit uit van tekst naar een breder spectrum van domeinen, wat wijdverbreide aandacht trekt vanwege het grotere scala aan toepassingsscenario's. Omdat LLMs en MLLMs afhankelijk zijn van enorme hoeveelheden modelparameters en data om emergente capaciteiten te bereiken, krijgt het belang van data steeds meer aandacht en erkenning. Door recente data-gerichte werken voor MLLMs te traceren en te analyseren, zien we dat de ontwikkeling van modellen en data niet twee afzonderlijke paden zijn, maar eerder met elkaar verbonden. Enerzijds dragen grotere en hogere kwaliteit data bij aan betere prestaties van MLLMs, anderzijds kunnen MLLMs de ontwikkeling van data bevorderen. De gezamenlijke ontwikkeling van multimodale data en MLLMs vereist een duidelijk beeld van 1) in welke ontwikkelingsfase van MLLMs specifieke data-gerichte benaderingen kunnen worden ingezet om welke capaciteiten te verbeteren, en 2) door welke capaciteiten te benutten en welke rollen modellen kunnen vervullen, kunnen modellen bijdragen aan multimodale data. Om de data-model gezamenlijke ontwikkeling voor de MLLM-gemeenschap te bevorderen, bekijken we systematisch bestaande werken gerelateerd aan MLLMs vanuit het perspectief van data-model gezamenlijke ontwikkeling. Een regelmatig bijgehouden project dat aan deze survey is gekoppeld, is toegankelijk op https://github.com/modelscope/data-juicer/blob/main/docs/awesome_llm_data.md.
Neurale netwerken (NN) behalen opmerkelijke resultaten in diverse taken, maar missen belangrijke kenmerken: interpreteerbaarheid, ondersteuning voor categorische kenmerken, en lichtgewicht implementaties geschikt voor edge-apparaten. Hoewel lopende inspanningen gericht zijn op het aanpakken van deze uitdagingen, voldoen Gradient Boosting Trees (GBT) van nature aan deze vereisten. Als gevolg hiervan zijn GBT's de standaardmethode geworden voor supervised learning-taken in veel real-world toepassingen en competities. Hun toepassing in online leeromgevingen, met name in reinforcement learning (RL), is echter beperkt gebleven. In dit werk overbruggen we deze kloof door Gradient-Boosting RL (GBRL) te introduceren, een raamwerk dat de voordelen van GBT uitbreidt naar het RL-domein. Met behulp van het GBRL-raamwerk implementeren we verschillende actor-critic algoritmen en vergelijken we hun prestaties met hun NN-tegenhangers. Geïnspireerd door gedeelde backbones in NN introduceren we een tree-sharing benadering voor beleids- en waardefuncties met verschillende leerfrequenties, wat de leer efficiëntie verbetert over miljoenen interacties. GBRL behaalt competitieve prestaties over een diverse reeks taken, met name in domeinen met gestructureerde of categorische kenmerken. Daarnaast presenteren we een hoogwaardige, GPU-versnelde implementatie die naadloos integreert met veelgebruikte RL-bibliotheken (beschikbaar op https://github.com/NVlabs/gbrl). GBRL breidt de toolkit uit voor RL-beoefenaars en toont de haalbaarheid en belofte van GBT binnen het RL-paradigma, vooral in domeinen die worden gekenmerkt door gestructureerde of categorische kenmerken.
Grote Taalmodellen hebben opmerkelijke effectiviteit getoond in het genereren van streaming data zoals tekst en audio, dankzij hun tijdelijk eenrichtings-attentiemechanisme, dat correlaties modelleert tussen het huidige token en eerdere tokens. Video-streaming blijft echter veel minder onderzocht, ondanks een groeiende behoefte aan live videoverwerking. State-of-the-art videodiffusiemodellen maken gebruik van tweerichtings-temporele aandacht om de correlaties tussen het huidige frame en alle omringende (d.w.z. inclusief toekomstige) frames te modelleren, wat hen belemmert bij het verwerken van streaming video's. Om dit probleem aan te pakken, presenteren we Live2Diff, de eerste poging om een videodiffusiemodel te ontwerpen met eenrichtings-temporele aandacht, specifiek gericht op live streaming videotranslaties. In vergelijking met eerdere werken zorgt onze aanpak voor temporele consistentie en vloeiendheid door het huidige frame te correleren met zijn voorgangers en een paar initiële opwarmframes, zonder toekomstige frames. Daarnaast gebruiken we een zeer efficiënt denoisingschema met een KV-cachemechanisme en pipelining, om streaming videotranslaties mogelijk te maken bij interactieve framerates. Uitgebreide experimenten tonen de effectiviteit van het voorgestelde attentiemechanisme en de pipeline aan, waarbij eerdere methoden worden overtroffen op het gebied van temporele vloeiendheid en/of efficiëntie.
Motion modeling is van cruciaal belang in flow-based Video Frame Interpolation (VFI). Bestaande paradigma's beschouwen ofwel lineaire combinaties van bidirectionele flows of voorspellen direct bilaterale flows voor gegeven tijdstippen zonder gunstige bewegingsprioriteiten te verkennen, waardoor ze niet in staat zijn om spatiotemporele dynamiek in real-world video's effectief te modelleren. Om deze beperking aan te pakken, introduceren we in deze studie Generalizable Implicit Motion Modeling (GIMM), een nieuwe en effectieve benadering van motion modeling voor VFI. Specifiek, om GIMM als een effectief motion modeling paradigma mogelijk te maken, ontwerpen we een motion encoding pipeline om spatiotemporele motion latent te modelleren uit bidirectionele flows die zijn geëxtraheerd uit vooraf getrainde flow estimators, waardoor input-specifieke motion prioriteiten effectief worden gerepresenteerd. Vervolgens voorspellen we impliciet optische flows voor willekeurige tijdstappen binnen twee aangrenzende invoerframes via een adaptief coordinate-based neuraal netwerk, met spatiotemporele coördinaten en motion latent als invoer. Onze GIMM kan naadloos worden geïntegreerd met bestaande flow-based VFI-werken zonder verdere aanpassingen. We laten zien dat GIMM beter presteert dan de huidige state-of-the-art op de VFI benchmarks.
Top-down Bird's Eye View (BEV) kaarten zijn een populaire representatie voor navigatie van grondrobots vanwege hun rijkdom en flexibiliteit voor downstream taken. Hoewel recente methoden veelbelovend zijn gebleken voor het voorspellen van BEV-kaarten vanuit First-Person View (FPV) beelden, is hun generaliseerbaarheid beperkt tot kleine regio's die worden vastgelegd door huidige datasets gebaseerd op autonome voertuigen. In deze context laten we zien dat een meer schaalbare aanpak voor generaliseerbare kaartvoorspelling mogelijk wordt gemaakt door gebruik te maken van twee grootschalige, door crowdsourcing gegenereerde mappingplatforms: Mapillary voor FPV-beelden en OpenStreetMap voor BEV semantische kaarten. We introduceren Map It Anywhere (MIA), een data-engine die naadloze curatie en modellering van gelabelde kaartvoorspellingsdata mogelijk maakt vanuit bestaande open-source mapplatforms. Met behulp van onze MIA data-engine demonstreren we het gemak van het automatisch verzamelen van een dataset van 1,2 miljoen paren van FPV-beelden en BEV-kaarten, die diverse geografieën, landschappen, omgevingsfactoren, cameramodellen en opnamescenario's omvatten. We trainen verder een eenvoudig cameramodel-agnostisch model op deze data voor BEV-kaartvoorspelling. Uitgebreide evaluaties met behulp van gevestigde benchmarks en onze dataset tonen aan dat de door MIA gecureerde data effectieve pretraining mogelijk maakt voor generaliseerbare BEV-kaartvoorspelling, waarbij de zero-shot prestaties de baseline-modellen die op bestaande datasets zijn getraind, met 35% overtreffen. Onze analyse benadrukt de belofte van het gebruik van grootschalige openbare kaarten voor het ontwikkelen en testen van generaliseerbare BEV-perceptie, wat de weg vrijmaakt voor robuustere autonome navigatie.
In dit perspectiefartikel introduceren we het concept van Gespecialiseerde Generalistische Kunstmatige Intelligentie (SGAI of simpelweg SGI) als een cruciale mijlpaal op weg naar Algemene Kunstmatige Intelligentie (AGI). In tegenstelling tot het direct opschalen van algemene vaardigheden, wordt SGI gedefinieerd als AI die gespecialiseerd is in ten minste één taak, waarbij het menselijke experts overtreft, terwijl het ook algemene vaardigheden behoudt. Dit fusiepad stelt SGI in staat om snel hoogwaardige gebieden te bereiken. We categoriseren SGI in drie fasen op basis van het niveau van beheersing van professionele vaardigheden en algemene prestaties. Daarnaast bespreken we de noodzaak van SGI bij het aanpakken van problemen die verband houden met grote taalmodellen, zoals hun onvoldoende algemeenheid, gespecialiseerde capaciteiten, onzekerheid in innovatie en praktische toepassingen. Verder stellen we een conceptueel raamwerk voor voor de ontwikkeling van SGI dat de sterke punten van cognitieve verwerking van Systeem 1 en 2 integreert. Dit raamwerk bestaat uit drie lagen en vier belangrijke componenten, die zich richten op het verbeteren van individuele vaardigheden en het faciliteren van collaboratieve evolutie. We sluiten af met een samenvatting van de mogelijke uitdagingen en suggesties voor toekomstige richtingen. We hopen dat de voorgestelde SGI inzichten zal bieden voor verder onderzoek en toepassingen om AGI te bereiken.
Hoewel het veld van 3D-scène-reconstructie wordt gedomineerd door NeRFs vanwege hun fotorealistische kwaliteit, is 3D Gaussian Splatting (3DGS) recentelijk opgekomen en biedt het vergelijkbare kwaliteit met real-time renderingsnelheden. Beide methoden blinken echter vooral uit bij goed gecontroleerde 3D-scènes, terwijl data uit de echte wereld – gekenmerkt door occlusies, dynamische objecten en variërende belichting – een uitdaging blijft. NeRFs kunnen zich eenvoudig aanpassen aan dergelijke omstandigheden door middel van per-afbeelding inbeddingsvectoren, maar 3DGS heeft hier moeite mee vanwege zijn expliciete representatie en het ontbreken van gedeelde parameters. Om dit aan te pakken, introduceren we WildGaussians, een nieuwe aanpak om occlusies en uiterlijkveranderingen te hanteren met 3DGS. Door robuuste DINO-features te benutten en een module voor uiterlijkmodellering te integreren binnen 3DGS, behaalt onze methode state-of-the-art resultaten. We tonen aan dat WildGaussians de real-time renderingsnelheid van 3DGS evenaart, terwijl het zowel 3DGS als NeRF-baselines overtreft in het omgaan met data uit de echte wereld, allemaal binnen een eenvoudig architecturaal kader.
Wij stellen OmniNOCS voor, een grootschalige monocular dataset met 3D Normalized Object Coordinate Space (NOCS) kaarten, objectmaskers en 3D begrenzingsvakannotaties voor zowel binnen- als buitenscènes. OmniNOCS bevat 20 keer meer objectklassen en 200 keer meer instanties dan bestaande NOCS-datasets (NOCS-Real275, Wild6D). We gebruiken OmniNOCS om een nieuw, transformer-gebaseerd monocular NOCS-voorspellingsmodel (NOCSformer) te trainen dat nauwkeurige NOCS, instantiemaskers en poses kan voorspellen vanuit 2D-objectdetecties over diverse klassen. Het is het eerste NOCS-model dat kan generaliseren naar een breed scala aan klassen wanneer het wordt geprompt met 2D-vakken. We evalueren ons model op de taak van 3D georiënteerd begrenzingsvakvoorspelling, waar het vergelijkbare resultaten behaalt met state-of-the-art 3D-detectiemethoden zoals Cube R-CNN. In tegenstelling tot andere 3D-detectiemethoden, biedt ons model ook gedetailleerde en nauwkeurige 3D-objectvormen en segmentatie. We stellen een nieuwe benchmark voor voor de taak van NOCS-voorspelling gebaseerd op OmniNOCS, die we hopen zal dienen als een nuttige basislijn voor toekomstig werk op dit gebied. Onze dataset en code zullen beschikbaar zijn op de projectwebsite: https://omninocs.github.io.
De taak van gepersonaliseerde beeldesthetische beoordeling heeft als doel esthetische scorevoorspellingsmodellen af te stemmen op individuele voorkeuren met slechts enkele door de gebruiker verstrekte invoeren. De schaalbaarheid en generalisatiemogelijkheden van huidige benaderingen worden echter aanzienlijk beperkt door hun afhankelijkheid van een kostbare, gecureerde database. Om deze lang bestaande schaalbaarheidsuitdaging te overwinnen, presenteren we een unieke benadering die gebruikmaakt van gemakkelijk beschikbare databases voor algemene beeldesthetische beoordeling en beeldkwaliteitsbeoordeling. Specifiek beschouwen we elke database als een afzonderlijke beeldscore-regressietaak die verschillende niveaus van personalisatiepotentieel vertoont. Door optimale combinaties van taakvectoren te bepalen, die specifieke eigenschappen van elke database vertegenwoordigen, creëren we met succes gepersonaliseerde modellen voor individuen. Deze benadering van het integreren van meerdere modellen stelt ons in staat om een aanzienlijke hoeveelheid data te benutten. Onze uitgebreide experimenten tonen de effectiviteit van onze benadering aan in het generaliseren naar voorheen onbekende domeinen—een uitdaging waar eerdere benaderingen moeite mee hadden—wat het zeer toepasbaar maakt in real-world scenario's. Onze nieuwe benadering betekent een belangrijke vooruitgang in het veld door schaalbare oplossingen te bieden voor gepersonaliseerde esthetische beoordeling en hoge standaarden te stellen voor toekomstig onderzoek. https://yeolj00.github.io/personal-projects/personalized-aesthetics/