Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren depth up-scaling (DUS), een nieuwe techniek om basis-LLM's op een efficiënte en effectieve manier op te schalen op een eenvoudige manier. In tegenstelling tot mixture-of-experts (MoE) vereist DUS geen complexe aanpassingen tijdens training en inferentie. Met behulp van DUS hebben we SOLAR 10.7B gebouwd, een groot taalmodel (LLM) met 10,7 miljard parameters, dat superieure prestaties laat zien in diverse natuurlijke taalverwerkingstaken (NLP). Vergelijkende evaluaties tonen aan dat SOLAR 10.7B bestaande open-source voorgetrainde LLM's, zoals Llama 2 en Mistral 7B, overtreft. Daarnaast presenteren we SOLAR 10.7B-Instruct, een variant die is afgestemd op instructievolgcapaciteiten en Mixtral-8x7B overstijgt. SOLAR 10.7B is publiekelijk beschikbaar onder de Apache 2.0-licentie, wat brede toegankelijkheid en toepassing in het LLM-veld bevordert.
Dit artikel introduceert 26 richtlijnen die zijn ontworpen om het proces van het bevragen en aansturen van grote taalmodellen te stroomlijnen. Ons doel is om de onderliggende concepten van het formuleren van vragen voor verschillende schalen van grote taalmodellen te vereenvoudigen, hun mogelijkheden te onderzoeken en het gebruikersbegrip te vergroten van het gedrag van verschillende schalen van grote taalmodellen bij het verwerken van verschillende prompts. Uitgebreide experimenten zijn uitgevoerd op LLaMA-1/2 (7B, 13B en 70B), GPT-3.5/4 om de effectiviteit van de voorgestelde richtlijnen voor het ontwerpen van instructies en prompts te verifiëren. Wij hopen dat dit werk een betere leidraad biedt voor onderzoekers die werken aan het aansturen van grote taalmodellen. De projectpagina is beschikbaar op https://github.com/VILA-Lab/ATLAS.
Er is een groeiende vraag naar gepersonaliseerde en expressieve 3D-personages met de opkomst van AI-agents en de Metaverse, maar het creëren van 3D-personages met traditionele computergrafische tools is een complexe en tijdrovende taak. Om deze uitdagingen aan te pakken, stellen we een gebruiksvriendelijk framework voor genaamd Make-A-Character (Mach) om levensechte 3D-avatars te maken op basis van tekstbeschrijvingen. Het framework maakt gebruik van de kracht van grote taal- en visionmodellen voor het begrijpen van tekstuele intenties en het genereren van tussenliggende afbeeldingen, gevolgd door een reeks mensgerichte visuele perceptie- en 3D-generatiemodules. Ons systeem biedt een intuïtieve aanpak voor gebruikers om binnen 2 minuten controleerbare, realistische en volledig uitgewerkte 3D-personages te maken die aan hun verwachtingen voldoen, terwijl het ook een eenvoudige integratie met bestaande CG-pipelines mogelijk maakt voor dynamische expressiviteit. Voor meer informatie kunt u de projectpagina bezoeken op https://human3daigc.github.io/MACH/.
De referentiegebaseerde objectsegmentatietaken, namelijk referring image segmentation (RIS), few-shot image segmentation (FSS), referring video object segmentation (RVOS) en video object segmentation (VOS), hebben als doel een specifiek object te segmenteren door gebruik te maken van taal of geannoteerde maskers als referenties. Ondanks aanzienlijke vooruitgang in elk van deze afzonderlijke velden, zijn huidige methoden taakspecifiek ontworpen en ontwikkeld in verschillende richtingen, wat de activering van multitaskmogelijkheden voor deze taken belemmert. In dit werk beëindigen we de huidige gefragmenteerde situatie en stellen we UniRef++ voor om de vier referentiegebaseerde objectsegmentatietaken te verenigen met een enkele architectuur. De kern van onze aanpak is de voorgestelde UniFusion-module, die multiway-fusie uitvoert voor het afhandelen van verschillende taken met betrekking tot hun gespecificeerde referenties. Vervolgens wordt een uniforme Transformer-architectuur geadopteerd voor het bereiken van instantieniveau-segmentatie. Met de uniforme ontwerpen kan UniRef++ gezamenlijk worden getraind op een breed scala aan benchmarks en kan het flexibel meerdere taken uitvoeren tijdens runtime door de corresponderende referenties op te geven. We evalueren onze verenigde modellen op verschillende benchmarks. Uitgebreide experimentele resultaten geven aan dat onze voorgestelde UniRef++ state-of-the-art prestaties behaalt op RIS en RVOS, en concurrerend presteert op FSS en VOS met een parameter-gedeeld netwerk. Bovendien laten we zien dat de voorgestelde UniFusion-module eenvoudig kan worden geïntegreerd in het huidige geavanceerde foundationmodel SAM en bevredigende resultaten kan behalen met parameter-efficiënte finetuning. Codes en modellen zijn beschikbaar op https://github.com/FoundationVision/UniRef.
De snel evoluerende sector van Multi-modale Grote Taalmodellen (MLLMs) staat aan de voorhoede van de integratie van linguïstische en visuele verwerking in kunstmatige intelligentie. Dit artikel presenteert een diepgaande vergelijkende studie van twee baanbrekende modellen: Google's Gemini en OpenAI's GPT-4V(ision). Onze studie omvat een veelzijdige evaluatie van beide modellen op belangrijke dimensies zoals Visie-Taal Vermogen, Interactie met Mensen, Temporeel Begrip, en beoordelingen op zowel Intelligentie als Emotioneel Quotiënt. De kern van onze analyse verdiept zich in de verschillende visuele begripsvaardigheden van elk model. We hebben een reeks gestructureerde experimenten uitgevoerd om hun prestaties te evalueren in verschillende industriële toepassingsscenario's, wat een uitgebreid perspectief biedt op hun praktische bruikbaarheid. We beperken ons niet alleen tot directe prestatievergelijkingen, maar nemen ook aanpassingen in prompts en scenario's op om een evenwichtige en eerlijke analyse te waarborgen. Onze bevindingen belichten de unieke sterke punten en niches van beide modellen. GPT-4V onderscheidt zich door zijn precisie en beknoptheid in antwoorden, terwijl Gemini uitblinkt in het leveren van gedetailleerde, uitgebreide antwoorden vergezeld van relevante afbeeldingen en links. Deze inzichten werpen niet alleen licht op de vergelijkende verdiensten van Gemini en GPT-4V, maar benadrukken ook het evoluerende landschap van multimodale basis modellen, wat de weg vrijmaakt voor toekomstige vooruitgang op dit gebied. Na de vergelijking hebben we geprobeerd betere resultaten te bereiken door de twee modellen te combineren. Tot slot willen we onze diepe dankbaarheid uitspreken aan de teams achter GPT-4V en Gemini voor hun baanbrekende bijdragen aan het veld. Onze dank gaat ook uit naar de uitgebreide kwalitatieve analyse gepresenteerd in 'Dawn' door Yang et al. Dit werk, met zijn uitgebreide verzameling van beeldmonsters, prompts en GPT-4V-gerelateerde resultaten, vormde een fundamentele basis voor onze analyse.
Audio is een essentieel onderdeel van ons leven, maar het creëren ervan vereist vaak expertise en is tijdrovend. Onderzoeksgemeenschappen hebben het afgelopen jaar grote vooruitgang geboekt in het verbeteren van de prestaties van grootschalige audio-generatieve modellen voor een enkele modaliteit (spraak, geluid of muziek) door krachtigere generatieve modellen te gebruiken en data te schalen. Deze modellen hebben echter beperkingen in controleerbaarheid op verschillende vlakken: spraakgeneratiemodellen kunnen geen nieuwe stijlen synthetiseren op basis van tekstbeschrijvingen en zijn beperkt in domeindekking, zoals buitenomgevingen; geluidsgeneratiemodellen bieden alleen grove controle op basis van beschrijvingen zoals "een persoon die spreekt" en genereren slechts mompelende menselijke stemmen. Dit artikel introduceert Audiobox, een uniform model gebaseerd op flow-matching dat in staat is verschillende audiomodaliteiten te genereren. We ontwerpen beschrijvingsgebaseerde en voorbeeldgebaseerde prompting om de controleerbaarheid te vergroten en de paradigma's voor spraak- en geluidsgeneratie te verenigen. We zorgen ervoor dat transcripten, vocale en andere audiostijlen onafhankelijk kunnen worden gecontroleerd bij het genereren van spraak. Om de generalisatie van het model te verbeteren met beperkte labels, passen we een zelfsupervised infilling-doel aan om voor te trainen op grote hoeveelheden ongelabelde audio. Audiobox stelt nieuwe benchmarks voor spraak- en geluidsgeneratie (0.745 gelijkenis op Librispeech voor zero-shot TTS; 0.77 FAD op AudioCaps voor tekst-naar-geluid) en opent nieuwe methoden voor het genereren van audio met nieuwe vocale en akoestische stijlen. We integreren verder Bespoke Solvers, wat de generatie meer dan 25 keer versnelt in vergelijking met de standaard ODE-solver voor flow-matching, zonder prestatieverlies op verschillende taken. Onze demo is beschikbaar op https://audiobox.metademolab.com/.
Mensen leven in een 3D-wereld en gebruiken vaak natuurlijke taal om te interageren met een 3D-scène. Het modelleren van een 3D-taalveld om open-einde taalquery’s in 3D te ondersteunen, heeft recentelijk steeds meer aandacht gekregen. Dit artikel introduceert LangSplat, dat een 3D-taalveld construeert dat precieze en efficiënte open-vocabulaire query’s binnen 3D-ruimtes mogelijk maakt. In tegenstelling tot bestaande methoden die CLIP-taal-embeddingen verankeren in een NeRF-model, zet LangSplat de stap voorwaarts door een verzameling van 3D-Gaussiaanse verdelingen te gebruiken, elk met taal-functies gedistilleerd uit CLIP, om het taalveld te representeren. Door een op tegels gebaseerde splatting-techniek te gebruiken voor het renderen van taal-functies, omzeilen we het kostbare renderproces dat inherent is aan NeRF. In plaats van direct CLIP-embeddingen te leren, traint LangSplat eerst een scene-specifieke taal-auto-encoder en leert vervolgens taal-functies in de scene-specifieke latente ruimte, waardoor de aanzienlijke geheugeneisen van expliciete modellering worden verlicht. Bestaande methoden worstelen met onnauwkeurige en vage 3D-taalvelden, die geen duidelijke grenzen tussen objecten kunnen onderscheiden. We verdiepen ons in dit probleem en stellen voor om hiërarchische semantiek te leren met behulp van SAM, waardoor de noodzaak om uitgebreid het taalveld op verschillende schalen te bevragen en de regularisatie van DINO-functies wordt geëlimineerd. Uitgebreide experimenten op het gebied van open-vocabulaire 3D-objectlocalisatie en semantische segmentatie tonen aan dat LangSplat de vorige state-of-the-art methode LERF met een grote marge overtreft. Opmerkelijk is dat LangSplat extreem efficiënt is, met een {\speed}-voudige snelheidsverbetering vergeleken met LERF bij een resolutie van 1440 keer 1080. We raden lezers sterk aan om onze videoresultaten te bekijken op https://langsplat.github.io.
Diffusiegebaseerde tekst-naar-video-generatie heeft het afgelopen jaar indrukwekkende vooruitgang geboekt, maar blijft achter bij tekst-naar-beeld-generatie. Een van de belangrijkste redenen hiervoor is de beperkte schaal van publiek beschikbare data (bijv. 10M video-tekstparen in WebVid10M versus 5B beeld-tekstparen in LAION), gezien de hoge kosten van videobeschrijvingen. In plaats daarvan zou het veel eenvoudiger kunnen zijn om ongelabelde clips te verzamelen van videoplatforms zoals YouTube. Gemotiveerd door dit idee, hebben we een nieuw tekst-naar-video-generatieframework ontwikkeld, genaamd TF-T2V, dat direct kan leren met tekstloze video's. De achterliggende gedachte is om het proces van tekstdecodering te scheiden van dat van temporele modellering. Hiertoe gebruiken we een inhoudstak en een bewegingstak, die gezamenlijk worden geoptimaliseerd met gedeelde gewichten. Door deze aanpak te volgen, bestuderen we het effect van het verdubbelen van de schaal van de trainingsset (d.w.z. video-only WebVid10M) met enkele willekeurig verzamelde tekstloze video's en worden we aangemoedigd door de waargenomen prestatieverbetering (FID van 9,67 naar 8,19 en FVD van 484 naar 441), wat de schaalbaarheid van onze aanpak aantoont. We ontdekken ook dat ons model een duurzame prestatieverbetering kan behalen (FID van 8,19 naar 7,64 en FVD van 441 naar 366) na het opnieuw introduceren van enkele tekstlabels voor training. Tot slot valideren we de effectiviteit en generaliseerbaarheid van onze aanpak op zowel native tekst-naar-video-generatie als compositorische videosyntheseparadigma's. Code en modellen zullen publiekelijk beschikbaar zijn op https://tf-t2v.github.io/.
Recente vooruitgang in 3D-generatie op basis van één afbeelding benadrukt het belang van multi-view coherentie, waarbij gebruik wordt gemaakt van 3D-priors uit grootschalige diffusiemodellen die vooraf zijn getraind op internet-schaal afbeeldingen. Het aspect van novel-view diversiteit blijft echter onderbelicht binnen het onderzoekslandschap vanwege de ambiguïteit bij het omzetten van een 2D-afbeelding naar 3D-inhoud, waarbij tal van mogelijke vormen kunnen ontstaan. Hier streven we ernaar om deze onderzoekskloof te dichten door zowel consistentie als diversiteit tegelijkertijd aan te pakken. Het vinden van een balans tussen deze twee aspecten vormt echter een aanzienlijke uitdaging vanwege hun inherente afwegingen. Dit werk introduceert HarmonyView, een eenvoudige maar effectieve diffusie-steekproeftechniek die bedreven is in het ontleden van twee complexe aspecten in 3D-generatie op basis van één afbeelding: consistentie en diversiteit. Deze aanpak opent de weg voor een meer genuanceerde verkenning van deze twee kritieke dimensies binnen het steekproefproces. Bovendien stellen we een nieuwe evaluatiemetriek voor, gebaseerd op CLIP-afbeelding- en tekstencoders, om de diversiteit van de gegenereerde views uitgebreid te beoordelen, wat nauw aansluit bij de beoordelingen van menselijke evaluatoren. In experimenten bereikt HarmonyView een harmonieuze balans, wat een win-winscenario demonstreert op het gebied van zowel consistentie als diversiteit.
Het veelvuldige gebruik van commerciële en open-source diffusiemodellen (DMs) voor tekst-naar-beeldgeneratie vereist risicobeperking om ongewenst gedrag te voorkomen. Bestaande methoden voor het verwijderen van concepten in de academische wereld zijn allemaal gebaseerd op volledige parameter- of specificatiegebaseerde fine-tuning, waaruit we de volgende problemen waarnemen: 1) Generatieverandering richting erosie: Parameterdrift tijdens het elimineren van het doel veroorzaakt veranderingen en mogelijke vervormingen in alle generaties, wat zelfs andere concepten in verschillende mate aantast, wat duidelijker wordt bij het verwijderen van meerdere concepten; 2) Onvermogen tot overdracht en inefficiënte implementatie: Eerdere model-specifieke verwijdering belemmert de flexibele combinatie van concepten en de training-vrije overdracht naar andere modellen, wat leidt tot lineaire kostenstijging naarmate de implementatiescenario's toenemen. Om niet-invasieve, precieze, aanpasbare en overdraagbare eliminatie te bereiken, baseren we ons verwijderingsframework op eendimensionale adapters om meerdere concepten tegelijkertijd uit de meeste DMs te verwijderen voor diverse toepassingen. De concept-SemiPermeable structuur wordt als een Membraan (SPM) in elk DM geïnjecteerd om gerichte verwijdering te leren, terwijl het fenomeen van verandering en erosie effectief wordt beperkt via een nieuwe Latent Anchoring fine-tuning strategie. Eenmaal verkregen, kunnen SPM's flexibel worden gecombineerd en plug-and-play worden gebruikt voor andere DMs zonder specifieke her-tuning, wat tijdige en efficiënte aanpassing aan diverse scenario's mogelijk maakt. Tijdens de generatie reguleert ons Facilitated Transport mechanisme dynamisch de permeabiliteit van elke SPM om te reageren op verschillende invoerprompts, waardoor de impact op andere concepten verder wordt geminimaliseerd. Kwantitatieve en kwalitatieve resultaten over ~40 concepten, 7 DMs en 4 verwijderingstoepassingen hebben de superieure verwijdering van SPM aangetoond. Onze code en vooraf afgestemde SPM's zullen beschikbaar zijn op de projectpagina https://lyumengyao.github.io/projects/spm.
Het reconstrueren van het menselijk lichaam vanuit enkelvoudige videobeelden speelt een cruciale rol in het domein van virtual reality. Een veelvoorkomend toepassingsscenario vereist de snelle reconstructie van hoogwaardige 3D digitale mensen, terwijl tegelijkertijd real-time rendering en interactie worden gegarandeerd. Bestaande methoden hebben vaak moeite om aan beide vereisten te voldoen. In dit artikel introduceren we Human101, een nieuw framework dat in staat is om hoogwaardige dynamische 3D menselijke reconstructies te produceren vanuit 1-view video's door 3D Gaussians te trainen in 100 seconden en te renderen met 100+ FPS. Onze methode maakt gebruik van de sterke punten van 3D Gaussian Splatting, dat een expliciete en efficiënte representatie van 3D mensen biedt. In tegenstelling tot eerdere NeRF-gebaseerde pijplijnen, past Human101 op ingenieuze wijze een Human-centric Forward Gaussian Animation-methode toe om de parameters van 3D Gaussians te vervormen, waardoor de rendersnelheid wordt verbeterd (d.w.z., het renderen van 1024-resolutiebeelden met een indrukwekkende 60+ FPS en het renderen van 512-resolutiebeelden met 100+ FPS). Experimentele resultaten tonen aan dat onze aanpak huidige methoden aanzienlijk overtreft, met een toename van tot wel 10 keer in frames per seconde en het leveren van vergelijkbare of superieure renderkwaliteit. Code en demo's zullen worden vrijgegeven op https://github.com/longxiang-ai/Human101.
Grote Taalmodellen (LLMs) vertonen opkomende in-context leervaardigheden door middel van prompt engineering. De recente vooruitgang in grootschalige generatieve modellen heeft hun toepassing in real-world taaltoepassingen verder uitgebreid. De kritieke uitdaging om de generaliseerbaarheid en feitelijkheid van LLMs in natuurlijke taalverwerking en vraag-antwoordtaken te verbeteren, blijft echter onderbelicht. Terwijl eerder onderzoek naar in-context leren zich heeft gericht op het verbeteren van modellen om aan specifieke instructies en kwaliteitsverwachtingen van gebruikers te voldoen, en ongewenste uitkomsten te vermijden, is er weinig tot geen onderzoek gedaan naar het gebruik van taakspecifiek fijn afgestelde Taalmodellen (SLMs) om de in-context leerprestaties van LLMs tijdens de inferentiefase te verbeteren. Onze primaire bijdrage is de ontwikkeling van een eenvoudig maar effectief raamwerk dat de betrouwbaarheid van LLMs verhoogt doordat het: 1) out-of-distribution data generaliseert, 2) duidelijk maakt hoe LLMs profiteren van discriminerende modellen, en 3) hallucinaties in generatieve taken minimaliseert. Met onze voorgestelde plug-in methode overtreffen verbeterde versies van Llama 2 en ChatGPT hun originele versies wat betreft generaliseerbaarheid en feitelijkheid. We bieden een uitgebreide set aan bronnen, waaronder 16 gecureerde datasets, prompts, modelcheckpoints en LLM-uitkomsten over 9 verschillende taken. Onze empirische analyse werpt licht op de voordelen van het integreren van discriminerende modellen in LLMs en benadrukt het potentieel van onze methodologie voor het bevorderen van betrouwbaardere LLMs.