Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We presenteren Drivable 3D Gaussian Avatars (D3GA), het eerste 3D-bestuurbare model voor menselijke lichamen gerenderd met Gaussian splats. Huidige fotorealistische bestuurbare avatars vereisen ofwel nauwkeurige 3D-registraties tijdens de training, dichte invoerbeelden tijdens het testen, of beide. De modellen gebaseerd op neurale stralingsvelden zijn bovendien vaak onpraktisch traag voor telepresence-toepassingen. Dit werk maakt gebruik van de recent gepresenteerde 3D Gaussian Splatting (3DGS)-techniek om realistische mensen te renderen met real-time framerates, waarbij dichte gekalibreerde multi-view video's als invoer worden gebruikt. Om deze primitieven te vervormen, wijken we af van de veelgebruikte puntvervormingsmethode van linear blend skinning (LBS) en gebruiken we een klassieke volumetrische vervormingsmethode: cage deformations. Gezien hun kleinere omvang, sturen we deze vervormingen aan met gewrichtshoeken en keypoints, die beter geschikt zijn voor communicatietoepassingen. Onze experimenten met negen proefpersonen met verschillende lichaamsvormen, kleding en bewegingen leveren kwalitatief betere resultaten op dan state-of-the-art methoden bij gebruik van dezelfde trainings- en testdata.
We presenteren een aanpak om een 360-graden beeld van een persoon te genereren met een consistent, hoogwaardig uiterlijk vanuit een enkele invoerafbeelding. NeRF en zijn varianten vereisen doorgaans video's of afbeeldingen vanuit verschillende gezichtspunten. De meeste bestaande benaderingen die gebruikmaken van monoscopische invoer, vertrouwen op grondwaarheid 3D-scans voor supervisie of missen 3D-consistentie. Hoewel recente 3D-generatieve modellen belofte tonen voor consistente 3D-digitalisering van mensen, generaliseren deze benaderingen niet goed naar diverse kledingstijlen en ontbreekt het de resultaten aan fotorealisme. In tegenstelling tot bestaand werk maken wij gebruik van hoogwaardige 2D-diffusiemodellen die vooraf zijn getraind voor algemene beeld-synthesetaken, als een uiterlijk-prior voor geklede mensen. Om een betere 3D-consistentie te bereiken terwijl de identiteit van de invoer behouden blijft, synthetiseren we geleidelijk meerdere aanzichten van de persoon in de invoerafbeelding door ontbrekende gebieden in te vullen met vormgeleide diffusie, geconditioneerd op silhouet en oppervlaktenormaal. Vervolgens fuseren we deze gesynthetiseerde multi-view afbeeldingen via inverse rendering om een volledig getextureerd, hoogwaardig 3D-mesh van de betreffende persoon te verkrijgen. Experimenten tonen aan dat onze aanpak eerdere methoden overtreft en fotorealistische 360-graden synthese bereikt van een breed scala aan geklede mensen met complexe texturen vanuit een enkele afbeelding.
Wij stellen DMV3D voor, een nieuwe benadering voor 3D-generatie die gebruikmaakt van een transformer-gebaseerd 3D groot reconstructiemodel om multi-view diffusie te denoizen. Ons reconstructiemodel omvat een triplane NeRF-representatie en kan ruisrijke multi-view afbeeldingen denoizen via NeRF-reconstructie en rendering, waardoor single-stage 3D-generatie in ongeveer 30 seconden op een enkele A100 GPU wordt bereikt. We trainen DMV3D op grootschalige multi-view afbeeldingsdatasets van zeer diverse objecten met alleen afbeeldingsreconstructieverliezen, zonder toegang tot 3D-assets. We demonstreren state-of-the-art resultaten voor het single-image reconstructieprobleem, waarbij probabilistische modellering van onzichtbare objectonderdelen vereist is voor het genereren van diverse reconstructies met scherpe texturen. We tonen ook hoogwaardige text-to-3D generatieresultaten die eerdere 3D-diffusiemodellen overtreffen. Ons projectwebsite is te vinden op: https://justimyhxu.github.io/projects/dmv3d/.
Audio-diffusiemodellen kunnen een breed scala aan geluiden synthetiseren. Bestaande modellen werken vaak in het latente domein met gecascadeerde faseherstelmodules om de golfvorm te reconstrueren. Dit brengt uitdagingen met zich mee bij het genereren van hoogwaardige audio. In dit artikel stellen we EDMSound voor, een op diffusie gebaseerd generatief model in het spectrogramdomein binnen het raamwerk van geëxpliceerde diffusiemodellen (EDM). In combinatie met een efficiënte deterministische sampler behaalden we een vergelijkbare Fréchet-audio-afstand (FAD)-score als de hoogst gerangschikte baseline met slechts 10 stappen en bereikten we state-of-the-art prestaties met 50 stappen op de DCASE2023-foley-geluidgeneratiebenchmark. We hebben ook een potentieel probleem onthuld met betrekking tot op diffusie gebaseerde audiogeneratiemodellen, namelijk dat ze de neiging hebben om samples te genereren met een hoge perceptuele gelijkenis met de gegevens uit de trainingsdata. Projectpagina: https://agentcooper2002.github.io/EDMSound/
Dialogue-gebaseerde Role Playing Games (RPG's) vereisen krachtig verhalenvertellen. De verhalen hiervan kunnen jaren duren om te schrijven en omvatten doorgaans een groot creatief team. In dit werk tonen we het potentieel van grote generatieve tekstmodellen aan om dit proces te ondersteunen. GRIM, een prototype GRaph-based Interactive narrative visualization system for gaMes (grafisch gebaseerd interactief verhalend visualisatiesysteem voor spellen), genereert een rijk verhalend netwerk met vertakkende verhaallijnen die aansluiten bij een hoogwaardige verhalende beschrijving en beperkingen die door de ontwerper worden opgegeven. Spelontwerpers kunnen het netwerk interactief bewerken door automatisch nieuwe sub-netwerken te genereren die passen binnen de oorspronkelijke verhaallijn en beperkingen. We illustreren het gebruik van GRIM in combinatie met GPT-4, waarbij we vertakkende verhalen genereren voor vier bekende verhalen met verschillende contextuele beperkingen.
Het complementaire potentieel van Large Language Models (LLM) veronderstelt dat kant-en-klare LLM's heterogene expertise hebben in een breed scala aan domeinen en taken, zodat een ensemble van LLM's consistent betere prestaties kan bereiken. Bestaande ensemblemethoden voor LLM's richten zich voornamelijk op het rangschikken van uitvoer met behulp van beloningsmodellen, wat leidt tot aanzienlijke rekenoverhead. Om dit probleem aan te pakken, herzien we het complementaire potentieel van LLM's en werken dit verder uit door latente expertise te ontginnen met kant-en-klare beloningsmodellen. We stellen Zooter voor, een beloningsgeleide routeringsmethode die beloningen op trainingsquery's destilleert om een routeringsfunctie te trainen, die elke query precies kan verdelen naar de LLM met expertise over dat onderwerp. We integreren ook een op tags gebaseerde labelverbetering om ruis te verminderen die ontstaat door onzekerheid bij het gebruik van beloningen als zilveren supervisie. Zooter toont rekenkundige efficiëntie tijdens inferentie, omdat het slechts een kleine rekenoverhead introduceert van een routeringsfunctie in vergelijking met methoden voor het rangschikken van beloningsmodellen. We evalueren Zooter op een uitgebreide benchmarkcollectie met 26 subsets over verschillende domeinen en taken. Zooter overtreft gemiddeld het beste enkele model en staat op de eerste plaats bij 44% van de taken, waarbij het zelfs meerdere beloningsmodelrangschikkingsmethoden overstijgt.
Taaltechnologieën die de dynamiek van gebeurtenissen nauwkeurig modelleren, moeten gezond verstand kunnen toepassen. Bestaand onderzoek naar gezond verstand richt zich op het maken van gevolgtrekkingen over alledaagse, veelvoorkomende situaties. Om in plaats daarvan het vermogen te onderzoeken om ongebruikelijke, onverwachte en onwaarschijnlijke situaties te modelleren, verkennen we de taak van ongebruikelijk gezond verstand via abductief redeneren. Gegeven een stuk context met een onverwacht resultaat, vereist deze taak het abductief redeneren om een natuurlijke taalverklaring te genereren die het onverwachte resultaat waarschijnlijker maakt in de context. Hiertoe hebben we een nieuw Engelstalig corpus samengesteld en vrijgegeven, genaamd UNcommonsense. We karakteriseren de verschillen tussen de prestaties van menselijke uitleggers en de best presterende grote taalmodellen, waarbij we vaststellen dat door modellen verbeterde, door mensen geschreven verklaringen de hoogste kwaliteit bereiken door een balans te vinden tussen specificiteit en diversiteit. Tot slot experimenteren we met verschillende online imitatielerende algoritmen om open en toegankelijke taalmodellen voor deze taak te trainen. In vergelijking met de standaard supervised fine-tuning aanpak verminderen deze methoden consistent de verliespercentages bij zowel alledaags als ongebruikelijk gezond verstand via abductief redeneren, zoals beoordeeld door menselijke evaluatoren.
Parameter Efficient Tuning is een prominente benadering geweest om het Large Language Model aan te passen aan downstream taken. De meeste eerdere werken overwegen het toevoegen van dichte trainbare parameters, waarbij alle parameters worden gebruikt om een bepaalde taak aan te passen. We hebben empirisch vastgesteld dat dit minder effectief is aan de hand van het voorbeeld van LoRA, waar het introduceren van meer trainbare parameters niet helpt. Gemotiveerd door dit inzicht onderzoeken we het belang van het benutten van "sparse" berekeningen en stellen we SiRA voor: een sparse mengsel van low-rank aanpassing. SiRA maakt gebruik van het Sparse Mixture of Experts (SMoE) om de prestaties van LoRA te verbeteren. Specifiek wordt de top-k experts routing gehandhaafd met een capaciteitslimiet die het maximale aantal tokens beperkt dat elke expert kan verwerken. We introduceren een nieuw en eenvoudig expert dropout bovenop het gating-netwerk om het overfitting-probleem te verminderen. Door uitgebreide experimenten verifiëren we dat SiRA beter presteert dan LoRA en andere mengsels van expert-benaderingen in verschillende enkelvoudige taken en multitask-omgevingen.
Recente vooruitgang in Transformer-gebaseerde grote taalmodellen heeft aanzienlijke vorderingen gemaakt in natuurlijke taalgeneratie. Om echter K tokens te decoderen, heeft een autoregressief model K sequentiële forward passes nodig, wat een prestatieknelpunt kan vormen voor grote taalmodellen. Veel onderzoek naar niet-autoregressieve (NAR) modellen richt zich op het aanpakken van dit sequentiële knelpunt, hoewel velen zich hebben gericht op een specifieke architectuur in begeleide benchmarks. In dit werk hebben we onbegeleide voorpretraining bestudeerd voor niet-autoregressieve T5-modellen via unrolled denoising en hebben we de state-of-the-art resultaten aangetoond in downstream generatietaken zoals SQuAD-vraaggeneratie en XSum.
Krachtige grote taalmodellen hebben de ontwikkeling van schrijfassistenten mogelijk gemaakt die beloven de kwaliteit en efficiëntie van compositie en communicatie aanzienlijk te verbeteren. Een belemmering voor effectieve ondersteuning is echter het gebrek aan personalisatie in de uitvoer van LLM's (Large Language Models) ten opzichte van de communicatiestijl en gespecialiseerde kennis van de auteur. In dit artikel gaan we deze uitdaging aan door PEARL voor te stellen, een retrieval-augmented LLM-schrijfassistent die gepersonaliseerd is met een generatie-gekalibreerde retriever. Onze retriever is getraind om historische documenten die door de gebruiker zijn geschreven te selecteren voor prompt-augmentatie, zodat deze waarschijnlijk de LLM-generaties het best personaliseren voor een gebruikersverzoek. We introduceren twee belangrijke innovaties voor het trainen van onze retriever: 1) Een methode voor het selecteren van trainingsgegevens die gebruikersverzoeken identificeert die waarschijnlijk baat hebben bij personalisatie en documenten die die voordelen bieden; en 2) Een scale-calibrating KL-divergentie-objectief dat ervoor zorgt dat onze retriever nauwlettend het voordeel van een document voor gepersonaliseerde generatie volgt. We demonstreren de effectiviteit van PEARL in het genereren van gepersonaliseerde sociale media-berichten op de werkplek en Reddit-reacties. Tot slot tonen we het potentieel aan van een generatie-gekalibreerde retriever om ook als prestatievoorspeller te fungeren en generaties van lage kwaliteit verder te verbeteren via LLM-chaining.
Grote Taalmodellen (LLMs) hebben een transformatief tijdperk ingeluid op het gebied van natuurlijke taalverwerking, waarbij ze uitblinken in taken gerelateerd aan tekstbegrip en -generatie. Desondanks ondervinden ze moeilijkheden wanneer ze worden geconfronteerd met chaotische contexten (bijvoorbeeld afleiders in plaats van lange irrelevante context), wat leidt tot het onbedoeld weglaten van bepaalde details binnen de chaotische context. Als antwoord op deze uitdagingen introduceren we de "Thread of Thought" (ThoT)-strategie, die inspiratie put uit menselijke cognitieve processen. ThoT segmenteren en analyseren systematisch uitgebreide contexten terwijl ze behendig relevante informatie selecteren. Deze strategie fungeert als een veelzijdige "plug-and-play"-module, die naadloos integreert met verschillende LLMs en promptingtechnieken. In de experimenten gebruiken we de PopQA- en EntityQ-datasets, evenals een Multi-Turn Conversation Response-dataset (MTCR) die we hebben verzameld, om aan te tonen dat ThoT de redeneerprestaties aanzienlijk verbetert in vergelijking met andere promptingtechnieken.
Om het vertrouwen van gebruikers te behouden, zouden grote taalmodellen (LLMs) een lage zekerheid moeten aangeven bij voorbeelden waar ze onjuist zijn, in plaats van de gebruiker te misleiden. De standaardaanpak om zekerheid te schatten is het gebruik van de softmax-kansen van deze modellen, maar vanaf november 2023 bieden state-of-the-art LLMs zoals GPT-4 en Claude-v1.3 geen toegang tot deze kansen. We onderzoeken eerst het linguïstisch afleiden van zekerheid — door een LLM te vragen naar zijn zekerheid over zijn antwoord — wat redelijk presteert (80,5% AUC op GPT-4, gemiddeld over 12 vraag-antwoorddatasets — 7% boven een willekeurige basislijn) maar ruimte laat voor verbetering. Vervolgens verkennen we het gebruik van een surrogaatzekerheidsmodel — waarbij we een model gebruiken waar we wel kansen hebben om de zekerheid van het oorspronkelijke model bij een gegeven vraag te evalueren. Verrassend genoeg leidt deze methode, hoewel deze kansen afkomstig zijn van een ander en vaak zwakker model, tot een hogere AUC dan linguïstische zekerheden op 9 van de 12 datasets. Onze beste methode, die linguïstische zekerheden en surrogaatmodelkansen combineert, geeft state-of-the-art zekerheidsschattingen op alle 12 datasets (84,6% gemiddelde AUC op GPT-4).
Het evalueren van Large Language Models (LLM's) is een complexe taak, vooral gezien de nuances van natuurlijke taalbegrip en de verwachtingen voor hoogwaardig redeneren. Traditionele evaluaties baseren zich doorgaans op paradigma's die gebaseerd zijn op menselijke beoordelingen, modelgebaseerde methoden of automatische metrieken, elk met hun eigen voordelen en tekortkomingen. Wij introduceren "Fusion-Eval", een systeem dat LLM's niet alleen gebruikt voor directe evaluaties, maar ook om inzichten van diverse beoordelaars op een vaardige manier te integreren. Dit geeft Fusion-Eval flexibiliteit, waardoor het effectief kan werken over diverse taken en optimaal gebruik kan maken van meerdere referenties. Bij tests op de SummEval-dataset behaalde Fusion-Eval een Spearman-correlatie van 0.96, wat beter presteert dan andere evaluatoren. Het succes van Fusion-Eval benadrukt het potentieel van LLM's om evaluaties te produceren die nauw aansluiten bij menselijke perspectieven, en zet daarmee een nieuwe standaard in het veld van LLM-evaluatie.