Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Amphion is een toolkit voor Audio-, Muziek- en Spraakgeneratie. Het doel ervan is om reproduceerbaar onderzoek te ondersteunen en junior onderzoekers en ingenieurs te helpen starten in het veld van onderzoek en ontwikkeling op het gebied van audio, muziek en spraakgeneratie. Amphion biedt een unieke functie: visualisaties van klassieke modellen of architecturen. Wij geloven dat deze visualisaties nuttig zijn voor junior onderzoekers en ingenieurs die een beter begrip van het model willen krijgen. Het North-Star-doel van Amphion is om een platform te bieden voor het bestuderen van de omzetting van elke input naar algemene audio. Amphion is ontworpen om individuele generatietaken te ondersteunen. Naast de specifieke generatietaken omvat Amphion ook verschillende vocoders en evaluatiemetrics. Een vocoder is een belangrijke module voor het produceren van hoogwaardige audiosignalen, terwijl evaluatiemetrics cruciaal zijn voor het waarborgen van consistente metrics in generatietaken. In dit artikel geven we een hoogoverzicht van Amphion.
Het beantwoorden van complexe vragen in natuurlijke taal vereist vaak meerstaps redeneren en het integreren van externe informatie. Verschillende systemen hebben kennisretrieval gecombineerd met een groot taalmodel (LLM) om dergelijke vragen te beantwoorden. Deze systemen kampen echter met diverse foutgevallen, en we kunnen ze niet direct end-to-end trainen om deze fouten te verhelpen, omdat interactie met externe kennis niet differentieerbaar is. Om deze tekortkomingen aan te pakken, definiëren we een ReAct-stijl LLM-agent met de mogelijkheid om te redeneren en actie te ondernemen op basis van externe kennis. We verfijnen de agent verder via een ReST-achtige methode die iteratief traint op eerdere trajecten, waarbij groeiende-batch versterkend leren met AI-feedback wordt ingezet voor continue zelfverbetering en zelfdistillatie. Uitgaande van een geprompt groot model en na slechts twee iteraties van het algoritme, kunnen we een fijn afgestemd klein model produceren dat vergelijkbare prestaties behaalt op uitdagende compositie-vraag-antwoord benchmarks met twee ordes van grootte minder parameters.
Diffusiemodellen hebben opmerkelijke successen geboekt in diverse generatieve taken, maar blijven onderbelicht in de belangrijke en uitdagende taak van het genereren van expressieve pratende hoofden. In dit werk stellen we een DreamTalk-framework voor om deze leemte te vullen, dat een zorgvuldige ontwerpbenadering hanteert om het potentieel van diffusiemodellen te ontsluiten bij het genereren van expressieve pratende hoofden. Specifiek bestaat DreamTalk uit drie cruciale componenten: een denoiser-netwerk, een stijlbewuste lip-expert en een stijlvoorspeller. Het op diffusie gebaseerde denoiser-netwerk is in staat om consistente, hoogwaardige, door audio aangedreven gezichtsbewegingen te synthetiseren bij diverse expressies. Om de expressiviteit en nauwkeurigheid van lipbewegingen te verbeteren, introduceren we een stijlbewuste lip-expert die lipsynchronisatie kan begeleiden met aandacht voor spreekstijlen. Om de noodzaak van een referentievideo of tekst voor expressies te elimineren, wordt een extra op diffusie gebaseerde stijlvoorspeller gebruikt om de doel-expressie direct uit de audio te voorspellen. Op deze manier kan DreamTalk krachtige diffusiemodellen benutten om effectief expressieve gezichten te genereren en de afhankelijkheid van kostbare stijlreferenties te verminderen. Experimentele resultaten tonen aan dat DreamTalk in staat is om foto-realistische pratende gezichten te genereren met diverse spreekstijlen en nauwkeurige lipbewegingen te bereiken, waarmee het bestaande state-of-the-art tegenhangers overtreft.
Het Segment Anything Model (SAM) richt zich op twee praktische maar uitdagende segmentatietaken: Segment Anything (SegAny), dat een bepaald punt gebruikt om het masker voor een enkel object van interesse te voorspellen, en Segment Everything (SegEvery), dat de maskers voor alle objecten in de afbeelding voorspelt. Wat SegAny traag maakt voor SAM is zijn zware beeldencoder, wat is aangepakt door MobileSAM via ontkoppelde kennisdistillatie. Het efficiëntieknelpunt van SegEvery met SAM ligt echter in zijn maskerdecoder, omdat deze eerst talrijke maskers moet genereren met redundante grid-search prompts en vervolgens filtering moet uitvoeren om de uiteindelijke geldige maskers te verkrijgen. Wij stellen voor om de efficiëntie te verbeteren door direct de uiteindelijke maskers te genereren met alleen geldige prompts, die kunnen worden verkregen via objectdetectie. Onze voorgestelde aanpak helpt niet alleen om de totale tijd op de maskerdecoder met minstens 16 keer te verminderen, maar behaalt ook superieure prestaties. Specifiek levert onze aanpak een gemiddelde prestatieverbetering van 3,6% (42,5% vs. 38,9%) op voor zero-shot objectvoorstel op de LVIS-dataset met de masker AR@K-metric. Kwalitatieve resultaten tonen aan dat onze aanpak fijnmazige maskers genereert terwijl over-segmentatie wordt vermeden. Dit project, dat gericht is op een snellere SegEvery dan de originele SAM, wordt MobileSAMv2 genoemd om het te onderscheiden van MobileSAM, dat gericht is op een snellere SegAny. Bovendien tonen we aan dat onze nieuwe promptsteekproef ook compatibel is met de gedistilleerde beeldencoders in MobileSAM, wat bijdraagt aan een uniform raamwerk voor efficiënte SegAny en SegEvery. De code is beschikbaar op dezelfde link als het MobileSAM-project: https://github.com/ChaoningZhang/MobileSAM.
Dit artikel is niet gemotiveerd om innovatie binnen het aandachtmechanisme na te streven. In plaats daarvan richt het zich op het overwinnen van de bestaande afwegingen tussen nauwkeurigheid en efficiëntie binnen de context van puntwolkverwerking, waarbij het de kracht van schaal benut. Geïnspireerd door recente vooruitgang in 3D-representatie leren op grote schaal, erkennen we dat modelprestaties meer worden beïnvloed door schaal dan door ingewikkeld ontwerp. Daarom presenteren we Point Transformer V3 (PTv3), dat eenvoud en efficiëntie voorop stelt boven de nauwkeurigheid van bepaalde mechanismen die minder belangrijk zijn voor de algehele prestaties na schaling, zoals het vervangen van de precieze nabuurschapszoekopdracht door KNN door een efficiënte geserialiseerde nabuurschapsmapping van puntwolken die zijn georganiseerd met specifieke patronen. Dit principe maakt significante schaling mogelijk, waarbij het receptieve veld wordt uitgebreid van 16 naar 1024 punten terwijl het efficiënt blijft (een 3x toename in verwerkingssnelheid en een 10x verbetering in geheugenefficiëntie vergeleken met zijn voorganger, PTv2). PTv3 behaalt state-of-the-art resultaten op meer dan 20 downstream taken die zowel binnen- als buitenscenario's omvatten. Verder verbeterd met gezamenlijke training op meerdere datasets, duwt PTv3 deze resultaten naar een hoger niveau.
Een van de belangrijkste componenten binnen diffusiemodellen is de UNet voor ruisvoorspelling. Hoewel verschillende onderzoeken de basiseigenschappen van de UNet-decoder hebben verkend, blijft de encoder grotendeels onontgonnen. In dit werk voeren we de eerste uitgebreide studie uit naar de UNet-encoder. We analyseren empirisch de encoderfeatures en geven inzichten in belangrijke vragen over hun veranderingen tijdens het inferentieproces. In het bijzonder constateren we dat de encoderfeatures geleidelijk veranderen, terwijl de decoderfeatures aanzienlijke variaties vertonen over verschillende tijdstappen. Deze bevinding inspireerde ons om de encoder op bepaalde aangrenzende tijdstappen weg te laten en de encoderfeatures uit de vorige tijdstappen cyclisch te hergebruiken voor de decoder. Verder introduceren we, gebaseerd op deze observatie, een eenvoudig maar effectief encoder-propagatieschema om de diffusiebemonstering voor een diverse set taken te versnellen. Door te profiteren van ons propagatieschema, kunnen we de decoder op bepaalde aangrenzende tijdstappen parallel uitvoeren. Daarnaast introduceren we een methode voor het injecteren van voorafgaande ruis om de textuurdetails in het gegenereerde beeld te verbeteren. Naast de standaard tekst-naar-beeldtaak valideren we onze aanpak ook op andere taken: tekst-naar-video, gepersonaliseerde generatie en referentiegeleide generatie. Zonder gebruik te maken van enige kennisdistillatietechniek, versnelt onze aanpak de bemonstering van zowel het Stable Diffusion (SD)- als het DeepFloyd-IF-model met respectievelijk 41% en 24%, terwijl een hoogwaardige generatieprestatie behouden blijft. Onze code is beschikbaar op https://github.com/hutaiHang/Faster-Diffusion{FasterDiffusion}.
Transformer-gebaseerde Large Language Models (LLMs) leggen vaak beperkingen op aan de lengte van de tekstinput om de generatie van vloeiende en relevante reacties te waarborgen. Deze beperking beperkt hun toepasbaarheid in scenario's waarbij lange teksten betrokken zijn. Wij stellen een nieuwe methode voor semantische compressie voor die generalisatie naar teksten mogelijk maakt die 6-8 keer langer zijn, zonder aanzienlijke rekenkosten te maken of fine-tuning te vereisen. Ons voorgestelde raamwerk put inspiratie uit broncodering in de informatietheorie en maakt gebruik van een vooraf getraind model om de semantische redundantie van lange inputs te verminderen voordat deze worden doorgegeven aan de LLMs voor downstream taken. Experimentele resultaten tonen aan dat onze methode effectief het contextvenster van LLMs uitbreidt over een reeks taken, waaronder vraagbeantwoording, samenvatting, few-shot learning en informatie retrieval. Bovendien toont de voorgestelde methode voor semantische compressie een consistente vloeiendheid in tekstgeneratie terwijl de bijbehorende rekenkosten worden verminderd.
Hoogwaardige conversatiedatasets zijn essentieel voor het ontwikkelen van AI-modellen die met gebruikers kunnen communiceren. Een manier om diepere interacties tussen een chatbot en zijn gebruiker te bevorderen, is door middel van persona's, aspecten van het karakter van de gebruiker die inzicht geven in hun persoonlijkheid, motivaties en gedrag. Het trainen van Natural Language Processing (NLP)-modellen op een diverse en uitgebreide dataset gebaseerd op persona's kan leiden tot conversatiemodellen die een diepere verbinding met de gebruiker creëren en hun betrokkenheid behouden. In dit artikel benutten we de kracht van Large Language Models (LLMs) om een grote, hoogwaardige conversatiedataset te creëren vanuit een startdataset. We stellen een Generator-Critic-architectuurframework voor om de initiële dataset uit te breiden, terwijl de kwaliteit van de gesprekken wordt verbeterd. De Generator is een LLM die wordt aangestuurd om gesprekken te genereren. De Critic bestaat uit een mix van expert-LLM's die de kwaliteit van de gegenereerde gesprekken controleren. Deze experts selecteren de beste gegenereerde gesprekken, die we vervolgens gebruiken om de Generator te verbeteren. We brengen Synthetic-Persona-Chat uit, bestaande uit 20k gesprekken die zijn voortgekomen uit Persona-Chat. We evalueren de kwaliteit van Synthetic-Persona-Chat en ons generatieframework op verschillende dimensies door middel van uitgebreide experimenten, en we observeren dat het verliespercentage van Synthetic-Persona-Chat ten opzichte van Persona-Chat tijdens de Turingtest daalt van 17,2% naar 8,8% over drie iteraties.
We tonen aan dat bestaande onbewaakte methoden op activaties van grote taalmodellen (LLM's) geen kennis ontdekken – in plaats daarvan lijken ze het meest prominente kenmerk van de activaties te ontdekken. Het idee achter onbewaakte kennisontsluiting is dat kennis een consistentiestructuur heeft, die kan worden gebruikt om kennis te ontdekken. We bewijzen eerst theoretisch dat willekeurige kenmerken (niet alleen kennis) voldoen aan de consistentiestructuur van een specifieke toonaangevende onbewaakte kennisontsluitingsmethode, contrast-consistente zoekactie (Burns et al. - arXiv:2212.03827). Vervolgens presenteren we een reeks experimenten die situaties laten zien waarin onbewaakte methoden resulteren in classificatoren die geen kennis voorspellen, maar in plaats daarvan een ander prominent kenmerk voorspellen. We concluderen dat bestaande onbewaakte methoden voor het ontdekken van latente kennis ontoereikend zijn, en we dragen sanity checks aan om toekomstige kennisontsluitingsmethoden te evalueren. Conceptueel stellen we de hypothese dat de identificatieproblemen die hier worden onderzocht, zoals het onderscheiden van de kennis van een model van die van een gesimuleerd personage, zullen blijven bestaan voor toekomstige onbewaakte methoden.
Score Distillation Sampling (SDS) heeft opmerkelijke prestaties getoond in de conditionele generatie van 3D-inhoud. Een diepgaand begrip van de SDS-formulering ontbreekt echter nog steeds, wat de ontwikkeling van 3D-generatie belemmert. In dit werk presenteren we een interpretatie van SDS als een combinatie van drie functionele componenten: mode-ontkoppelende, mode-zoekende en variantie-reducerende termen, en analyseren we de eigenschappen van elk. We laten zien dat problemen zoals overmatige gladheid en kleurverzadiging voortkomen uit de intrinsieke tekortkomingen van de supervisietermen en onthullen dat de variantie-reducerende term die door SDS wordt geïntroduceerd suboptimaal is. Daarnaast werpen we licht op het gebruik van een grote Classifier-Free Guidance (CFG)-schaal voor 3D-generatie. Op basis van de analyse stellen we een eenvoudige maar effectieve aanpak voor, genaamd Stable Score Distillation (SSD), die elk term strategisch coördineert voor hoogwaardige 3D-generatie. Uitgebreide experimenten valideren de effectiviteit van onze aanpak, waarbij wordt aangetoond dat het in staat is om hoogwaardige 3D-inhoud te genereren zonder te vervallen in problemen zoals overmatige gladheid en oververzadiging, zelfs onder lage CFG-omstandigheden met de meest uitdagende NeRF-representatie.
Neural Radiance Field (NeRF) en zijn varianten zijn recent naar voren gekomen als succesvolle methoden voor het synthetiseren van nieuwe gezichtspunten en 3D-scène-reconstructie. De meeste huidige NeRF-modellen bereiken echter ofwel een hoge nauwkeurigheid door grote modelgroottes te gebruiken, ofwel een hoge geheugenefficiëntie door in te leveren op nauwkeurigheid. Dit beperkt het toepassingsbereik van elk individueel model, aangezien modellen met hoge nauwkeurigheid mogelijk niet passen in apparaten met weinig geheugen, en geheugenefficiënte modellen mogelijk niet voldoen aan hoge kwaliteitseisen. Daarom presenteren wij SlimmeRF, een model dat door middel van verslanking directe afwegingen mogelijk maakt tussen modelgrootte en nauwkeurigheid tijdens het testen, waardoor het model geschikt is voor scenario's met verschillende rekenbudgetten. Dit bereiken we door een nieuw voorgesteld algoritme genaamd Tensorial Rank Incrementation (TRaIn), dat de rang van de tensoriële representatie van het model geleidelijk verhoogt tijdens de training. We merken ook op dat ons model effectievere afwegingen mogelijk maakt in scenario's met weinig gezichtspunten, en soms zelfs een hogere nauwkeurigheid bereikt na het verslanken. Wij schrijven dit toe aan het feit dat foutieve informatie, zoals zwevende artefacten, vaak wordt opgeslagen in componenten die corresponderen met hogere rangen. Onze implementatie is beschikbaar op https://github.com/Shiran-Yuan/SlimmeRF.
Het doel van deze reeks is om meningen en kwesties op het gebied van machine learning vast te leggen zoals ze vandaag de dag bestaan en zoals ze in de loop van de tijd veranderen. Het plan is om deze enquête periodiek te houden tot aan de AI-singulariteit, het paperclip-gekte-gedreven doemdagscenario, waarbij we een bijgewerkte lijst van actuele vragen bijhouden en voor elke editie nieuwe leden van de gemeenschap interviewen. In deze uitgave hebben we de meningen van mensen onderzocht over interpreteerbare AI, de waarde van benchmarking in moderne NLP, de stand van zaken in het begrijpen van deep learning, en de toekomst van de academische wereld.