Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote Taalmodellen (LLM's) zijn binnen enkele jaren van niet-bestaand naar alomtegenwoordig gegaan in het discours over machine learning. Door het snelle tempo van het vakgebied is het moeilijk om de resterende uitdagingen en reeds succesvolle toepassingsgebieden te identificeren. In dit artikel streven we ernaar om een systematische set van open problemen en toepassingssuccessen vast te stellen, zodat onderzoekers in machine learning de huidige stand van het vakgebied sneller kunnen begrijpen en productief kunnen worden.
Sinds eind 2022 zijn Large Language Models (LLM's) zeer prominent geworden, waarbij LLM's zoals ChatGPT en Bard miljoenen gebruikers hebben getrokken. Elke week worden honderden nieuwe LLM's aangekondigd, waarvan vele worden gedeponeerd bij Hugging Face, een repository voor machine learning-modellen en datasets. Tot op heden zijn bijna 16.000 tekstgeneratiemodellen naar de site geüpload. Gezien de enorme toestroom van LLM's, is het interessant om te weten welke LLM-backbones, instellingen, trainingsmethoden en families populair of trending zijn. Er is echter geen uitgebreide index van LLM's beschikbaar. Wij maken gebruik van de relatief systematische nomenclatuur van Hugging Face LLM's om hiërarchische clustering uit te voeren en gemeenschappen onder LLM's te identificeren met behulp van n-grams en termfrequentie-inverse documentfrequentie. Onze methoden identificeren met succes families van LLM's en clusteren LLM's nauwkeurig in betekenisvolle subgroepen. Wij presenteren een openbare webapplicatie om Constellation, onze atlas van 15.821 LLM's, te navigeren en te verkennen. Constellation genereert snel een verscheidenheid aan visualisaties, namelijk dendrogrammen, grafieken, woordwolken en spreidingsdiagrammen. Constellation is beschikbaar op de volgende link: https://constellation.sites.stanford.edu/.
In een tijdperk waarin de generatie van visuele inhoud steeds meer wordt aangedreven door machine learning, biedt de integratie van menselijke feedback in generatieve modellen aanzienlijke mogelijkheden om de gebruikerservaring en de outputkwaliteit te verbeteren. Deze studie onderzoekt strategieën voor het opnemen van iteratieve menselijke feedback in het generatieve proces van op diffusie gebaseerde tekst-naar-beeldmodellen. We stellen FABRIC voor, een trainingsvrije benadering die toepasbaar is op een breed scala aan populaire diffusiemodellen, en die gebruikmaakt van de self-attention-laag die aanwezig is in de meest gebruikte architecturen om het diffusieproces te conditioneren op een set feedbackbeelden. Om een rigoureuze beoordeling van onze aanpak te waarborgen, introduceren we een uitgebreide evaluatiemethodologie, die een robuust mechanisme biedt om de prestaties van generatieve visuele modellen die menselijke feedback integreren, te kwantificeren. We tonen aan dat generatieresultaten verbeteren over meerdere rondes van iteratieve feedback door middel van uitgebreide analyse, waarbij willekeurige gebruikersvoorkeuren impliciet worden geoptimaliseerd. De potentiële toepassingen van deze bevindingen strekken zich uit tot gebieden zoals gepersonaliseerde inhoudscreatie en -aanpassing.
Laagsgewijze compositie is een van de meest populaire workflows voor beeldbewerking, zowel onder amateurs als professionals. Geïnspireerd door het succes van diffusiemodellen, onderzoeken we laagsgewijze compositie vanuit het perspectief van gelaagde beeldgeneratie. In plaats van een afbeelding te genereren, stellen we voor om de achtergrond, voorgrond, laagmasker en het samengestelde beeld gelijktijdig te genereren. Om gelaagde beeldgeneratie te realiseren, trainen we een autoencoder die in staat is gelaagde afbeeldingen te reconstrueren en trainen we diffusiemodellen op de latente representatie. Een voordeel van de voorgestelde aanpak is dat het betere compositieworkflows mogelijk maakt, naast de hoogwaardige beeldoutput. Een ander voordeel is het produceren van hogere kwaliteit laagmaskers in vergelijking met maskers die worden gegenereerd door een aparte stap van beeldsegmentatie. Experimentele resultaten tonen aan dat de voorgestelde methode in staat is hoogwaardige gelaagde afbeeldingen te genereren en een benchmark initieert voor toekomstig werk.
Taalmodellen en Visuele Taalmodellen hebben recentelijk ongekende mogelijkheden getoond op het gebied van het begrijpen van menselijke intenties, redeneren, scènebegrip en planning-achtig gedrag, in tekstvorm, naast vele andere. In dit werk onderzoeken we hoe we dergelijke vaardigheden kunnen inbedden en benutten in Reinforcement Learning (RL)-agenten. We ontwerpen een raamwerk dat taal als het kernredeneermiddel gebruikt, waarbij we verkennen hoe dit een agent in staat stelt om een reeks fundamentele RL-uitdagingen aan te pakken, zoals efficiënte exploratie, het hergebruiken van ervaringsdata, het plannen van vaardigheden en het leren van observaties, die traditioneel afzonderlijke, verticaal ontworpen algoritmen vereisen. We testen onze methode in een gesimuleerde robotmanipulatieomgeving met schaarse beloningen, waarbij een robot een reeks objecten moet stapelen. We demonstreren aanzienlijke prestatieverbeteringen ten opzichte van baseline-methoden in exploratie-efficiëntie en het vermogen om data uit offline datasets te hergebruiken, en illustreren hoe geleerde vaardigheden kunnen worden hergebruikt om nieuwe taken op te lossen of video's van menselijke experts na te bootsen.
Ondanks vooruitgang in conversatie-AI, hebben taalmodelen moeite met het behandelen van diverse conversatietaken, en bestaande verzamelingen van dialoogdatasets missen vaak diversiteit en volledigheid. Om deze problemen aan te pakken, introduceren we DialogStudio: de grootste en meest diverse verzameling van dialoogdatasets, verenigd onder een consistent formaat terwijl hun oorspronkelijke informatie behouden blijft. Onze verzameling omvat data van open-domein dialogen, taakgerichte dialogen, natuurlijke taalbegrip, conversatie-aanbevelingen, dialoogsamenvattingen en kennisgebaseerde dialogen, waardoor het een uiterst rijk en divers hulpmiddel is voor dialoogonderzoek en modeltraining. Om het nut van DialogStudio verder te vergroten, identificeren we de licenties voor elke dataset en ontwerpen we domeinbewuste prompts voor geselecteerde dialogen om instructiebewuste fine-tuning te vergemakkelijken. Bovendien ontwikkelen we conversatie-AI-modellen met behulp van de datasetverzameling, en onze experimenten in zowel zero-shot als few-shot leerscenario's demonstreren de superioriteit van DialogStudio. Om transparantie te verbeteren en onderzoek op basis van datasets en taken, evenals pre-training van taalmodelen, te ondersteunen, zijn alle datasets, licenties, codes en modellen die bij DialogStudio horen openbaar toegankelijk gemaakt op https://github.com/salesforce/DialogStudio.
Er is een groeiende interesse in apparaatbesturingssystemen die menselijke instructies in natuurlijke taal kunnen interpreteren en uitvoeren op een digitaal apparaat door direct de gebruikersinterface te besturen. Wij presenteren een dataset voor onderzoek naar apparaatbesturing, Android in the Wild (AITW), die vele malen groter is dan de huidige datasets. De dataset bevat menselijke demonstraties van apparaatinteracties, inclusief de schermen en acties, en de bijbehorende instructies in natuurlijke taal. De dataset bestaat uit 715k episodes die 30k unieke instructies omvatten, vier versies van Android (v10-13) en acht apparaattypen (Pixel 2 XL tot Pixel 6) met verschillende schermresoluties. Het bevat meerstaps taken die een semantisch begrip van taal en visuele context vereisen. Deze dataset stelt een nieuwe uitdaging: acties die beschikbaar zijn via de gebruikersinterface moeten worden afgeleid uit hun visuele verschijning. En in plaats van eenvoudige op UI-elementen gebaseerde acties, bestaat de actieruimte uit precieze gebaren (bijvoorbeeld horizontale scrolls om carousel-widgets te bedienen). We organiseren onze dataset om robuustheidsanalyse van apparaatbesturingssystemen te bevorderen, d.w.z. hoe goed een systeem presteert in de aanwezigheid van nieuwe taakbeschrijvingen, nieuwe applicaties of nieuwe platformversies. We ontwikkelen twee agents en rapporteren de prestaties over de hele dataset. De dataset is beschikbaar op https://github.com/google-research/google-research/tree/master/android_in_the_wild.
LLM's hebben potentieel getoond in het nabootsen van menselijk gedrag bij crowdsourcingtaken die voorheen als exclusief menselijk werden beschouwd. Huidige inspanningen richten zich echter voornamelijk op eenvoudige, atomische taken. Wij onderzoeken of LLM's complexere crowdsourcingpijplijnen kunnen repliceren. We ontdekken dat moderne LLM's sommige vaardigheden van crowdworkers kunnen simuleren in deze "menselijke rekenalgoritmen," maar het succesniveau varieert en wordt beïnvloed door de kennis van opdrachtgevers over de mogelijkheden van LLM's, de specifieke vaardigheden die nodig zijn voor subtaken, en de optimale interactiemodaliteit voor het uitvoeren van deze subtaken. We reflecteren op de verschillende gevoeligheden van mensen en LLM's voor instructies, benadrukken het belang van mensgerichte veiligheidsmaatregelen voor LLM's, en bespreken de mogelijkheid om mensen en LLM's te trainen met complementaire vaardigheden. Cruciaal is dat we aantonen dat het repliceren van crowdsourcingpijplijnen een waardevol platform biedt om (1) de relatieve sterktes van LLM's op verschillende taken te onderzoeken (door hun prestaties op subtaken onderling te vergelijken) en (2) het potentieel van LLM's in complexe taken, waarbij ze een deel van de taken kunnen voltooien en andere aan mensen overlaten.
Realistische mensgerichte rendering speelt een sleutelrol in zowel computervisie als computergraphics. Er is de afgelopen jaren snelle vooruitgang geboekt op het gebied van algoritmen, maar bestaande datasets en benchmarks voor mensgerichte rendering zijn nogal beperkt in termen van diversiteit, wat cruciaal is voor het rendereffect. Onderzoekers zijn meestal beperkt tot het verkennen en evalueren van een kleine set renderproblemen op huidige datasets, terwijl real-world toepassingen vereisen dat methoden robuust zijn in verschillende scenario's. In dit werk presenteren we DNA-Rendering, een grootschalige, hoogwaardige repository van menselijke prestatiegegevens voor neurale acteurrendering. DNA-Rendering biedt verschillende aantrekkelijke kenmerken. Ten eerste bevat onze dataset meer dan 1500 menselijke proefpersonen, 5000 bewegingssequenties en een datavolume van 67,5 miljoen frames. Ten tweede bieden we rijke assets voor elke proefpersoon — 2D/3D sleutelpunten van het menselijk lichaam, voorgrondmaskers, SMPLX-modellen, kleding-/accessoirematerialen, multi-view afbeeldingen en video's. Deze assets verbeteren de nauwkeurigheid van huidige methoden bij downstream-rendertaken. Ten derde hebben we een professioneel multi-view systeem gebouwd om gegevens vast te leggen, dat bestaat uit 60 synchrone camera's met een maximale resolutie van 4096 x 3000, een snelheid van 15 fps en strikte camerakalibratiestappen, waardoor hoogwaardige bronnen worden gegarandeerd voor taaktraining en -evaluatie. Naast de dataset bieden we een grootschalige en kwantitatieve benchmark op volledige schaal, met meerdere taken om de bestaande vooruitgang van nieuwe weergavesynthese, nieuwe pose-animatiesynthese en nieuwe identiteitsrendermethoden te evalueren. In dit manuscript beschrijven we onze DNA-Rendering-inspanning als een onthulling van nieuwe observaties, uitdagingen en toekomstige richtingen voor mensgerichte rendering. De dataset, code en benchmarks zullen publiekelijk beschikbaar zijn op https://dna-rendering.github.io/.
Adaptieve op gradiënten gebaseerde optimalisatiemethoden, met name Adam, hebben hun stempel gedrukt op het trainen van grootschalige deep learning-modellen. De kracht van dergelijke optimalisatiemethoden ligt in het feit dat ze snelle convergentie vertonen terwijl ze robuuster zijn tegen keuzes van hyperparameters. Echter, ze generaliseren vaak slechter dan niet-adaptieve methoden. Recente studies hebben dit prestatieverschil gekoppeld aan de selectie van vlakke minima: adaptieve methoden hebben de neiging oplossingen te vinden in scherpere bassins van het verlieslandschap, wat op zijn beurt de generalisatie schaadt. Om dit probleem te overwinnen, stellen we een nieuwe geheugen-augmentatieversie van Adam voor die exploratie richting vlakkere minima bevordert door gebruik te maken van een buffer van kritieke momentumtermen tijdens het trainen. Intuïtief zorgt het gebruik van de buffer ervoor dat de optimalisatiemethode buiten het aantrekkingsbassin overschiet als dit niet breed genoeg is. We tonen empirisch aan dat onze methode de prestaties van verschillende varianten van Adam verbetert op standaard taken voor supervised taalmodellering en beeldclassificatie.