Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Het bevorderen van de grens van subkwadratische architecturen voor Taalmodellen (LMs) is cruciaal in het snel evoluerende veld van natuurlijke taalverwerking. Huidige innovaties, waaronder State Space Models, werden aanvankelijk geprezen omdat ze de prestaties van Transformers overtroffen bij taken voor taalmodellering. Deze modellen hebben echter tekortkomingen aan het licht gebracht in essentiële In-Context Leervaardigheden - een domein waarin de Transformer traditioneel uitblinkt. Het Based-model ontstond als een hybride oplossing, waarbij een Lineaire Transformer werd gecombineerd met een kernel geïnspireerd door de Taylor-reeks van exponentiële functies, versterkt door convolutionele netwerken. Door de in-context vaardigheid van de Transformer na te bootsen, werd het een sterke kandidaat in het veld. In ons werk presenteren we een enkele, elegante aanpassing aan de Based-kernel die de In-Context Leervaardigheden versterkt, geëvalueerd met de Multi-Query Associative Recall-taak en het algehele taalmodelleringsproces, zoals gedemonstreerd op de Pile-dataset.
Dit artikel behandelt de uitdaging van het verwerken van lange documenten met behulp van generatieve transformermodellen. Om verschillende benaderingen te evalueren, introduceren we BABILong, een nieuwe benchmark die is ontworpen om de mogelijkheden van modellen te beoordelen bij het extraheren en verwerken van verspreide feiten binnen uitgebreide teksten. Onze evaluatie, die benchmarks omvat voor GPT-4 en RAG, laat zien dat gangbare methoden alleen effectief zijn voor reeksen tot 10^4 elementen. Daarentegen maakt het finetunen van GPT-2 met recurrent memory-augmentaties het mogelijk om taken te verwerken die tot 10^7 elementen omvatten. Deze prestatie markeert een aanzienlijke sprong voorwaarts, aangezien dit verreweg de langste invoer is die tot nu toe door een open neuraal netwerkmodel is verwerkt, wat een significante verbetering aantoont in de verwerkingscapaciteiten voor lange sequenties.
Het benutten van de lange betrokkenheidsgeschiedenis van gebruikers is essentieel voor gepersonaliseerde contentaanbevelingen. Het succes van vooraf getrainde taalmodelen (PLM's) in NLP heeft geleid tot hun gebruik bij het coderen van gebruikersgeschiedenissen en kandidaat-items, waarbij contentaanbevelingen worden geformuleerd als tekstuele semantische matchingtaken. Bestaande methoden hebben echter nog steeds moeite met het verwerken van zeer lange gebruikershistorische teksten en onvoldoende gebruikers-item-interactie. In dit artikel introduceren we een op content gebaseerd aanbevelingsframework, SPAR, dat effectief de uitdagingen aanpakt van het extraheren van holistische gebruikersinteresses uit de lange betrokkenheidsgeschiedenis van gebruikers. Dit wordt bereikt door gebruik te maken van PLM, poly-attentielagen en aandachtssparsity-mechanismen om de geschiedenis van de gebruiker op een sessiegebaseerde manier te coderen. De kenmerken van de gebruikers- en itemzijde worden voldoende samengevoegd voor betrokkenheidsvoorspelling, terwijl afzonderlijke representaties voor beide zijden behouden blijven, wat efficiënt is voor praktische modelimplementatie. Bovendien verbeteren we gebruikersprofielen door gebruik te maken van grote taalmodelen (LLM) om globale interesses uit de betrokkenheidsgeschiedenis van gebruikers te extraheren. Uitgebreide experimenten op twee benchmarkdatasets tonen aan dat ons framework bestaande state-of-the-art (SoTA) methoden overtreft.
Grote taalmodellen (LLMs) zijn een dominant en belangrijk hulpmiddel geworden voor NLP-onderzoekers in een breed scala aan taken. Tegenwoordig gebruiken veel onderzoekers LLMs voor synthetische datageneratie, taakevaluatie, fine-tuning, distillatie en andere onderzoeksworkflows waarbij modellen in de loop worden betrokken. Er doen zich echter uitdagingen voor bij het gebruik van deze modellen, die voortkomen uit hun schaal, hun gesloten broncode en het gebrek aan gestandaardiseerde tools voor deze nieuwe en opkomende workflows. De snelle opkomst van deze modellen en deze unieke uitdagingen heeft directe negatieve gevolgen gehad voor open wetenschap en de reproduceerbaarheid van werk dat ze gebruikt. In dit artikel introduceren we DataDreamer, een open source Python-bibliotheek die onderzoekers in staat stelt eenvoudige code te schrijven om krachtige LLM-workflows te implementeren. DataDreamer helpt onderzoekers ook om zich te houden aan best practices die wij voorstellen om open wetenschap en reproduceerbaarheid te bevorderen. De bibliotheek en documentatie zijn beschikbaar op https://github.com/datadreamer-dev/DataDreamer.
Videoproductie is steeds populairder geworden, maar de expertise en inspanning die nodig zijn voor het bewerken ervan vormen vaak obstakels voor beginners. In dit artikel onderzoeken we de integratie van grote taalmodellen (LLM's) in de videobewerkingsworkflow om deze barrières te verlagen. Onze ontwerpvisie wordt belichaamd in LAVE, een nieuw systeem dat LLM-gestuurde agentondersteuning en taalondersteunde bewerkingsfuncties biedt. LAVE genereert automatisch taal beschrijvingen voor het beeldmateriaal van de gebruiker, wat als basis dient om de LLM video's te laten verwerken en te assisteren bij bewerkingstaken. Wanneer de gebruiker bewerkingsdoelen opgeeft, plant en voert de agent relevante acties uit om deze te vervullen. Bovendien stelt LAVE gebruikers in staat om video's te bewerken via de agent of directe UI-manipulatie, wat flexibiliteit biedt en handmatige verfijning van agentacties mogelijk maakt. Onze gebruikersstudie, waaraan acht deelnemers van beginners tot ervaren editors deelnamen, toonde de effectiviteit van LAVE aan. De resultaten geven ook inzicht in de percepties van gebruikers over het voorgestelde LLM-ondersteunde bewerkingsparadigma en de impact ervan op de creativiteit en het gevoel van co-creatie van gebruikers. Op basis van deze bevindingen stellen we ontwerpimplicaties voor om de toekomstige ontwikkeling van agent-ondersteunde inhoudsbewerking te informeren.
Automatische side-by-side-evaluatie is naar voren gekomen als een veelbelovende benadering voor het beoordelen van de kwaliteit van reacties van grote taalmodelen (LLM's). Het analyseren van de resultaten van deze evaluatiemethode brengt echter schaalbaarheids- en interpreteerbaarheidsuitdagingen met zich mee. In dit artikel presenteren we LLM Comparator, een innovatief visueel analyse-instrument voor het interactief analyseren van resultaten van automatische side-by-side-evaluatie. Het instrument ondersteunt interactieve workflows waarmee gebruikers kunnen begrijpen wanneer en waarom een model beter of slechter presteert dan een basismodel, en hoe de reacties van twee modellen kwalitatief verschillen. We hebben het instrument iteratief ontworpen en ontwikkeld door nauw samen te werken met onderzoekers en ingenieurs bij een groot technologiebedrijf. Dit artikel gaat in detail in op de gebruikersuitdagingen die we hebben geïdentificeerd, het ontwerp en de ontwikkeling van het instrument, en een observationele studie met deelnemers die regelmatig hun modellen evalueren.
Grote taalmmodellen (LLMs) worden steeds vaker gebruikt in conversatiesystemen vanwege hun geavanceerde begrip en generatieve mogelijkheden in algemene contexten. Hun effectiviteit in taakgerichte dialogen (TOD), waarbij niet alleen responsgeneratie maar ook effectieve dialoogstatustracking (DST) binnen specifieke taken en domeinen vereist is, blijft echter minder bevredigend. In dit werk stellen we een nieuwe benadering voor, FnCTOD, om DST op te lossen met LLMs via functieaanroepen. Deze methode verbetert zero-shot DST, waardoor aanpassing aan diverse domeinen mogelijk is zonder uitgebreide gegevensverzameling of modelafstemming. Onze experimentele resultaten tonen aan dat onze aanpak uitzonderlijke prestaties levert met zowel bescheiden open-source als propriëtaire LLMs: met in-context prompting stelt het verschillende 7B of 13B parameter modellen in staat om de vorige state-of-the-art (SOTA) behaald door ChatGPT te overtreffen, en verbetert het de prestaties van ChatGPT door de SOTA met 5,6% Avg. JGA te verslaan. Individuele modelresultaten voor GPT-3.5 en GPT-4 worden respectievelijk met 4,8% en 14% verhoogd. We tonen ook aan dat door fine-tuning op een kleine verzameling diverse taakgerichte dialogen, we bescheiden modellen, specifiek een 13B parameter LLaMA2-Chat model, kunnen uitrusten met functieaanroepmogelijkheden en DST-prestaties die vergelijkbaar zijn met ChatGPT, terwijl hun chatmogelijkheden behouden blijven. We zijn van plan om de experimentele code en het model open source te maken.
Diffusiemodellen hebben zich bewezen als zeer effectief voor het genereren van afbeeldingen en video's; ze kampen echter nog steeds met uitdagingen op het gebied van compositie bij het genereren van afbeeldingen van verschillende formaten vanwege enkelvoudige schaaltrainingsdata. Het aanpassen van grote, vooraf getrainde diffusiemodellen voor hogere resoluties vereist aanzienlijke reken- en optimalisatiebronnen, maar het bereiken van een generatievermogen dat vergelijkbaar is met modellen voor lage resolutie blijft moeilijk. Dit artikel introduceert een nieuw zelf-cascade diffusiemodel dat gebruikmaakt van de rijke kennis die is opgedaan met een goed getraind laag-resolutiemodel voor snelle aanpassing aan hogere-resolutie afbeeldingen en video's, waarbij gebruik wordt gemaakt van tuning-vrije of goedkope upsampler-tuning paradigma's. Door een reeks multi-schaal upsampler-modules te integreren, kan het zelf-cascade diffusiemodel efficiënt worden aangepast aan een hogere resolutie, waarbij de oorspronkelijke compositie en generatiecapaciteiten behouden blijven. We stellen verder een pivot-gestuurde ruisherschikkingsstrategie voor om het inferentieproces te versnellen en lokale structurele details te verbeteren. Vergeleken met volledige fine-tuning bereikt onze aanpak een 5X snellere trainingssnelheid en vereist slechts 0,002M extra afstemparameters. Uitgebreide experimenten tonen aan dat onze aanpak zich snel kan aanpassen aan hogere-resolutie afbeeldingen en video's door slechts 10.000 stappen te fine-tunen, met vrijwel geen extra inferentietijd.
Dit artikel toont aan dat een progressief uitgelijnd taalmodel effectief bevroren visuele encoders en grote taalmmodellen (LLMs) kan verbinden. Hoewel de fundamentele architectuur en pre-trainingsmethoden van visuele encoders en LLMs uitgebreid zijn bestudeerd, variëren de architectuur en trainingsstrategie van visie-taaladapters aanzienlijk in recente werken. Ons onderzoek onderneemt een grondige verkenning van de state-of-the-art perceiver resampler-architectuur en bouwt een sterke baseline. We observeren echter dat de visie-taal-uitlijning met de perceiver resampler trage convergentie en beperkte schaalbaarheid vertoont, met een gebrek aan directe supervisie. Om dit probleem aan te pakken, stellen we PaLM2-VAdapter voor, waarbij een progressief uitgelijnd taalmodel wordt gebruikt als de visie-taaladapter. In vergelijking met de sterke baseline met perceiver resampler, toont onze methode empirisch snellere convergentie, hogere prestaties en sterkere schaalbaarheid. Uitgebreide experimenten over diverse Visual Question Answering (VQA) en captioning-taken op zowel afbeeldingen als video's demonstreren dat ons model state-of-the-art visueel begrip en multi-modale redeneervaardigheden vertoont. Opmerkelijk is dat onze methode deze vooruitgang bereikt met 30~70% minder parameters dan de state-of-the-art grote visie-taalmodellen, wat een significante efficiëntieverbetering markeert.
We presenteren de Universal Manipulation Interface (UMI) – een raamwerk voor gegevensverzameling en beleidsleren dat directe vaardigheidsoverdracht mogelijk maakt van menselijke demonstraties in de praktijk naar inzetbare robotbeleidsregels. UMI maakt gebruik van handbediende grijpers in combinatie met een zorgvuldig ontworpen interface om draagbare, kosteneffectieve en informatieve gegevensverzameling mogelijk te maken voor uitdagende bimanuele en dynamische manipulatie-demonstraties. Om inzetbaar beleidsleren te vergemakkelijken, integreert UMI een zorgvuldig ontworpen beleidsinterface met latentieafstemming tijdens inferentie en een actieweergave op basis van relatieve trajecten. De resulterende geleerde beleidsregels zijn hardware-onafhankelijk en inzetbaar op meerdere robotplatforms. Uitgerust met deze functies maakt het UMI-raamwerk nieuwe robotmanipulatie-mogelijkheden mogelijk, zoals zero-shot generaliseerbaar dynamisch, bimanueel, precies en langetermijngedrag, door alleen de trainingsgegevens voor elke taak aan te passen. We demonstreren de veelzijdigheid en effectiviteit van UMI met uitgebreide experimenten in de echte wereld, waarbij beleidsregels die via UMI zijn geleerd, zero-shot generaliseren naar nieuwe omgevingen en objecten wanneer ze zijn getraind op diverse menselijke demonstraties. Het hardware- en softwaresysteem van UMI is open-source beschikbaar op https://umi-gripper.github.io.
Het reconstrueren en renderen van 3D-objecten vanuit zeer beperkte gezichtspunten is van cruciaal belang voor het bevorderen van toepassingen van 3D-visietechnieken en het verbeteren van de gebruikerservaring. Beelden vanuit beperkte gezichtspunten bevatten echter slechts zeer beperkte 3D-informatie, wat leidt tot twee belangrijke uitdagingen: 1) Moeite met het opbouwen van multi-view consistentie omdat er te weinig beelden zijn voor matching; 2) Gedeeltelijk weggelaten of sterk gecomprimeerde objectinformatie omdat de dekking van de gezichtspunten onvoldoende is. Om deze uitdagingen aan te pakken, stellen we GaussianObject voor, een raamwerk om het 3D-object te representeren en te renderen met Gaussian splatting, dat een hoge renderkwaliteit bereikt met slechts 4 invoerbeelden. We introduceren eerst technieken van visuele omhulling en floater eliminatie die expliciet structuurpriors injecteren in het initiële optimalisatieproces om te helpen bij het opbouwen van multi-view consistentie, wat resulteert in een ruwe 3D Gaussian representatie. Vervolgens construeren we een Gaussian reparatiemodel gebaseerd op diffusiemodellen om de weggelaten objectinformatie aan te vullen, waarbij Gaussians verder worden verfijnd. We ontwerpen een zelfgenererende strategie om beeldparen te verkrijgen voor het trainen van het reparatiemodel. Onze GaussianObject wordt geëvalueerd op verschillende uitdagende datasets, waaronder MipNeRF360, OmniObject3D en OpenIllumination, en behaalt sterke reconstructieresultaten vanuit slechts 4 gezichtspunten en overtreft aanzienlijk eerdere state-of-the-art methoden.
De diversiteit aan contexten waarin grote taalmodellen (LLMs) worden ingezet, vereist de mogelijkheid om standaardmodelgedrag aan te passen of te personaliseren om genuanceerde vereisten en voorkeuren te integreren. Een handige interface om dergelijke modelaanpassingen te specificeren, is hoogwaardige verbale feedback, zoals "Gebruik geen emoji's bij het opstellen van e-mails aan mijn baas." Hoewel het schrijven van hoogwaardige feedback veel eenvoudiger is dan het verzamelen van annotaties voor reinforcement learning met menselijke feedback (RLHF), ontdekken we dat het simpelweg aanbieden van dergelijke feedback aan een model leidt tot overgeneralisatie van de feedback naar contexten waar deze niet relevant is. Wij bestuderen het probleem van het integreren van verbale feedback zonder dergelijke overgeneralisatie, wat leidt tot een nieuwe methode genaamd Contextualized Critiques with Constrained Preference Optimization (C3PO). C3PO gebruikt een stuk hoogwaardige feedback om een kleine synthetische voorkeursdataset te genereren die specificeert hoe de feedback wel en niet moet worden toegepast. Vervolgens wordt het model verfijnd in overeenstemming met de synthetische voorkeursdata, terwijl de divergentie van het oorspronkelijke model wordt geminimaliseerd voor prompts waar de feedback niet van toepassing is. Onze experimentele resultaten tonen aan dat onze aanpak verbale feedback effectief toepast op relevante scenario's, terwijl bestaand gedrag voor andere contexten behouden blijft. Voor zowel door mensen gegenereerde als door GPT-4 gegenereerde hoogwaardige feedback, houdt C3PO zich effectief aan de gegeven feedback, vergelijkbaar met in-context baseline-methoden, terwijl overgeneralisatie met 30% wordt verminderd.