Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Recent onderzoek, zoals BitNet, baant de weg voor een nieuw tijdperk van 1-bit Large Language Models (LLMs). In dit werk introduceren we een 1-bit LLM-variant, genaamd BitNet b1.58, waarin elke parameter (of gewicht) van de LLM ternair is {-1, 0, 1}. Het evenaart de volledige precisie (d.w.z. FP16 of BF16) Transformer LLM met dezelfde modelgrootte en trainings-tokens wat betreft zowel perplexiteit als eindtaakprestaties, terwijl het aanzienlijk kosteneffectiever is op het gebied van latentie, geheugen, doorvoer en energieverbruik. Diepgaander definieert de 1.58-bit LLM een nieuwe schaalwet en receptuur voor het trainen van nieuwe generaties LLMs die zowel hoogwaardig als kosteneffectief zijn. Bovendien maakt het een nieuw rekenparadigma mogelijk en opent het de deur voor het ontwerpen van specifieke hardware die is geoptimaliseerd voor 1-bit LLMs.
In dit werk pakken we de uitdaging aan om de realisme en expressiviteit in de generatie van pratende hoofdvideo's te verbeteren door ons te richten op de dynamische en genuanceerde relatie tussen audiocues en gezichtsbewegingen. We identificeren de beperkingen van traditionele technieken die vaak niet in staat zijn het volledige spectrum van menselijke expressies en de uniciteit van individuele gezichtsstijlen vast te leggen. Om deze problemen aan te pakken, stellen we EMO voor, een nieuw framework dat een directe audio-naar-video-synthesebenadering gebruikt, waardoor de behoefte aan tussenliggende 3D-modellen of gezichtslandmarken wordt omzeild. Onze methode zorgt voor naadloze frameovergangen en consistente identiteitsbehoud gedurende de video, wat resulteert in zeer expressieve en levensechte animaties. Experimentele resultaten tonen aan dat EMO niet alleen overtuigende sprekende video's kan produceren, maar ook zingende video's in verschillende stijlen, waarbij het bestaande state-of-the-art methodologieën aanzienlijk overtreft op het gebied van expressiviteit en realisme.
Sora is een tekst-naar-video generatief AI-model, uitgebracht door OpenAI in februari 2024. Het model is getraind om video's van realistische of fantasierijke scènes te genereren op basis van tekstinstructies en toont potentie in het simuleren van de fysieke wereld. Op basis van openbare technische rapporten en reverse engineering presenteert dit artikel een uitgebreide review van de achtergrond van het model, gerelateerde technologieën, toepassingen, resterende uitdagingen en toekomstige richtingen van tekst-naar-video AI-modellen. We volgen eerst de ontwikkeling van Sora en onderzoeken de onderliggende technologieën die gebruikt zijn om deze "wereldsimulator" te bouwen. Vervolgens beschrijven we gedetailleerd de toepassingen en potentiële impact van Sora in diverse industrieën, variërend van filmproductie en onderwijs tot marketing. We bespreken de belangrijkste uitdagingen en beperkingen die moeten worden aangepakt om Sora breed in te zetten, zoals het waarborgen van veilige en onbevooroordeelde videogeneratie. Tot slot bespreken we de toekomstige ontwikkeling van Sora en videogeneratiemodellen in het algemeen, en hoe vooruitgang in het veld nieuwe manieren van mens-AI-interactie kan mogelijk maken, waardoor de productiviteit en creativiteit van videogeneratie worden bevorderd.
Hoewel grote taalmmodellen (LLM's) vaak finetuning toepassen om hun mogelijkheden voor downstream-toepassingen te ontgrendelen, is ons begrip van de inductieve biases (met name de schaaleigenschappen) van verschillende finetuningmethoden nog beperkt. Om deze kloof te dichten, voeren we systematische experimenten uit om te onderzoeken of en hoe verschillende schaalfactoren, waaronder de grootte van het LLM-model, de omvang van de pretrainingsgegevens, de grootte van nieuwe finetuningparameters en de omvang van de finetuninggegevens, de finetuningprestaties beïnvloeden. We beschouwen twee soorten finetuning -- volledige modelafstemming (FMT) en parameter-efficiënte afstemming (PET, inclusief prompt tuning en LoRA) -- en onderzoeken hun schaalgedrag in het data-beperkte regime waar de grootte van het LLM-model de omvang van de finetuninggegevens aanzienlijk overtreft. Op basis van twee sets van vooraf getrainde tweetalige LLM's van 1B tot 16B en experimenten op tweetalige machinevertaling en meertalige samenvattingsbenchmarks, vinden we dat 1) LLM-finetuning een op machtsverheffing gebaseerde multiplicatieve gezamenlijke schaalwet volgt tussen de omvang van de finetuninggegevens en elke andere schaalfactor; 2) LLM-finetuning meer baat heeft bij schaling van het LLM-model dan bij schaling van pretrainingsgegevens, en PET-parameterschaling over het algemeen niet effectief is; en 3) de optimale finetuningmethode sterk afhankelijk is van de taak en de finetuninggegevens. We hopen dat onze bevindingen inzicht kunnen bieden in het begrijpen, selecteren en ontwikkelen van LLM-finetuningmethoden.
Decennialang is mens-computerinteractie in wezen handmatig geweest. Zelfs vandaag de dag vereist bijna al het productieve werk op de computer menselijke input bij elke stap. Autonome virtuele agents vertegenwoordigen een spannende stap in het automatiseren van veel van deze routinetaken. Virtuele agents zouden gebruikers met beperkte technische vaardigheden in staat stellen om de volledige mogelijkheden van computersystemen te benutten. Ze zouden ook de efficiënte stroomlijning van talrijke computertaken mogelijk maken, variërend van kalenderbeheer tot complexe reisboekingen, met minimale menselijke tussenkomst. In dit artikel introduceren we OmniACT, de eerste in zijn soort dataset en benchmark voor het beoordelen van de capaciteit van een agent om uitvoerbare programma's te genereren om computertaken te voltooien. Onze scope gaat verder dan traditionele webautomatisering en omvat een diverse reeks desktopapplicaties. De dataset bestaat uit fundamentele taken zoals "Speel het volgende nummer af", evenals langere termijntaken zoals "Stuur een e-mail naar John Doe met de tijd en plaats van de afspraak". Specifiek, gegeven een paar schermafbeelding en een visueel verankerde natuurlijke taaltaak, is het doel om een script te genereren dat in staat is om de taak volledig uit te voeren. We hebben verschillende sterke baseline-taalmodelagents op onze benchmark uitgevoerd. De sterkste baseline, GPT-4, presteert het beste op onze benchmark. Echter, het prestatieniveau bereikt slechts 15% van de menselijke vaardigheid in het genereren van uitvoerbare scripts die in staat zijn om de taak te voltooien, wat de uitdaging van onze taak voor conventionele webagents aantoont. Onze benchmark biedt een platform om de voortgang van taalmodelagents in het automatiseren van computertaken te meten en te evalueren en motiveert toekomstig werk naar het bouwen van multimodale modellen die grote taalmmodellen en de visuele verankering van computerschermen overbruggen.
Op het gebied van onderwerpgestuurde tekst-naar-beeld (T2I) generatieve modellen hebben recente ontwikkelingen zoals DreamBooth en BLIP-Diffusion indrukwekkende resultaten opgeleverd, maar kampen ze met beperkingen vanwege hun intensieve fine-tuning vereisten en aanzienlijke parameterbehoeften. Hoewel de low-rank adaptatie (LoRA) module binnen DreamBooth een vermindering van trainbare parameters biedt, introduceert het een uitgesproken gevoeligheid voor hyperparameters, wat leidt tot een compromis tussen parameter-efficiëntie en de kwaliteit van gepersonaliseerde T2I-beeldsynthese. Om deze beperkingen aan te pakken, introduceren we \textit{DiffuseKronA}, een nieuwe adaptatiemodule gebaseerd op het Kronecker-product, die niet alleen het aantal parameters aanzienlijk vermindert met 35\% en 99,947\% in vergelijking met LoRA-DreamBooth en het originele DreamBooth, maar ook de kwaliteit van de beeldsynthese verbetert. Cruciaal is dat DiffuseKronA het probleem van hyperparametergevoeligheid vermindert, waardoor het consistente hoogwaardige generaties levert over een breed scala aan hyperparameters, waardoor de noodzaak voor uitgebreide fine-tuning wordt verminderd. Bovendien maakt een meer controleerbare decompositie DiffuseKronA beter interpreteerbaar en kan het zelfs een reductie van tot 50\% bereiken met resultaten die vergelijkbaar zijn met LoRA-DreamBooth. Geëvalueerd tegen diverse en complexe invoerbeelden en tekstprompts, presteert DiffuseKronA consistent beter dan bestaande modellen, waarbij het diverse beelden van hogere kwaliteit produceert met verbeterde trouw en een nauwkeurigere kleurverdeling van objecten, terwijl het uitstekende parameter-efficiëntie behoudt, wat een aanzienlijke vooruitgang in het veld van T2I generatieve modellering vertegenwoordigt. Onze projectpagina, bestaande uit links naar de code en vooraf getrainde checkpoints, is beschikbaar op https://diffusekrona.github.io/{https://diffusekrona.github.io/}.
Het vermogen van Large Language Models (LLMs) om coherente tekst te verwerken en te genereren, wordt aanzienlijk verzwakt wanneer het aantal invoertokens hun vooraf getrainde lengte overschrijdt. Gezien de hoge kosten van het finetunen van grootschalige modellen met langere sequenties, stellen we Dual Chunk Attention (DCA) voor, waarmee Llama2 70B contextvensters van meer dan 100k tokens kan ondersteunen zonder voortdurende training. Door de aandachtberekening voor lange sequenties op te splitsen in chunk-gebaseerde modules, slaagt DCA erin om de relatieve positionele informatie van tokens binnen dezelfde chunk (Intra-Chunk) en over verschillende chunks (Inter-Chunk) effectief vast te leggen, en integreert het naadloos met Flash Attention. Naast zijn indrukwekkende extrapolatievermogen, behaalt DCA prestaties op praktische lang-context taken die vergelijkbaar zijn met of zelfs beter dan die van gefinetunde modellen. In vergelijking met propriëtaire modellen, bereikt ons trainingsvrije 70B-model 94% van de prestaties van gpt-3.5-16k, wat aangeeft dat het een levensvatbare open-source alternatief is. Alle code en gegevens die in dit werk zijn gebruikt, zijn vrijgegeven op https://github.com/HKUNLP/ChunkLlama.
Zowel tekst- als videogegevens zijn overvloedig aanwezig op het internet en ondersteunen grootschalig zelfgestuurd leren via voorspelling van de volgende token of frame. Echter, ze zijn niet in gelijke mate benut: taalmodelen hebben een aanzienlijke impact gehad in de praktijk, terwijl videogeneratie grotendeels beperkt is gebleven tot media en entertainment. Toch bevat videodata belangrijke informatie over de fysieke wereld die moeilijk in taal uit te drukken is. Om deze kloof te overbruggen, bespreken we een ondergewaardeerde mogelijkheid om videogeneratie uit te breiden voor het oplossen van taken in de echte wereld. We observeren hoe video, net als taal, kan dienen als een uniforme interface die internetkennis kan absorberen en diverse taken kan representeren. Bovendien laten we zien hoe videogeneratie, net als taalmodelen, kan fungeren als planners, agents, rekenmotoren en omgevingssimulatoren via technieken zoals in-context leren, planning en reinforcement learning. We identificeren grote impactmogelijkheden in domeinen zoals robotica, zelfrijdende auto's en wetenschap, ondersteund door recent werk dat aantoont hoe dergelijke geavanceerde mogelijkheden in videogeneratie plausibel binnen bereik zijn. Tot slot identificeren we belangrijke uitdagingen in videogeneratie die de vooruitgang belemmeren. Het aanpakken van deze uitdagingen zal videogeneratiemodellen in staat stellen om unieke waarde te demonstreren naast taalmodelen in een breder scala aan AI-toepassingen.
Bestaande onderzoeken naar langetermijn open-domein dialogen richten zich op het evalueren van modelreacties binnen contexten die niet meer dan vijf chatsessies omvatten. Ondanks vooruitgang in lange-context grote taalmodellen (LLMs) en retrieval-augmented generation (RAG) technieken, blijft hun effectiviteit in zeer langetermijn dialogen ononderzocht. Om dit onderzoeksgat aan te pakken, introduceren we een machine-mens pijplijn om hoogwaardige, zeer langetermijn dialogen te genereren door gebruik te maken van LLM-gebaseerde agentarchitecturen en hun dialogen te verankeren in persona's en temporele gebeurtenisgrafieken. Bovendien rusten we elke agent uit met de mogelijkheid om afbeeldingen te delen en hierop te reageren. De gegenereerde gesprekken worden gecontroleerd en bewerkt door menselijke annotators voor langeafstandsconsistentie en verankering aan de gebeurtenisgrafieken. Met behulp van deze pijplijn verzamelen we LoCoMo, een dataset van zeer langetermijn gesprekken, elk bestaande uit 300 beurten en gemiddeld 9K tokens, over maximaal 35 sessies. Op basis van LoCoMo presenteren we een uitgebreide evaluatiebenchmark om langetermijngeheugen in modellen te meten, met inbegrip van vraag-antwoordtaken, gebeurtenissamenvattingen en multi-modale dialooggeneratietaken. Onze experimentele resultaten geven aan dat LLMs uitdagingen ondervinden bij het begrijpen van lange gesprekken en het begrijpen van langeafstands temporele en causale dynamieken binnen dialogen. Het gebruik van strategieën zoals lange-context LLMs of RAG kan verbeteringen bieden, maar deze modellen blijven aanzienlijk achter bij menselijke prestaties.
Het recent ontwikkelde Sora-model [1] heeft opmerkelijke capaciteiten getoond in videogeneratie, wat intense discussies heeft opgeroepen over zijn vermogen om real-world fenomenen te simuleren. Ondanks zijn groeiende populariteit ontbreekt het aan gevestigde metrieken om zijn trouw aan real-world fysica kwantitatief te evalueren. In dit artikel introduceren we een nieuwe benchmark die de kwaliteit van de gegenereerde video's beoordeelt op basis van hun naleving van real-world fysicaprincipes. We gebruiken een methode die de gegenereerde video's omzet in 3D-modellen, waarbij we uitgaan van het idee dat de nauwkeurigheid van 3D-reconstructie sterk afhankelijk is van de videokwaliteit. Vanuit het perspectief van 3D-reconstructie gebruiken we de trouw van de geometrische beperkingen die door de geconstrueerde 3D-modellen worden voldaan als een proxy om te bepalen in hoeverre de gegenereerde video's voldoen aan de regels van real-world fysica. Projectpagina: https://sora-geometrical-consistency.github.io/
Dit werk onderzoekt de algemene principes voor het verbeteren van het leerproces van taalmodelen (LMs), met als doel het verminderen van de benodigde trainingsstappen om superieure prestaties te bereiken. Specifiek presenteren we een theorie voor het optimale leren van LMs. We stellen eerst een doelstelling voor die het leren van LMs optimaliseert door de datacompressieratio te maximaliseren in een "LM-training-als-verliesloze-compressie"-benadering. Vervolgens leiden we een stelling af, genaamd de Leerwet, om de eigenschappen van de dynamiek in het optimale leerproces onder onze doelstelling te onthullen. De stelling wordt vervolgens gevalideerd door experimenten op een lineaire classificatie en een realistische taalmodelleertaak. Ten slotte verifiëren we empirisch dat het optimale leren van LMs in essentie voortkomt uit de verbetering van de coëfficiënten in de schaalwet van LMs, wat grote belofte en betekenis aangeeft voor het ontwerpen van praktische methoden voor leeracceleratie. Onze code is te vinden op https://aka.ms/LearningLaw.
Video- en audiocontentcreatie vormt de kerntechniek voor de filmindustrie en professionele gebruikers. Recentelijk behandelen bestaande op diffusie gebaseerde methoden videogeneratie en audiogeneratie afzonderlijk, wat de overdracht van de techniek van academie naar industrie belemmert. In dit werk streven we ernaar deze kloof te overbruggen met een zorgvuldig ontworpen, op optimalisatie gebaseerd raamwerk voor cross-visueel-audio en gezamenlijke visueel-audiogeneratie. We observeren de krachtige generatiecapaciteit van kant-en-klare video- of audiogeneratiemodellen. Daarom stellen we voor om in plaats van gigantische modellen vanaf nul te trainen, de bestaande sterke modellen te verbinden met een gedeelde latente representatieruimte. Specifiek introduceren we een multimodale latente aligner met het vooraf getrainde ImageBind-model. Onze latente aligner deelt een vergelijkbare kern als de classifier guidance die het diffusie-ontruisingsproces tijdens de inferentietijd begeleidt. Door een zorgvuldig ontworpen optimalisatiestrategie en verliesfuncties tonen we de superieure prestaties van onze methode aan bij gezamenlijke video-audiogeneratie, visueel-gestuurde audiogeneratie en audio-gestuurde visuele generatietaken. De projectwebsite is te vinden op https://yzxing87.github.io/Seeing-and-Hearing/.
In dit werk delen we drie inzichten voor het bereiken van state-of-the-art esthetische kwaliteit in tekst-naar-beeld generatieve modellen. We richten ons op drie cruciale aspecten voor modelverbetering: het verbeteren van kleur en contrast, het verbeteren van generatie over meerdere beeldverhoudingen, en het verbeteren van mensgerichte fijne details. Ten eerste gaan we in op het belang van het ruisschema bij het trainen van een diffusiemodel, waarbij we het diepgaande effect ervan op realisme en visuele kwaliteit aantonen. Ten tweede pakken we de uitdaging aan van het accommoderen van verschillende beeldverhoudingen bij beeldgeneratie, waarbij we het belang benadrukken van het voorbereiden van een uitgebalanceerde gebucket dataset. Tot slot onderzoeken we de cruciale rol van het afstemmen van modeluitkomsten op menselijke voorkeuren, om ervoor te zorgen dat gegenereerde beelden aansluiten bij menselijke perceptuele verwachtingen. Door uitgebreide analyse en experimenten toont Playground v2.5 state-of-the-art prestaties op het gebied van esthetische kwaliteit onder verschillende omstandigheden en beeldverhoudingen, en overtreft het zowel veelgebruikte open-source modellen zoals SDXL en Playground v2, als gesloten commerciële systemen zoals DALLE 3 en Midjourney v5.2. Ons model is open-source, en we hopen dat de ontwikkeling van Playground v2.5 waardevolle richtlijnen biedt voor onderzoekers die streven naar het verhogen van de esthetische kwaliteit van diffusiegebaseerde beeldgeneratiemodellen.
We introduceren een methode om 3D-scènes te genereren die ontrafeld zijn in hun samenstellende objecten. Deze ontrafeling gebeurt onbewust, waarbij alleen gebruik wordt gemaakt van de kennis van een groot vooraf getraind tekst-naar-beeldmodel. Onze belangrijkste inzicht is dat objecten kunnen worden ontdekt door delen van een 3D-scène te vinden die, wanneer ze ruimtelijk worden herschikt, nog steeds geldige configuraties van dezelfde scène opleveren. Concreet optimaliseert onze methode meerdere NeRF's gezamenlijk vanaf nul - elk vertegenwoordigt zijn eigen object - samen met een reeks lay-outs die deze objecten samenvoegen tot scènes. We stimuleren vervolgens dat deze samengestelde scènes binnen de distributie vallen volgens de beeldgenerator. We laten zien dat onze aanpak, ondanks zijn eenvoud, succesvol 3D-scènes genereert die zijn opgedeeld in individuele objecten, wat nieuwe mogelijkheden biedt in tekst-naar-3D-contentcreatie. Voor resultaten en een interactieve demo, zie onze projectpagina op https://dave.ml/layoutlearning/.
Bestaande NeRF-gebaseerde methoden voor reconstructie van grote scènes hebben vaak beperkingen in visuele kwaliteit en renderingsnelheid. Hoewel de recente 3D Gaussian Splatting goed werkt op kleinschalige en objectgerichte scènes, brengt het opschalen naar grote scènes uitdagingen met zich mee vanwege beperkt videogeheugen, lange optimalisatietijd en opvallende uiterlijke variaties. Om deze uitdagingen aan te pakken, presenteren we VastGaussian, de eerste methode voor hoogwaardige reconstructie en real-time rendering van grote scènes gebaseerd op 3D Gaussian Splatting. We stellen een progressieve partitiestrategie voor om een grote scène op te delen in meerdere cellen, waarbij de trainingscamera's en puntenwolk correct worden verdeeld met een luchtruim-bewust zichtbaarheidscriterium. Deze cellen worden na parallelle optimalisatie samengevoegd tot een complete scène. We introduceren ook ontkoppelde uiterlijke modellering in het optimalisatieproces om uiterlijke variaties in de gerenderde afbeeldingen te verminderen. Onze aanpak overtreft bestaande NeRF-gebaseerde methoden en behaalt state-of-the-art resultaten op meerdere grote scène-datasets, waardoor snelle optimalisatie en hoogwaardige real-time rendering mogelijk worden.