Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote taalmodellen (LLMs) worden routinematig voorgetraind op miljarden tokens, om vervolgens het proces opnieuw te starten zodra nieuwe data beschikbaar komt. Een veel efficiëntere oplossing is om deze modellen continu voor te trainen, wat aanzienlijk minder rekenkracht vereist in vergelijking met hertraining. Echter, de distributieverschuiving veroorzaakt door nieuwe data resulteert doorgaans in verminderde prestaties op eerdere data of slechte aanpassing aan de nieuwe data. In dit werk tonen we aan dat een eenvoudige en schaalbare combinatie van het opnieuw opwarmen van de leerrate (LR), het opnieuw afbouwen van de leerrate en het herhalen van eerdere data voldoende is om de prestaties van volledige hertraining vanaf nul te evenaren, gemeten aan de hand van het uiteindelijke verlies en evaluatiebenchmarks voor taalmodellen (LM). Specifiek laten we dit zien voor een zwakke maar realistische distributieverschuiving tussen twee veelgebruikte LLM-voorraaddatasets (Engels→Engels) en een sterkere distributieverschuiving (Engels→Duits) op het niveau van een model met 405M parameters en grote datasetgroottes (honderden miljarden tokens). Door de zwakke maar realistische verschuiving te selecteren voor grootschaliger experimenten, vinden we ook dat onze continue leerstrategieën de hertrainingsbaseline evenaren voor een LLM met 10B parameters. Onze resultaten tonen aan dat LLMs succesvol kunnen worden bijgewerkt via eenvoudige en schaalbare continue leerstrategieën, waarbij de hertrainingsbaseline wordt geëvenaard met slechts een fractie van de rekenkracht. Ten slotte, geïnspireerd door eerder werk, stellen we alternatieven voor voor het cosinus-leerratieschema die helpen om vergeten veroorzaakt door LR-opwarming te omzeilen en die niet gebonden zijn aan een vast tokenbudget.
Dit werk introduceert Gemma, een familie van lichtgewicht, state-of-the-art open modellen die zijn gebouwd op basis van het onderzoek en de technologie die zijn gebruikt om de Gemini-modellen te creëren. Gemma-modellen tonen sterke prestaties op academische benchmarks voor taalbegrip, redeneren en veiligheid. We brengen twee modelgroottes uit (2 miljard en 7 miljard parameters) en bieden zowel vooraf getrainde als fijn afgestelde checkpoints aan. Gemma overtreft vergelijkbaar grote open modellen op 11 van de 18 tekstgebaseerde taken, en we presenteren uitgebreide evaluaties van de veiligheids- en verantwoordelijkheidsaspecten van de modellen, samen met een gedetailleerde beschrijving van de modelontwikkeling. Wij geloven dat de verantwoorde release van grote taalmodellen (LLMs) cruciaal is voor het verbeteren van de veiligheid van frontier-modellen en voor het mogelijk maken van de volgende golf van LLM-innovaties.
Wij stellen VLOGGER voor, een methode voor audio-gestuurde menselijke videogeneratie vanuit een enkele invoerafbeelding van een persoon, die voortbouwt op het succes van recente generatieve diffusiemodellen. Onze methode bestaat uit 1) een stochastisch mens-naar-3d-bewegingsdiffusiemodel, en 2) een nieuwe diffusiegebaseerde architectuur die tekst-naar-beeldmodellen uitbreidt met zowel ruimtelijke als temporele controles. Dit ondersteunt de generatie van hoogwaardige video's van variabele lengte, eenvoudig aan te sturen via hoogwaardige representaties van menselijke gezichten en lichamen. In tegenstelling tot eerder werk vereist onze methode geen training per persoon, is niet afhankelijk van gezichtsdetectie en -uitsnijding, genereert het volledige beeld (niet alleen het gezicht of de lippen), en houdt rekening met een breed scala aan scenario's (bijv. zichtbare torso of diverse subjectidentiteiten) die cruciaal zijn om communicerende mensen correct te synthetiseren. Wij hebben ook MENTOR samengesteld, een nieuwe en diverse dataset met 3d-pose- en expressieannotaties, een orde van grootte groter dan voorgaande (800.000 identiteiten) en met dynamische gebaren, waarop we onze belangrijkste technische bijdragen trainen en evalueren. VLOGGER overtreft state-of-the-art methoden in drie publieke benchmarks, waarbij rekening wordt gehouden met beeldkwaliteit, identiteitsbehoud en temporele consistentie, terwijl ook bovenlichaamgebaren worden gegenereerd. We analyseren de prestaties van VLOGGER met betrekking tot meerdere diversiteitsmetingen, waaruit blijkt dat onze architecturale keuzes en het gebruik van MENTOR bijdragen aan het trainen van een eerlijk en onbevooroordeeld model op grote schaal. Tot slot tonen we toepassingen in videobewerking en personalisatie.
Mensen leren sociale vaardigheden door zowel imitatie als sociale interactie. Dit sociale leerproces wordt grotendeels onderbelicht door bestaand onderzoek naar het ontwikkelen van taalagentschappen. Gemotiveerd door deze leemte stellen we een interactieve leermethode voor, SOTOPIA-pi, die de sociale intelligentie van taalagentschappen verbetert. Deze methode maakt gebruik van gedragskloontechnieken en zelfversterkende training op gefilterde sociale interactiedata volgens beoordelingen van grote taalmodellen (LLM's). We tonen aan dat onze trainingsmethode een 7B LLM in staat stelt om het vermogen tot het voltooien van sociale doelen te bereiken van een expertmodel (een op GPT-4 gebaseerd agentschap), terwijl de veiligheid van taalagentschappen wordt verbeterd en het algemene QA-vermogen op de MMLU-benchmark behouden blijft. We ontdekken ook dat dit trainingsparadigma enkele moeilijkheden blootlegt in LLM-gebaseerde evaluatie van sociale intelligentie: LLM-gebaseerde beoordelaars overschatten de vaardigheden van de taalagentschappen die specifiek zijn getraind voor sociale interactie.
Foundation models zijn krachtige technologieën: de manier waarop ze openbaar worden vrijgegeven, bepaalt direct hun maatschappelijke impact. In dit position paper richten we ons op open foundation models, hier gedefinieerd als modellen met breed beschikbare modelgewichten (bijv. Llama 2, Stable Diffusion XL). We identificeren vijf onderscheidende eigenschappen (bijv. grotere aanpasbaarheid, slechte monitoring) van open foundation models die zowel hun voordelen als risico's veroorzaken. Open foundation models bieden aanzienlijke voordelen, met enkele kanttekeningen, die zich uitstrekken over innovatie, concurrentie, de verdeling van beslissingsmacht en transparantie. Om hun risico's van misbruik te begrijpen, ontwikkelen we een risicobeoordelingskader voor het analyseren van hun marginale risico. Over verschillende misbruikvectoren (bijv. cyberaanvallen, biowapens) stellen we vast dat huidig onderzoek onvoldoende is om het marginale risico van open foundation models effectief te karakteriseren ten opzichte van bestaande technologieën. Het kader helpt verklaren waarom het marginale risico in sommige gevallen laag is, verduidelijkt meningsverschillen over misbruikrisico's door aan te tonen dat eerder werk zich heeft gericht op verschillende subsets van het kader met verschillende aannames, en formuleert een manier voor een constructiever debat. Over het algemeen helpt ons werk bij het ondersteunen van een meer gefundeerde beoordeling van de maatschappelijke impact van open foundation models door te schetsen welk onderzoek nodig is om hun theoretische voordelen en risico's empirisch te valideren.
Schaalwetten zijn nuttige richtlijnen voor het ontwikkelen van taalmodellen, maar er bestaan nog steeds hiaten tussen huidige schaalstudies en hoe taalmodellen uiteindelijk worden getraind en geëvalueerd. Zo wordt schaling meestal bestudeerd in het compute-optimale trainingsregime (d.w.z. het "Chinchilla-optimale" regime); in de praktijk worden modellen echter vaak overgetraind om de inferentiekosten te verlagen. Bovendien voorspellen schaalwetten vooral het verlies bij next-token-voorspelling, maar uiteindelijk worden modellen vergeleken op basis van prestaties bij downstream taken. In dit artikel gaan we in op beide tekortkomingen. Hiervoor creëren we een testomgeving van 104 modellen met 0,011B tot 6,9B parameters, getraind met verschillende aantallen tokens op drie datadistributies. Ten eerste onderzoeken we schaling in het overgetrainde regime. We passen schaalwetten toe die extrapoleren in zowel het aantal modelparameters als de verhouding tussen trainings-tokens en parameters. Hierdoor kunnen we het validatieverlies voorspellen van een run met 1,4B parameters en 900B tokens (d.w.z. 32 keer overgetraind) en een run met 6,9B parameters en 138B tokens—elk gebaseerd op experimenten die 300 keer minder rekenkracht vereisen. Ten tweede relateren we de perplexiteit van een taalmodel aan zijn prestaties bij downstream taken via een machtswet. We gebruiken deze wet om de top-1-fout, gemiddeld over downstream taken, te voorspellen voor de twee eerder genoemde modellen met experimenten die 20 keer minder rekenkracht vereisen. Onze experimenten zijn beschikbaar op https://github.com/mlfoundations/scaling.
Om de uitdagingen van dataschaarste en geavanceerde bewegingsynthese in de modellering van mens-scène-interacties aan te pakken, introduceren we de TRUMANS-dataset samen met een nieuwe methode voor HSI-bewegingsynthese. TRUMANS geldt als de meest uitgebreide motion-captured HSI-dataset die momenteel beschikbaar is, met meer dan 15 uur aan menselijke interacties in 100 binnenruimtes. Het legt gedetailleerd volledige lichaamsbewegingen van mensen en dynamiek op objectniveau vast, met een focus op de realiteit van contact. Deze dataset wordt verder uitgebreid door fysieke omgevingen om te zetten in exacte virtuele modellen en uitgebreide augmentaties toe te passen op het uiterlijk en de beweging van zowel mensen als objecten, terwijl de interactiegetrouwheid behouden blijft. Met behulp van TRUMANS ontwikkelen we een op diffusie gebaseerd autoregressief model dat efficiënt HSI-sequenties van elke lengte genereert, waarbij zowel de context van de scène als de beoogde acties in aanmerking worden genomen. In experimenten toont onze aanpak opmerkelijke zero-shot generaliseerbaarheid op een reeks 3D-scène-datasets (bijv. PROX, Replica, ScanNet, ScanNet++), waarbij bewegingen worden geproduceerd die nauw aansluiten bij originele motion-captured sequenties, zoals bevestigd door kwantitatieve experimenten en menselijke studies.
Ondanks recente vooruitgang in beeld-naar-video-generatie, zijn betere bestuurbaarheid en lokale animatie minder onderzocht. De meeste bestaande beeld-naar-video-methoden zijn niet lokaal bewust en hebben de neiging om de hele scène te bewegen. Echter, menselijke kunstenaars hebben mogelijk de behoefte om de beweging van verschillende objecten of regio's te controleren. Daarnaast vereisen huidige I2V-methoden dat gebruikers niet alleen de doelbeweging beschrijven, maar ook overbodige gedetailleerde beschrijvingen van frame-inhoud leveren. Deze twee problemen belemmeren de praktische toepassing van huidige I2V-tools. In dit artikel stellen we een praktisch framework voor, genaamd Follow-Your-Click, om beeldanimatie te bereiken met een eenvoudige gebruikersklik (om aan te geven wat er moet bewegen) en een korte bewegingsprompt (om aan te geven hoe er bewogen moet worden). Technisch gezien stellen we de first-frame masking-strategie voor, die de kwaliteit van videogeneratie aanzienlijk verbetert, en een met bewegingsgegevens versterkte module uitgerust met een dataset van korte bewegingsprompts om het vermogen van ons model om korte prompts te volgen te verbeteren. Om de bewegingssnelheid verder te controleren, stellen we flow-based motion magnitude control voor om de snelheid van de doelbeweging nauwkeuriger te controleren. Ons framework heeft een eenvoudigere maar preciezere gebruikerscontrole en betere generatieprestaties dan eerdere methoden. Uitgebreide experimenten vergeleken met 7 baselines, waaronder zowel commerciële tools als onderzoeksmethoden op 8 metrieken, suggereren de superioriteit van onze aanpak. Projectpagina: https://follow-your-click.github.io/
Impliciete neurale representaties (INRs) hebben recentelijk groot succes geboekt in beeldrepresentatie en compressie, waarbij ze een hoge visuele kwaliteit en snelle weergavesnelheden van 10-1000 FPS bieden, mits voldoende GPU-bronnen beschikbaar zijn. Deze vereiste belemmert echter vaak hun gebruik op apparaten met beperkt geheugen. Als antwoord hierop stellen we een baanbrekend paradigma voor beeldrepresentatie en compressie voor door middel van 2D Gaussian Splatting, genaamd GaussianImage. We introduceren eerst 2D Gaussiaanse functies om het beeld te representeren, waarbij elke Gaussiaanse functie 8 parameters heeft, waaronder positie, covariantie en kleur. Vervolgens onthullen we een nieuw weergave-algoritme gebaseerd op geaccumuleerde sommatie. Opmerkelijk is dat onze methode, met minimaal 3 keer minder GPU-geheugengebruik en 5 keer snellere aanpassingstijd, niet alleen kan concurreren met INRs (bijv. WIRE, I-NGP) in representatieprestaties, maar ook een snellere weergavesnelheid van 1500-2000 FPS biedt, ongeacht de parameteromvang. Bovendien integreren we bestaande vectorkwantisatietechnieken om een beeldcodec te bouwen. Experimentele resultaten tonen aan dat onze codec een rate-distortion-prestatie bereikt die vergelijkbaar is met compressiegebaseerde INRs zoals COIN en COIN++, terwijl het decodeersnelheden van ongeveer 1000 FPS mogelijk maakt. Daarnaast toont een eerste proof of concept aan dat onze codec COIN en COIN++ overtreft in prestaties bij gebruik van gedeeltelijke bits-back codering.