Dagelijks geselecteerde AI onderzoekspapers met vertalingen
In het tijdperk van grootschalige taalmodelen zijn benchmarks zoals de Massive Multitask Language Understanding (MMLU) cruciaal geweest in het verleggen van de grenzen van wat AI kan bereiken op het gebied van taalbegrip en redeneren over diverse domeinen. Naarmate modellen echter blijven verbeteren, begint hun prestatieniveau op deze benchmarks te stagneren, waardoor het steeds moeilijker wordt om verschillen in modelcapaciteiten te onderscheiden. Dit artikel introduceert MMLU-Pro, een verbeterde dataset die is ontworpen om de voornamelijk kennisgedreven MMLU-benchmark uit te breiden door het integreren van meer uitdagende, op redeneren gerichte vragen en het uitbreiden van de keuzeset van vier naar tien opties. Daarnaast elimineert MMLU-Pro de triviale en ruisachtige vragen in MMLU. Onze experimentele resultaten tonen aan dat MMLU-Pro niet alleen de uitdaging vergroot, wat resulteert in een significante daling in nauwkeurigheid van 16% tot 33% vergeleken met MMLU, maar ook grotere stabiliteit laat zien onder verschillende prompts. Met 24 verschillende promptstijlen die zijn getest, nam de gevoeligheid van modelscores voor promptvariaties af van 4-5% in MMLU naar slechts 2% in MMLU-Pro. Bovendien ontdekten we dat modellen die gebruikmaken van Chain of Thought (CoT)-redenering betere prestaties behaalden op MMLU-Pro vergeleken met direct antwoorden, wat in schril contrast staat met de bevindingen op de originele MMLU, wat aangeeft dat MMLU-Pro complexere redeneervragen bevat. Onze evaluaties bevestigen dat MMLU-Pro een meer onderscheidende benchmark is om de voortgang in het veld beter te volgen.
Taalmodelle zijn afgestemd om het collectieve stemgeluid van velen na te bootsen, wat resulteert in uitvoer die niet specifiek op één persoon is afgestemd. Het is mogelijk om grote taalmodelle (LLMs) weg te sturen van generieke uitvoer door middel van supervised finetuning of RLHF, maar dit vereist onpraktisch grote datasets voor nieuwe ad-hoc taken. Wij beargumenteren dat het in plaats daarvan mogelijk is om een LLM af te stemmen op een specifieke setting door gebruik te maken van een zeer klein aantal (<10) demonstraties als feedback. Onze methode, Demonstration ITerated Task Optimization (DITTO), stemt de uitvoer van taalmodelle direct af op het gedrag dat een gebruiker demonstreert. Gebaseerd op ideeën uit online imitatieleren, genereert DITTO goedkoop online vergelijkingsdata door de demonstraties van gebruikers te behandelen als voorkeur boven de uitvoer van het LLM en zijn tussenliggende checkpoints. We evalueren het vermogen van DITTO om fijnmazige stijl- en taakafstemming te leren over domeinen zoals nieuwsartikelen, e-mails en blogposts. Daarnaast voeren we een gebruikersstudie uit waarin we een reeks demonstraties verzamelen van deelnemers (N=16). Over onze benchmarks en gebruikersstudie heen vinden we dat de win-rates voor DITTO gemiddeld 19% punten hoger liggen dan few-shot prompting, supervised fine-tuning en andere self-play methoden. Door demonstraties direct als feedback te gebruiken, biedt DITTO een nieuwe methode voor effectieve aanpassing van LLMs.
Dit werk richt zich op de uitdaging van diepteschatting in video's, waarbij niet alleen nauwkeurigheid per frame wordt verwacht, maar, nog belangrijker, consistentie tussen frames. In plaats van direct een diepteschatter vanaf nul te ontwikkelen, herformuleren we de voorspellingstaak als een conditioneel generatieprobleem. Hierdoor kunnen we gebruikmaken van de voorkennis die is ingebed in bestaande videogeneratiemodellen, waardoor de leercomplexiteit wordt verminderd en de generaliseerbaarheid wordt verbeterd. Concreet onderzoeken we hoe het publieke Stable Video Diffusion (SVD) kan worden getemd om betrouwbare diepte te voorspellen uit invoervideo's, waarbij we een mix van beelddiepte- en videodieptedatasets gebruiken. We bevestigen empirisch dat een procedurele trainingsstrategie - eerst het optimaliseren van de ruimtelijke lagen van SVD en vervolgens het optimaliseren van de temporele lagen terwijl de ruimtelijke lagen bevroren blijven - de beste resultaten oplevert in termen van zowel ruimtelijke nauwkeurigheid als temporele consistentie. We onderzoeken verder de sliding window-strategie voor inferentie op willekeurig lange video's. Onze observaties wijzen op een afweging tussen efficiëntie en prestaties, waarbij een overlap van één frame al gunstige resultaten oplevert. Uitgebreide experimentele resultaten tonen de superioriteit van onze aanpak, genaamd ChronoDepth, aan ten opzichte van bestaande alternatieven, met name wat betreft de temporele consistentie van de geschatte diepte. Daarnaast benadrukken we de voordelen van meer consistente videodiepte in twee praktische toepassingen: diepte-geconditioneerde videogeneratie en synthese van nieuwe gezichtspunten. Onze projectpagina is beschikbaar op https://jhaoshao.github.io/ChronoDepth/{this http URL}.
Culturele accumulatie drijft de open-einde en diverse vooruitgang in vaardigheden die de menselijke geschiedenis omspant. Het bouwt een uitbreidend lichaam van kennis en vaardigheden op door individuele exploratie te combineren met intergenerationele informatieoverdracht. Ondanks het wijdverbreide succes bij mensen, blijft het vermogen van kunstmatige leeragenten om cultuur te accumuleren onderbelicht. In het bijzonder streven benaderingen van reinforcement learning doorgaans naar verbeteringen binnen slechts één levensduur. Generatie-algoritmen die wel bestaan, slagen er niet in om de open-einde, emergente aard van culturele accumulatie vast te leggen, wat individuen in staat stelt om innovatie en imitatie af te wegen. Voortbouwend op het eerder aangetoonde vermogen van reinforcement learning-agenten om sociaal leren uit te voeren, ontdekken we dat trainingsopstellingen die dit in balans brengen met onafhankelijk leren, leiden tot culturele accumulatie. Deze accumulerende agenten presteren beter dan diegene die getraind zijn voor een enkele levensduur met dezelfde cumulatieve ervaring. We verkennen deze accumulatie door twee modellen te construeren onder twee verschillende noties van een generatie: episodische generaties, waarbij accumulatie plaatsvindt via in-context leren, en trainingsgeneraties, waarbij accumulatie plaatsvindt via in-weights leren. In-context en in-weights culturele accumulatie kunnen respectievelijk worden geïnterpreteerd als analoog aan kennis- en vaardigheidsaccumulatie. Voor zover wij weten, is dit werk het eerste dat algemene modellen presenteert die emergente culturele accumulatie in reinforcement learning bereiken, wat nieuwe wegen opent naar meer open-einde leer systemen, en tegelijkertijd nieuwe mogelijkheden biedt voor het modelleren van menselijke cultuur.
Geoptimaliseerde optimalisatoren (LOs) kunnen de werkelijke trainingstijd van neurale netwerken aanzienlijk verkorten, waardoor de trainingskosten aanmerkelijk worden verlaagd. Ze lijden echter vaak aan slechte meta-generalizatie, vooral bij het trainen van netwerken die groter zijn dan die tijdens de meta-training zijn gezien. Om dit aan te pakken, gebruiken we de recent voorgestelde Maximal Update Parametrization (muP), die zero-shot generalizatie van optimalisatorhyperparameters van kleinere naar grotere modellen mogelijk maakt. We breiden de muP-theorie uit naar geleerde optimalisatoren door het meta-trainingsprobleem te behandelen als het vinden van de geleerde optimalisator onder muP. Onze evaluatie toont aan dat LOs die met muP zijn getraind, de meta-generalizatie aanzienlijk verbeteren in vergelijking met LOs die onder standaard parametrizatie (SP) zijn getraind. Opmerkelijk is dat, wanneer toegepast op modellen met grote breedte, onze beste muLO, getraind voor 103 GPU-uren, de prestaties evenaart of overtreft van VeLO, de grootste openbaar beschikbare geleerde optimalisator, die is getraind met 4000 TPU-maanden aan rekenkracht. Bovendien tonen muLOs betere generalizatie dan hun SP-tegenhangers naar diepere netwerken en naar veel langere trainingshorizons (25 keer langer) dan die tijdens de meta-training zijn gezien.
Videogeneratie heeft de afgelopen jaren opmerkelijke vooruitgang geboekt, vooral sinds de opkomst van videodiffusiemodellen. Veel videogeneratiemodellen kunnen geloofwaardige synthetische video's produceren, zoals Stable Video Diffusion (SVD). De meeste videomodellen kunnen echter alleen video's met een lage framesnelheid genereren vanwege het beperkte GPU-geheugen en de moeilijkheid om een grote reeks frames te modelleren. De trainingsvideo's worden altijd uniform bemonsterd met een gespecificeerd interval voor temporele compressie. Eerdere methoden verhogen de framesnelheid door ofwel een video-interpolatiemodel in de pixelruimte te trainen als een nabewerkingsfase, ofwel een interpolatiemodel in de latente ruimte te trainen voor een specifiek basisvideomodel. In dit artikel stellen we een trainingsvrije video-interpolatiemethode voor voor generatieve videodiffusiemodellen, die op een plug-and-play-manier generaliseerbaar is voor verschillende modellen. We onderzoeken de non-lineariteit in de kenmerkruimte van videodiffusiemodellen en transformeren een videomodel in een zelf-geschakeld videodiffusiemodel met de geïntegreerde ontworpen verborgen toestandscorrectiemodules. De zelf-geschakelde architectuur en het correctiemodule worden voorgesteld om de temporele consistentie tussen sleutelframes en de geïnterpoleerde frames te behouden. Uitgebreide evaluaties worden uitgevoerd op meerdere populaire videomodellen om de effectiviteit van de voorgestelde methode aan te tonen, vooral omdat onze trainingsvrije methode zelfs vergelijkbaar is met getrainde interpolatiemodellen die worden ondersteund door enorme rekenbronnen en grootschalige datasets.