Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Recente vooruitgang in tekst-naar-beeld generatiemodellen heeft een enorme potentie voor visuele creativiteit ontsloten. Deze modellen hebben echter moeite met het genereren van consistente personages, een cruciaal aspect voor tal van real-world toepassingen zoals storyvisualisatie, assetdesign voor spelontwikkeling, reclame, en meer. Huidige methoden zijn doorgaans afhankelijk van meerdere bestaande afbeeldingen van het doelpersonage of vereisen arbeidsintensieve handmatige processen. In dit werk stellen we een volledig geautomatiseerde oplossing voor voor het genereren van consistente personages, waarbij de enige input een tekstprompt is. We introduceren een iteratief proces dat in elke fase een coherente set afbeeldingen identificeert die een vergelijkbare identiteit delen en hieruit een consistentere identiteit extraheert. Onze kwantitatieve analyse toont aan dat onze methode een betere balans vindt tussen promptafstemming en identiteitsconsistentie in vergelijking met de baseline-methoden, en deze bevindingen worden ondersteund door een gebruikersstudie. Tot slot demonstreren we verschillende praktische toepassingen van onze aanpak. De projectpagina is beschikbaar op https://omriavrahami.com/the-chosen-one.
Text-to-image diffusiemodellen hebben opmerkelijke capaciteiten getoond in het omzetten van tekstuele prompts naar samenhangende afbeeldingen, maar de rekenkosten van hun inferentie blijven een aanhoudende uitdaging. Om dit probleem aan te pakken, presenteren we UFOGen, een nieuw generatief model ontworpen voor ultra-snelle, éénstaps tekst-naar-beeld synthese. In tegenstelling tot conventionele benaderingen die zich richten op het verbeteren van samplers of het toepassen van destillatietechnieken voor diffusiemodellen, hanteert UFOGen een hybride methodologie die diffusiemodellen integreert met een GAN-doelstelling. Door gebruik te maken van een nieuw geïntroduceerde diffusie-GAN-doelstelling en initialisatie met vooraf getrainde diffusiemodellen, blinkt UFOGen uit in het efficiënt genereren van hoogwaardige afbeeldingen die zijn geconditioneerd op tekstuele beschrijvingen in één stap. Naast traditionele tekst-naar-beeld generatie, toont UFOGen veelzijdigheid in toepassingen. UFOGen behoort tot de pionierende modellen die éénstaps tekst-naar-beeld generatie en diverse downstream taken mogelijk maken, wat een significante vooruitgang betekent in het landschap van efficiënte generatieve modellen. \blfootnote{*Werk uitgevoerd als studentonderzoeker bij Google, daggertje geeft gelijke bijdrage aan.}
Ondanks het succes van de gedachtegang (chain of thought) bij het verbeteren van het redeneervermogen van taalmodelen, blijft het onderliggende proces minder goed begrepen. Hoewel logisch correct redeneren inherent cruciaal lijkt voor de gedachtegang, tonen eerdere studies verrassend genoeg minimale impact aan bij het gebruik van ongeldige demonstraties. Bovendien informeert de conventionele gedachtegang taalmodelen niet over welke fouten ze moeten vermijden, wat mogelijk tot meer fouten leidt. Daarom, geïnspireerd door hoe mensen kunnen leren van zowel positieve als negatieve voorbeelden, stellen we de contrastieve gedachtegang voor om het redeneervermogen van taalmodelen te verbeteren. In vergelijking met de conventionele gedachtegang biedt onze aanpak zowel geldige als ongeldige redeneerdemonstraties, om het model te begeleiden bij stap-voor-stap redeneren terwijl redeneerfouten worden verminderd. Om de generalisatie te verbeteren, introduceren we een automatische methode om contrastieve demonstraties te construeren. Onze experimenten op redeneerbenchmarks tonen aan dat de contrastieve gedachtegang kan dienen als een algemene verbetering van gedachtegang-prompting.
Neurale stralingsvelden bereiken een ongekende kwaliteit voor de synthese van nieuwe gezichtspunten, maar hun volumetrische formulering blijft kostbaar, waarbij een enorm aantal samples nodig is om hoogwaardige afbeeldingen te renderen. Volumetrische coderingen zijn essentieel om vage geometrie zoals gebladerte en haar weer te geven, en ze zijn goed geschikt voor stochastische optimalisatie. Toch bestaan veel scènes uiteindelijk grotendeels uit vaste oppervlakken die nauwkeurig kunnen worden gerenderd met slechts één sample per pixel. Gebaseerd op dit inzicht stellen we een neurale stralingsformulering voor die soepel overgaat tussen volumetrisch en oppervlaktegebaseerd renderen, waardoor de rendersnelheid aanzienlijk wordt versneld en zelfs de visuele kwaliteit verbetert. Onze methode construeert een expliciet mesh-omhulsel dat een neurale volumetrische representatie ruimtelijk begrenst. In vaste regio's convergeert het omhulsel bijna naar een oppervlak en kan het vaak worden gerenderd met slechts één sample. Hiertoe generaliseren we de NeuS-formulering met een geleerde ruimtelijk variërende kernelgrootte die de spreiding van de dichtheid codeert, waarbij een brede kernel wordt toegepast op volume-achtige regio's en een nauwe kernel op oppervlakte-achtige regio's. Vervolgens extraheren we een expliciet mesh van een smalle band rond het oppervlak, met een breedte bepaald door de kernelgrootte, en finetunen we het stralingsveld binnen deze band. Tijdens inferentie werpen we stralen tegen het mesh en evalueren we het stralingsveld alleen binnen het omsloten gebied, waardoor het aantal benodigde samples aanzienlijk wordt verminderd. Experimenten tonen aan dat onze aanpak efficiënt renderen met zeer hoge kwaliteit mogelijk maakt. We laten ook zien dat het geëxtraheerde omhulsel downstream-toepassingen zoals animatie en simulatie mogelijk maakt.
Wij stellen Tied-LoRA voor, een eenvoudig paradigma dat gebruikmaakt van gewichtsverbinding en selectieve training om de parameter-efficiëntie van de Low-rank adaptation (LoRA)-methode verder te verhogen. Ons onderzoek omvat alle mogelijke combinaties van parameter-training/-bevriezing in combinatie met gewichtsverbinding om de optimale balans tussen prestaties en het aantal trainbare parameters te identificeren. Door experimenten die een verscheidenheid aan taken en twee basistaalmodellen omvatten, bieden wij een analyse die de afwegingen tussen efficiëntie en prestaties onthult. Onze experimenten hebben een specifieke Tied-LoRA-configuratie aan het licht gebracht die opvalt door vergelijkbare prestaties te demonstreren over verschillende taken, terwijl slechts 13~\% van de parameters wordt gebruikt die door de standaard LoRA-methode worden benut.
Grote taalmodellen hebben veelbelovende prestaties getoond in benchmarks voor codegeneratie. Er bestaat echter een aanzienlijke kloof tussen deze benchmarkresultaten en hun praktische toepasbaarheid, voornamelijk toe te schrijven aan de afhankelijkheid van real-world programmeren van bestaande bibliotheken. In plaats van LLM's te evalueren op het schrijven van code vanaf nul, stelt dit werk voor om een nieuwe evaluatieopzet te introduceren waarin LLM's open-source bibliotheken gebruiken om machine learning taken te voltooien. Daarom stellen we ML-Bench voor, een uitgebreide benchmark ontwikkeld om de effectiviteit van LLM's te beoordelen bij het benutten van bestaande functies in open-source bibliotheken. Deze bestaat uit 10044 samples verspreid over 130 taken in 14 opmerkelijke machine learning GitHub repositories. In deze opzet krijgt een LLM, gegeven een specifieke machine learning taakinstructie en de bijbehorende README in een codebase, de opdracht om code te genereren om de taak te voltooien. Dit vereist het begrijpen van lange, taal-code verweven documenten, evenals het begrijpen van complexe cross-file codestructuren, wat nieuwe uitdagingen introduceert. Opmerkelijk is dat GPT-4, hoewel het een opmerkelijke verbetering laat zien ten opzichte van andere LLM's, slechts 39,73% van de taken weet te voltooien, wat ruimte laat voor verdere verbetering. We pakken deze uitdagingen aan door ML-Agent voor te stellen, ontworpen om effectief door de codebase te navigeren, documentatie te lokaliseren, code op te halen en uitvoerbare code te genereren. Empirische resultaten tonen aan dat ML-Agent, gebouwd op GPT-4, tot verdere verbeteringen leidt. Code, data en modellen zijn beschikbaar op https://ml-bench.github.io/.
Benchmarks spelen een cruciale rol in de ontwikkeling van machine learning-algoritmen. Onderzoek op het gebied van reinforcement learning (RL) is bijvoorbeeld sterk beïnvloed door beschikbare omgevingen en benchmarks. Traditioneel worden RL-omgevingen echter op de CPU uitgevoerd, wat hun schaalbaarheid beperkt met typische academische rekenkracht. Recente vooruitgang in JAX heeft het bredere gebruik van hardwareversnelling mogelijk gemaakt om deze computationele barrières te overwinnen, waardoor massaal parallelle RL-trainingspijplijnen en omgevingen mogelijk worden. Dit is vooral nuttig voor onderzoek naar multi-agent reinforcement learning (MARL). Ten eerste moeten meerdere agenten bij elke omgevingsstap worden overwogen, wat de computationele belasting verhoogt, en ten tweede neemt de samplecomplexiteit toe door niet-stationariteit, gedecentraliseerde gedeeltelijke observeerbaarheid of andere MARL-uitdagingen. In dit artikel presenteren we JaxMARL, de eerste open-source codebase die gebruiksvriendelijkheid combineert met GPU-gestuurde efficiëntie, en die een groot aantal veelgebruikte MARL-omgevingen ondersteunt, evenals populaire baseline-algoritmen. Wat betreft wall clock-tijd laten onze experimenten zien dat onze op JAX gebaseerde trainingspijplijn per run tot 12500x sneller is dan bestaande benaderingen. Dit maakt efficiënte en grondige evaluaties mogelijk, met het potentieel om de evaluatiecrisis in het veld te verlichten. We introduceren en benchmarken ook SMAX, een gevectoriseerde, vereenvoudigde versie van de populaire StarCraft Multi-Agent Challenge, waardoor de noodzaak om de StarCraft II-game-engine te draaien wordt weggenomen. Dit maakt niet alleen GPU-versnelling mogelijk, maar biedt ook een flexibelere MARL-omgeving, wat de deur opent voor zelfspel, meta-leren en andere toekomstige toepassingen in MARL. We bieden de code aan op https://github.com/flairox/jaxmarl.
Recente beslissingen van toonaangevende AI-labs om hun modellen open-source te maken of de toegang tot hun modellen te beperken, hebben een debat op gang gebracht over of, en hoe, steeds krachtigere AI-modellen gedeeld zouden moeten worden. Open-sourcing in AI verwijst doorgaans naar het vrij en publiekelijk toegankelijk maken van modelarchitectuur en gewichten, zodat iedereen deze kan aanpassen, bestuderen, op voortbouwen en gebruiken. Dit biedt voordelen zoals het mogelijk maken van externe controle, het versnellen van vooruitgang en het decentraliseren van controle over AI-ontwikkeling en -gebruik. Het brengt echter ook een groeiend potentieel voor misbruik en onbedoelde gevolgen met zich mee. Dit artikel biedt een onderzoek naar de risico's en voordelen van het open-sourcen van zeer krachtige foundationmodellen. Hoewel open-sourcing historisch gezien aanzienlijke netto-voordelen heeft opgeleverd voor de meeste software- en AI-ontwikkelingsprocessen, stellen wij dat voor sommige zeer krachtige foundationmodellen die waarschijnlijk in de nabije toekomst zullen worden ontwikkeld, open-sourcing voldoende extreme risico's kan opleveren om de voordelen te overtreffen. In zo'n geval zouden zeer krachtige foundationmodellen niet open-source gemaakt moeten worden, althans niet in eerste instantie. Alternatieve strategieën, waaronder niet-open-source modeldelingopties, worden onderzocht. Het artikel sluit af met aanbevelingen voor ontwikkelaars, standaardiseringsorganisaties en overheden voor het vaststellen van veilige en verantwoorde praktijken voor het delen van modellen en het behouden van open-source voordelen waar dit veilig is.