Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Met de vooruitgang van tekst-naar-beeldmodellen (bijv. Stable Diffusion) en bijbehorende personalisatietechnieken zoals DreamBooth en LoRA, kan iedereen zijn of haar verbeelding omzetten in hoogwaardige afbeeldingen tegen een betaalbare prijs. Hierdoor is er een grote vraag naar technieken voor beeldanimatie om gegenereerde statische afbeeldingen verder te combineren met bewegingsdynamiek. In dit rapport stellen we een praktisch raamwerk voor om de meeste bestaande gepersonaliseerde tekst-naar-beeldmodellen in één keer te animeren, waardoor de inspanning voor modelspecifieke afstemming wordt bespaard. De kern van het voorgestelde raamwerk is het inbrengen van een nieuw geïnitialiseerd bewegingsmodelmodule in het bevroren tekst-naar-beeldmodel en deze te trainen op videoclips om redelijke bewegingsprioriteiten te destilleren. Eenmaal getraind, kunnen door simpelweg deze bewegingsmodelmodule te injecteren, alle gepersonaliseerde versies die afgeleid zijn van hetzelfde basis T2I-model, gemakkelijk tekstgestuurde modellen worden die diverse en gepersonaliseerde geanimeerde afbeeldingen produceren. We voeren onze evaluatie uit op verschillende openbare representatieve gepersonaliseerde tekst-naar-beeldmodellen, variërend van anime-afbeeldingen tot realistische foto's, en tonen aan dat ons voorgestelde raamwerk deze modellen helpt om temporeel vloeiende animatieclips te genereren terwijl de domeinspecificiteit en diversiteit van hun output behouden blijft. Code en vooraf getrainde gewichten zullen openbaar beschikbaar zijn op https://animatediff.github.io/.
Grote taalmodellen (LLMs) hebben een blauwdruk geformuleerd voor de vooruitgang van kunstmatige algemene intelligentie. Het primaire doel is om te functioneren als een mensgerichte (behulpzame, eerlijke en onschadelijke) assistent. Afstemming met mensen neemt een uiterst belangrijke plaats in, en reinforcement learning met menselijke feedback (RLHF) komt naar voren als het cruciale technologische paradigma dat deze inspanning ondersteunt. Huidige technische routes omvatten meestal beloningsmodellen om menselijke voorkeuren te meten, Proximal Policy Optimization (PPO) om de uitvoer van beleidsmodellen te optimaliseren, en procesbegeleiding om stapsgewijze redeneervaardigheden te verbeteren. Echter, vanwege de uitdagingen van beloningsontwerp, omgevingsinteractie en agenttraining, in combinatie met de enorme trial-and-error-kosten van grote taalmodellen, is er een aanzienlijke barrière voor AI-onderzoekers om de ontwikkeling van technische afstemming en veilige implementatie van LLMs te stimuleren. De stabiele training van RLHF blijft een raadsel. In het eerste rapport ontleden we het framework van RLHF, her-evalueren we de interne werking van PPO, en onderzoeken we hoe de onderdelen die de PPO-algoritmen vormen, de training van beleidsagenten beïnvloeden. We identificeren beleidsbeperkingen als de sleutelfactor voor de effectieve implementatie van het PPO-algoritme. Daarom onderzoeken we de PPO-max, een geavanceerde versie van het PPO-algoritme, om de trainingsstabiliteit van het beleidsmodel efficiënt te verbeteren. Op basis van onze belangrijkste resultaten voeren we een uitgebreide analyse uit van de RLHF-vaardigheden in vergelijking met SFT-modellen en ChatGPT. Het ontbreken van open-source-implementaties heeft aanzienlijke uitdagingen opgeleverd voor het onderzoek naar de afstemming van LLMs. Daarom zijn we verheugd om technische rapporten, beloningsmodellen en PPO-codes vrij te geven.
Er is recentelijk aanzienlijke vooruitgang geboekt in creatieve toepassingen van grote vooraf getrainde modellen voor downstream taken in 3D-visie, zoals tekst-naar-vorm-generatie. Dit motiveert ons onderzoek naar hoe deze vooraf getrainde modellen effectief kunnen worden gebruikt om 3D-vormen uit schetsen te genereren, wat grotendeels een open uitdaging is gebleven vanwege de beperkte gepaarde datasets van schetsen en vormen en het variërende abstractieniveau in de schetsen. We ontdekken dat het conditioneren van een 3D-generatief model op de kenmerken (verkregen uit een bevroren groot vooraf getraind visiemodel) van synthetische weergaven tijdens de training ons in staat stelt om effectief 3D-vormen uit schetsen te genereren tijdens de inferentiefase. Dit suggereert dat de kenmerken van het grote vooraf getrainde visiemodel semantische signalen bevatten die bestand zijn tegen domeinverschuivingen, waardoor we alleen RGB-weergaven kunnen gebruiken, maar toch kunnen generaliseren naar schetsen tijdens de inferentiefase. We voeren een uitgebreide reeks experimenten uit waarin we verschillende ontwerpfactoren onderzoeken en demonstreren de effectiviteit van onze eenvoudige aanpak voor het genereren van meerdere 3D-vormen per ingevoerde schets, ongeacht hun abstractieniveau, zonder dat er tijdens de training gepaarde datasets nodig zijn.
We presenteren Emu, een Transformer-gebaseerd multimodaal foundation model, dat naadloos afbeeldingen en teksten kan genereren in een multimodale context. Dit omnivore model kan elke single-modality of multimodale data-input zonder onderscheid verwerken (bijvoorbeeld afwisselende afbeeldingen, tekst en video) via een one-model-for-all autoregressief trainingsproces. Eerst worden visuele signalen gecodeerd in embeddings, die samen met teksttokens een afwisselende invoerreeks vormen. Emu wordt vervolgens end-to-end getraind met een uniform doel: het classificeren van het volgende teksttoken of het regresseren van het volgende visuele embedding in de multimodale reeks. Deze veelzijdige multimodaliteit maakt het mogelijk om diverse pretrainingsdatabronnen op grote schaal te verkennen, zoals video's met afwisselende frames en tekst, webpagina's met afwisselende afbeeldingen en tekst, evenals web-scale afbeelding-tekstparen en video-tekstparen. Emu kan dienen als een generalistisch multimodaal interface voor zowel beeld-naar-tekst als tekst-naar-beeld taken, en ondersteunt in-context generatie van afbeeldingen en tekst. Over een breed scala aan zero-shot/few-shot taken, waaronder beeldbeschrijving, visuele vraagbeantwoording, video-vraagbeantwoording en tekst-naar-beeld generatie, toont Emu superieure prestaties vergeleken met state-of-the-art grote multimodale modellen. Uitgebreide mogelijkheden, zoals multimodale assistenten via instructie-tuning, worden eveneens gedemonstreerd met indrukwekkende prestaties.
In dit artikel introduceren we Semantic-SAM, een universeel beeldsegmentatiemodel dat in staat is om alles te segmenteren en herkennen op elke gewenste granulariteit. Ons model biedt twee belangrijke voordelen: semantisch bewustzijn en granulariteitsrijkdom. Om semantisch bewustzijn te bereiken, consolideren we meerdere datasets over drie granulariteiten en introduceren we ontkoppelde classificatie voor objecten en onderdelen. Hierdoor kan ons model rijke semantische informatie vastleggen. Voor de multi-granulariteitsmogelijkheid stellen we een multi-choice leerstrategie voor tijdens de training, waardoor elke klik maskers op meerdere niveaus kan genereren die overeenkomen met meerdere grondwaarheidmaskers. Opmerkelijk is dat dit werk de eerste poging vertegenwoordigt om een model gezamenlijk te trainen op SA-1B, generieke en onderdeelsegmentatiedatasets. Experimentele resultaten en visualisaties tonen aan dat ons model met succes semantisch bewustzijn en granulariteitsrijkdom bereikt. Bovendien leidt het combineren van SA-1B-training met andere segmentatietaken, zoals panoptische en onderdeelsegmentatie, tot prestatieverbeteringen. We zullen code en een demo beschikbaar stellen voor verdere verkenning en evaluatie.
We introduceren VampNet, een benadering van gemaskeerde akoestische tokenmodellering voor muzieksynthese, compressie, inpainting en variatie. We gebruiken een variabel maskeringsschema tijdens de training, waardoor we coherente muziek uit het model kunnen genereren door verschillende maskeringsbenaderingen (genaamd prompts) toe te passen tijdens de inferentie. VampNet is niet-autoregressief en maakt gebruik van een bidirectionele transformerarchitectuur die aandacht besteedt aan alle tokens in één voorwaartse doorloop. Met slechts 36 bemonsteringsdoorlopen kan VampNet coherente, hoogwaardige muzikale golfvormen genereren. We laten zien dat door VampNet op verschillende manieren te prompten, we het kunnen toepassen op taken zoals muziekcompressie, inpainting, outpainting, voortzetting en looping met variatie (vamping). Wanneer het op de juiste manier wordt geprompt, is VampNet in staat om stijl, genre, instrumentatie en andere hoogwaardige aspecten van de muziek te behouden. Deze flexibele promptmogelijkheid maakt VampNet tot een krachtig hulpmiddel voor muzikale co-creatie. Code en audiovoorbeelden zijn online beschikbaar.
Menselijke intelligentie gedijt op het concept van cognitieve synergie, waarbij samenwerking en informatie-integratie tussen verschillende cognitieve processen superieure resultaten opleveren in vergelijking met individuele cognitieve processen in isolatie. Hoewel Large Language Models (LLM's) veelbelovende prestaties hebben getoond als algemene taakoplossende agents, hebben ze nog steeds moeite met taken die intensieve domeinkennis en complex redeneren vereisen. In dit werk stellen we Solo Performance Prompting (SPP) voor, dat een enkele LLM transformeert in een cognitieve synergist door middel van multi-turn zelf-samenwerking met meerdere persona's. Een cognitieve synergist verwijst naar een intelligente agent die samenwerkt met meerdere 'mentale entiteiten', waarbij hun individuele sterktes en kennis worden gecombineerd om probleemoplossing en algehele prestaties in complexe taken te verbeteren. Door dynamisch verschillende persona's te identificeren en te simuleren op basis van taakinvoer, ontketent SPP het potentieel van cognitieve synergie in LLM's. We hebben ontdekt dat het toewijzen van meerdere, fijnmazige persona's in LLM's betere probleemoplossende vaardigheden oproept in vergelijking met het gebruik van een enkele of een vast aantal persona's. We evalueren SPP op drie uitdagende taken: Trivia Creative Writing, Codenames Collaborative en Logic Grid Puzzle, die zowel kennisintensieve als redeneringsintensieve typen omvatten. In tegenstelling tot eerdere werken, zoals Chain-of-Thought, die uitsluitend de redeneervaardigheden in LLM's versterken, roept SPP effectief interne kennisverwervingsvaardigheden op, vermindert het hallucinatie en behoudt het sterke redeneervaardigheden. Code, data en prompts zijn te vinden op: https://github.com/MikeWangWZHL/Solo-Performance-Prompting.git.
We observeren dat vooraf getrainde grote taalmodellen (LLMs) in staat zijn om complexe tokenreeksen autoregressief te voltooien -- van willekeurige reeksen die procedureel worden gegenereerd door probabilistische contextvrije grammatica's (PCFG), tot rijkere ruimtelijke patronen die voorkomen in het Abstract Reasoning Corpus (ARC), een algemene AI-benchmark, geprompt in de stijl van ASCII-art. Verrassend genoeg kan het vermogen om patronen te voltooien gedeeltelijk behouden blijven, zelfs wanneer de reeksen worden uitgedrukt met tokens die willekeurig zijn gesamplet uit de vocabulaire. Deze resultaten suggereren dat LLMs, zonder aanvullende training, kunnen dienen als algemene sequentiemodellen, aangedreven door in-context leren. In dit werk onderzoeken we hoe deze zero-shot-mogelijkheden kunnen worden toegepast op problemen in de robotica -- van het extrapoleren van reeksen getallen die toestanden in de tijd representeren om eenvoudige bewegingen te voltooien, tot least-to-most prompting van beloningsgeconditioneerde trajecten die gesloten-lusbeleidsregels kunnen ontdekken en representeren (bijvoorbeeld een stabiliserende controller voor CartPole). Hoewel het vandaag de dag moeilijk is om dit in te zetten voor echte systemen vanwege latentie, beperkingen in contextgrootte en rekenkosten, biedt de aanpak van het gebruik van LLMs voor low-level controle een spannend inkijkje in hoe patronen tussen woorden kunnen worden overgedragen naar acties.
Een uitdaging bij het ontwikkelen van NLP-systemen voor de talen van de wereld is het begrijpen hoe deze generaliseren naar typologische verschillen die relevant zijn voor praktische toepassingen. Hiertoe stellen we M2C voor, een morfologisch bewust raamwerk voor gedragstesten van NLP-modellen. We gebruiken M2C om tests te genereren die het gedrag van modellen onderzoeken in het licht van specifieke linguïstische kenmerken in 12 typologisch diverse talen. We evalueren state-of-the-art taalmodellen op de gegenereerde tests. Hoewel modellen uitblinken in de meeste tests in het Engels, benadrukken we generalisatiefouten bij specifieke typologische kenmerken, zoals temporele uitdrukkingen in het Swahili en samengestelde bezitsvormen in het Fins. Onze bevindingen motiveren de ontwikkeling van modellen die deze blinde vlekken aanpakken.
Grote taalmodellen (LLMs) hebben opmerkelijke successen geboekt op het gebied van natuurlijke taalverwerking, waardoor betere mens-computerinteractie met natuurlijke taal mogelijk is gemaakt. De naadloze integratie van spraaksignalen in LLMs is echter nog niet goed onderzocht. De "decoder-only"-architectuur is evenmin grondig bestudeerd voor spraakverwerkingstaken. In dit onderzoek introduceren we Speech-LLaMA, een nieuwe aanpak die akoestische informatie effectief incorporeert in tekstgebaseerde grote taalmodellen. Onze methode maakt gebruik van Connectionist Temporal Classification en een eenvoudige audio-encoder om de gecomprimeerde akoestische kenmerken toe te wijzen aan de continue semantische ruimte van het LLM. Daarnaast onderzoeken we de decoder-only-architectuur verder voor spraak-naar-teksttaken door een kleiner, willekeurig geïnitialiseerd Speech-LLaMA-model te trainen met alleen spraak-tekstgepaarde gegevens. We voeren experimenten uit op meertalige spraak-naar-tekstvertalingstaken en tonen een significante verbetering ten opzichte van sterke basislijnen, wat de potentiële voordelen van decoder-only-modellen voor spraak-naar-tekstconversie benadrukt.
Het doel van programma-synthese, of codegeneratie, is het genereren van uitvoerbare code op basis van gegeven beschrijvingen. Recentelijk is er een toenemend aantal studies dat reinforcement learning (RL) gebruikt om de prestaties van grote taalmodellen (LLMs) voor code te verbeteren. Deze RL-methoden hebben echter alleen offline frameworks gebruikt, wat hun verkenning van nieuwe voorbeeldruimten beperkt. Bovendien zijn de huidige benaderingen die gebruikmaken van unit test-signalen vrij eenvoudig en houden ze geen rekening met specifieke foutlocaties binnen de code. Om deze problemen aan te pakken, hebben wij RLTF voorgesteld, oftewel Reinforcement Learning from Unit Test Feedback, een nieuw online RL-framework met unit test-feedback van meerdere granulariteiten voor het verfijnen van code-LLMs. Onze aanpak genereert gegevens in realtime tijdens de training en maakt tegelijkertijd gebruik van fijnmazige feedbacksignalen om het model te begeleiden bij het produceren van code van hogere kwaliteit. Uitgebreide experimenten tonen aan dat RLTF state-of-the-art prestaties behaalt op de APPS- en MBPP-benchmarks. Onze code is te vinden op: https://github.com/Zyq-scut/RLTF.
Consistentie en betrouwbaarheid zijn cruciaal voor het uitvoeren van AI-onderzoek. Veel bekende onderzoeksgebieden, zoals objectdetectie, zijn vergeleken en gevalideerd met solide benchmarkframeworks. Na AlphaFold2 is de eiwitvouwtaak een nieuwe fase ingegaan, en veel methoden zijn voorgesteld op basis van de componenten van AlphaFold2. Het belang van een uniform onderzoekskader voor eiwitvouwing omvat implementaties en benchmarks om verschillende benaderingen consistent en eerlijk te vergelijken. Om dit te bereiken, presenteren we Solvent, een eiwitvouwframework dat belangrijke componenten van state-of-the-art modellen ondersteunt in de vorm van een kant-en-klare interface. Solvent bevat verschillende modellen die zijn geïmplementeerd in een uniforme codebase en ondersteunt training en evaluatie voor gedefinieerde modellen op dezelfde dataset. We benchmarken bekende algoritmen en hun componenten en bieden experimenten die nuttige inzichten geven in het veld van eiwitstructuurmodellering. We hopen dat Solvent de betrouwbaarheid en consistentie van voorgestelde modellen zal vergroten en efficiëntie zal bieden in zowel snelheid als kosten, wat zal resulteren in een versnelling van het onderzoek naar eiwitvouwmodellering. De code is beschikbaar op https://github.com/kakaobrain/solvent, en het project zal verder worden ontwikkeld.
Internationale instellingen kunnen een belangrijke rol spelen bij het waarborgen dat geavanceerde AI-systemen de mensheid ten goede komen. Internationale samenwerkingen kunnen het vermogen van AI om duurzame ontwikkeling te bevorderen ontsluiten, en de coördinatie van regelgevende inspanningen kan belemmeringen voor innovatie en de verspreiding van voordelen verminderen. Omgekeerd creëren de potentieel gevaarlijke capaciteiten van krachtige en algemene AI-systemen mondiale externaliteiten in hun ontwikkeling en implementatie, en kunnen internationale inspanningen om verantwoorde AI-praktijken te bevorderen helpen de risico's die ze met zich meebrengen te beheersen. Dit artikel identificeert een reeks governancefuncties die op internationaal niveau kunnen worden uitgevoerd om deze uitdagingen aan te pakken, variërend van het ondersteunen van toegang tot frontier AI-systemen tot het vaststellen van internationale veiligheidsnormen. Het groepeert deze functies in vier institutionele modellen die interne synergieën vertonen en precedenten hebben in bestaande organisaties: 1) een Commissie voor Frontier AI die deskundige consensus faciliteert over kansen en risico's van geavanceerde AI, 2) een Geavanceerde AI Governance Organisatie die internationale normen vaststelt om mondiale bedreigingen van geavanceerde modellen te beheren, de implementatie ervan ondersteunt, en mogelijk de naleving van een toekomstig governance-regime monitort, 3) een Frontier AI Samenwerkingsverband dat toegang tot geavanceerde AI bevordert, en 4) een AI Veiligheidsproject dat toonaangevende onderzoekers en ingenieurs samenbrengt om AI-veiligheidsonderzoek te bevorderen. We onderzoeken het nut van deze modellen en identificeren open vragen over hun haalbaarheid.
Spraakherkenning is een steeds belangrijkere tekstinvoermodaliteit. Bestaande systemen die zowel dicteren als bewerken via spraak mogelijk maken, beperken hun commandotaal tot vaste sjablonen die worden geactiveerd door trefwoorden. In dit werk onderzoeken we de haalbaarheid van het toestaan dat gebruikers hun dictee onderbreken met gesproken bewerkingscommando's in open-eindige natuurlijke taal. We introduceren een nieuwe taak en dataset, TERTiUS, om te experimenteren met dergelijke systemen. Om deze flexibiliteit in realtime te ondersteunen, moet een systeem spraaksegmenten incrementeel segmenteren en classificeren als dictee of commando, en de segmenten die commando's zijn interpreteren. We experimenteren met het gebruik van grote vooraf getrainde taalmodelen om de bewerkte tekst te voorspellen, of alternatief, om een klein tekstbewerkingsprogramma te voorspellen. Experimenten tonen een natuurlijke afweging tussen modelnauwkeurigheid en latentie: een kleiner model behaalt 30% eindstaatnauwkeurigheid met 1,3 seconden latentie, terwijl een groter model 55% eindstaatnauwkeurigheid behaalt met 7 seconden latentie.
We stellen een systeem voor om objecten in een scène te herschikken om een gewenste object-scène plaatsingsrelatie te bereiken, zoals een boek dat in een open gleuf van een boekenkast wordt geplaatst. De pijplijn generaliseert naar nieuwe geometrieën, poses en lay-outs van zowel scènes als objecten, en wordt getraind op basis van demonstraties om direct op 3D-puntenwolken te werken. Ons systeem overwint uitdagingen die gepaard gaan met het bestaan van vele geometrisch vergelijkbare herschikkingsoplossingen voor een gegeven scène. Door gebruik te maken van een iteratieve pose-de-noising trainingsprocedure, kunnen we multi-modale demonstratiegegevens verwerken en multi-modale uitvoer produceren, terwijl we nauwkeurig en precies blijven. We tonen ook de voordelen van conditionering op relevante lokale geometrische kenmerken, terwijl irrelevante globale structuur die zowel generalisatie als precisie schaadt, wordt genegeerd. We demonstreren onze aanpak op drie verschillende herschikkingstaken die het omgaan met multi-modaliteit en generalisatie over objectvorm en pose vereisen, zowel in simulatie als in de echte wereld. Projectwebsite, code en video's: https://anthonysimeonov.github.io/rpdiff-multi-modal/
Visiegebaseerde teleoperatie biedt de mogelijkheid om robots te voorzien van menselijk niveau van intelligentie om fysiek te interageren met de omgeving, terwijl alleen goedkope camerasensoren nodig zijn. Huidige visiegebaseerde teleoperatiesystemen zijn echter ontworpen en ontwikkeld voor een specifiek robotmodel en inzetomgeving, wat slecht schaalt naarmate het aantal robotmodellen toeneemt en de verscheidenheid aan werkomgevingen groeit. In dit artikel stellen we AnyTeleop voor, een uniform en algemeen teleoperatiesysteem dat meerdere verschillende armen, handen, realiteiten en cameraconfiguraties ondersteunt binnen één systeem. Hoewel het systeem is ontworpen om grote flexibiliteit te bieden in de keuze van simulators en echte hardware, kan het nog steeds uitstekende prestaties leveren. Voor experimenten in de echte wereld kan AnyTeleop een eerder systeem dat specifiek is ontworpen voor een bepaalde robothardware overtreffen met een hoger slagingspercentage, met gebruik van dezelfde robot. Voor teleoperatie in simulatie leidt AnyTeleop tot betere imitatielerenprestaties in vergelijking met een eerder systeem dat specifiek is ontworpen voor die simulator. Projectpagina: http://anyteleop.com/.