Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Taalmodellen hoeven slechts een exponentiële fractie van hun neuronen te gebruiken voor individuele inferenties. Als bewijs presenteren we FastBERT, een BERT-variant die 0,3\% van zijn neuronen gebruikt tijdens inferentie, terwijl het presteert op hetzelfde niveau als vergelijkbare BERT-modellen. FastBERT activeert selectief slechts 12 van de 4095 neuronen voor elke laaginferentie. Dit wordt bereikt door feedforward-netwerken te vervangen door snelle feedforward-netwerken (FFFs). Hoewel er momenteel geen echt efficiënte implementatie bestaat om het volledige versnellingspotentieel van conditionele neurale uitvoering te ontsluiten, bieden we hoogwaardige CPU-code die een 78x versnelling bereikt ten opzichte van de geoptimaliseerde baseline feedforward-implementatie, en een PyTorch-implementatie die een 40x versnelling biedt ten opzichte van de equivalente batchgewijze feedforward-inferentie. We publiceren onze trainingscode, benchmarkopstelling en modelgewichten.
Orca 1 leert van rijke signalen, zoals uitlegtraces, waardoor het conventionele instructie-afgestemde modellen overtreft op benchmarks zoals BigBench Hard en AGIEval. In Orca 2 blijven we onderzoeken hoe verbeterde trainingssignalen de redeneervaardigheden van kleinere taalmodelen kunnen versterken. Onderzoek naar het trainen van kleine taalmodelen heeft vaak vertrouwd op imitatieleren om de output van krachtigere modellen te repliceren. Wij stellen dat een overmatige nadruk op imitatie het potentieel van kleinere modellen kan beperken. Wij streven ernaar om kleine taalmodelen te leren verschillende oplossingsstrategieën te gebruiken voor verschillende taken, mogelijk afwijkend van de strategie die door het grotere model wordt gebruikt. Terwijl grotere modellen bijvoorbeeld een direct antwoord kunnen geven op een complexe taak, hebben kleinere modellen mogelijk niet dezelfde capaciteit. In Orca 2 leren we het model diverse redeneertechnieken aan (stapsgewijs, eerst herinneren dan genereren, herinneren-redeneren-genereren, direct antwoord, enz.). Cruciaal is dat we het model willen helpen leren de meest effectieve oplossingsstrategie voor elke taak te bepalen. We evalueren Orca 2 met behulp van een uitgebreide set van 15 diverse benchmarks (overeenkomend met ongeveer 100 taken en meer dan 36.000 unieke prompts). Orca 2 overtreft aanzienlijk modellen van vergelijkbare grootte en bereikt prestatieniveaus die vergelijkbaar of beter zijn dan die van modellen die 5-10 keer groter zijn, zoals beoordeeld op complexe taken die geavanceerde redeneervaardigheden testen in zero-shot settings. We maken Orca 2 open source om verder onderzoek te stimuleren naar de ontwikkeling, evaluatie en afstemming van kleinere taalmodelen.
Het creëren van hoog-dynamische video's, zoals acties met veel beweging en geavanceerde visuele effecten, vormt een aanzienlijke uitdaging op het gebied van kunstmatige intelligentie. Helaas produceren de huidige state-of-the-art methoden voor videogeneratie, die zich voornamelijk richten op tekst-naar-video-generatie, vaak videoclips met minimale bewegingen, ondanks het behoud van een hoge kwaliteit. Wij stellen dat het uitsluitend vertrouwen op tekstinstructies ontoereikend en suboptimaal is voor videogeneratie. In dit artikel introduceren we PixelDance, een nieuwe aanpak gebaseerd op diffusiemodellen die beeldinstructies voor zowel het eerste als het laatste frame combineert met tekstinstructies voor videogeneratie. Uitgebreide experimentele resultaten tonen aan dat PixelDance, getraind met openbare data, aanzienlijk beter presteert in het synthetiseren van video's met complexe scènes en ingewikkelde bewegingen, waardoor een nieuwe standaard wordt gezet voor videogeneratie.
Soft attention in Transformer-gebaseerde Large Language Models (LLMs) is gevoelig voor het opnemen van irrelevante informatie uit de context in zijn latente representaties, wat een negatieve invloed heeft op de generatie van volgende tokens. Om deze problemen te verhelpen, introduceren we System 2 Attention (S2A), dat gebruikmaakt van het vermogen van LLMs om in natuurlijke taal te redeneren en instructies op te volgen om te bepalen waarop aandacht moet worden gericht. S2A regenereert de invoercontext om alleen de relevante delen te bevatten, voordat het aandacht besteedt aan de geregenereerde context om het uiteindelijke antwoord te genereren. In experimenten presteert S2A beter dan standaard attention-gebaseerde LLMs bij drie taken die meningen of irrelevante informatie bevatten, zoals vraag-antwoord, wiskundige woordproblemen en langere tekstgeneratie, waarbij S2A de feitelijkheid en objectiviteit verhoogt en sycophantie vermindert.
LoRA bereikt opmerkelijke resource-efficiëntie en vergelijkbare prestaties bij het aanpassen van LLM's voor specifieke taken. Sinds ChatGPT superieure prestaties heeft laten zien op diverse taken, is er een groeiende behoefte ontstaan om één model voor alle taken aan te passen. Echter beperkt de expliciete lage rang van LoRA de aanpassingsprestaties in complexe multi-task scenario's. LoRA wordt gedomineerd door een klein aantal top singuliere vectoren, terwijl fine-tuning uiteenvalt in een reeks minder belangrijke unitaire transformaties. In dit artikel stellen we MultiLoRA voor voor betere multi-task aanpassing door de dominantie van top singuliere vectoren die in LoRA worden waargenomen te verminderen. MultiLoRA schaalt LoRA-modules horizontaal en verandert de parameterinitialisatie van aanpassingsmatrices om parameterafhankelijkheid te verminderen, wat resulteert in meer gebalanceerde unitaire deelruimtes. We construeren op ongekende wijze gespecialiseerde trainingsdata door datasets van instructieopvolging, natuurlijke taalbegrip en wereldkennis te mengen, om semantisch en syntactisch verschillende samples te dekken. Met slechts 2,5% extra parameters presteert MultiLoRA beter dan enkele LoRA-tegenhangers en fine-tuning op meerdere benchmarks en modelschalen. Verder onderzoek naar de gewichtsupdate-matrices van MultiLoRA toont een verminderde afhankelijkheid van top singuliere vectoren en meer democratische bijdragen van unitaire transformaties.
We presenteren GPQA, een uitdagende dataset van 448 meerkeuzevragen, opgesteld door domeinexperts in biologie, natuurkunde en scheikunde. We zorgen ervoor dat de vragen van hoge kwaliteit en extreem moeilijk zijn: experts die een PhD hebben of nastreven in de betreffende domeinen behalen een nauwkeurigheid van 65% (74% wanneer duidelijke fouten die de experts achteraf identificeerden buiten beschouwing worden gelaten), terwijl zeer vaardige niet-expert validatoren slechts een nauwkeurigheid van 34% bereiken, ondanks dat ze gemiddeld meer dan 30 minuten onbeperkt toegang tot het web hadden (d.w.z. de vragen zijn "Google-proof"). De vragen zijn ook moeilijk voor state-of-the-art AI-systemen, waarbij onze sterkste GPT-4-baseline een nauwkeurigheid van 39% behaalt. Als we toekomstige AI-systemen willen gebruiken om ons te helpen bij het beantwoorden van zeer moeilijke vragen, bijvoorbeeld bij het ontwikkelen van nieuwe wetenschappelijke kennis, moeten we schaalbare toezichtmethoden ontwikkelen die mensen in staat stellen hun uitvoer te controleren, wat zelfs moeilijk kan zijn als de supervisors zelf vaardig en deskundig zijn. De moeilijkheidsgraad van GPQA, zowel voor vaardige niet-experts als voor geavanceerde AI-systemen, zou realistische schaalbare toezichtexperimenten mogelijk moeten maken, waarvan we hopen dat ze manieren kunnen bedenken waarop menselijke experts betrouwbaar waarheidsgetrouwe informatie kunnen verkrijgen van AI-systemen die menselijke capaciteiten overstijgen.
We introduceren Adapters, een open-source bibliotheek die parameter-efficiënte en modulaire transfer learning in grote taalmodellen verenigt. Door 10 diverse adaptermethoden te integreren in een uniforme interface, biedt Adapters gebruiksgemak en flexibele configuratie. Onze bibliotheek stelt onderzoekers en praktijkmensen in staat om de modulariteit van adapters te benutten via compositieblokken, waardoor het ontwerpen van complexe adapteropstellingen mogelijk wordt. We demonstreren de effectiviteit van de bibliotheek door de prestaties ervan te evalueren tegenover volledige fine-tuning op diverse NLP-taken. Adapters biedt een krachtig hulpmiddel om de uitdagingen van conventionele fine-tuning paradigma's aan te pakken en efficiënter en modulairder transfer learning te bevorderen. De bibliotheek is beschikbaar via https://adapterhub.ml/adapters.
We introduceren Style Tailoring, een methode om Latent Diffusion Models (LDMs) af te stemmen op een specifiek domein met hoge visuele kwaliteit, promptuitlijning en scènediversiteit. We kiezen voor het genereren van stickerafbeeldingen als het doelgebied, aangezien deze afbeeldingen aanzienlijk verschillen van fotorealistische voorbeelden die doorgaans worden gegenereerd door grootschalige LDMs. We beginnen met een competent tekst-naar-beeldmodel, zoals Emu, en laten zien dat het vertrouwen op promptengineering met een fotorealistisch model om stickers te genereren leidt tot slechte promptuitlijning en scènediversiteit. Om deze nadelen te overwinnen, stemmen we eerst Emu af op miljoenen stickerachtige afbeeldingen die zijn verzameld met behulp van zwakke supervisie om diversiteit te bevorderen. Vervolgens stellen we mens-in-de-lus (HITL) Uitlijnings- en Stijldatasets samen uit modelgeneraties, en stemmen we af om respectievelijk promptuitlijning en stijluitlijning te verbeteren. Sequentieel afstemmen op deze datasets brengt een afweging met zich mee tussen betere stijluitlijning en winst in promptuitlijning. Om deze afweging aan te pakken, stellen we een nieuwe afstemmingsmethode voor genaamd Style Tailoring, die gezamenlijk de inhouds- en stijldistributie aanpast en de beste afweging bereikt. Evaluatieresultaten tonen aan dat onze methode de visuele kwaliteit met 14% verbetert, de promptuitlijning met 16,2% en de scènediversiteit met 15,3%, vergeleken met promptengineering van het basis Emu-model voor stickergeneratie.
De recente vooruitgang in tekst-naar-3D-generatie markeert een belangrijke mijlpaal in generatieve modellen, wat nieuwe mogelijkheden opent voor het creëren van fantasierijke 3D-assets in diverse real-world scenario's. Hoewel recente ontwikkelingen in tekst-naar-3D-generatie veelbelovend zijn, schieten ze vaak tekort in het renderen van gedetailleerde en hoogwaardige 3D-modellen. Dit probleem is vooral prominent omdat veel methoden zich baseren op Score Distillation Sampling (SDS). Dit artikel identificeert een opvallend tekort in SDS, namelijk dat het inconsistente en laagwaardige update-richtingen voor het 3D-model oplevert, wat leidt tot een overmatig gladmakend effect. Om dit aan te pakken, stellen we een nieuwe benadering voor genaamd Interval Score Matching (ISM). ISM maakt gebruik van deterministische diffusietrajecten en past intervalgebaseerde score matching toe om het overmatig gladmaken tegen te gaan. Bovendien integreren we 3D Gaussian Splatting in onze tekst-naar-3D-generatiepipeline. Uitgebreide experimenten tonen aan dat ons model de state-of-the-art aanzienlijk overtreft in kwaliteit en trainings efficiëntie.
Het opschalen van het aantal parameters van taalmodelen heeft zich bewezen als een effectieve aanpak om de prestaties te verbeteren. Voor dense modellen leidt een toename in modelgrootte proportioneel tot een grotere rekenkundige belasting. In dit werk streven we ernaar om de leer capaciteit en het aantal FLOPs drastisch te ontkoppelen door middel van Mixture-of-Experts (MoE) modellen met routeringsfuncties en experts die gebaseerd zijn op een grote, kennisrijke woordenschat. Onze voorgestelde aanpak, genaamd Mixture of Word Experts (MoWE), kan worden gezien als een geheugen-augmented model, waarbij een grote set van woord-specifieke experts de rol vervullen van een spaarzaam geheugen. We tonen aan dat MoWE aanzienlijk beter presteert dan de T5-familie van modellen met een vergelijkbaar aantal FLOPs in diverse NLP-taken. Daarnaast presteert MoWE beter dan reguliere MoE-modellen bij kennisintensieve taken en heeft het vergelijkbare prestaties als complexere geheugen-augmented benaderingen die vaak het gebruik van aangepaste mechanismen vereisen om het spaarzame geheugen te doorzoeken.
Storyvisualisatie heeft als doel een reeks afbeeldingen te genereren die overeenkomen met het verhaal dat in teksten wordt beschreven, waarbij de gegenereerde afbeeldingen van hoge kwaliteit moeten zijn, moeten aansluiten bij de tekstbeschrijving en consistent moeten zijn in de identiteit van personages. Gezien de complexiteit van storyvisualisatie vereenvoudigen bestaande methoden het probleem drastisch door slechts een paar specifieke personages en scenario's te overwegen, of door gebruikers te vragen om per afbeelding controlecondities te verstrekken, zoals schetsen. Deze vereenvoudigingen maken deze methoden echter ongeschikt voor echte toepassingen. Daarom stellen we een geautomatiseerd storyvisualisatiesysteem voor dat effectief diverse, hoogwaardige en consistente sets van verhaalafbeeldingen kan genereren, met minimale menselijke interactie. Specifiek maken we gebruik van het begrip en de planningscapaciteiten van grote taalmodellen voor lay-outplanning, en benutten we grootschalige tekst-naar-afbeeldingmodellen om verfijnde verhaalafbeeldingen te genereren op basis van de lay-out. Empirisch hebben we vastgesteld dat spaarzame controlecondities, zoals begrenzingsvakken, geschikt zijn voor lay-outplanning, terwijl dichte controlecondities, zoals schetsen en keypoints, geschikt zijn voor het genereren van hoogwaardige afbeeldingsinhoud. Om het beste van beide werelden te verkrijgen, hebben we een module voor het genereren van dichte condities ontwikkeld die eenvoudige lay-outs van begrenzingsvakken omzet in schets- of keypointcontrolecondities voor de uiteindelijke afbeeldingsgeneratie, wat niet alleen de beeldkwaliteit verbetert, maar ook gemakkelijke en intuïtieve gebruikersinteracties mogelijk maakt. Daarnaast stellen we een eenvoudige maar effectieve methode voor om multi-view consistente personageafbeeldingen te genereren, waardoor de afhankelijkheid van menselijke arbeid om personageafbeeldingen te verzamelen of te tekenen wordt geëlimineerd.
Van oude waterraderen tot robotprocesautomatisering (RPA), automatiseringstechnologie heeft zich door de geschiedenis heen ontwikkeld om mensen te bevrijden van zware taken. Toch heeft RPA moeite met taken die mensachtige intelligentie vereisen, vooral bij het uitgebreide ontwerp van workflowconstructie en dynamische besluitvorming tijdens de uitvoering van workflows. Nu Large Language Models (LLMs) mensachtige intelligentie hebben ontwikkeld, introduceert dit artikel Agentic Process Automation (APA), een baanbrekend automatiseringsparadigma dat gebruikmaakt van LLM-gebaseerde agents voor geavanceerde automatisering door menselijke arbeid over te hevelen naar agents die zijn gekoppeld aan constructie en uitvoering. Vervolgens concretiseren we ProAgent, een LLM-gebaseerde agent die is ontworpen om workflows te creëren op basis van menselijke instructies en complexe beslissingen te nemen door gespecialiseerde agents te coördineren. Empirische experimenten worden uitgevoerd om de constructie en uitvoeringsprocedure van workflows in detail te beschrijven, wat de haalbaarheid van APA aantoont en de mogelijkheid onthult van een nieuw automatiseringsparadigma dat wordt aangedreven door agents. Onze code is openbaar beschikbaar op https://github.com/OpenBMB/ProAgent.
Grote Taalmodellen (LLMs) hebben hun vaardigheid aangetoond in het aanpakken van taken die een combinatie vereisen van taakplanning en het gebruik van externe tools, zoals API's. Echter, complexe systemen in de praktijk brengen drie veelvoorkomende uitdagingen met zich mee op het gebied van taakplanning en toolgebruik: (1) Het echte systeem heeft meestal een groot aantal API's, waardoor het onmogelijk is om de beschrijvingen van alle API's in de prompt van LLMs te voeren, aangezien de tokenlengte beperkt is; (2) het echte systeem is ontworpen voor het afhandelen van complexe taken, en de basis-LLMs kunnen nauwelijks een correcte volgorde van subtaken en API-aanroepen plannen voor dergelijke taken; (3) Gelijksoortige semantiek en functionaliteiten tussen API's in echte systemen creëren uitdagingen voor zowel LLMs als zelfs mensen om ze van elkaar te onderscheiden. Als reactie hierop introduceert dit artikel een uitgebreid raamwerk dat gericht is op het verbeteren van de Taakplanning en Toolgebruik (TPTU) vaardigheden van LLM-gebaseerde agents die opereren binnen echte systemen. Ons raamwerk bestaat uit drie belangrijke componenten die ontworpen zijn om deze uitdagingen aan te pakken: (1) de API Retriever selecteert de meest relevante API's voor de gebruikers taak uit de uitgebreide beschikbare reeks; (2) de LLM Finetuner stemt een basis-LLM af zodat de afgestemde LLM beter in staat is voor taakplanning en API-aanroepen; (3) de Demo Selector haalt adaptief verschillende demonstraties op die gerelateerd zijn aan moeilijk te onderscheiden API's, wat verder gebruikt wordt voor in-context leren om de uiteindelijke prestaties te verbeteren. We valideren onze methoden met behulp van een commercieel systeem uit de praktijk en een open-source academische dataset, en de resultaten tonen duidelijk de effectiviteit aan van elk individueel component evenals het geïntegreerde raamwerk.
Het huidige onderzoekslandschap dat gebruikmaakt van grote taalmodellen (LLM's) ervaart een sterke groei. Veel onderzoeken benutten de krachtige redeneervaardigheden van deze modellen om verschillende modaliteiten te begrijpen, zoals tekst, spraak, afbeeldingen, video's, enzovoort. Ze gebruiken LLM's ook om menselijke intentie te begrijpen en gewenste uitvoer te genereren, zoals afbeeldingen, video's en muziek. Onderzoek dat zowel begrip als generatie combineert met behulp van LLM's is echter nog beperkt en in een vroeg stadium. Om deze kloof te overbruggen, introduceren we een Multi-modale Muziekbegrip en Generatie (M^{2}UGen) framework dat de mogelijkheden van LLM's integreert om muziek te begrijpen en te genereren voor verschillende modaliteiten. Het M^{2}UGen framework is specifiek ontworpen om creatief potentieel te ontsluiten vanuit diverse inspiratiebronnen, waaronder muziek, afbeeldingen en video's, door gebruik te maken van vooraf getrainde MERT, ViT en ViViT modellen. Om muziekgeneratie mogelijk te maken, onderzoeken we het gebruik van AudioLDM 2 en MusicGen. De koppeling tussen multi-modale begrip en muziekgeneratie wordt gerealiseerd door de integratie van het LLaMA 2 model. Bovendien maken we gebruik van het MU-LLaMA model om uitgebreide datasets te genereren die tekst/afbeelding/video-naar-muziek generatie ondersteunen, wat de training van ons M^{2}UGen framework vergemakkelijkt. We voeren een grondige evaluatie uit van ons voorgestelde framework. De experimentele resultaten tonen aan dat ons model de prestaties van de huidige state-of-the-art modellen bereikt of overtreft.
We introduceren een pijplijn die een algemeen Vision Language Model, GPT-4V(ision), versterkt door observaties van menselijke handelingen te integreren om robotmanipulatie te vergemakkelijken. Dit systeem analyseert video's van mensen die taken uitvoeren en creëert uitvoerbare robotprogramma's die inzichten in affordances incorporeren. De berekening begint met het analyseren van de video's met GPT-4V om omgevings- en actiedetails om te zetten in tekst, gevolgd door een taakplanner die wordt aangedreven door GPT-4. In de daaropvolgende analyses heranalyseren visiesystemen de video met het taakplan. Objectnamen worden verankerd met behulp van een open-vocabulary objectdetector, terwijl de focus op de hand-objectrelatie helpt om het moment van grijpen en loslaten te detecteren. Deze spatiotemporele verankering stelt de visiesystemen in staat om verder affordancegegevens te verzamelen (bijvoorbeeld grijptype, wegpunten en lichaamshoudingen). Experimenten in verschillende scenario's demonstreren de effectiviteit van deze methode om operaties van echte robots te realiseren vanuit menselijke demonstraties op een zero-shot manier. De prompts van GPT-4V/GPT-4 zijn beschikbaar op deze projectpagina: https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/