Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren SELF-DISCOVER, een algemeen raamwerk waarmee LLMs zelf de taakintrinsieke redeneerstructuren kunnen ontdekken om complexe redeneerproblemen aan te pakken die uitdagend zijn voor typische prompting-methoden. Kern van het raamwerk is een zelfontdekkingsproces waarbij LLMs meerdere atomische redeneermodules selecteren, zoals kritisch denken en stap-voor-stap denken, en deze samenstellen tot een expliciete redeneerstructuur die LLMs kunnen volgen tijdens het decoderen. SELF-DISCOVER verbetert de prestaties van GPT-4 en PaLM 2 aanzienlijk op uitdagende redeneerbenchmarks zoals BigBench-Hard, grounded agent reasoning en MATH, met wel 32% in vergelijking met Chain of Thought (CoT). Bovendien presteert SELF-DISCOVER meer dan 20% beter dan inference-intensieve methoden zoals CoT-Self-Consistency, terwijl het 10-40x minder inference-rekenkracht vereist. Tot slot tonen we aan dat de zelfontdekte redeneerstructuren universeel toepasbaar zijn over verschillende modelfamilies: van PaLM 2-L tot GPT-4, en van GPT-4 tot Llama2, en dat ze overeenkomsten vertonen met menselijke redeneerpatronen.
Voorgetrainde grote taalmodellen (LLMs) vertonen uitzonderlijke algemene taalverwerkingscapaciteiten, maar stellen aanzienlijke eisen aan geheugen en rekenkracht. Als krachtige compressietechniek kan binarisatie modelgewichten extreem reduceren tot slechts 1 bit, waardoor de dure reken- en geheugenvereisten worden verlaagd. Bestaande kwantiseringsmethoden slagen er echter niet in om de prestaties van LLMs te behouden bij ultra-lage bitbreedtes. Als antwoord op deze uitdaging presenteren we BiLLM, een baanbrekend 1-bit post-trainingskwantiseringsschema speciaal ontworpen voor voorgetrainde LLMs. Op basis van de gewichtsverdeling van LLMs identificeert en selecteert BiLLM eerst structureel belangrijke gewichten en minimaliseert het compressieverlies via een effectieve binaire restbenaderingsstrategie. Bovendien stellen we, gezien de klokvormige verdeling van de niet-belangrijke gewichten, een optimale splitsingszoekmethode voor om deze nauwkeurig te groeperen en te binariseren. BiLLM bereikt voor het eerst hoogwaardige inferentie (bijv. 8,41 perplexiteit op LLaMA2-70B) met slechts 1,08-bit gewichten over verschillende LLM-families en evaluatiemetrics, en overtreft state-of-the-art kwantiseringsmethoden voor LLMs aanzienlijk. Bovendien maakt BiLLM het binarisatieproces van een LLM met 7 miljard gewichten mogelijk binnen 0,5 uur op een enkele GPU, wat een bevredigende tijdefficiëntie aantoont.
State-space modellen (SSM's), zoals Mamba Gu & Dao (2034), zijn voorgesteld als alternatieven voor Transformer-netwerken in taalmodellering, door het incorporeren van gating, convoluties en invoerafhankelijke tokenselectie om de kwadratische kosten van multi-head attention te verminderen. Hoewel SSM's competitieve prestaties vertonen, blijven hun in-context learning (ICL)-mogelijkheden, een opmerkelijke emergente eigenschap van moderne taalmodellen die taakuitvoering zonder parameteroptimalisatie mogelijk maakt, onderbelicht in vergelijking met Transformers. In deze studie evalueren we de ICL-prestaties van SSM's, met de focus op Mamba, tegenover Transformer-modellen in verschillende taken. Onze resultaten laten zien dat SSM's vergelijkbaar presteren met Transformers in standaard ICL-regressietaken, terwijl ze hen overtreffen in taken zoals sparse parity learning. SSM's presteren echter minder goed in taken die niet-standaard retrieval-functionaliteit vereisen. Om deze beperkingen aan te pakken, introduceren we een hybride model, \variant, dat Mamba combineert met attention-blokken, en dat individuele modellen overtreft in taken waarin ze afzonderlijk tekortschieten. Onze bevindingen suggereren dat hybride architecturen veelbelovende mogelijkheden bieden om ICL in taalmodellen te verbeteren.
Het opschalen van contrastief taal-beeld vooraf trainen (CLIP) is cruciaal voor het versterken van zowel visuele als multimodale modellen. Wij presenteren EVA-CLIP-18B, het grootste en krachtigste open-source CLIP-model tot nu toe, met 18 miljard parameters. Met slechts 6 miljard trainingsvoorbeelden behaalt EVA-CLIP-18B een uitzonderlijke zero-shot top-1 nauwkeurigheid van 80,7% gemiddeld over 27 veelgebruikte beeldclassificatiebenchmarks, wat zijn voorganger EVA-CLIP (5 miljard parameters) en andere open-source CLIP-modellen met een grote marge overtreft. Opmerkelijk is dat we een consistente prestatieverbetering waarnemen bij het opschalen van de modelgrootte van EVA-CLIP, ondanks het behouden van een constante trainingsdataset van 2 miljard beeld-tekstparen uit LAION-2B en COYO-700M. Deze dataset is openbaar beschikbaar en aanzienlijk kleiner dan de interne datasets (bijv. DFN-5B, WebLI-10B) die worden gebruikt in andere state-of-the-art CLIP-modellen. EVA-CLIP-18B toont het potentieel van EVA-stijl zwak-naar-sterk visueel modelopschalen. Met onze modelgewichten die openbaar beschikbaar zijn gemaakt, hopen we toekomstig onderzoek in visuele en multimodale foundation-modellen te faciliteren.
Image-to-video (I2V)-generatie heeft als doel om met behulp van het eerste frame (samen met een tekstprompt) een videosequentie te creëren. Een grote uitdaging bij I2V-generatie is het behouden van visuele consistentie gedurende de hele video: bestaande methoden hebben vaak moeite om de integriteit van het onderwerp, de achtergrond en de stijl van het eerste frame te behouden, evenals om een vloeiende en logische voortgang binnen het videonarratief te waarborgen. Om deze problemen te verlichten, stellen we ConsistI2V voor, een op diffusie gebaseerde methode om de visuele consistentie voor I2V-generatie te verbeteren. Specifiek introduceren we (1) spatiotemporele aandacht voor het eerste frame om ruimtelijke en bewegingsconsistentie te behouden, en (2) ruisinitialisatie vanuit het laagfrequente band van het eerste frame om lay-outconsistentie te verbeteren. Deze twee benaderingen stellen ConsistI2V in staat om zeer consistente video's te genereren. We breiden de voorgestelde benaderingen ook uit om hun potentieel te laten zien voor het verbeteren van consistentie bij autoregressieve lange videogeneratie en camerabewegingscontrole. Om de effectiviteit van onze methode te verifiëren, stellen we I2V-Bench voor, een uitgebreide evaluatiebenchmark voor I2V-generatie. Onze automatische en menselijke evaluatieresultaten tonen de superioriteit van ConsistI2V aan ten opzichte van bestaande methoden.
Schaalwetten bieden belangrijke inzichten die kunnen helpen bij het ontwerp van grote taalmodelen (LLM's). Bestaand onderzoek heeft zich voornamelijk gericht op het bestuderen van schaalwetten voor de verliesfunctie tijdens het vooraf trainen (upstream). Echter, in transfer learning situaties, waarbij LLM's eerst getraind worden op een onbewaakte dataset en vervolgens afgestemd worden op een downstream taak, is de downstream prestaties vaak ook van belang. In dit werk bestuderen we het schaalgedrag in een transfer learning setting, waarbij LLM's worden afgestemd voor machinevertaaltaken. Specifiek onderzoeken we hoe de keuze van de vooraf trainingsdata en de omvang daarvan de downstream prestaties (vertaalkwaliteit) beïnvloeden, zoals beoordeeld door twee metrieken: downstream kruis-entropie en BLEU-score. Onze experimenten tonen aan dat de omvang van de afstemdataset en de distributie-afstemming tussen de vooraf trainingsdata en de downstream data een significante invloed hebben op het schaalgedrag. Bij voldoende afstemming verbeteren zowel de downstream kruis-entropie als de BLEU-score monotoon met meer vooraf trainingsdata. In dergelijke gevallen laten we zien dat het mogelijk is om de downstream BLEU-score met goede nauwkeurigheid te voorspellen met behulp van een log-wet. Er zijn echter ook gevallen waarin een matige misafstemming ervoor zorgt dat de BLEU-score fluctueert of verslechtert met meer vooraf training, terwijl de downstream kruis-entropie monotoon verbetert. Door deze observaties te analyseren, bieden we nieuwe praktische inzichten voor het kiezen van geschikte vooraf trainingsdata.
We stellen MusicRL voor, het eerste muziekgeneratiesysteem dat is afgestemd op basis van menselijke feedback. De waardering van tekst-naar-muziekmodellen is bijzonder subjectief, aangezien het concept van muzikaliteit evenals de specifieke intentie achter een beschrijving gebruikersafhankelijk zijn (bijvoorbeeld een beschrijving zoals "opzwepende workoutmuziek" kan verwijzen naar een retro gitaarsolo of een techno popbeat). Dit maakt niet alleen het begeleid trainen van dergelijke modellen uitdagend, maar benadrukt ook de noodzaak om continue menselijke feedback te integreren in hun afstemming na implementatie. MusicRL is een vooraf getraind autoregressief MusicLM-model (Agostinelli et al., 2023) van discrete audiokens, afgestemd met reinforcement learning om sequentieniveau beloningen te maximaliseren. We ontwerpen beloningsfuncties die specifiek gericht zijn op tekstgetrouwheid en audiokwaliteit met behulp van geselecteerde beoordelaars, en gebruiken deze om MusicLM af te stemmen tot MusicRL-R. We implementeren MusicLM bij gebruikers en verzamelen een omvangrijke dataset bestaande uit 300.000 paarsgewijze voorkeuren. Met Reinforcement Learning from Human Feedback (RLHF) trainen we MusicRL-U, het eerste tekst-naar-muziekmodel dat menselijke feedback op grote schaal integreert. Menselijke evaluaties tonen aan dat zowel MusicRL-R als MusicRL-U de voorkeur genieten boven de baseline. Uiteindelijk combineert MusicRL-RU de twee benaderingen en resulteert in het beste model volgens menselijke beoordelaars. Ablatiestudies werpen licht op de muzikale attributen die menselijke voorkeuren beïnvloeden, wat aangeeft dat tekstgetrouwheid en kwaliteit slechts een deel ervan verklaren. Dit onderstreept de overheersende subjectiviteit in muzikale waardering en benadrukt de noodzaak voor verdere betrokkenheid van menselijke luisteraars bij het afstemmen van muziekgeneratiemodellen.
Recente ontwikkelingen in grote taalmodellen hebben interesse gewekt in hun buitengewone en bijna bovenmenselijke capaciteiten, wat onderzoekers heeft aangezet om methoden te verkennen voor het evalueren en optimaliseren van deze vaardigheden, een proces dat superalignment wordt genoemd. In deze context duikt ons artikel in het domein van visuele foundationmodellen, met een focus op het concept van zwak-naar-sterk generalisatie, waarbij een zwakker model wordt gebruikt om een sterker model te begeleiden, met als doel de capaciteiten van het sterkere model te verbeteren voorbij de grenzen van het zwakkere model. We introduceren een nieuwe en adaptief instelbare verliesfunctie voor zwak-naar-sterk begeleiding. Onze uitgebreide experimenten beslaan verschillende scenario's, waaronder few-shot leren, transfer leren, leren met ruisige labels en gebruikelijke kennisdistillatie-instellingen. De resultaten zijn opvallend: onze aanpak overtreft niet alleen de prestatienormen die zijn gesteld door sterk-naar-sterk generalisatie, maar overstijgt ook de resultaten van het finetunen van sterke modellen met volledige datasets. Dit overtuigende bewijs onderstreept het aanzienlijke potentieel van zwak-naar-sterk generalisatie, en toont aan dat het in staat is om de prestaties van visuele foundationmodellen aanzienlijk te verhogen. De code is beschikbaar op https://github.com/ggjy/vision_weak_to_strong.
We introduceren MobileVLM V2, een familie van aanzienlijk verbeterde vision-language-modellen gebaseerd op MobileVLM, wat aantoont dat een zorgvuldige afstemming van nieuw architectonisch ontwerp, een verbeterd trainingsschema specifiek voor mobiele VLMs, en een rijke, hoogwaardige datasetcuratie de prestaties van VLMs aanzienlijk kunnen verbeteren. Specifiek behaalt MobileVLM V2 1.7B betere of vergelijkbare prestaties op standaard VLM-benchmarks in vergelijking met veel grotere VLMs op de 3B-schaal. Opmerkelijk is dat ons 3B-model een grote verscheidenheid aan VLMs op de 7B+ schaal overtreft. Onze modellen zullen worden vrijgegeven op https://github.com/Meituan-AutoML/MobileVLM.
CodeCompose is een AI-ondersteund hulpmiddel voor het schrijven van code, aangedreven door grote taalmodellen (LLMs), dat inline suggesties biedt aan tienduizenden ontwikkelaars bij Meta. In dit artikel presenteren we hoe we het product hebben opgeschaald van het tonen van suggesties voor één regel naar suggesties voor meerdere regels. Deze evolutie vereiste dat we verschillende unieke uitdagingen overwonnen om de bruikbaarheid van deze suggesties voor ontwikkelaars te verbeteren. Ten eerste bespreken we hoe suggesties voor meerdere regels een 'schokkend' effect kunnen hebben, omdat de suggesties van het LLM constant de bestaande code van de ontwikkelaar verplaatsen, wat anders zou leiden tot verminderde productiviteit en tevredenheid. Ten tweede kost het genereren van suggesties voor meerdere regels aanzienlijk meer tijd; daarom presenteren we verschillende innovatieve investeringen die we hebben gedaan om de waargenomen latentie voor gebruikers te verminderen. Deze optimalisaties voor het hosten van modellen hebben de latentie van suggesties voor meerdere regels met 2,5x versneld. Tot slot voeren we experimenten uit bij tienduizenden ingenieurs om te begrijpen hoe suggesties voor meerdere regels de gebruikerservaring beïnvloeden en vergelijken we dit met suggesties voor één regel. Onze experimenten onthullen dat (i) suggesties voor meerdere regels 42% van de totale geaccepteerde karakters uitmaken (ondanks dat ze slechts 16% van de getoonde suggesties vertegenwoordigen) en (ii) suggesties voor meerdere regels het percentage bespaarde toetsaanslagen bijna verdubbelden van 9% naar 17%. CodeCompose met suggesties voor meerdere regels is uitgerold naar alle ingenieurs bij Meta, en minder dan 1% van de ingenieurs heeft zich afgemeld voor suggesties voor meerdere regels.
Voor gezichtsbewegingscapture en -analyse zijn de dominante oplossingen over het algemeen gebaseerd op visuele signalen, die de privacy niet kunnen beschermen en gevoelig zijn voor occlusies. Inertial measurement units (IMU's) bieden een mogelijke uitkomst, maar worden voornamelijk gebruikt voor volledige lichaamsbewegingscapture. In dit artikel stellen we IMUSIC voor om deze leemte op te vullen, een nieuwe aanpak voor het vastleggen van gezichtsuitdrukkingen met uitsluitend IMU-signalen, wat een aanzienlijke afstand neemt tot eerdere visuele oplossingen. De kern van ons IMUSIC-ontwerp bestaat uit een trilogie. Eerst ontwerpen we micro-IMU's die geschikt zijn voor gezichtscapture, vergezeld van een anatomie-gestuurd IMU-placeringsschema. Vervolgens dragen we bij met een nieuw IMU-ARKit-dataset, die rijke gepaarde IMU/visuele signalen biedt voor diverse gezichtsuitdrukkingen en prestaties. Deze unieke multimodaliteit biedt enorm veel potentieel voor toekomstige richtingen, zoals IMU-gebaseerde analyse van gezichtsgedrag. Bovendien introduceren we, gebruikmakend van IMU-ARKit, een sterke baseline-aanpak om gezichts-blendshape-parameters nauwkeurig te voorspellen uit uitsluitend IMU-signalen. Specifiek passen we een Transformer-diffusiemodel aan met een tweefasen-trainingsstrategie voor deze nieuwe trackingtaak. Het IMUSIC-framework stelt ons in staat om nauwkeurige gezichtscapture uit te voeren in scenario's waar visuele methoden falen en tegelijkertijd de privacy van gebruikers te waarborgen. We voeren uitgebreide experimenten uit over zowel de IMU-configuratie als de technische componenten om de effectiviteit van onze IMUSIC-aanpak te valideren. Opmerkelijk is dat IMUSIC diverse potentiële en nieuwe toepassingen mogelijk maakt, zoals privacybeschermende gezichtscapture, hybride capture tegen occlusies, of het detecteren van minuscule gezichtsbewegingen die vaak onzichtbaar zijn via visuele signalen. We zullen onze dataset en implementaties vrijgeven om meer mogelijkheden voor gezichtscapture en -analyse in onze gemeenschap te verrijken.
Vision-Language Models (VLMs) hebben hun brede toepasbaarheid aangetoond dankzij uitgebreide training in het afstemmen van visuele instructies op antwoorden. Deze definitieve afstemming leidt er echter toe dat modellen kritisch visueel redeneren negeren, wat resulteert in fouten bij nauwkeurige visuele problemen en onbetrouwbare reacties. In dit artikel stellen we Chain of Manipulations voor, een mechanisme dat VLMs in staat stelt problemen op te lossen met een reeks manipulaties, waarbij elke manipulatie verwijst naar een bewerking op de visuele input, hetzij vanuit intrinsieke vaardigheden (bijv. gronding) verworven door eerdere training, hetzij door het imiteren van menselijk gedrag (bijv. inzoomen). Dit mechanisme moedigt VLMs aan om betrouwbare reacties te genereren met bewijsbaar visueel redeneren, en stelt gebruikers in staat om foutoorzaken te traceren in de interpreteerbare paden. We trainen daarom CogCoM, een algemene 17B VLM met een geheugen-gebaseerde compatibele architectuur die is uitgerust met dit redeneermechanisme. Experimenten tonen aan dat ons model state-of-the-art prestaties behaalt op 8 benchmarks uit 3 categorieën, en dat een beperkt aantal trainingsstappen met de data snel een competitieve prestatie oplevert. De code en data zijn publiekelijk beschikbaar op https://github.com/THUDM/CogCoM.
We introduceren EscherNet, een multi-view conditioned diffusiemodel voor viewsynthese. EscherNet leert impliciete en generatieve 3D-representaties, gekoppeld aan een gespecialiseerde camera positionele codering, waardoor precieze en continue relatieve controle van de cameratransformatie tussen een willekeurig aantal referentie- en doelbeelden mogelijk is. EscherNet biedt uitzonderlijke algemeenheid, flexibiliteit en schaalbaarheid in viewsynthese – het kan meer dan 100 consistente doelbeelden tegelijkertijd genereren op een enkele consumenten-GPU, ondanks dat het is getraind met een vast aantal van 3 referentiebeelden naar 3 doelbeelden. Als gevolg hiervan adresseert EscherNet niet alleen zero-shot novel view synthesis, maar verenigt het ook natuurlijk single- en multi-image 3D-reconstructie, waarbij deze diverse taken worden gecombineerd in een enkel, samenhangend framework. Onze uitgebreide experimenten tonen aan dat EscherNet state-of-the-art prestaties bereikt in meerdere benchmarks, zelfs in vergelijking met methoden die specifiek zijn afgestemd op elk individueel probleem. Deze opmerkelijke veelzijdigheid opent nieuwe richtingen voor het ontwerpen van schaalbare neurale architecturen voor 3D-visie. Projectpagina: https://kxhit.github.io/EscherNet.
We stellen voor om grote taalmodelen te finetunen voor het genereren van stabiele materialen. Hoewel onorthodox, is het finetunen van grote taalmodelen op tekst-gecodeerde atomistische data eenvoudig te implementeren en toch betrouwbaar, waarbij ongeveer 90% van de gegenereerde structuren voldoet aan fysische beperkingen op atoomposities en ladingen. Met behulp van energie boven hull-berekeningen van zowel geleerde ML-potentialen als goudstandaard DFT-berekeningen, tonen we aan dat ons sterkste model (gefinetuned LLaMA-2 70B) materialen kan genereren waarvan wordt voorspeld dat ze metastabiel zijn met ongeveer het dubbele tempo (49% vs 28%) vergeleken met CDVAE, een concurrerend diffusiemodel. Vanwege de inherente flexibiliteit van tekstprompting, kunnen onze modellen tegelijkertijd worden gebruikt voor onvoorwaardelijke generatie van stabiele materialen, het invullen van gedeeltelijke structuren en tekst-conditionele generatie. Tot slot laten we zien dat het vermogen van taalmodelen om belangrijke symmetrieën van kristalstructuren vast te leggen verbetert met de schaal van het model, wat suggereert dat de biases van vooraf getrainde LLM's verrassend goed geschikt zijn voor atomistische data.
We introduceren het Diffusion World Model (DWM), een conditioneel diffusiemodel dat in staat is om meerdere toekomstige toestanden en beloningen gelijktijdig te voorspellen. In tegenstelling tot traditionele één-stap dynamische modellen, biedt DWM langetermijnvoorspellingen in een enkele voorwaartse pass, waardoor de noodzaak voor recursieve queries wordt geëlimineerd. We integreren DWM in modelgebaseerde waardeschatting, waarbij het kortetermijnrendement wordt gesimuleerd door toekomstige trajecten die uit DWM worden bemonsterd. In de context van offline reinforcement learning kan DWM worden gezien als een conservatieve waarderegularisatie via generatief modelleren. Alternatief kan het worden beschouwd als een databron die offline Q-learning met synthetische data mogelijk maakt. Onze experimenten op de D4RL-dataset bevestigen de robuustheid van DWM voor langetermijnsimulatie. Wat betreft absolute prestaties overtreft DWM één-stap dynamische modellen aanzienlijk met een prestatieverbetering van 44%, en behaalt het state-of-the-art prestaties.