Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Recente doorbraken in grote taalmodellen (LLMs) hebben zich vooral gericht op een handvol data-rijke talen. Wat is er nodig om de toegang tot deze doorbraken uit te breiden voorbij de eersteklas talen? Ons werk introduceert Aya, een enorm meertalig generatief taalmodel dat instructies volgt in 101 talen, waarvan meer dan 50% als minder goed voorzien van bronnen worden beschouwd. Aya presteert beter dan mT0 en BLOOMZ op de meeste taken, terwijl het tweemaal zoveel talen bestrijkt. We introduceren uitgebreide nieuwe evaluatiesuites die de stand van de techniek voor meertalige evaluatie uitbreiden over 99 talen — inclusief discriminerende en generatieve taken, menselijke evaluatie en gesimuleerde winpercentages die zowel niet-geziene taken als in-distributieprestaties omvatten. Daarnaast voeren we gedetailleerde onderzoeken uit naar de optimale samenstelling van de finetuning-mix, datapruning, evenals de toxiciteit, bias en veiligheid van onze modellen. We maken onze instructiedatasets en ons model openbaar op https://hf.co/CohereForAI/aya-101.
Autonome interactie met de computer is al lang een uitdaging met groot potentieel, en de recente opkomst van grote taalmodellen (LLM's) heeft de vooruitgang in het bouwen van digitale agents aanzienlijk versneld. De meeste van deze agents zijn echter ontworpen om te interageren met een beperkt domein, zoals een specifiek softwareprogramma of website. Deze beperkte focus beperkt hun toepasbaarheid voor algemene computertaken. Daarom introduceren we OS-Copilot, een raamwerk om generalistische agents te bouwen die in staat zijn om te communiceren met uitgebreide elementen in een besturingssysteem (OS), waaronder het web, code-terminals, bestanden, multimedia en diverse applicaties van derden. We gebruiken OS-Copilot om FRIDAY te creëren, een zelfverbeterend belichaamd agent voor het automatiseren van algemene computertaken. Op GAIA, een benchmark voor algemene AI-assistenten, presteert FRIDAY 35% beter dan eerdere methoden, wat sterke generalisatie naar onbekende applicaties laat zien via opgebouwde vaardigheden uit eerdere taken. We presenteren ook numeriek en kwantitatief bewijs dat FRIDAY leert om Excel en Powerpoint te beheersen en zichzelf te verbeteren met minimale begeleiding. Ons OS-Copilot-raamwerk en empirische bevindingen bieden infrastructuur en inzichten voor toekomstig onderzoek naar meer capabele en algemene computeragents.
Grote taalmodellen (LLM's) hebben indrukwekkende vooruitgang geboekt in chemietoepassingen, waaronder moleculaire eigenschapsvoorspelling, moleculaire generatie, ontwerp van experimentele protocollen, enz. De gemeenschap mist echter een dialooggebaseerd model dat specifiek is ontworpen voor chemie. De uitdaging ontstaat doordat de meeste chemische data en wetenschappelijke kennis voornamelijk zijn opgeslagen in gestructureerde databases, en het directe gebruik van deze gestructureerde data belemmert het vermogen van het model om coherente dialogen te voeren. Om dit probleem aan te pakken, ontwikkelen we een nieuwe template-gebaseerde instructieconstructiemethode die gestructureerde kennis omzet in gewone dialoog, waardoor het geschikt wordt voor training van taalmodellen. Door gebruik te maken van deze aanpak ontwikkelen we ChemLLM, het eerste grote taalmodel dat specifiek is gewijd aan chemie, dat in staat is om diverse taken uit te voeren binnen chemische disciplines met vloeiende dialooginteractie. ChemLLM verslaat GPT-3.5 op alle drie de belangrijkste taken in de chemie, namelijk naamconversie, moleculaire beschrijving en reactievoorspelling, en overtreft GPT-4 op twee ervan. Opmerkelijk is dat ChemLLM ook een uitzonderlijke aanpassingsvermogen toont aan verwante wiskundige en natuurkundige taken, ondanks dat het voornamelijk is getraind op chemie-gerichte corpora. Bovendien toont ChemLLM vaardigheid in gespecialiseerde NLP-taken binnen de chemie, zoals literatuurvertaling en cheminformatica-programmering. ChemLLM opent een nieuwe weg voor onderzoek binnen chemische studies, terwijl onze methode om gestructureerde chemische kennis te integreren in dialoogsystemen een nieuwe grens markeert voor de ontwikkeling van LLM's in verschillende wetenschappelijke velden. Codes, datasets en modelgewichten zijn publiek toegankelijk op hf.co/AI4Chem/ChemLLM-7B-Chat.
Large Language Models (LLMs) gebaseerd op de Mixture-of-Experts (MoE)-architectuur laten veelbelovende prestaties zien bij diverse taken. Het uitvoeren van deze modellen in omgevingen met beperkte resources, waar GPU-geheugen niet ruim beschikbaar is, is echter een uitdaging vanwege de enorme modelgroottes. Bestaande systemen die modelgewichten naar het CPU-geheugen offloaden, kampen met een aanzienlijke overhead door het frequente verplaatsen van data tussen de CPU en GPU. In dit artikel stellen we Fiddler voor, een resource-efficiënte inference-engine met CPU-GPU-coördinatie voor MoE-modellen. De kern van Fiddler is het gebruik van de rekenkracht van de CPU om de dataverplaatsing tussen de CPU en GPU te minimaliseren. Onze evaluatie toont aan dat Fiddler het ongecomprimeerde Mixtral-8x7B-model, dat meer dan 90GB aan parameters bevat, kan uitvoeren om meer dan 3 tokens per seconde te genereren op een enkele GPU met 24GB geheugen, wat een verbetering van een orde van grootte laat zien ten opzichte van bestaande methoden. De code van Fiddler is publiek beschikbaar op https://github.com/efeslab/fiddler.
Naarmate de grootte van AI-modellen toeneemt, zijn neurale schaalwetten een cruciaal hulpmiddel geworden om de verbeteringen van grote modellen te voorspellen bij het vergroten van de capaciteit en de omvang van de originele (menselijke of natuurlijke) trainingsdata. Het wijdverbreide gebruik van populaire modellen betekent echter dat het ecosysteem van online data en tekst zal co-evolueren om geleidelijk aan steeds meer gesynthetiseerde data te bevatten. In dit artikel stellen we de vraag: Hoe zullen de schaalwetten veranderen in het onvermijdelijke regime waar synthetische data deel uitmaakt van de trainingscorpus? Zullen toekomstige modellen nog steeds verbeteren, of zijn ze gedoemd te degenereren tot volledige (model) ineenstorting? We ontwikkelen een theoretisch kader voor modelineenstorting door de lens van schaalwetten. We ontdekken een breed scala aan vervalfenomenen, analyseren het verlies van schaling, verschoven schaling met het aantal generaties, het "ontleren" van vaardigheden, en grokking bij het mengen van menselijke en gesynthetiseerde data. Onze theorie wordt gevalideerd door grootschalige experimenten met een transformer op een rekenkundige taak en tekstgeneratie met behulp van het grote taalmodel Llama2.
Vision language models (VLMs) hebben indrukwekkende capaciteiten getoond bij een verscheidenheid aan taken, van logisch redeneren tot visueel begrip. Dit opent de deur naar rijkere interactie met de wereld, bijvoorbeeld robotbesturing. Echter, VLMs produceren alleen tekstuele uitvoer, terwijl robotbesturing en andere ruimtelijke taken vereisen dat continue coördinaten, acties of trajecten worden uitgevoerd. Hoe kunnen we VLMs in staat stellen om dergelijke situaties aan te pakken zonder afstemming op taakspecifieke data? In dit artikel stellen we een nieuwe visuele prompting-aanpak voor VLMs voor die we Prompting with Iterative Visual Optimization (PIVOT) noemen, waarbij taken worden omgezet in iteratief visueel vraag-antwoord. In elke iteratie wordt de afbeelding geannoteerd met een visuele weergave van voorstellen waar de VLM naar kan verwijzen (bijvoorbeeld kandidaat-robotacties, lokalisaties of trajecten). De VLM selecteert vervolgens de beste voorstellen voor de taak. Deze voorstellen worden iteratief verfijnd, waardoor de VLM uiteindelijk het beste beschikbare antwoord kan vinden. We onderzoeken PIVOT op real-world robotnavigatie, real-world manipulatie vanuit afbeeldingen, instructievolging in simulatie en aanvullende ruimtelijke inferentietaken zoals lokalisatie. We ontdekken, misschien verrassend, dat onze aanpak zero-shot besturing van robotsystemen mogelijk maakt zonder enige robottrainingsdata, navigatie in verschillende omgevingen en andere capaciteiten. Hoewel de huidige prestaties verre van perfect zijn, benadrukt ons werk de potenties en beperkingen van dit nieuwe regime en toont het een veelbelovende aanpak voor Internet-Scale VLMs in robotica en ruimtelijk redeneerdomeinen. Website: pivot-prompt.github.io en HuggingFace: https://huggingface.co/spaces/pivot-prompt/pivot-prompt-demo.
Lachen is een van de meest expressieve en natuurlijke aspecten van menselijke spraak, waarbij emoties, sociale signalen en humor worden overgebracht. De meeste tekst-naar-spraak (TTS) systemen zijn echter niet in staat om realistische en passende lachgeluiden te produceren, wat hun toepassingen en gebruikerservaring beperkt. Hoewel er eerder pogingen zijn gedaan om natuurlijk lachen te genereren, schoten deze tekort in het beheersen van de timing en variatie van het te genereren lachen. In dit werk stellen we ELaTE voor, een zero-shot TTS die natuurlijke lachspraak van elke spreker kan genereren op basis van een kort audiovoorbeeld met precieze controle over de timing en expressie van het lachen. Specifiek werkt ELaTE op het audiovoorbeeld om de stemkarakteristiek na te bootsen, het tekstprompt om de inhoud van de gegenereerde spraak aan te geven, en de invoer om de lachexpressie te beheersen, wat ofwel de start- en eindtijden van het lachen kan zijn, of een extra audiovoorbeeld dat lachen bevat dat moet worden nagebootst. We ontwikkelen ons model op basis van de fundering van conditionele flow-matching-gebaseerde zero-shot TTS, en fine-tunen het met frame-level representaties van een lachdetector als aanvullende conditionering. Met een eenvoudig schema om kleinschalige lach-geconditioneerde data te mengen met grootschalige pre-trainingsdata, tonen we aan dat een vooraf getraind zero-shot TTS model gemakkelijk kan worden gefinetuned om natuurlijk lachen te genereren met precieze beheersbaarheid, zonder enig kwaliteitsverlies van het vooraf getrainde zero-shot TTS model. Door de evaluaties laten we zien dat ELaTE lachspraak kan genereren met aanzienlijk hogere kwaliteit en beheersbaarheid in vergelijking met conventionele modellen. Zie https://aka.ms/elate/ voor demovoorbeelden.
Om de vaardigheid van taalmodelen in wiskundig redeneren te verbeteren via continue voorafgaande training, introduceren we een nieuwe strategie die basistaalmodellen benut voor autonome dataselectie. In tegenstelling tot conventionele supervised fine-tuning of getrainde classificatiemodellen met door mensen geannoteerde gegevens, maakt onze aanpak gebruik van meta-geprompte taalmodellen als zero-shot verifiers om autonoom hoogwaardige wiskundige inhoud te evalueren en te selecteren, en we geven de samengestelde open-source AutoMathText-dataset vrij, die meer dan 200GB aan gegevens omvat. Om de effectiviteit van onze methode aan te tonen, hebben we een 7B-parameter Mistral taalmodel continu voorgetraind op de AutoMathText-dataset, wat aanzienlijke verbeteringen opleverde in de prestaties op de MATH-dataset met een hoeveelheid tokens die met ordes van grootte is verminderd in vergelijking met eerdere werken over continue voorafgaande training. Onze methode toont een 2 keer hogere efficiëntie in het vooraf trainen van tokens in vergelijking met baseline-methoden, wat het potentieel van onze aanpak onderstreept om de wiskundige redeneervaardigheden van modellen te verbeteren. De AutoMathText- dataset is beschikbaar op https://huggingface.co/datasets/math-ai/AutoMathText. De code is beschikbaar op https://github.com/yifanzhang-pro/AutoMathText.
Visueel geconditioneerde taalmodellen (VLMs) worden steeds vaker toegepast in toepassingen zoals visuele dialoog, scènebegrip en robotische taakplanning; een adoptie die een overvloed aan nieuwe modellen heeft gestimuleerd, zoals LLaVa, InstructBLIP en PaLI-3. Ondanks het grote aantal nieuwe releases worden belangrijke ontwerpbeslissingen rond beeldvoorbewerking, architectuur en optimalisatie onvoldoende onderzocht, wat het begrip van welke factoren bijdragen aan modelprestaties bemoeilijkt - een uitdaging die verder wordt gecompliceerd door het ontbreken van objectieve, consistente evaluaties. Om deze lacunes aan te pakken, stellen we eerst een reeks gestandaardiseerde evaluaties samen die visuele vraagbeantwoording, objectlokalisatie op basis van taal en gerichte uitdagingssets omvatten die eigenschappen zoals hallucinatie onderzoeken; evaluaties die gekalibreerd, gedetailleerd inzicht bieden in de mogelijkheden van een VLM. Ten tweede onderzoeken we VLMs grondig langs belangrijke ontwerpassen, waaronder vooraf getrainde visuele representaties en het kwantificeren van de afwegingen tussen het gebruik van basis- versus instruct-afgestemde taalmodellen, onder andere. We koppelen onze analyse aan drie bronbijdragen: (1) een uniform raamwerk voor het evalueren van VLMs, (2) geoptimaliseerde, flexibele code voor VLM-training, en (3) checkpoints voor alle modellen, inclusief een familie van VLMs op de 7-13B schaal die strikt beter presteren dan InstructBLIP en LLaVa v1.5, de state-of-the-art in open-source VLMs.
Mixture of Experts (MoE)-modellen zijn naar voren gekomen als een primaire oplossing voor het verminderen van de rekenkosten van Large Language Models. In dit werk analyseren we hun schaaleigenschappen, waarbij we een uitgebreid scala aan variabelen meenemen. Specifiek introduceren we een nieuwe hyperparameter, granulariteit, waarvan de aanpassing een nauwkeurige controle over de grootte van de experts mogelijk maakt. Hierop voortbouwend, stellen we schaalwetten op voor fijnmazige MoE, waarbij we rekening houden met het aantal trainings-tokens, modelgrootte en granulariteit. Door gebruik te maken van deze wetten, leiden we de optimale trainingsconfiguratie af voor een bepaald rekenbudget. Onze bevindingen tonen niet alleen aan dat MoE-modellen consistent beter presteren dan dichte Transformers, maar benadrukken ook dat het efficiëntieverschil tussen dichte en MoE-modellen groter wordt naarmate we de modelgrootte en het trainingsbudget opschalen. Bovendien laten we zien dat de gangbare praktijk om de grootte van experts in MoE af te stemmen op de feed-forward-laag bijna nooit optimaal is voor welk rekenbudget dan ook.
In dit werk bestuderen we het probleem van reward hacking op responslengte, een uitdaging die ontstaat bij Reinforcement Learning from Human Feedback (RLHF) op LLM's. Een goed geformatteerde, uitgebreide maar minder nuttige respons van de LLM's kan vaak zowel de LLM's als zelfs menselijke beoordelaars misleiden om hoge scores te behalen. Hetzelfde probleem doet zich ook voor bij sommige beloningsmodellen in RL. Om de uitdagingen in zowel training als evaluatie aan te pakken, stellen we een betrouwbaarder evaluatieprotocol op voor het vergelijken van verschillende trainingsconfiguraties, waarbij de afweging tussen de LLM-evaluatiescore en de responslengte wordt onderzocht door trainingshyperparameters te variëren. Op basis van deze evaluatie voeren we grootschalige studies uit, waarvan de resultaten inzicht geven in de effectiviteit van hyperparameters en technieken die in RL worden gebruikt om lengtebias te verminderen. We stellen verder voor om het beloningsmodel te verbeteren door gezamenlijk twee lineaire heads te trainen op gedeelde feature-representaties om de beloningen te voorspellen, waarbij de ene wordt getraind om te correleren met lengte, en de andere wordt getraind om te decorreleren met lengte en zich daarom meer te richten op de daadwerkelijke inhoud. Vervolgens verwijderen we de lengte-head in RL om reward hacking op lengte te voorkomen. Experimenten tonen aan dat onze aanpak de correlatie tussen beloning en lengte vrijwel elimineert, en het verkregen beleid aanzienlijk verbetert.
We presenteren LiRank, een grootschalig rangschikkingsframework bij LinkedIn dat state-of-the-art modelarchitecturen en optimalisatiemethoden naar productie brengt. We onthullen verschillende modelverbeteringen, waaronder Residual DCN, dat aandachtmechanismen en restverbindingen toevoegt aan de bekende DCNv2-architectuur. We delen inzichten over het combineren en afstemmen van state-of-the-art-architecturen om een uniform model te creëren, waaronder Dense Gating, Transformers en Residual DCN. We stellen ook nieuwe technieken voor kalibratie voor en beschrijven hoe we deep learning-gebaseerde explore/exploit-methoden hebben geproduceerd. Om effectieve, productieklasse-serving van grote rangschikkingsmodellen mogelijk te maken, gaan we in detail in op het trainen en comprimeren van modellen met behulp van kwantisatie en vocabulairecompressie. We geven details over de implementatieopzet voor grootschalige use cases zoals Feed-rangschikking, Jobaanbevelingen en Ads click-through rate (CTR)-voorspelling. We vatten onze leerervaringen samen uit verschillende A/B-tests door de meest effectieve technische benaderingen toe te lichten. Deze ideeën hebben bijgedragen aan relatieve metrische verbeteringen bij LinkedIn: +0,5% ledensessies in de Feed, +1,76% gekwalificeerde sollicitaties voor Jobzoekopdrachten en -aanbevelingen, en +4,3% voor Ads CTR. We hopen dat dit werk praktische inzichten en oplossingen kan bieden voor professionals die geïnteresseerd zijn in het benutten van grootschalige deep ranking-systemen.
We presenteren GALA3D, generatieve 3D GAussians met LAyout-gestuurde controle, voor effectieve compositionele tekst-naar-3D-generatie. We maken eerst gebruik van grote taalmodellen (LLMs) om de initiële layout te genereren en introduceren een layout-gestuurde 3D Gaussische representatie voor 3D-inhoudsgeneratie met adaptieve geometrische beperkingen. Vervolgens stellen we een object-scene compositioneel optimalisatiemechanisme voor met geconditioneerde diffusie om realistische 3D-scènes te genereren met consistente geometrie, textuur, schaal en nauwkeurige interacties tussen meerdere objecten, terwijl tegelijkertijd de grove layout-priors die uit de LLMs zijn geëxtraheerd, worden aangepast om overeen te komen met de gegenereerde scène. Experimenten tonen aan dat GALA3D een gebruiksvriendelijk, end-to-end framework is voor state-of-the-art scene-level 3D-inhoudsgeneratie en controleerbare bewerking, terwijl de hoge kwaliteit van object-level entiteiten binnen de scène wordt gewaarborgd. Broncodes en modellen zullen beschikbaar zijn op https://gala3d.github.io/.
Zelfuitlijning is een effectieve manier om de kosten van menselijke annotatie te verminderen terwijl een veelbelovende modelcapaciteit wordt gegarandeerd. De meeste huidige methoden voltooien echter de stappen van gegevensverzameling en training in één ronde, wat de continu verbeterende vaardigheid van zelfuitgelijnde modellen over het hoofd zou kunnen zien. Dit roept een belangrijke vraag op: Wat als we meerdere keren bootstrapping zelfuitlijning toepassen? Verbetert deze strategie de modelprestaties of leidt het tot snelle degradatie? In dit artikel gaat ons baanbrekende onderzoek in op de impact van bootstrapping zelfuitlijning op grote taalmmodellen. Onze bevindingen tonen aan dat bootstrapping zelfuitlijning de aanpak met één ronde duidelijk overtreft, door de diversiteit van gegevens te garanderen via in-context leren. Om de mogelijkheden van bootstrapping verder te benutten, onderzoeken en passen we de trainingsvolgorde van gegevens aan, wat resulteert in verbeterde modelprestaties. Op basis van deze bevindingen stellen we Step-On-Feet Tuning (SOFT) voor, dat gebruikmaakt van het continu verbeterde few-shot vermogen van het model om de zero- of one-shot prestaties te versterken. Gebaseerd op een easy-to-hard trainingsrecept, stellen we SOFT+ voor, wat de prestaties van zelfuitlijning verder verbetert. Onze experimenten tonen de efficiëntie van SOFT (SOFT+) aan bij verschillende classificatie- en generatietaken, wat het potentieel van bootstrapping zelfuitlijning benadrukt om de uitlijningsprestaties van modellen continu te verbeteren.
We introduceren Language Feedback Models (LFMs) die gewenst gedrag identificeren - acties die helpen bij het voltooien van taken zoals gespecificeerd in de instructie - voor imitatieleren bij instructievolging. Om LFMs te trainen, verkrijgen we feedback van Large Language Models (LLMs) op visuele trajecten die zijn omgezet naar taal beschrijvingen. Ten eerste verbeteren we, door LFMs te gebruiken om gewenst gedrag te identificeren voor imitatie, de taakvoltooiingsratio ten opzichte van sterke gedragskloningsbaselines in drie verschillende taalgebaseerde omgevingen (Touchdown, ScienceWorld en ALFWorld). Ten tweede presteren LFMs beter dan het gebruik van LLMs als experts om direct acties te voorspellen, wanneer het aantal LLM-uitvoertokens wordt gecontroleerd. Ten derde generaliseren LFMs naar onbekende omgevingen, waarbij de taakvoltooiingsratio met 3,5-12,0% verbetert door één ronde van aanpassing. Tot slot kan LFM worden aangepast om mens-interpreteerbare feedback te geven zonder prestatieverlies, wat menselijke verificatie van gewenst gedrag voor imitatieleren mogelijk maakt.