Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Recente ontwikkelingen in grote taalmodellen (LLMs) tonen aanzienlijke mogelijkheden op het gebied van natuurlijke taalverwerking en generatie. Met het groeiende aantal LLMs is het benutten van de collectieve expertise van meerdere LLMs een spannende en open onderzoeksrichting. Om dit doel te bereiken, stellen we een nieuwe aanpak voor die de gezamenlijke sterktes van meerdere LLMs benut via een Mixture-of-Agents (MoA)-methodologie. In onze aanpak construeren we een gelaagde MoA-architectuur waarin elke laag bestaat uit meerdere LLM-agents. Elke agent gebruikt alle uitvoeren van agents in de vorige laag als aanvullende informatie bij het genereren van zijn reactie. MoA-modellen behalen state-of-the-art prestaties op AlpacaEval 2.0, MT-Bench en FLASK, en overtreffen GPT-4 Omni. Zo is onze MoA, die alleen open-source LLMs gebruikt, de leider op AlpacaEval 2.0 met een aanzienlijke voorsprong, met een score van 65,1% vergeleken met 57,5% van GPT-4 Omni.
Retrieval-Augmented Generation (RAG) is recentelijk naar voren gekomen als een veelbelovende oplossing om het gebrek aan kennis van Large Language Models (LLM's) te verlichten. Bestaande RAG-datasets vertegenwoordigen echter niet adequaat de diverse en dynamische aard van real-world Question Answering (QA)-taken. Om deze kloof te overbruggen, introduceren we de Comprehensive RAG Benchmark (CRAG), een feitelijke vraag-antwoordbenchmark met 4.409 vraag-antwoordparen en mock API's om web- en Knowledge Graph (KG)-zoekopdrachten te simuleren. CRAG is ontworpen om een diverse reeks vragen over vijf domeinen en acht vraagcategorieën te omvatten, waarbij variërende entiteitspopulariteit van populair tot long-tail en temporele dynamiek variërend van jaren tot seconden worden weerspiegeld. Onze evaluatie op deze benchmark benadrukt de kloof naar volledig betrouwbare QA. Terwijl de meest geavanceerde LLM's een nauwkeurigheid van <=34% behalen op CRAG, verbetert het toevoegen van RAG op een eenvoudige manier de nauwkeurigheid slechts tot 44%. State-of-the-art industriële RAG-oplossingen beantwoorden slechts 63% van de vragen zonder enige hallucinatie. CRAG laat ook een veel lagere nauwkeurigheid zien bij het beantwoorden van vragen over feiten met hogere dynamiek, lagere populariteit of hogere complexiteit, wat toekomstige onderzoeksrichtingen suggereert. De CRAG-benchmark legde de basis voor een KDD Cup 2024-uitdaging, die binnen de eerste 50 dagen van de competitie duizenden deelnemers en inzendingen aantrok. Wij zijn vastbesloten om CRAG te onderhouden om onderzoeksgemeenschappen te ondersteunen bij het bevorderen van RAG-oplossingen en algemene QA-oplossingen.
We introduceren WildBench, een geautomatiseerd evaluatieraamwerk ontworpen om grote taalmodellen (LLMs) te benchmarken aan de hand van uitdagende, real-world gebruikersvragen. WildBench bestaat uit 1.024 taken die zorgvuldig zijn geselecteerd uit meer dan een miljoen mens-chatbot gesprekslogs. Voor geautomatiseerde evaluatie met WildBench hebben we twee metrieken ontwikkeld, WB-Reward en WB-Score, die berekenbaar zijn met geavanceerde LLMs zoals GPT-4-turbo. De evaluatie met WildBench maakt gebruik van taakspecifieke checklists om modeloutputs systematisch te evalueren en biedt gestructureerde uitleg die de scores en vergelijkingen rechtvaardigen, wat resulteert in betrouwbaardere en interpreteerbare automatische beoordelingen. WB-Reward maakt gebruik van fijnmazige paarsgewijze vergelijkingen tussen modelresponses, waarbij vijf mogelijke uitkomsten worden gegenereerd: veel beter, iets beter, iets slechter, veel slechter, of een gelijkspel. In tegenstelling tot eerdere evaluaties die een enkel basismodel gebruikten, hebben we drie basismodellen geselecteerd op verschillende prestatieniveaus om een uitgebreide paarsgewijze evaluatie te garanderen. Daarnaast stellen we een eenvoudige methode voor om lengtebias te verminderen, door uitkomsten van "iets beter/slechter" om te zetten in "gelijkspel" als de winnende response de verliezende response met meer dan K tekens overschrijdt. WB-Score evalueert de kwaliteit van modeloutputs individueel, waardoor het een snelle en kostenefficiënte evaluatiemetriek is. De resultaten van WildBench tonen een sterke correlatie met de door mensen gestemde Elo-ratings van Chatbot Arena op moeilijke taken. Specifiek behaalt WB-Reward een Pearson-correlatie van 0.98 met de hoogst gerangschikte modellen. Daarnaast bereikt WB-Score 0.95, wat zowel de 0.91 van ArenaHard als de 0.89 van AlpacaEval2.0 voor lengte-gecontroleerde winrates overtreft, evenals de 0.87 voor reguliere winrates.
Generatieve AI heeft opmerkelijke vooruitgang geboekt om vakgebieden zoals beeld- en videogeneratie te revolutioneren. Deze vooruitgang wordt aangedreven door innovatieve algoritmen, architectuur en data. De snelle opkomst van generatieve modellen heeft echter een kritieke leemte blootgelegd: het ontbreken van betrouwbare evaluatiemetrics. Huidige automatische beoordelingen zoals FID, CLIP, FVD, enz. slagen er vaak niet in om de genuanceerde kwaliteit en gebruikers tevredenheid van generatieve output te vatten. Dit artikel stelt een open platform voor, GenAI-Arena, om verschillende beeld- en videogeneratieve modellen te evalueren, waar gebruikers actief kunnen deelnemen aan de beoordeling van deze modellen. Door gebruik te maken van collectieve gebruikersfeedback en stemmen, streeft GenAI-Arena ernaar om een meer democratische en accurate maatstaf voor modelprestaties te bieden. Het platform beslaat drie arena's voor respectievelijk tekst-naar-beeldgeneratie, tekst-naar-videogeneratie en beeldbewerking. Momenteel omvat het in totaal 27 open-source generatieve modellen. GenAI-Arena is vier maanden operationeel geweest en heeft meer dan 6000 stemmen van de gemeenschap verzameld. We beschrijven ons platform, analyseren de data en leggen de statistische methoden uit voor het rangschikken van de modellen. Om verder onderzoek te bevorderen in het ontwikkelen van modelgebaseerde evaluatiemetrics, geven we een opgeschoonde versie van onze voorkeursdata vrij voor de drie taken, genaamd GenAI-Bench. We vragen bestaande multimodale modellen zoals Gemini en GPT-4o om menselijk stemgedrag na te bootsen. We berekenen de correlatie tussen modelstemmen en menselijke stemmen om hun beoordelingsvermogen te begrijpen. Onze resultaten laten zien dat bestaande multimodale modellen nog achterlopen in het beoordelen van gegenereerde visuele content, waarbij zelfs het beste model, GPT-4o, slechts een Pearson-correlatie van 0,22 behaalt in de kwaliteitssubscore en zich in andere opzichten gedraagt als willekeurig gissen.
Het schatten van onzekerheid of betrouwbaarheid in de antwoorden van een model kan van groot belang zijn bij het evalueren van vertrouwen, niet alleen in de antwoorden, maar ook in het model als geheel. In dit artikel onderzoeken we het probleem van het schatten van betrouwbaarheid voor de antwoorden van grote taalmodellen (LLM's) met slechts black-box of query-toegang tot deze modellen. We stellen een eenvoudig en uitbreidbaar raamwerk voor waarin we nieuwe kenmerken ontwikkelen en een (interpreteerbaar) model (namelijk logistische regressie) trainen op deze kenmerken om de betrouwbaarheid te schatten. We tonen empirisch aan dat ons eenvoudige raamwerk effectief is in het schatten van de betrouwbaarheid van flan-ul2, llama-13b en mistral-7b, waarbij het consistent bestaande black-box benaderingen voor betrouwbaarheidsschatting overtreft op benchmarkdatasets zoals TriviaQA, SQuAD, CoQA en Natural Questions, in sommige gevallen zelfs met meer dan 10% (op AUROC). Daarnaast biedt onze interpreteerbare aanpak inzicht in kenmerken die voorspellend zijn voor betrouwbaarheid, wat leidt tot de interessante en nuttige ontdekking dat onze betrouwbaarheidsmodellen die voor één LLM zijn gebouwd, zero-shot generaliseren naar andere modellen op een gegeven dataset.
De indrukwekkende mogelijkheden van Large Language Models (LLMs) bieden een krachtige benadering om de typ-ervaring van gebruikers opnieuw vorm te geven. Dit artikel presenteert Proofread, een nieuwe functie in Gboard die wordt aangedreven door een server-side LLM, waarmee naadloze correcties op zins- en alineaniveau mogelijk zijn met één tik. We beschrijven het volledige systeem in dit artikel, van gegevensgeneratie en metriekenontwerp tot modelafstemming en implementatie. Om modellen van voldoende kwaliteit te verkrijgen, implementeren we een zorgvuldige synthetische gegevenspijplijn die is afgestemd op online gebruiksscenario's, ontwerpen we veelzijdige metrieken, en gebruiken we een tweestaps afstemmingsbenadering om de specifieke LLM voor de functie te verkrijgen: Supervised Fine Tuning (SFT) voor basiskwaliteit, gevolgd door Reinforcement Learning (RL) afstemming voor gerichte verfijning. Specifiek ontdekken we dat sequentiële afstemming op herschrijf- en proefleestaken de beste kwaliteit oplevert in de SFT-fase, en stellen we globale en directe beloningen voor in de RL-afstemmingsfase om verdere verbetering te zoeken. Uitgebreide experimenten op een door mensen gelabelde gouden set toonden aan dat ons afgestemde PaLM2-XS-model een goed ratio van 85,56\% behaalde. We hebben de functie gelanceerd op Pixel 8-apparaten door het model te hosten op TPU v5 in Google Cloud, met duizenden dagelijkse actieve gebruikers. De latentie bij het serveren werd aanzienlijk verminderd door kwantisatie, bucket-inferentie, tekstsegmentatie en speculatieve decodering. Onze demo is te zien op https://youtu.be/4ZdcuiwFU7I{Youtube}.
We introduceren NATURAL PLAN, een realistische planningsbenchmark in natuurlijke taal die 3 belangrijke taken omvat: Reisplanning, Vergaderplanning en Agendaplanning. We richten onze evaluatie op de planningscapaciteiten van LLM's met volledige informatie over de taak, door uitvoer van tools zoals Google Flights, Google Maps en Google Calendar als context aan de modellen te verstrekken. Hierdoor is er geen tool-gebruiksomgeving nodig om LLM's op planningsvaardigheden te evalueren. We merken op dat NATURAL PLAN een uitdagende benchmark is voor state-of-the-art modellen. Bijvoorbeeld, bij Reisplanning konden GPT-4 en Gemini 1.5 Pro slechts een oplossingspercentage van respectievelijk 31,1% en 34,8% behalen. We constateren dat de modelprestaties drastisch dalen naarmate de complexiteit van het probleem toeneemt: alle modellen presteren onder de 5% wanneer er 10 steden betrokken zijn, wat een aanzienlijk gat in planningsvaardigheden in natuurlijke taal voor SoTA LLM's blootlegt. We voeren ook uitgebreide ablatiestudies uit op NATURAL PLAN om verder inzicht te geven in de (on)effectiviteit van benaderingen zoals zelfcorrectie, few-shot generalisatie en in-context planning met lange contexten bij het verbeteren van LLM-planningsvaardigheden.
Voorspelbaar gedrag van schaalbare geavanceerde AI-systemen is een uiterst wenselijke eigenschap. Hoewel er een goed gevestigde literatuur bestaat over hoe prestaties tijdens het vooraf trainen schalen, is de literatuur over hoe specifieke downstream-capaciteiten schalen aanzienlijk onduidelijker. In dit werk nemen we een stap terug en vragen: waarom is het voorspellen van specifieke downstream-capaciteiten met schaal tot nu toe moeilijk gebleven? Hoewel zeker veel factoren een rol spelen, identificeren we een nieuwe factor die het modelleren van schaalgedrag op veelgebruikte meerkeuzevragen-benchmarks uitdagend maakt. Met behulp van vijf modelfamilies en twaalf goed gevestigde meerkeuzevragen-benchmarks laten we zien dat downstream-prestaties worden berekend uit negatieve log-waarschijnlijkheden via een reeks transformaties die de statistische relatie tussen prestaties en schaal geleidelijk verslechteren. Vervolgens onthullen we het mechanisme dat deze verslechtering veroorzaakt: downstream-metrics vereisen het vergelijken van de juiste keuze tegen een klein aantal specifieke incorrecte keuzes, wat betekent dat het nauwkeurig voorspellen van downstream-capaciteiten niet alleen vereist hoe waarschijnlijkheidsmassa zich met schaal concentreert op de juiste keuze, maar ook hoe waarschijnlijkheidsmassa fluctueert op specifieke incorrecte keuzes met schaal. We bestuderen empirisch hoe waarschijnlijkheidsmassa op de juiste keuze samenhangt met waarschijnlijkheidsmassa op incorrecte keuzes bij toenemende rekenkracht, wat suggereert dat schaalwetten voor incorrecte keuzes haalbaar zouden kunnen zijn. Ons werk verklaart ook waarom schaalwetten voor vooraf trainen algemeen als voorspelbaarder worden beschouwd dan downstream-capaciteiten en draagt bij aan het vaststellen van schaal-voorspelbare evaluaties van frontier AI-modellen.
De opkomst van Large Language Models (LLMs) heeft de adoptie van parallelle trainingsmethoden noodzakelijk gemaakt, waarbij duizenden GPU's worden ingezet om één enkel model te trainen. Helaas hebben we vastgesteld dat de efficiëntie van de huidige parallelle training vaak suboptimaal is, voornamelijk vanwege de volgende twee problemen. Ten eerste zijn hardwarestoringen onvermijdelijk, wat leidt tot onderbrekingen in de trainingstaken. Het onvermogen om defecte componenten snel te identificeren resulteert in een aanzienlijke verspilling van GPU-bronnen. Ten tweede, aangezien GPU's moeten wachten tot de parametersynchronisatie is voltooid voordat ze kunnen doorgaan naar de volgende rekenronde, kunnen netwerkcongesties de wachttijd voor GPU's aanzienlijk verlengen. Om deze uitdagingen aan te pakken, introduceert dit artikel een communicatiegedreven oplossing, genaamd C4. De kerninzichten van C4 zijn tweeledig. Ten eerste vertoont collectieve communicatie in parallelle training periodieke en homogene kenmerken, waardoor afwijkingen zeker het gevolg zijn van een vorm van hardwarestoring. Door gebruik te maken van deze eigenschap kan C4 defecte componenten snel identificeren, de afwijking snel isoleren en de taak opnieuw starten, waardoor bronverspilling door vertragingen in anomaliedetectie wordt voorkomen. Ten tweede maakt het voorspelbare communicatiemodel van collectieve communicatie, dat bestaat uit enkele grote datastromen, het mogelijk dat C4 efficiënt verkeersplanning uitvoert, waardoor netwerkcongestie aanzienlijk wordt verminderd. C4 is uitgebreid geïmplementeerd in onze productiesystemen, waardoor de overhead door fouten met ongeveer 30% is verminderd en de runtime-prestaties voor bepaalde toepassingen met matige communicatiekosten met ongeveer 15% zijn verbeterd.