Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren de Yi-model familie, een reeks taal- en multimodale modellen die sterke multidimensionale capaciteiten demonstreren. De Yi-model familie is gebaseerd op 6B en 34B vooraf getrainde taalmodelen, die we vervolgens uitbreiden naar chatmodellen, 200K lange contextmodellen, diepte-opgeschaalde modellen en visie-taalmodelen. Onze basismodellen behalen sterke prestaties op een breed scala aan benchmarks zoals MMLU, en onze fijn afgestelde chatmodellen leveren een hoge menselijke voorkeursscore op belangrijke evaluatieplatforms zoals AlpacaEval en Chatbot Arena. Gebaseerd op onze schaalbare supercomputing-infrastructuur en de klassieke transformer-architectuur, schrijven we de prestaties van de Yi-modellen voornamelijk toe aan de datakwaliteit die het resultaat is van onze data-engineering inspanningen. Voor het vooraf trainen, construeren we 3,1 biljoen tokens van Engelse en Chinese corpora met behulp van een gecascadeerde datadeduplicatie- en kwaliteitsfilteringspijplijn. Voor het fijn afstellen, polijsten we een kleine schaal (minder dan 10K) instructiedataset over meerdere iteraties, zodat elk afzonderlijk geval direct is geverifieerd door onze machine learning engineers. Voor visie-taal combineren we het chattaalmodel met een vision transformer encoder en trainen we het model om visuele representaties af te stemmen op de semantische ruimte van het taalmodel. We breiden de contextlengte verder uit tot 200K door middel van lichtgewicht voortgezet vooraf trainen en demonstreren sterke naald-in-een-hooiberg-retrievalprestaties. We tonen aan dat het uitbreiden van de diepte van het vooraf getrainde checkpoint door voortgezet vooraf trainen de prestaties verder verbetert. Wij geloven dat, gezien onze huidige resultaten, het blijven opschalen van modelparameters met grondig geoptimaliseerde data zal leiden tot nog sterkere frontiermodellen.
Reinforcement Learning from Human Feedback (RLHF) is naar voren gekomen als een dominante benadering voor het afstemmen van LLM-outputs op menselijke voorkeuren. Geïnspireerd door het succes van RLHF, bestuderen we de prestaties van meerdere algoritmen die leren van feedback (Expert Iteration, Proximal Policy Optimization (PPO), Return-Conditioned RL) bij het verbeteren van de redeneervaardigheden van LLM's. We onderzoeken zowel schaarse als dichte beloningen die aan de LLM worden gegeven, zowel heuristisch als via een geleerd beloningsmodel. Daarnaast beginnen we met meerdere modelgroottes en initialisaties, zowel met als zonder supervised fine-tuning (SFT)-data. Over het algemeen vinden we dat alle algoritmen vergelijkbaar presteren, waarbij Expert Iteration in de meeste gevallen het beste presteert. Verrassend genoeg vinden we dat de samplecomplexiteit van Expert Iteration vergelijkbaar is met die van PPO, waarbij hooguit in de orde van 10^6 samples nodig zijn om te convergeren vanaf een vooraf getraind checkpoint. We onderzoeken waarom dit het geval is en concluderen dat modellen tijdens RL-training er niet in slagen om significant verder te verkennen dan de oplossingen die al door SFT-modellen zijn geproduceerd. Daarnaast bespreken we een afweging tussen de maj@1- en pass@96-metriekprestaties tijdens SFT-training en hoe RL-training omgekeerd beide tegelijkertijd verbetert. We sluiten af met een bespreking van de implicaties van onze bevindingen voor RLHF en de toekomstige rol van RL in LLM-finetuning.
Grote Taalmodellen (LLMs) hebben nieuwe mogelijkheden en toepassingen ontsloten; het evalueren van de afstemming met menselijke voorkeuren blijft echter een aanzienlijke uitdaging. Om dit probleem aan te pakken, introduceren we Chatbot Arena, een open platform voor het evalueren van LLMs op basis van menselijke voorkeuren. Onze methodologie maakt gebruik van een paarsgewijze vergelijkingsaanpak en benut input van een diverse gebruikersbasis via crowdsourcing. Het platform is al enkele maanden operationeel en heeft meer dan 240K stemmen verzameld. Dit artikel beschrijft het platform, analyseert de tot nu toe verzamelde gegevens en legt de beproefde statistische methoden uit die we gebruiken voor efficiënte en nauwkeurige evaluatie en rangschikking van modellen. We bevestigen dat de crowdsourced vragen voldoende divers en onderscheidend zijn en dat de crowdsourced menselijke stemmen goed overeenkomen met die van expertbeoordelaars. Deze analyses vormen gezamenlijk een robuuste basis voor de geloofwaardigheid van Chatbot Arena. Vanwege zijn unieke waarde en openheid is Chatbot Arena uitgegroeid tot een van de meest geraadpleegde LLM-ranglijsten, die veelvuldig wordt geciteerd door toonaangevende LLM-ontwikkelaars en bedrijven. Onze demo is openbaar beschikbaar op https://chat.lmsys.org.
Puntgebaseerde beeldbewerking heeft sinds de opkomst van DragGAN opmerkelijke aandacht getrokken. Onlangs heeft DragDiffusion de generatieve kwaliteit verder verbeterd door deze versleeptechniek aan te passen voor diffusiemodellen. Ondanks deze grote successen vertoont dit versleepschema twee belangrijke tekortkomingen, namelijk onnauwkeurige puntvolging en onvolledige bewegingssupervisie, wat kan leiden tot onbevredigende versleepresultaten. Om deze problemen aan te pakken, hebben we een stabiel en precies versleepgebaseerd bewerkingsframework ontwikkeld, genaamd StableDrag, door een discriminerende puntvolgingsmethode en een vertrouwensgebaseerde latente verbeteringsstrategie voor bewegingssupervisie te ontwerpen. De eerste stelt ons in staat om de bijgewerkte handvatpunten precies te lokaliseren, waardoor de stabiliteit van manipulatie over lange afstanden wordt verbeterd, terwijl de laatste verantwoordelijk is voor het garanderen van een zo hoog mogelijke kwaliteit van de geoptimaliseerde latentie in alle manipulatiestappen. Dankzij deze unieke ontwerpen hebben we twee typen beeldbewerkingsmodellen geïnstantieerd, waaronder StableDrag-GAN en StableDrag-Diff, die een stabielere versleepprestatie bereiken, zoals blijkt uit uitgebreide kwalitatieve experimenten en kwantitatieve beoordeling op DragBench.
Gereedschappen zijn essentieel voor grote taalmodellen (LLMs) om actuele informatie te verkrijgen en consequente acties te ondernemen in externe omgevingen. Bestaand onderzoek naar tool-augmented LLMs richt zich voornamelijk op de brede dekking van gereedschappen en de flexibiliteit om nieuwe gereedschappen toe te voegen. Een kritisch aspect dat echter verrassend weinig aandacht heeft gekregen, is simpelweg hoe nauwkeurig een LLM de gereedschappen gebruikt waarvoor het is getraind. We constateren dat bestaande LLMs, inclusief GPT-4 en open-source LLMs die specifiek zijn afgestemd op het gebruik van gereedschappen, slechts een correctheidspercentage bereiken in het bereik van 30% tot 60%, ver verwijderd van betrouwbaar gebruik in de praktijk. We stellen een biologisch geïnspireerde methode voor voor tool-augmented LLMs, gesimuleerde trial and error (STE), die drie sleutelmechanismen orchestreert voor succesvol gereedschapsgebruik in het biologische systeem: trial and error, verbeelding en geheugen. Specifiek maakt STE gebruik van de 'verbeelding' van een LLM om plausibele scenario's te simuleren voor het gebruik van een gereedschap, waarna de LLM interacteert met het gereedschap om te leren van de feedback tijdens de uitvoering. Zowel kortetermijn- als langetermijngeheugen worden ingezet om respectievelijk de diepte en de breedte van de verkenning te verbeteren. Uitgebreide experimenten op ToolBench laten zien dat STE het leren van gereedschappen voor LLMs aanzienlijk verbetert, zowel in in-context learning als in fine-tuning settings, met een boost van 46,7% voor Mistral-Instruct-7B, waardoor het GPT-4 overtreft. We tonen ook effectief voortdurend leren van gereedschappen aan via een eenvoudige ervaringsherhalingsstrategie.
Vision-Language Models (VLMs) zoals GPT-4V hebben recentelijk ongelooflijke vooruitgang geboekt op diverse visueel-taalkundige taken. Wij verdiepen ons in visueel gebaseerd deductief redeneren, een meer geavanceerd maar minder verkend domein, en ontdekken voorheen onbekende blinde vlekken in de huidige state-of-the-art VLMs. Specifiek maken we gebruik van Raven's Progressive Matrices (RPMs) om de vaardigheden van VLMs te beoordelen om multi-hop relationeel en deductief redeneren uit te voeren, uitsluitend gebaseerd op visuele aanwijzingen. We voeren uitgebreide evaluaties uit van verschillende populaire VLMs met behulp van standaardstrategieën zoals in-context leren, zelfconsistentie en Chain-of-Thoughts (CoT) op drie diverse datasets, waaronder de Mensa IQ-test, IntelligenceTest en RAVEN. De resultaten tonen aan dat, ondanks de indrukwekkende capaciteiten van LLMs in tekstgebaseerd redeneren, we nog ver verwijderd zijn van vergelijkbare vaardigheid in visueel deductief redeneren. We ontdekten dat bepaalde standaardstrategieën die effectief zijn bij LLMs niet naadloos vertalen naar de uitdagingen die visuele redeneertaken met zich meebrengen. Bovendien toont een gedetailleerde analyse aan dat VLMs moeite hebben met het oplossen van deze taken, voornamelijk omdat ze niet in staat zijn om meerdere, verwarrende abstracte patronen in RPM-voorbeelden waar te nemen en te begrijpen.
Wiskundige vaardigheden werden voorheen verondersteld alleen op zeer grote schaal te ontstaan in gangbare taalmodel of uitgebreide wiskundige voorafgaande training te vereisen. Dit artikel toont aan dat het LLaMA-2 7B-model met standaard voorafgaande training al sterke wiskundige vaardigheden vertoont, zoals blijkt uit de indrukwekkende nauwkeurigheid van 97,7% en 72,0% op respectievelijk de GSM8K- en MATH-benchmarks, wanneer het beste antwoord wordt geselecteerd uit 256 willekeurige generaties. Het belangrijkste probleem met het huidige basismodel is de moeilijkheid om de inherente wiskundige vaardigheden consistent naar voren te brengen. Opmerkelijk is dat de nauwkeurigheid voor het eerste antwoord daalt tot 49,5% en 7,9% op respectievelijk de GSM8K- en MATH-benchmarks. We ontdekken dat het simpelweg opschalen van de SFT-gegevens de betrouwbaarheid van het genereren van correcte antwoorden aanzienlijk kan verbeteren. Het potentieel voor uitgebreide opschaling wordt echter beperkt door de schaarste van publiek beschikbare wiskundevragen. Om deze beperking te overwinnen, gebruiken we synthetische gegevens, die bijna net zo effectief blijken te zijn als echte gegevens en geen duidelijke verzadiging vertonen wanneer ze worden opgeschaald tot ongeveer één miljoen voorbeelden. Deze eenvoudige aanpak bereikt een nauwkeurigheid van 82,6% op GSM8K en 40,6% op MATH met LLaMA-2 7B-modellen, wat respectievelijk 14,2% en 20,8% hoger is dan eerdere modellen. We bieden ook inzichten in schaalgedrag over verschillende redeneercomplexiteiten en fouttypen.
We presenteren Pix2Gif, een motion-guided diffusiemodel voor image-to-GIF (video) generatie. We benaderen dit probleem anders door de taak te formuleren als een beeldvertaalprobleem dat wordt gestuurd door tekst- en bewegingsmagnitude prompts, zoals getoond in de teaser figuur. Om ervoor te zorgen dat het model de bewegingsbegeleiding volgt, stellen we een nieuwe motion-guided warping module voor om de kenmerken van de bronafbeelding ruimtelijk te transformeren, afhankelijk van de twee soorten prompts. Bovendien introduceren we een perceptueel verlies om ervoor te zorgen dat de getransformeerde kenmerkenkaart binnen dezelfde ruimte blijft als de doelafbeelding, wat inhoudelijke consistentie en samenhang garandeert. Ter voorbereiding op de modeltraining hebben we zorgvuldig data samengesteld door samenhangende beeldframes te extraheren uit de TGIF video-caption dataset, die rijke informatie biedt over de temporele veranderingen van onderwerpen. Na de voorafgaande training passen we ons model op een zero-shot manier toe op een aantal videodatasets. Uitgebreide kwalitatieve en kwantitatieve experimenten tonen de effectiviteit van ons model aan – het vangt niet alleen de semantische prompt uit tekst, maar ook de ruimtelijke prompts uit de bewegingsbegeleiding. We trainen al onze modellen met behulp van een enkele node van 16xV100 GPU's. Code, dataset en modellen zijn openbaar gemaakt op: https://hiteshk03.github.io/Pix2Gif/.
X-ray wordt veelvuldig toegepast voor transmissiebeeldvorming vanwege zijn sterkere penetratievermogen in vergelijking met natuurlijk licht. Bij het renderen van nieuwe X-ray projecties kampen bestaande methoden, voornamelijk gebaseerd op NeRF, met lange trainingstijden en trage inferentiesnelheden. In dit artikel stellen we een op 3D Gaussian splatting gebaseerd framework voor, genaamd X-Gaussian, voor de synthese van nieuwe X-ray beelden. Ten eerste herontwerpen we een stralings-Gaussisch puntenwolkmodel, geïnspireerd door de isotrope aard van X-ray beeldvorming. Ons model sluit de invloed van de kijkrichting uit bij het leren voorspellen van de stralingsintensiteit van 3D-punten. Op basis van dit model ontwikkelen we een Differentiable Radiative Rasterization (DRR) met CUDA-implementatie. Ten tweede stellen we een Angle-pose Cuboid Uniform Initialization (ACUI)-strategie op die direct de parameters van de X-ray scanner gebruikt om de camerainformatie te berekenen en vervolgens de puntposities uniform bemonstert binnen een kubus die het gescande object omsluit. Experimenten tonen aan dat onze X-Gaussian state-of-the-art methoden met 6,5 dB overtreft, terwijl het minder dan 15% trainingstijd en meer dan 73x inferentiesnelheid geniet. De toepassing op sparse-view CT-reconstructie onthult ook de praktische waarden van onze methode. Code en modellen zullen openbaar beschikbaar zijn op https://github.com/caiyuanhao1998/X-Gaussian. Een videodemo van de visualisatie van het trainingsproces is te vinden op https://www.youtube.com/watch?v=gDVf_Ngeghg.