Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Procesbeloningsmodellen (PRM's) komen naar voren als een veelbelovende benadering voor procesbegeleiding bij wiskundige redenering van Grote Taalmodellen (LLM's), die tot doel hebben om tussenliggende fouten in de redeneerprocessen te identificeren en te verminderen. De ontwikkeling van effectieve PRM's staat echter voor aanzienlijke uitdagingen, met name op het gebied van gegevensannotatie en evaluatiemethodologieën. In dit artikel tonen we aan, door uitgebreide experimenten, dat de veelgebruikte Monte Carlo (MC) schattingsgebaseerde gegevenssynthese voor PRM's doorgaans inferieure prestaties en generalisatie oplevert in vergelijking met LLM-als-rechter en menselijke annotatiemethoden. MC-schatting vertrouwt op voltooiingsmodellen om de juistheid van de huidige stap te evalueren, wat leidt tot onnauwkeurige stapverificatie. Bovendien identificeren we mogelijke vooroordelen in conventionele Best-of-N (BoN) evaluatiestrategieën voor PRM's: (1) De onbetrouwbare beleidsmodellen genereren reacties met juiste antwoorden maar gebrekkige processen, wat leidt tot een mismatch tussen de evaluatiecriteria van BoN en de PRM-doelstellingen van procesverificatie. (2) De tolerantie van PRM's voor dergelijke reacties leidt tot opgeblazen BoN-scores. (3) Bestaande PRM's hebben een aanzienlijk deel van minimale scores geconcentreerd op de uiteindelijke antwoordstappen, wat wijst op de verschuiving van proces naar op uitkomst gebaseerde beoordeling in BoN-geoptimaliseerde PRM's. Om deze uitdagingen aan te pakken, ontwikkelen we een consensusfiltermechanisme dat MC-schatting effectief integreert met LLM-als-rechter en pleiten voor een meer uitgebreid evaluatiekader dat responsniveau- en stapniveaumetrieken combineert. Op basis van deze mechanismen verbeteren we aanzienlijk zowel de modelprestaties als de gegevensefficiëntie in de BoN-evaluatie en de stapsgewijze foutidentificatietaak. Tot slot brengen we een nieuw toonaangevend PRM uit dat bestaande open-source alternatieven overtreft en praktische richtlijnen biedt voor toekomstig onderzoek naar het bouwen van procesbegeleidingsmodellen.
Het opschalen van taalmodellen om langere invoerreeksen te verwerken vereist doorgaans grote key-value (KV) caches, wat resulteert in aanzienlijke geheugenoverhead tijdens inferentie. In dit artikel stellen we Tensor Product Attention (TPA) voor, een nieuw aandachtsmechanisme dat tensordecomposities gebruikt om queries, keys en values compact voor te stellen, waardoor de KV-cachegrootte aanzienlijk wordt verkleind tijdens inferentie. Door deze voorstellingen te factoriseren in contextuele laag-rangcomponenten (contextuele factorisatie) en naadloos te integreren met RoPE, bereikt TPA verbeterde modelkwaliteit naast geheugenefficiëntie. Op basis van TPA introduceren we de Tensor ProducT ATTenTion Transformer (T6), een nieuw modelarchitectuur voor sequentiemodellering. Door uitgebreide empirische evaluatie van taalmodelleringstaken tonen we aan dat T6 de prestaties van standaard Transformer-baselines inclusief MHA, MQA, GQA en MLA overtreft op verschillende metrieken, waaronder perplexiteit en een reeks gerenommeerde evaluatiebenchmarks. Opmerkelijk is dat de geheugenefficiëntie van TPA de verwerking van aanzienlijk langere reeksen onder vaste resourcebeperkingen mogelijk maakt, waarmee een kritieke schaalbaarheidsuitdaging in moderne taalmodellen wordt aangepakt. De code is beschikbaar op https://github.com/tensorgi/T6.
De ontwikkeling van visie-taalmodellen (VLM's) wordt gedreven door grootschalige en diverse multimodale datasets. De vooruitgang naar generalistische biomedische VLM's wordt echter beperkt door het gebrek aan geannoteerde, openbaar toegankelijke datasets over biologie en geneeskunde. Bestaande inspanningen zijn beperkt tot smalle domeinen, waarbij de volledige diversiteit van biomedische kennis gecodeerd in wetenschappelijke literatuur ontbreekt. Om deze lacune aan te pakken, introduceren we BIOMEDICA, een schaalbaar, open-source framework om de gehele PubMed Central Open Access subset te extraheren, annoteren en serialiseren tot een gemakkelijk te gebruiken, openbaar toegankelijke dataset. Ons framework produceert een uitgebreid archief met meer dan 24 miljoen unieke afbeelding-tekstparen uit meer dan 6 miljoen artikelen. Metadata en door experts geleide annotaties worden ook verstrekt. We tonen de bruikbaarheid en toegankelijkheid van onze bron aan door BMCA-CLIP uit te brengen, een reeks CLIP-stijlmodellen die continu worden voorgeleerd op de BIOMEDICA-dataset via streaming, waardoor de noodzaak om 27 TB aan gegevens lokaal te downloaden, wordt geëlimineerd. Gemiddeld behalen onze modellen state-of-the-art prestaties over 40 taken - variërend van pathologie, radiologie, oogheelkunde, dermatologie, chirurgie, moleculaire biologie, parasitologie en celbiologie - uitblinkend in zero-shot classificatie met een gemiddelde verbetering van 6,56% (zo hoog als 29,8% en 17,5% respectievelijk in dermatologie en oogheelkunde), en betere afbeelding-tekst ophaling, dit alles terwijl er 10x minder berekeningen worden gebruikt. Om reproduceerbaarheid en samenwerking te bevorderen, stellen we onze codebase en dataset beschikbaar voor de bredere onderzoeksgemeenschap.
Zelf-aanpassende grote taalmodellen (LLM's) streven ernaar de uitdagingen op te lossen die worden gesteld door traditionele fijnafstemmingsmethoden, die vaak rekenintensief zijn en statisch in hun vermogen om diverse taken aan te kunnen. We introduceren \implname, een nieuw zelfaanpassingskader dat LLM's aanpast voor ongeziene taken in realtime door selectief alleen de afzonderlijke componenten van hun gewichtsmatrices aan te passen. Tijdens inferentie maakt \implname gebruik van een tweestappenmechanisme: eerst identificeert een dispatchsysteem de taakeigenschappen, en vervolgens worden taakspecifieke "expert" vectoren, getraind met behulp van versterkend leren, dynamisch gemengd om het gewenste gedrag voor de binnenkomende prompt te verkrijgen. Onze methode presteert beter dan alomtegenwoordige benaderingen zoals LoRA, met minder parameters en grotere efficiëntie. \implname toont veelzijdigheid aan over verschillende LLM-architecturen en modaliteiten, inclusief visie-taal taken. \implname vertegenwoordigt een significante sprong voorwaarts, en biedt een schaalbare, efficiënte oplossing voor het verbeteren van de aanpasbaarheid en taakspecifieke prestaties van LLM's, en effent het pad voor echt dynamische, zelforganiserende AI-systemen.
Recente ontwikkelingen in grote taalmodellen (LLM's) en multimodale spraak-tekstmodellen hebben de basis gelegd voor naadloze spraakinteracties, waardoor real-time, natuurlijke en mensachtige gesprekken mogelijk zijn. Vorige modellen voor spraakinteracties worden gecategoriseerd als inheems en uitgelijnd. Inheemse modellen integreren spraak- en tekstverwerking in één raamwerk, maar worstelen met problemen zoals verschillende sequentielengtes en onvoldoende voorafgaande training. Uitgelijnde modellen behouden de tekst LLM-capaciteiten, maar worden vaak beperkt door kleine datasets en een beperkte focus op spraaktaken. In dit werk introduceren we MinMo, een Multimodaal Groot Taalmodel met ongeveer 8 miljard parameters voor naadloze spraakinteractie. We pakken de belangrijkste beperkingen van eerdere uitgelijnde multimodale modellen aan. We trainen MinMo via meerdere stadia van spraak-naar-tekst uitlijning, tekst-naar-spraak uitlijning, spraak-naar-spraak uitlijning, en duplex-interactie-uitlijning, op 1,4 miljoen uur diverse spraakgegevens en een breed scala aan spraaktaken. Na de training in meerdere stadia behaalt MinMo state-of-the-art prestaties over verschillende benchmarks voor spraakbegrip en -generatie, terwijl het de capaciteiten van tekst LLM's behoudt, en ook volledige duplex-gesprekken vergemakkelijkt, dat wil zeggen, gelijktijdige tweerichtingscommunicatie tussen de gebruiker en het systeem. Bovendien stellen we een nieuw en eenvoudig stemdecoder voor die eerdere modellen overtreft in stemgeneratie. De verbeterde instructievolgcapaciteiten van MinMo ondersteunen het controleren van spraakgeneratie op basis van gebruikersinstructies, met verschillende nuances, waaronder emoties, dialecten en spreeksnelheden, en het nabootsen van specifieke stemmen. Voor MinMo is de spraak-naar-tekst latentie ongeveer 100 ms, de volledige duplex latentie is theoretisch ongeveer 600 ms en in de praktijk 800 ms. De MinMo-projectpagina is https://funaudiollm.github.io/minmo, en de code en modellen zullen binnenkort worden vrijgegeven.
Recente modellen voor videogeneratie hebben veelbelovende resultaten laten zien bij het produceren van videoclips van hoge kwaliteit die enkele seconden duren. Deze modellen staan echter voor uitdagingen bij het genereren van lange sequenties die duidelijke en informatieve gebeurtenissen overbrengen, waardoor hun vermogen om coherente verhalen te ondersteunen beperkt is. In dit artikel presenteren we een grootschalige kookvideo-dataset die is ontworpen om de generatie van lange narratieven in het kookdomein te bevorderen. We valideren de kwaliteit van onze voorgestelde dataset op het gebied van visuele getrouwheid en nauwkeurigheid van tekstuele bijschriften met behulp van toonaangevende Vision-Language Modellen (VLM's) en videogeneratiemodellen, respectievelijk. We introduceren verder een Lange Narratieve Video Regisseur om zowel visuele als semantische coherentie in gegenereerde video's te verbeteren en benadrukken de rol van het afstemmen van visuele embeddings om de algehele videokwaliteit te verbeteren. Onze methode toont aanzienlijke verbeteringen in het genereren van visueel gedetailleerde en semantisch uitgelijnde keyframes, ondersteund door finetuning-technieken die tekst- en beeld-embeddings integreren in het videogeneratieproces. Projectpagina: https://videoauteur.github.io/
Voortbouwend op onze eerdere onderzoeken naar O1-replicatie (Deel 1: Journey Learning [Qin et al., 2024] en Deel 2: Distillatie [Huang et al., 2024]), verkent dit werk het potentieel van schaalvergroting op inferentietijd in grote taalmodellen (LLM's) voor medische redeneertaken, variërend van diagnostische besluitvorming tot behandelplanning. Door uitgebreide experimenten op medische benchmarks van verschillende complexiteit (MedQA, Medbullets en JAMA Clinical Challenges) onthult ons onderzoek verschillende belangrijke inzichten: (1) Het verhogen van de inferentietijd leidt inderdaad tot verbeterde prestaties. Met een bescheiden trainingsset van 500 voorbeelden levert ons model aanzienlijke prestatieverbeteringen op van 6%-11%. (2) De taakcomplexiteit correleert direct met de vereiste lengte van redeneerketens, wat de noodzaak van uitgebreide denkprocessen voor uitdagende problemen bevestigt. (3) De differentiële diagnoses gegenereerd door ons model voldoen aan de principes van de hypothetico-deductieve methode, waarbij een lijst van mogelijke aandoeningen wordt geproduceerd die de symptomen van een patiënt kunnen verklaren en systematisch deze mogelijkheden verkleinen door het bewijs te evalueren. Deze bevindingen tonen de veelbelovende synergie tussen schaalvergroting op inferentietijd en journey learning bij het verbeteren van de klinische redeneervaardigheden van LLM's in de echte wereld.
Retrieval-augmented generation (RAG) toont opmerkelijke prestaties over verschillende taken in open-domain vraag-antwoord systemen. Echter, traditionele zoekmachines kunnen oppervlakkige inhoud ophalen, wat de mogelijkheid van LLMs beperkt om complexe, meerlaagse informatie te verwerken. Om dit aan te pakken, introduceren we WebWalkerQA, een benchmark ontworpen om de capaciteit van LLMs te beoordelen om webtraversie uit te voeren. Het evalueert de capaciteit van LLMs om door de subpagina's van een website te navigeren om systematisch hoogwaardige gegevens te extraheren. We stellen WebWalker voor, een multi-agent framework dat menselijke webnavigatie nabootst via een verken-criticus paradigma. Uitgebreide experimentele resultaten tonen aan dat WebWalkerQA uitdagend is en de effectiviteit van RAG gecombineerd met WebWalker aantoont, door horizontale en verticale integratie in real-world scenario's.
Grote Taalmodellen (LLM's) hebben uitzonderlijke prestaties getoond bij diverse taken, maar hun training blijft zeer resource-intensief en vatbaar voor kritieke uitdagingen zoals trainingsinstabiliteit. Een belangrijke bron van deze instabiliteit komt voort uit gradient- en verliespieken, die het leerproces verstoren en vaak leiden tot kostbare interventies zoals het herstellen van checkpoints en het opnieuw starten van experimenten, waardoor inefficiënties verder worden versterkt. Dit artikel presenteert een uitgebreid onderzoek naar gradientpieken die worden waargenomen tijdens de training van LLM's, waarbij hun voorkomen wordt onthuld in meerdere architecturen en datasets. Onze analyse toont aan dat deze pieken tot wel 1000 keer groter kunnen zijn dan typische gradients, waardoor de prestaties van het model aanzienlijk verslechteren. Om dit probleem aan te pakken, stellen we Spike-Aware Adam met Momentum Reset SPAM voor, een nieuw optimizer ontworpen om gradientpieken tegen te gaan door middel van momentumreset en spike-aware gradientclipping. Uitgebreide experimenten, inclusief zowel pre-training als fine-tuning, tonen aan dat SPAM consequent Adam en zijn varianten overtreft bij verschillende taken, waaronder (1) LLM pre-training van 60M tot 1B, (2) 4-bit LLM pre-training, (3) reinforcement learning, en (4) Time Series Forecasting. Daarnaast maakt SPAM geheugenefficiënte training mogelijk door het inschakelen van schaarse momentum, waarbij slechts een subset van momentumtermen wordt onderhouden en bijgewerkt. Bij het werken onder geheugenbeperkingen presteert SPAM beter dan geavanceerde geheugenefficiënte optimizers zoals GaLore en Adam-Mini. Ons werk benadrukt het belang van het verminderen van gradientpieken in LLM-training en introduceert een effectieve optimalisatiestrategie die zowel de trainingsstabiliteit als de resource-efficiëntie op schaal verbetert. De code is beschikbaar op https://github.com/TianjinYellow/SPAM-Optimizer.git
We introduceren Uncommon Objects in 3D (uCO3D), een nieuwe object-gecentreerde dataset voor 3D diep leren en 3D generatieve AI. uCO3D is de grootste publiekelijk beschikbare verzameling van hoge-resolutie video's van objecten met 3D annotaties die volledige 360^{circ} dekking garanderen. uCO3D is aanzienlijk diverser dan MVImgNet en CO3Dv2, met meer dan 1.000 objectcategorieën. Het is ook van hogere kwaliteit, dankzij uitgebreide kwaliteitscontroles van zowel de verzamelde video's als de 3D annotaties. Net als analoge datasets bevat uCO3D annotaties voor 3D cameraposities, dieptekaarten en schaarse puntwolken. Bovendien is elk object voorzien van een bijschrift en een 3D Gaussian Splat reconstructie. We trainen verschillende grote 3D modellen op MVImgNet, CO3Dv2 en uCO3D en behalen superieure resultaten met de laatste, wat aantoont dat uCO3D beter is voor leerapplicaties.
Chemische redenering omvat doorgaans complexe, meerstapsprocessen die nauwkeurige berekeningen vereisen, waar zelfs kleine fouten kunnen leiden tot cascaderende mislukkingen. Bovendien ondervinden grote taalmodellen (LLM's) moeilijkheden bij het verwerken van domeinspecifieke formules, het nauwkeurig uitvoeren van redeneerstappen en het effectief integreren van code bij het aanpakken van chemische redeneertaken. Om deze uitdagingen aan te pakken, presenteren we ChemAgent, een nieuw raamwerk dat is ontworpen om de prestaties van LLM's te verbeteren door middel van een dynamische, zelfbijgewerkte bibliotheek. Deze bibliotheek is ontwikkeld door chemische taken op te splitsen in subtaken en deze subtaken samen te stellen tot een gestructureerde verzameling die kan worden geraadpleegd voor toekomstige vragen. Vervolgens, wanneer zich een nieuw probleem voordoet, haalt ChemAgent relevante informatie op en verfijnt deze uit de bibliotheek, die we geheugen noemen, wat effectieve taakdecompositie en de generatie van oplossingen vergemakkelijkt. Onze methode ontwerpt drie soorten geheugen en een bibliotheekverbeterd redeneercomponent, waardoor LLM's in de loop van de tijd kunnen verbeteren door ervaring. Experimentele resultaten op vier chemische redeneerdatasets van SciBench tonen aan dat ChemAgent prestatiewinsten tot 46% (GPT-4) behaalt, waarbij bestaande methoden aanzienlijk worden overtroffen. Onze bevindingen suggereren aanzienlijk potentieel voor toekomstige toepassingen, waaronder taken zoals medicijnontdekking en materiaalwetenschap. Onze code is te vinden op https://github.com/gersteinlab/chemagent
Foundation modellen vertrouwen op grootschalige web-gecrawlede datasets, die vaak ruisige data, biases en irrelevante inhoud bevatten. Bestaande data selectietechnieken maken doorgaans gebruik van menselijke heuristieken, downstream evaluatiedatasets of gespecialiseerde scoringsmodellen, en kunnen de bruikbaarheid van samples in het trainingsproces over het hoofd zien. In plaats daarvan stellen we een nieuwe benadering voor, Mimic Score, een datakwaliteitsmetriek die een voortraind referentiemodel gebruikt als gids om de bruikbaarheid van datasamples voor het trainen van een nieuw model te beoordelen. Het vertrouwt op de afstemming tussen de gradiënt van de nieuwe modelparameters en de vector die naar het referentiemodel wijst in het gewichtsruimte. Samples die niet in lijn liggen met deze richting worden beschouwd als van lage waarde en kunnen worden gefilterd. Geïnspireerd door de Mimic score, ontwikkelen we Grad-Mimic, een data selectiekader dat nuttige samples identificeert en prioriteert, waarbij het selectieproces geautomatiseerd wordt om effectieve filters te creëren. Empirisch gezien leidt het gebruik van Mimic scores om modeltraining te begeleiden tot consistente prestatieverbeteringen over zes beelddatasets en verbetert het de prestaties van CLIP modellen. Bovendien verbeteren Mimic scores en hun bijbehorende filters bestaande filtermethoden en bieden ze een nauwkeurige schatting van de datasetkwaliteit.