Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Onderzoek naar het schalen van grote taalmodelen (LLMs) heeft zich voornamelijk gericht op modelparameters en de omvang van trainingsdata, waarbij de rol van vocabulairegrootte over het hoofd is gezien. Intuïtief gezien maken grotere vocabulaire efficiëntere tokenisatie mogelijk door zinnen met minder tokens weer te geven, maar ze vergroten ook het risico van onderfitting van representaties voor zeldzame tokens. Wij onderzoeken hoe vocabulairegrootte de schaalwetten van LLMs beïnvloedt door modellen te trainen variërend van 33M tot 3B parameters op maximaal 500B tekens met verschillende vocabulaireconfiguraties. We stellen drie complementaire benaderingen voor om de compute-optimale vocabulairegrootte te voorspellen: IsoFLOPs-analyse, schatting van afgeleiden, en parametrische aanpassing van de verliesfunctie. Onze benaderingen komen tot hetzelfde resultaat: de optimale vocabulairegrootte hangt af van het beschikbare compute-budget en grotere modellen verdienen grotere vocabulaire. Echter, de meeste LLMs gebruiken te kleine vocabulairegroottes. Zo voorspellen we bijvoorbeeld dat de optimale vocabulairegrootte van Llama2-70B minstens 216K had moeten zijn, 7 keer groter dan zijn vocabulaire van 32K. We valideren onze voorspellingen empirisch door modellen met 3B parameters te trainen over verschillende FLOPs-budgetten. Het overnemen van onze voorspelde optimale vocabulairegrootte verbetert consequent de downstream-prestaties vergeleken met veelgebruikte vocabulairegroottes. Door de vocabulairegrootte te verhogen van de conventionele 32K naar 43K, verbeteren we de prestaties op ARC-Challenge van 29.1 naar 32.0 met dezelfde 2.3e21 FLOPs. Ons werk benadrukt de noodzaak om modelparameters en vocabulairegrootte gezamenlijk te overwegen voor efficiënt schalen.
Schaalwetten met betrekking tot de hoeveelheid trainingsdata en het aantal parameters stellen ons in staat om de kosten-batenafwegingen van het vooraf trainen van taalmmodellen (LMs) in verschillende configuraties te voorspellen. In dit artikel beschouwen we een andere dimensie van schaling: de hoeveelheid data die beschikbaar is tijdens de inferentiefase. Specifiek vinden we dat het vergroten van de omvang van de datastore die wordt gebruikt door een retrieval-gebaseerd LM monotoon de taalmodeling en verschillende downstream taken verbetert zonder duidelijke verzadiging, zodat een kleiner model aangevuld met een grote datastore een groter LM-only model overtreft op kennisintensieve taken. Door compute-optimale schaalcurves te plotten met variërende datastore-, model- en vooraf getrainde data-omvang, laten we zien dat het gebruik van grotere datastores de modelprestaties aanzienlijk kan verbeteren voor hetzelfde trainingscompute-budget. We voeren onze studie uit door het construeren van een datastore van 1,4 biljoen tokens genaamd MassiveDS, wat de grootste en meest diverse open-source datastore is voor retrieval-gebaseerde LMs tot nu toe, en het ontwerpen van een efficiënte pipeline voor het bestuderen van datastore-schaling op een computationeel toegankelijke manier. Tot slot analyseren we het effect van het verbeteren van de retriever, datastore-kwaliteitsfiltering en andere ontwerpkeuzes op onze waargenomen schaaltrends. Over het algemeen laten onze resultaten zien dat de omvang van de datastore moet worden beschouwd als een integraal onderdeel van de efficiëntie en prestatieafwegingen van LMs. Om toekomstig onderzoek te vergemakkelijken, openbaren we onze datastore en code op https://github.com/RulinShao/retrieval-scaling.
Monoculaire dynamische reconstructie is een uitdagend en lang bestaand visieprobleem vanwege de sterk ill-posed aard van de taak. Bestaande benaderingen zijn beperkt doordat ze afhankelijk zijn van sjablonen, alleen effectief zijn in quasi-statische scènes, of er niet in slagen om 3D-beweging expliciet te modelleren. In dit werk introduceren we een methode die in staat is om generieke dynamische scènes te reconstrueren, met expliciete, volledige-sequentie-lange 3D-beweging, vanuit casual vastgelegde monoculaire video's. We pakken het onder-geconstrueerde karakter van het probleem aan met twee belangrijke inzichten: Ten eerste benutten we de laagdimensionale structuur van 3D-beweging door scènebeweging te representeren met een compacte set van SE3-bewegingsbasissen. De beweging van elk punt wordt uitgedrukt als een lineaire combinatie van deze basissen, wat een zachte decompositie van de scène in meerdere rigide bewegende groepen mogelijk maakt. Ten tweede maken we gebruik van een uitgebreide set van data-gedreven priors, waaronder monoculaire dieptekaarten en lange-afstand 2D-tracks, en ontwikkelen we een methode om deze ruisachtige superviserende signalen effectief te consolideren, wat resulteert in een globaal consistente representatie van de dynamische scène. Experimenten tonen aan dat onze methode state-of-the-art prestaties bereikt voor zowel lange-afstand 3D/2D-bewegingsschatting als nieuwe weergavesynthese op dynamische scènes. Projectpagina: https://shape-of-motion.github.io/
Dit artikel introduceert long-context Granite code-modellen die effectieve contextvensters ondersteunen van maximaal 128K tokens. Onze oplossing voor het schalen van de contextlengte van Granite 3B/8B code-modellen van 2K/4K naar 128K bestaat uit een lichtgewicht voortgezette pretraining door geleidelijk de RoPE-basisfrequentie te verhogen met repository-niveau bestandspakketten en lengte-upsampled long-context data. Daarnaast geven we ook instructie-getunede modellen vrij met long-context ondersteuning, die zijn afgeleid door verdere finetuning van de long-context basismodellen op een mix van permissief gelicenseerde korte en lange context instructie-responsparen. In vergelijking met de originele short-context Granite code-modellen behalen onze long-context modellen aanzienlijke verbeteringen op long-context taken zonder enige merkbare prestatievermindering op reguliere code-completion benchmarks (bijv. HumanEval). We geven al onze long-context Granite code-modellen vrij onder een Apache 2.0-licentie voor zowel onderzoek als commercieel gebruik.
We presenteren een methode voor het genereren van Streetscapes-lange reeksen beelden door een ter plekke gesynthetiseerde stedelijke omgeving op stadsniveau. Onze generatie wordt bepaald door taalinput (bijv. stadsnaam, weer), evenals een onderliggende kaart/layout die de gewenste trajecten bevat. In vergelijking met recente modellen voor videogeneratie of 3D-beeldsynthese, kan onze methode op veel langere cameratrajecten worden toegepast, die meerdere stadsblokken beslaan, terwijl de visuele kwaliteit en consistentie behouden blijven. Om dit doel te bereiken, bouwen we voort op recent werk over videodiffusie, gebruikt binnen een autoregressief framework dat eenvoudig kan worden opgeschaald naar lange sequenties. In het bijzonder introduceren we een nieuwe temporele imputatiemethode die voorkomt dat onze autoregressieve aanpak afdrijft van de distributie van realistische stadsbeelden. We trainen ons Streetscapes-systeem op een overtuigende bron van gepositioneerde beelden van Google Street View, samen met contextuele kaartgegevens, waardoor gebruikers stadsbeelden kunnen genereren die zijn afgestemd op elke gewenste stadslayout, met controleerbare cameraposities. Bekijk meer resultaten op onze projectpagina op https://boyangdeng.com/streetscapes.
Ondanks de superieure capaciteiten van Multimodale Grote Taalmodellen (MLLMs) bij diverse taken, worden ze nog steeds geconfronteerd met aanzienlijke uitdagingen op het gebied van betrouwbaarheid. Toch blijft de huidige literatuur over de beoordeling van betrouwbare MLLMs beperkt, waarbij een holistische evaluatie ontbreekt die grondige inzichten biedt voor toekomstige verbeteringen. In dit werk introduceren we MultiTrust, de eerste uitgebreide en uniforme benchmark voor de betrouwbaarheid van MLLMs, gericht op vijf primaire aspecten: waarheidsgetrouwheid, veiligheid, robuustheid, eerlijkheid en privacy. Onze benchmark maakt gebruik van een rigoureuze evaluatiestrategie die zowel multimodale risico's als cross-modale effecten aanpakt, en omvat 32 diverse taken met zelf samengestelde datasets. Uitgebreide experimenten met 21 moderne MLLMs onthullen enkele voorheen onontdekte betrouwbaarheidsproblemen en risico's, wat de complexiteiten benadrukt die door de multimodaliteit worden geïntroduceerd en de noodzaak onderstreept van geavanceerde methodologieën om hun betrouwbaarheid te vergroten. Zo hebben typische propriëtaire modellen nog steeds moeite met het waarnemen van visueel verwarrende afbeeldingen en zijn ze kwetsbaar voor multimodale jailbreaking en adversariële aanvallen; MLLMs zijn geneigd om privacy in tekst te onthullen en ideologische en culturele vooroordelen te tonen, zelfs wanneer ze worden gekoppeld aan irrelevante afbeeldingen tijdens inferentie, wat aangeeft dat de multimodaliteit de interne risico's van de basis-LLMs versterkt. Daarnaast brengen we een schaalbare toolbox uit voor gestandaardiseerd onderzoek naar betrouwbaarheid, met als doel toekomstige vooruitgang in dit belangrijke veld te vergemakkelijken. Code en bronnen zijn publiekelijk beschikbaar op: https://multi-trust.github.io/.
Direct Preference Optimization (DPO) is uitgegroeid tot een veelgebruikte trainingsmethode voor het instructie-finetunen van grote taalmodelen (LLMs). In dit werk onderzoeken we een onderbelicht aspect van DPO: de afhankelijkheid van het referentiemodel of -beleid. Dergelijke referentiebeleidsregels, doorgaans geïnstantieerd als het model dat verder moet worden gefinetuned, zijn belangrijk omdat ze een bovengrens kunnen stellen aan de effectiviteit van DPO. Daarom behandelen we in dit werk drie gerelateerde onderzoeksvragen. Ten eerste onderzoeken we de optimale sterkte van de KL-divergentiebeperking in DPO, die afwijkingen van het referentiebeleid bestraft, en concluderen dat DPO gevoelig is voor deze sterkte. Vervolgens onderzoeken we de noodzaak van referentiebeleidsregels voor instructie-finetuning door zowel theoretische als empirische vergelijkingen te maken tussen DPO en gerelateerde leerdoelstellingen, waarbij we de superioriteit van DPO aantonen. Daarnaast onderzoeken we of DPO baat heeft bij sterkere referentiebeleidsregels, en vinden we dat een sterker referentiebeleid kan leiden tot betere prestaties, maar alleen wanneer het vergelijkbaar is met het model dat wordt gefinetuned. Onze bevindingen benadrukken de verwarrende rol van referentiebeleidsregels in DPO en bieden inzichten voor best practices, terwijl ze ook open onderzoeksvragen identificeren voor toekomstige studies.
Bestaande retrievalbenchmarks bestaan voornamelijk uit informatiezoekende queries (bijv. geaggregeerde vragen van zoekmachines) waarbij op trefwoorden of semantiek gebaseerde retrieval meestal voldoende is. Veel complexe, real-world queries vereisen echter diepgaande redenering om relevante documenten te identificeren die verder gaan dan oppervlakkige vormovereenkomst. Het vinden van documentatie voor een programmeervraag vereist bijvoorbeeld begrip van de logica en syntaxis van de betrokken functies. Om retrieval beter te benchmarken op dergelijke uitdagende queries, introduceren we BRIGHT, de eerste tekstretrievalbenchmark die intensieve redenering vereist om relevante documenten te vinden. BRIGHT is opgebouwd uit 1.398 real-world queries uit diverse domeinen (zoals economie, psychologie, robotica, software engineering, aardwetenschappen, etc.), afkomstig van natuurlijk voorkomende of zorgvuldig samengestelde menselijke data. Uitgebreide evaluatie toont aan dat zelfs state-of-the-art retrievalmodellen slecht presteren op BRIGHT. Het leidende model op de MTEB-leaderboard [38], dat een score van 59.0 nDCG@10 behaalt, produceert een score van nDCG@10 van 18.0 op BRIGHT. We tonen verder aan dat het verrijken van queries met Chain-of-Thought-redenering gegenereerd door grote taalmodellen (LLMs) de prestaties met tot 12.2 punten verbetert. Bovendien is BRIGHT robuust tegen datalekken tijdens de pretraining van de gebenchmarkte modellen, zoals we valideren door vergelijkbare prestaties te laten zien, zelfs wanneer documenten uit de benchmark in de trainingsdata zijn opgenomen. We geloven dat BRIGHT de weg vrijmaakt voor toekomstig onderzoek naar retrievalsystemen in meer realistische en uitdagende omgevingen. Onze code en data zijn beschikbaar op https://brightbenchmark.github.io.
In het domein van digitale creativiteit wordt ons vermogen om complexe 3D-werelden vanuit de verbeelding te creëren vaak belemmerd door de beperkingen van bestaande digitale tools, die uitgebreide expertise en inspanning vereisen. Om deze kloof te verkleinen, introduceren we CLAY, een 3D-geometrie- en materiaalgenerator die is ontworpen om menselijke verbeelding moeiteloos om te zetten in ingewikkelde 3D-digitale structuren. CLAY ondersteunt klassieke tekst- of afbeeldingsinvoer, evenals 3D-bewuste besturingselementen vanuit diverse primitieven (multi-view afbeeldingen, voxels, begrenzingsvakken, puntenwolken, impliciete representaties, enz.). De kern bestaat uit een grootschalig generatief model, samengesteld uit een multi-resolutie Variational Autoencoder (VAE) en een minimalistische latente Diffusion Transformer (DiT), om rijke 3D-priors direct uit een diverse reeks 3D-geometrieën te extraheren. Specifiek maakt het gebruik van neurale velden om continue en complete oppervlakken te representeren en gebruikt het een geometrie-generatiemodule met pure transformer-blokken in de latente ruimte. We presenteren een progressief trainingsschema om CLAY te trainen op een ultragrote 3D-modeldataset, verkregen via een zorgvuldig ontworpen verwerkingspijplijn, wat resulteert in een 3D-native geometriegenerator met 1,5 miljard parameters. Voor het genereren van uiterlijk streeft CLAY ernaar fysiek gebaseerde rendering (PBR)-texturen te produceren door gebruik te maken van een multi-view materiaaldiffusiemodel dat 2K-resolutietexturen kan genereren met diffuse, ruwheid- en metalic-modalities. We demonstreren het gebruik van CLAY voor een reeks controleerbare 3D-assetcreaties, van schetsmatige conceptuele ontwerpen tot productieklare assets met ingewikkelde details. Zelfs eerste gebruikers kunnen CLAY gemakkelijk gebruiken om hun levendige 3D-verbeelding tot leven te brengen, waardoor onbeperkte creativiteit wordt ontketend.
De toenemende complexiteit en hoge kosten die gepaard gaan met het ontwerp van moderne processors hebben geleid tot een sterke toename in de vraag naar automatisering van processorontwerp. Instructie-getunede grote taalmodellen (LLMs) hebben opmerkelijke prestaties getoond bij het automatisch genereren van code voor algemene programmeertalen zoals Python. Deze methoden falen echter bij hardwarebeschrijvingstalen (HDLs) zoals Verilog vanwege het gebrek aan hoogwaardige instructie-tuningdata, aangezien zelfs geavanceerde LLMs zoals GPT-3.5 beperkte prestaties vertonen bij het genereren van Verilog. Met betrekking tot dit probleem observeren we dat (1) Verilog-code die uit de echte wereld is verzameld van hogere kwaliteit is dan die gegenereerd door LLMs. (2) LLMs zoals GPT-3.5 uitblinken in het samenvatten van Verilog-code in plaats van het genereren ervan. Op basis van deze observaties introduceert dit artikel CodeV, een reeks open-source instructie-getunede Verilog-genererende LLMs. In plaats van eerst beschrijvingen te genereren en vervolgens de bijbehorende code te verkrijgen van geavanceerde LLMs, geven we de LLM Verilog-code als input en laten we de LLM de bijbehorende natuurlijke taal beschrijving genereren door middel van meerdere niveaus van samenvatting. Experimentele resultaten tonen aan dat CodeV relatief de vorige open-source SOTA met 14,4% overtreft (BetterV in VerilogEval) en 11,3% (RTLCoder in RTLLM), en ook relatief beter presteert dan de vorige commerciële SOTA GPT-4 met 22,1% in VerilogEval.
Grote taalmmodellen (LLMs) kunnen ontbrekende elementen suggereren uit items die in een prompt worden opgesomd, wat kan worden gebruikt voor het voltooien van lijsten of aanbevelingen op basis van de geschiedenis van gebruikers. Hun prestaties nemen echter af wanneer ze met te veel items worden geconfronteerd, omdat ze dan items gaan suggereren die al in de invoerlijst zijn opgenomen. Dit gebeurt bij ongeveer 100 items voor topmodellen van LLMs uit midden 2024. We evalueren dit fenomeen zowel op synthetische problemen (bijvoorbeeld het vinden van ontbrekende getallen in een gegeven bereik van geschudde gehele getallen) als op realistische scenario's voor filmaanbevelingen. We verwijzen naar dit probleem als aandachtsoverloop, omdat het voorkomen van herhaling vereist dat alle items tegelijkertijd worden geattendeerd. Hoewel iteratieve lussen dit probleem kunnen verzachten, nemen hun kosten toe met de herhalingsfrequentie, wat het vermogen van de taalmmodellen om nieuwigheid uit lange invoeren te halen, beïnvloedt.
Op het gebied van taalmodellen zijn modellen die zijn uitgebreid met retrievalsystemen naar voren gekomen als een veelbelovende oplossing voor verschillende uitdagingen in het domein van natuurlijke taalverwerking (Natural Language Processing, NLP), waaronder kennisverankering, interpreteerbaarheid en schaalbaarheid. Hoewel de primaire focus op NLP ligt, stellen wij dat het paradigma van retrieval-verbetering kan worden uitgebreid naar een breder spectrum van machine learning (ML), zoals computervisie, tijdreeksvoorspelling en computationele biologie. Daarom introduceert dit werk een formeel kader voor dit paradigma, Retrieval-Enhanced Machine Learning (REML), door de literatuur uit verschillende ML-domeinen te synthetiseren met consistente notaties die momenteel ontbreken in de bestaande literatuur. Tevens hebben wij vastgesteld dat, hoewel een aantal studies retrievalsystemen gebruiken om hun modellen te versterken, er een gebrek is aan integratie met fundamenteel onderzoek op het gebied van informatie retrieval (Information Retrieval, IR). Wij overbruggen deze kloof tussen baanbrekend IR-onderzoek en hedendaagse REML-studies door elk onderdeel van het REML-kader te onderzoeken. Uiteindelijk is het doel van dit werk om onderzoekers uit verschillende disciplines uit te rusten met een uitgebreid, formeel gestructureerd kader voor retrieval-verbeterde modellen, waardoor interdisciplinair toekomstig onderzoek wordt bevorderd.
Dit onderzoek heeft als doel de implementatie van Natural Language Processing (NLP) en machine learning (ML) technieken te verkennen om het coderen van medische brieven te automatiseren met gevisualiseerde verklaarbaarheid en lichtgewicht lokale computerinstellingen. Momenteel is codering in klinische omgevingen een handmatig proces waarbij codes worden toegewezen aan elke aandoening, procedure en medicatie in de documentatie van een patiënt (bijvoorbeeld 56265001 hartziekte met behulp van de SNOMED CT-code). Er is voorlopig onderzoek gedaan naar automatische codering in dit veld met behulp van state-of-the-art ML-modellen; echter, vanwege de complexiteit en omvang van de modellen, is de implementatie in de praktijk nog niet gerealiseerd. Om de mogelijkheid van automatische codering verder te vergemakkelijken, verkennen we enkele oplossingen in een lokale computeromgeving; daarnaast onderzoeken we de functie van verklaarbaarheid voor de transparantie van AI-modellen. We gebruikten de openbaar beschikbare MIMIC-III-database en de HAN/HLAN-netwerkmodellen voor ICD-codevoorspellingsdoeleinden. We experimenteerden ook met de mapping tussen ICD- en SNOMED CT-kennisbanken. In onze experimenten boden de modellen nuttige informatie voor 97,98% van de codes. Het resultaat van dit onderzoek kan inzicht bieden in de implementatie van automatische klinische codering in de praktijk, zoals in ziekenhuisomgevingen, op de lokale computers die door clinici worden gebruikt, projectpagina https://github.com/Glenj01/Medical-Coding.
Recente vooruitgang in Taalmodellen (LMs) heeft de creatie van meerdere benchmarks gestimuleerd, die zijn ontworpen om de algemene capaciteiten van deze modellen te beoordelen. Een cruciale taak is echter het beoordelen van de geldigheid van de benchmarks zelf. Dit wordt meestal gedaan via Benchmark Agreement Testing (BAT), waarbij nieuwe benchmarks worden gevalideerd tegenover gevestigde benchmarks met behulp van een overeenstemmingsmetriek (bijvoorbeeld rangcorrelatie). Ondanks de cruciale rol van BAT voor benchmarkbouwers en -gebruikers, zijn er geen gestandaardiseerde procedures voor dergelijke overeenstemmingstests. Dit gebrek kan leiden tot ongeldige conclusies, wat wantrouwen in benchmarks bevordert en het vermogen om de juiste benchmark te kiezen ondermijnt. Door meer dan 40 prominente benchmarks te analyseren, laten we zien hoe sommige over het hoofd geziene methodologische keuzes de BAT-resultaten aanzienlijk kunnen beïnvloeden, wat de geldigheid van conclusies potentieel kan ondermijnen. Om deze inconsistenties aan te pakken, stellen we een reeks best practices voor BAT voor en demonstreren we hoe het gebruik van deze methodologieën de robuustheid en geldigheid van BAT aanzienlijk verbetert. Om adoptie te bevorderen en toekomstig onderzoek te vergemakkelijken, introduceren we BenchBench, een Python-pakket voor BAT, en lanceren we de BenchBench-leaderboard, een meta-benchmark die is ontworpen om benchmarks te evalueren aan de hand van hun peers. Onze bevindingen benadrukken de noodzaak van gestandaardiseerde BAT, om de robuustheid en geldigheid van benchmarkevaluaties te waarborgen in het zich ontwikkelende landschap van taalmodelonderzoek. BenchBench Pakket: https://github.com/IBM/BenchBench Leaderboard: https://huggingface.co/spaces/per/BenchBench
Grote Taalmodellen (LLMs) hebben het potentieel om sommige procesmining (PM) analyses semi-automatisch uit te voeren. Hoewel commerciële modellen al geschikt zijn voor veel analytische taken, is het competitieve niveau van open-source LLMs bij PM-taken nog onbekend. In dit artikel stellen we PM-LLM-Benchmark voor, de eerste uitgebreide benchmark voor PM die zich richt op domeinkennis (procesmining-specifiek en proces-specifiek) en op verschillende implementatiestrategieën. We richten ons ook op de uitdagingen bij het creëren van zo'n benchmark, gerelateerd aan de publieke beschikbaarheid van de data en aan evaluatievooroordelen door de LLMs. Over het algemeen merken we op dat de meeste van de overwogen LLMs sommige procesmining-taken op een bevredigend niveau kunnen uitvoeren, maar kleine modellen die op edge-apparaten zouden draaien, zijn nog steeds ontoereikend. We concluderen ook dat hoewel de voorgestelde benchmark nuttig is voor het identificeren van LLMs die geschikt zijn voor procesmining-taken, verder onderzoek nodig is om de evaluatievooroordelen te overwinnen en een grondiger rangschikking van de competitieve LLMs uit te voeren.