Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Taalmodellen hebben hun effectiviteit bewezen in diverse softwaretoepassingen, met name bij taken die verband houden met automatische workflows. Deze modellen beschikken over de cruciale mogelijkheid om functies aan te roepen, wat essentieel is voor het creëren van AI-agents. Ondanks de hoge prestaties van grootschalige taalmodellen in cloudomgevingen, gaan ze vaak gepaard met zorgen over privacy en kosten. Huidige on-device modellen voor het aanroepen van functies kampen met problemen op het gebied van latentie en nauwkeurigheid. Ons onderzoek presenteert een nieuwe methode die een on-device model met 2 miljard parameters in staat stelt om de prestaties van GPT-4 te overtreffen op zowel nauwkeurigheid als latentie, en de contextlengte met 95\% te verminderen. In vergelijking met Llama-7B met een RAG-gebaseerd functieaanroepmechanisme, verbetert onze methode de latentie met een factor 35. Deze methode reduceert de latentie tot niveaus die geschikt worden geacht voor implementatie op diverse edge-apparaten in productieomgevingen, in lijn met de prestatievereisten voor real-world toepassingen.
We introduceren Eurus, een suite van grote taalmodellen (LLMs) die zijn geoptimaliseerd voor redeneren. Gefinetuned vanuit Mistral-7B en CodeLlama-70B, behalen de Eurus-modellen state-of-the-art resultaten onder open-source modellen op een diverse set van benchmarks die wiskunde, codegeneratie en logische redeneerproblemen omvatten. Opmerkelijk is dat Eurus-70B GPT-3.5 Turbo verslaat in redeneren door middel van een uitgebreide benchmarking over 12 tests die vijf taken beslaan, en een nauwkeurigheid van 33,3% pass@1 behaalt op LeetCode en 32,6% op TheoremQA, twee uitdagende benchmarks, waarmee het bestaande open-source modellen aanzienlijk overtreft met marges van meer dan 13,3%. De sterke prestaties van Eurus kunnen voornamelijk worden toegeschreven aan UltraInteract, onze nieuw samengestelde, grootschalige, hoogwaardige alignementdataset die specifiek is ontworpen voor complexe redeneertaken. UltraInteract kan worden gebruikt in zowel supervised finetuning als voorkeursleren. Voor elke instructie bevat het een voorkeursboom die bestaat uit (1) redeneerketens met diverse planningsstrategieën in een uniform formaat, (2) multi-turn interactietrajecten met de omgeving en de kritiek, en (3) paarsgewijze data om voorkeursleren te vergemakkelijken. UltraInteract stelt ons in staat om een diepgaande verkenning uit te voeren van voorkeursleren voor redeneertaken. Ons onderzoek toont aan dat sommige goed ingeburgerde voorkeursleralgoritmen mogelijk minder geschikt zijn voor redeneertaken in vergelijking met hun effectiviteit in algemene gesprekken. Geïnspireerd door dit inzicht, leiden we een nieuw doel af voor beloningsmodellering, dat samen met UltraInteract leidt tot een sterk beloningsmodel.
Grote Taalmodellen (LLMs) hebben aanzienlijke vooruitgang geboekt in het verwerken van lange sequenties die 32K tokens overschrijden. Hun prestatie-evaluatie is echter grotendeels beperkt gebleven tot metrieken zoals perplexiteit en synthetische taken, wat mogelijk niet volledig hun vermogen in meer genuanceerde, realistische scenario's weergeeft. Deze studie introduceert een gespecialiseerde benchmark (LIConBench) die zich richt op lang in-context leren binnen het domein van extreme-label classificatie. We hebben zorgvuldig zes datasets geselecteerd met een labelbereik van 28 tot 174 klassen, waarbij de invoerlengte (few-shot demonstratie) varieert van 2K tot 50K. Onze benchmark vereist dat LLMs de volledige invoer begrijpen om de enorme labelruimtes te herkennen en correcte voorspellingen te maken. We evalueren 13 lang-context LLMs op onze benchmarks. We constateren dat de lang-context LLMs relatief goed presteren bij een tokenlengte van minder dan 20K en dat de prestaties profiteren van het gebruik van het lange contextvenster. Wanneer het contextvenster echter 20K overschrijdt, nemen de prestaties van de meeste LLMs, met uitzondering van GPT-4, dramatisch af. Dit suggereert een opmerkelijk gat in de huidige LLM-capaciteiten voor het verwerken en begrijpen van lange, contextrijke sequenties. Verdere analyse onthulde een tendens onder modellen om voorspellingen te geven voor labels die aan het einde van de sequentie worden gepresenteerd. Hun vermogen om over meerdere stukken in de lange sequentie te redeneren moet nog worden verbeterd. Onze studie toont aan dat lang contextbegrip en redeneren nog steeds een uitdagende taak is voor de bestaande LLMs. Wij geloven dat LIConBench een realistischer evaluatie kan bieden voor toekomstige lang-context LLMs.
We trainen een reeks multimodale foundationmodellen (MMFM) met behulp van het populaire LLaVA-framework en de recent uitgebrachte Gemma-familie van grote taalmmodellen (LLMs). Bijzondere aandacht gaat uit naar het 2B-parameter Gemma-model, dat mogelijkheden biedt om capabele kleinschalige MMFMs te construeren. In lijn met bevindingen uit andere papers in dit domein, testen we het effect van het weglaten van drie ontwerpkenmerken: het vooraf trainen van de connector, het gebruik van een krachtiger beeldbackbone en het vergroten van de omvang van de taalbackbone. De resulterende modellen, die we LLaVA-Gemma noemen, vertonen matige prestaties op een reeks evaluaties, maar slagen er niet in om de huidige vergelijkbaar grote SOTA-modellen te overtreffen. Een gedetailleerde analyse van de prestaties toont gemengde effecten; het overslaan van vooraf trainen leidt meestal tot lagere prestaties, grotere visionmodellen verbeteren soms de prestaties, en het vergroten van de omvang van het taalmodel heeft inconsistente effecten. We maken de trainingsrecepten, code en gewichten van onze LLaVA-Gemma-modellen publiekelijk beschikbaar.
We introduceren HyperCLOVA X, een familie van grote taalmodelen (LLM's) die zijn afgestemd op de Koreaanse taal en cultuur, met daarnaast competitieve vaardigheden in Engels, wiskunde en programmeren. HyperCLOVA X is getraind op een gebalanceerde mix van Koreaanse, Engelse en programmeerdata, gevolgd door instructie-afstemming met hoogwaardige, door mensen geannoteerde datasets, waarbij strikte veiligheidsrichtlijnen werden gevolgd die onze inzet voor verantwoorde AI weerspiegelen. Het model wordt geëvalueerd op diverse benchmarks, waaronder uitgebreid redeneren, kennis, gezond verstand, feitelijkheid, programmeren, wiskunde, chatten, instructie-opvolging en onschadelijkheid, zowel in het Koreaans als in het Engels. HyperCLOVA X toont sterke redeneervaardigheden in het Koreaans, ondersteund door een diep begrip van de taal en culturele nuances. Verdere analyse van de inherente tweetaligheid en de uitbreiding naar meertaligheid benadrukt de cross-linguale vaardigheid van het model en het sterke generalisatievermogen naar niet-doelgerichte talen, inclusief machinaal vertalen tussen verschillende taalparen en cross-linguale inferentietaken. Wij geloven dat HyperCLOVA X nuttige richtlijnen kan bieden voor regio's of landen bij het ontwikkelen van hun eigen soevereine LLM's.
Beheersbaarheid speelt een cruciale rol in videogeneratie, omdat het gebruikers in staat stelt om gewenste inhoud te creëren. Bestaande modellen hebben echter grotendeels de precieze controle over camerapositie over het hoofd gezien, wat als een cinematische taal dient om diepere narratieve nuances uit te drukken. Om dit probleem te verlichten, introduceren we CameraCtrl, dat nauwkeurige camerapositiecontrole mogelijk maakt voor tekst-naar-video (T2V) modellen. Na het precies parametriseren van de cameratrajectorie, wordt een plug-and-play cameramodule getraind op een T2V-model, terwijl andere onderdelen onaangeroerd blijven. Daarnaast wordt een uitgebreide studie uitgevoerd naar het effect van verschillende datasets, wat suggereert dat video's met een diverse cameraverspreiding en vergelijkbare verschijningen inderdaad de beheersbaarheid en generalisatie verbeteren. Experimentele resultaten tonen de effectiviteit van CameraCtrl aan in het bereiken van precieze en domeinadaptieve camerabesturing, wat een stap voorwaarts betekent in het streven naar dynamisch en gepersonaliseerd videoverhaal vanuit tekstuele en camerapositie-inputs. Ons projectwebsite is te vinden op: https://hehao13.github.io/projects-CameraCtrl/.
We bestuderen de schaaleigenschappen van latente diffusiemodellen (LDMs) met een nadruk op hun samplingefficiëntie. Hoewel verbeterde netwerkarchitecturen en inferentie-algoritmen effectief hebben aangetoond de samplingefficiëntie van diffusiemodellen te verhogen, is de rol van modelgrootte -- een cruciale bepalende factor voor samplingefficiëntie -- nog niet grondig onderzocht. Door middel van empirische analyse van gevestigde tekst-naar-beeld diffusiemodellen, voeren we een diepgaand onderzoek uit naar hoe modelgrootte de samplingefficiëntie beïnvloedt bij verschillende samplingstappen. Onze bevindingen onthullen een verrassende trend: wanneer er wordt gewerkt binnen een bepaald inferentiebudget, presteren kleinere modellen vaak beter dan hun grotere tegenhangers in het genereren van hoogwaardige resultaten. Bovendien breiden we onze studie uit om de generaliseerbaarheid van deze bevindingen aan te tonen door verschillende diffusiesamplers toe te passen, diverse downstreamtaken te verkennen, post-gedistilleerde modellen te evalueren, en prestaties te vergelijken ten opzichte van trainingsrekenkracht. Deze bevindingen openen nieuwe wegen voor de ontwikkeling van LDM-schaalstrategieën die kunnen worden ingezet om generatieve capaciteiten te verbeteren binnen beperkte inferentiebudgetten.
Grote taalmmodellen (LLMs) hebben brede interesse gewekt vanwege hun vermogen om menselijke taal te verwerken en taken uit te voeren waarop ze niet expliciet zijn getraind. Dit is relevant voor de chemische wetenschappen, die te maken hebben met het probleem van kleine en diverse datasets die vaak in tekstvorm zijn. LLMs hebben belofte getoond in het aanpakken van deze problemen en worden steeds vaker ingezet om chemische eigenschappen te voorspellen, reacties te optimaliseren en zelfs experimenten autonoom te ontwerpen en uit te voeren. We hebben echter nog maar een zeer beperkt systematisch begrip van de chemische redeneervaardigheden van LLMs, wat nodig zou zijn om modellen te verbeteren en mogelijke schade te beperken. Hier introduceren we "ChemBench," een geautomatiseerd raamwerk ontworpen om de chemische kennis en redeneervaardigheden van state-of-the-art LLMs rigoureus te evalueren tegen de expertise van menselijke chemici. We hebben meer dan 7.000 vraag-antwoordparen samengesteld voor een breed scala aan subvelden van de chemische wetenschappen, hebben toonaangevende open en closed-source LLMs geëvalueerd, en ontdekten dat de beste modellen gemiddeld beter presteerden dan de beste menselijke chemici in ons onderzoek. De modellen hebben echter moeite met sommige chemische redeneertaken die eenvoudig zijn voor menselijke experts en geven overmoedige, misleidende voorspellingen, bijvoorbeeld over de veiligheidsprofielen van chemicaliën. Deze bevindingen onderstrepen de dubbele realiteit dat, hoewel LLMs opmerkelijke vaardigheden tonen in chemische taken, verder onderzoek cruciaal is om hun veiligheid en bruikbaarheid in de chemische wetenschappen te verbeteren. Onze bevindingen wijzen ook op de noodzaak van aanpassingen aan chemiecurricula en benadrukken het belang van het blijven ontwikkelen van evaluatieraamwerken om veilige en nuttige LLMs te verbeteren.
Het vooraf trainen van state-of-the-art grote taalmodelen vereist nu triljoenen woorden aan tekst, wat een veelvoud is van wat beschikbaar is voor de overgrote meerderheid van talen. Hoewel het opnemen van tekst in meer dan één taal een voor de hand liggende manier is om meer vooraf getrainde data te verkrijgen, wordt meertaligheid vaak gezien als een vloek, en de meeste inspanningen voor het trainen van modellen blijven zich bijna uitsluitend richten op individuele grote talen. Wij geloven dat meertaligheid een zegen kan zijn en dat het mogelijk zou moeten zijn om de mogelijkheden van eentalige modellen voor kleine talen aanzienlijk te verbeteren door middel van meertalige training. In deze studie introduceren we Poro 34B, een model met 34 miljard parameters getraind op 1 biljoen tokens van Fins, Engels en programmeertalen, en demonstreren we dat een meertalige trainingsaanpak een model kan opleveren dat niet alleen aanzienlijk voortbouwt op de mogelijkheden van bestaande modellen voor Fins, maar ook uitblinkt in vertaling en competitief is in zijn klasse bij het genereren van Engels en programmeertalen. We publiceren de modelparameters, scripts en data onder open licenties op https://huggingface.co/LumiOpen/Poro-34B.
We stellen 3D Congealing voor, een nieuw probleem van 3D-aware uitlijning voor 2D-afbeeldingen die semantisch vergelijkbare objecten vastleggen. Gegeven een verzameling ongelabelde internetafbeeldingen, is ons doel om de gedeelde semantische delen van de invoer te associëren en de kennis van 2D-afbeeldingen samen te voegen in een gedeelde 3D canonieke ruimte. We introduceren een algemeen raamwerk dat deze taak aanpakt zonder vormtemplates, poses of cameraparameters te veronderstellen. De kern ervan is een canonieke 3D-representatie die geometrische en semantische informatie omvat. Het raamwerk optimaliseert de canonieke representatie samen met de pose voor elke invoerafbeelding, en een per-afbeelding coördinatenkaart die 2D-pixelcoördinaten vervormt naar het 3D canonieke frame om de vormovereenkomst te verklaren. Het optimalisatieproces combineert voorkennis van een vooraf getraind beeldgeneratief model en semantische informatie van invoerafbeeldingen. Het eerste biedt sterke kennisbegeleiding voor deze onderbeperkte taak, terwijl het laatste de nodige informatie levert om de trainingsdatabias van het vooraf getrainde model te verminderen. Ons raamwerk kan worden gebruikt voor verschillende taken zoals correspondentieovereenkomst, pose-estimatie en beeldbewerking, en behaalt sterke resultaten op real-world beelddatasets onder uitdagende belichtingsomstandigheden en op in-the-wild online beeldcollecties.
We presenteren LLM-ABR, het eerste systeem dat de generatieve mogelijkheden van grote taalmodellen (LLMs) benut om autonoom adaptieve bitrate (ABR) algoritmen te ontwerpen die zijn afgestemd op diverse netwerkeigenschappen. Binnen een reinforcement learning-raamwerk stelt LLM-ABR LLMs in staat om cruciale componenten zoals toestanden en neurale netwerkarchitecturen te ontwerpen. We evalueren LLM-ABR in verschillende netwerkomgevingen, waaronder breedband, satelliet, 4G en 5G. LLM-ABR presteert consistent beter dan standaard ABR-algoritmen.