Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We presenteren DeepSeek-Coder-V2, een open-source Mixture-of-Experts (MoE) code-taalmodel dat prestaties levert die vergelijkbaar zijn met GPT4-Turbo in code-specifieke taken. Specifiek is DeepSeek-Coder-V2 verder voorgetraind vanaf een tussenliggend checkpoint van DeepSeek-V2 met aanvullende 6 biljoen tokens. Door deze voortgezette voorpretraining verbetert DeepSeek-Coder-V2 aanzienlijk de codeer- en wiskundige redeneervaardigheden van DeepSeek-V2, terwijl het vergelijkbare prestaties behoudt in algemene taal taken. In vergelijking met DeepSeek-Coder-33B toont DeepSeek-Coder-V2 significante vooruitgang in verschillende aspecten van code-gerelateerde taken, evenals in redeneer- en algemene vaardigheden. Daarnaast breidt DeepSeek-Coder-V2 zijn ondersteuning voor programmeertalen uit van 86 naar 338, terwijl het de contextlengte uitbreidt van 16K naar 128K. In standaard benchmarkevaluaties behaalt DeepSeek-Coder-V2 superieure prestaties vergeleken met gesloten modellen zoals GPT4-Turbo, Claude 3 Opus en Gemini 1.5 Pro in coderings- en wiskundige benchmarks.
Het nauwkeurig schatten van diepte in 360-graden beelden is cruciaal voor toepassingen zoals virtual reality, autonome navigatie en immersieve media. Bestaande methoden voor diepteschatting die zijn ontworpen voor perspectiefbeelden falen wanneer ze worden toegepast op 360-graden beelden vanwege verschillende cameraprojecties en vervormingen, terwijl 360-graden methoden onderpresteren door een gebrek aan gelabelde dataparen. Wij stellen een nieuw raamwerk voor diepteschatting voor dat ongelabelde 360-graden data effectief benut. Onze aanpak maakt gebruik van state-of-the-art perspectief diepteschattingsmodellen als leraarmodellen om pseudo-labels te genereren via een zesvlakkige kubusprojectietechniek, waardoor efficiënte labeling van diepte in 360-graden beelden mogelijk wordt. Deze methode maakt gebruik van de toenemende beschikbaarheid van grote datasets. Onze aanpak omvat twee hoofdstadia: offline maskergeneratie voor ongeldige regio's en een online semi-gesuperviseerd gezamenlijk trainingsregime. We hebben onze aanpak getest op benchmarkdatasets zoals Matterport3D en Stanford2D3D, waarbij significante verbeteringen in de nauwkeurigheid van diepteschatting werden aangetoond, met name in zero-shot scenario's. Onze voorgestelde trainingspipeline kan elke 360 monocular diepteschatter verbeteren en toont effectieve kennisoverdracht aan tussen verschillende cameraprojecties en datatypes. Bekijk onze projectpagina voor resultaten: https://albert100121.github.io/Depth-Anywhere/
Het afstemmen van grote taalmodellen (LLMs) op menselijke voorkeuren is een actief onderzoeksgebied. Recent baanbrekend werk, direct preference optimization (DPO), heeft het proces aanzienlijk vereenvoudigd ten opzichte van eerdere methoden zoals reinforcement learning from human feedback (RLHF), door de beloningsleerfase in RLHF over te slaan. DPO biedt na training een impliciet beloningsmodel. In dit werk doen we een nieuwe observatie: dit impliciete beloningsmodel kan op zichzelf worden gebruikt in een bootstrapping-manier om het LLM verder af te stemmen. Onze aanpak is om de beloningen van een huidig LLM-model te gebruiken om een voorkeursdataset te construeren, die vervolgens wordt gebruikt in volgende DPO-rondes. We integreren verfijningen die de lengte van de reacties ontdoen van bias en de kwaliteit van de voorkeursdataset verbeteren om onze aanpak verder te verbeteren. Onze aanpak, genaamd self-alignment with DPO ImpliCit rEwards (DICE), toont aanzienlijke verbeteringen in afstemming en behaalt superieure prestaties dan Gemini Pro op AlpacaEval 2, met een lengte-gecontroleerde winratio van 27,55% tegenover GPT-4 Turbo, maar met slechts 8B parameters en zonder externe feedback. Onze code is beschikbaar op https://github.com/sail-sg/dice.
Grote taal- en visuele modellen (LLVMs) zijn aangedreven door de generalisatiekracht van grote taalmmodellen (LLMs) en de opkomst van visuele instructieafstemming. Naast het direct opschalen van deze modellen, stellen ze LLVMs in staat om krachtige visuele taalprestaties (VL) te laten zien door middel van diverse taken via natuurlijke taal instructies. Echter, bestaande open-source LLVMs die vergelijkbaar presteren met gesloten-source LLVMs zoals GPT-4V, worden vaak als te groot beschouwd (bijv. 26B, 34B en 110B parameters), met een groter aantal lagen. Deze grote modellen vereisen kostbare, hoogwaardige bronnen voor zowel training als inferentie. Om dit probleem aan te pakken, presenteren we een nieuwe efficiënte LLVM-familie met 1.8B, 3.8B en 7B LLM-modelgroottes, Traversal of Layers (TroL), die het hergebruik van lagen op een token-gewijze manier mogelijk maakt. Deze laagdoorlooptechniek simuleert het effect van terugkijken en het herleiden van het antwoordproces, terwijl het aantal forward propagation lagen wordt vergroot zonder fysiek meer lagen toe te voegen. We tonen aan dat TroL een eenvoudige laagdoorloopbenadering gebruikt, maar toch efficiënt de open-source LLVMs met grotere modelgroottes overtreft en de prestaties van de gesloten-source LLVMs met aanzienlijke groottes evenaart.
We introduceren ChatGLM, een evoluerende familie van grote taalmodellen die we in de loop der tijd hebben ontwikkeld. Dit rapport richt zich voornamelijk op de GLM-4-taalserie, die GLM-4, GLM-4-Air en GLM-4-9B omvat. Deze modellen vertegenwoordigen onze meest capabele modellen die zijn getraind met alle inzichten en lessen die zijn opgedaan uit de voorgaande drie generaties van ChatGLM. Tot op heden zijn de GLM-4-modellen voorgetraind op tien biljoen tokens, voornamelijk in het Chinees en Engels, samen met een kleine set corpora uit 24 talen, en primair afgestemd op Chinees en Engels gebruik. De hoogwaardige afstemming wordt bereikt via een meerfasig na-trainingsproces, dat onder meer supervised fine-tuning en leren van menselijke feedback omvat. Evaluaties tonen aan dat GLM-4 1) dicht in de buurt komt of beter presteert dan GPT-4 in termen van algemene metrieken zoals MMLU, GSM8K, MATH, BBH, GPQA en HumanEval, 2) dicht in de buurt komt van GPT-4-Turbo in het volgen van instructies zoals gemeten door IFEval, 3) gelijkwaardig is aan GPT-4 Turbo (128K) en Claude 3 voor taken met een lange context, en 4) GPT-4 overtreft in Chinese afstemming zoals gemeten door AlignBench. Het GLM-4 All Tools-model is verder afgestemd om gebruikersintentie te begrijpen en autonoom te beslissen wanneer en welk(e) hulpmiddel(en) te gebruiken – inclusief webbrowser, Python-interpreter, tekst-naar-beeldmodel en door de gebruiker gedefinieerde functies – om complexe taken effectief te voltooien. In praktische toepassingen evenaart het en overtreft het zelfs GPT-4 All Tools in taken zoals het verkrijgen van online informatie via webbrowsing en het oplossen van wiskundige problemen met behulp van de Python-interpreter. In de loop der tijd hebben we een reeks modellen openbaar gemaakt, waaronder ChatGLM-6B (drie generaties), GLM-4-9B (128K, 1M), GLM-4V-9B, WebGLM en CodeGeeX, wat alleen al in 2023 meer dan 10 miljoen downloads op Hugging Face heeft aangetrokken. De open modellen zijn toegankelijk via https://github.com/THUDM en https://huggingface.co/THUDM.
Vision-Language Models (VLMs) hebben opmerkelijke successen geboekt in diverse multimodale taken, maar worden vaak beperkt door het beperkte contextvenster en de hoge rekencapaciteit die nodig is voor het verwerken van hoogwaardige beeldinvoer en video's. Visuele compressie kan dit probleem verlichten door het aantal visuele tokens te verminderen. Eerdere benaderingen comprimeren visuele tokens met externe modules en dwingen LLMs om de gecomprimeerde tokens te begrijpen, wat leidt tot verlies van visuele informatie. Het begrijpingsparadigma van LLMs voor visuele tokens wordt echter niet volledig benut in het compressieleerproces. Wij stellen VoCo-LLaMA voor, de eerste benadering om visuele tokens te comprimeren met behulp van LLMs. Door Vision Compression tokens te introduceren tijdens de fase van visuele instructieafstemming en gebruik te maken van aandacht-distillatie, distilleren onze methode hoe LLMs visuele tokens begrijpen in hun verwerking van VoCo-tokens. VoCo-LLaMA vergemakkelijkt effectieve visuele compressie en verbetert de rekenkundige efficiëntie tijdens de inferentiefase. Specifiek behaalt onze methode minimaal prestatieverlies met een compressieverhouding van 576 keer, wat resulteert in tot 94,8% minder FLOPs en 69,6% versnelling in inferentietijd. Bovendien toont VoCo-LLaMA, door continue training met tijdreeks-gecomprimeerde tokenreeksen van videoframes, het vermogen om temporele correlaties te begrijpen, en overtreft het eerdere methoden op populaire video-vraag-antwoordbenchmarks. Onze benadering biedt een veelbelovende manier om het volledige potentieel van het contextvenster van VLMs te ontsluiten, waardoor meer schaalbare multimodale toepassingen mogelijk worden. De projectpagina, samen met de bijbehorende code, is toegankelijk via https://yxxxb.github.io/VoCo-LLaMA-page/{this https URL}.
Software agents zijn veelbelovende tools gebleken voor het aanpakken van complexe software-engineeringtaken. Bestaande werken vereenvoudigen softwareontwikkelingsworkflows echter te veel door het watervalmodel te volgen. Daarom stellen we AgileCoder voor, een multi-agent systeem dat Agile Methodology (AM) in het framework integreert. Dit systeem wijst specifieke AM-rollen zoals Product Manager, Developer en Tester toe aan verschillende agents, die vervolgens samen software ontwikkelen op basis van gebruikersinvoer. AgileCoder verbetert de ontwikkelings efficiëntie door het werk in sprints te organiseren, waarbij de focus ligt op het incrementeel ontwikkelen van software door middel van sprints. Daarnaast introduceren we de Dynamic Code Graph Generator, een module die een Code Dependency Graph dynamisch aanmaakt terwijl updates aan de codebase worden doorgevoerd. Hierdoor kunnen agents de codebase beter begrijpen, wat leidt tot nauwkeurigere codegeneratie en aanpassingen gedurende het softwareontwikkelingsproces. AgileCoder overtreft bestaande benchmarks, zoals ChatDev en MetaGPT, en stelt een nieuwe standaard, waarbij de mogelijkheden van multi-agent systemen in geavanceerde software-engineeringomgevingen worden getoond. Onze broncode is te vinden op https://github.com/FSoft-AI4Code/AgileCoder.
Retrieval Augmented Generation (RAG) verrijkt het vermogen van taalmodelen om te redeneren door externe context te gebruiken om antwoorden op een gegeven gebruikersprompt te versterken. Deze aanpak is in populariteit toegenomen vanwege praktische toepassingen in verschillende gebruiksscenario's van taalmodelen, zoals zoekopdrachten, vraag-antwoordsystemen en chatbots. Echter, de exacte werking van deze aanpak is niet duidelijk begrepen. In dit artikel onderzoeken we mechanistisch de RAG-pipeline om aan te tonen dat taalmodelen een kortere weg nemen en een sterke neiging hebben om alleen de contextinformatie te gebruiken om de vraag te beantwoorden, terwijl ze minimaal vertrouwen op hun parametrische geheugen. We onderzoeken dit mechanistische gedrag in taalmodelen met: (i) Causal Mediation Analysis om aan te tonen dat het parametrische geheugen minimaal wordt gebruikt bij het beantwoorden van een vraag en (ii) Attention Contributions en Knockouts om aan te tonen dat de laatste token-residualstream niet wordt verrijkt vanuit de onderwerptoken in de vraag, maar wel vanuit andere informatieve tokens in de context. We constateren dat dit uitgesproken shortcut-gedrag geldt voor zowel de LLaMa- als de Phi-familie van modellen.
Gesuperviseerde fine-tuning verbetert de probleemoplossende vaardigheden van taalmodelen bij diverse wiskundige redeneertaken. Om deze voordelen te maximaliseren, richt bestaand onderzoek zich op het uitbreiden van de trainingsset met verschillende data-augmentatietechnieken, wat effectief is voor standaard instellingen met één ronde vraag-antwoord. Ons werk introduceert een nieuwe techniek die gericht is op het ontwikkelen van een dieper begrip van de trainingsproblemen, waardoor de prestaties niet alleen in standaardinstellingen worden verbeterd, maar ook in complexere scenario's die reflectief denken vereisen. Specifiek stellen we reflectieve augmentatie voor, een methode die probleemreflectie in elk trainingsvoorbeeld integreert. Het traint het model om alternatieve perspectieven te overwegen en zich bezig te houden met abstracties en analogieën, waardoor een grondig begrip wordt bevorderd door reflectief redeneren. Uitgebreide experimenten valideren het bereiken van ons doel, waarbij de unieke voordelen van onze methode en het complementaire karakter ten opzichte van bestaande augmentatietechnieken worden benadrukt.
De evolutie van Kunstmatige Intelligentie (AI) is aanzienlijk versneld door vooruitgang in Grote Taalmodellen (LLMs) en Grote Multimodale Modellen (LMMs), die geleidelijk potentieel vertonen voor cognitieve redeneervaardigheden in probleemoplossing en wetenschappelijke ontdekking (d.w.z. AI4Science), voorheen voorbehouden aan menselijk intellect. Om de prestaties van huidige modellen in cognitieve redeneervaardigheden uitgebreid te evalueren, introduceren we OlympicArena, dat 11.163 tweetalige problemen omvat in zowel tekstuele als gecombineerde tekst-beeld modaliteiten. Deze uitdagingen beslaan een breed scala aan disciplines uit zeven vakgebieden en 62 internationale Olympische wedstrijden, die rigoureus zijn onderzocht op datalekken. Wij stellen dat de uitdagingen in Olympische wedstrijdproblemen ideaal zijn voor het evalueren van AI's cognitieve redeneervaardigheden vanwege hun complexiteit en interdisciplinaire aard, die essentieel zijn voor het aanpakken van complexe wetenschappelijke uitdagingen en het faciliteren van ontdekkingen. Naast het evalueren van prestaties in verschillende disciplines op basis van alleen-antwoordcriteria, voeren we gedetailleerde experimenten en analyses uit vanuit meerdere perspectieven. We verdiepen ons in de cognitieve redeneervaardigheden van de modellen, hun prestaties in verschillende modaliteiten, en hun resultaten in procesniveau-evaluaties, die cruciaal zijn voor taken die complex redeneren met uitgebreide oplossingen vereisen. Onze uitgebreide evaluaties tonen aan dat zelfs geavanceerde modellen zoals GPT-4o slechts een algehele nauwkeurigheid van 39,97% bereiken, wat de huidige beperkingen van AI illustreert in complex redeneren en multimodale integratie. Via de OlympicArena streven we ernaar AI naar superintelligentie te bevorderen, zodat het in staat is om complexere uitdagingen in de wetenschap en daarbuiten aan te pakken. We bieden ook een uitgebreide set bronnen om AI-onderzoek te ondersteunen, waaronder een benchmarkdataset, een open-source annotatieplatform, een gedetailleerd evaluatie-instrument en een leaderboard met automatische indieningsfuncties.
Grote Taalmodellen (LLMs) worden getraind op enorme hoeveelheden data, waarvan het merendeel automatisch van het internet wordt geschraapt. Deze data omvat encyclopedische documenten die een schat aan algemene kennis bevatten (bijv. Wikipedia), maar die mogelijk ook overlappen met benchmarkdatasets die worden gebruikt voor het evalueren van LLMs. Als gevolg hiervan kan het evalueren van modellen op testdatasets die mogelijk in de trainingsset zijn terechtgekomen, leiden tot misleidende conclusies. Om een solide evaluatie van taalmogelijkheden te bevorderen, introduceren we een nieuwe testdataset genaamd RepLiQA, geschikt voor vraag-antwoordtaken en het ophalen van onderwerpen. RepLiQA is een verzameling van vijf testdatasets, waarvan er vier niet eerder op het internet zijn vrijgegeven of blootgesteld zijn aan LLM-API's voorafgaand aan deze publicatie. Elk voorbeeld in RepLiQA bestaat uit (1) een referentiedocument dat door een menselijke annotator is gemaakt en een denkbeeldig scenario beschrijft (bijv. een nieuwsartikel) dat niet op het internet voorkomt; (2) een vraag over het onderwerp van het document; (3) een grondwaarheid-antwoord dat rechtstreeks is afgeleid uit de informatie in het document; en (4) de alinea uit het referentiedocument die het antwoord bevat. Hierdoor kunnen nauwkeurige antwoorden alleen worden gegenereerd als een model relevante inhoud binnen het verstrekte document kan vinden. We voeren een grootschalige benchmark uit met verschillende state-of-the-art LLMs om verschillen in prestaties tussen modellen van verschillende typen en groottes te ontdekken in een contextvoorwaardelijke taalmodelinstelling. De vrijgegeven datasets van RepLiQA zijn hier te vinden: https://huggingface.co/datasets/ServiceNow/repliqa.
Taalmodellen tokeniseren doorgaans ruwe tekst in reeksen subwoord-identificatoren uit een vooraf gedefinieerde vocabulaire, een proces dat inherent gevoelig is voor typografische fouten, lengtevariaties en grotendeels onbewust is van de interne structuur van tokens—problemen die wij de vloek van tokenisatie noemen. In deze studie verdiepen we ons in deze nadelen en tonen we aan dat grote taalmodellen (LLM's) vatbaar blijven voor deze problemen. Deze studie onderzoekt systematisch deze uitdagingen en hun impact op LLM's via drie kritische onderzoeksvragen: (1) complexe probleemoplossing, (2) onderzoek naar tokenstructuur, en (3) veerkracht tegen typografische variatie. Onze bevindingen onthullen dat het schalen van modelparameters het probleem van tokenisatie kan verzachten; echter, LLM's lijden nog steeds onder vooroordelen veroorzaakt door typfouten en andere tekstformaatvariaties. Onze experimenten tonen aan dat subwoordregularisatie zoals BPE-dropout dit probleem kan verminderen. Wij zullen onze code en data vrijgeven om verder onderzoek te faciliteren.
Veiligheidsuitgelijnde taalmodellen vertonen vaak kwetsbare en onevenwichtige veiligheidsmechanismen, wat de kans vergroot dat ze onveilige inhoud genereren. Bovendien kan het incorporeren van nieuwe kennis via bewerkingstechnieken in taalmodellen de veiligheid verder in gevaar brengen. Om deze problemen aan te pakken, stellen we SafeInfer voor, een contextadaptieve, veiligheidsuitlijningsstrategie tijdens het decoderen voor het genereren van veilige reacties op gebruikersvragen. SafeInfer bestaat uit twee fasen: de veiligheidsversterkingsfase, waarbij veilige voorbeelden worden gebruikt om de verborgen toestanden van het model aan te passen en de kans op veiligere uitvoer te vergroten, en de veiligheidsgestuurde decodeerfase, waarbij de tokenselectie wordt beïnvloed op basis van veiligheidsgeoptimaliseerde verdelingen, zodat de gegenereerde inhoud voldoet aan ethische richtlijnen. Verder presenteren we HarmEval, een nieuwe benchmark voor uitgebreide veiligheidsevaluaties, ontworpen om potentiële misbruikscenario's aan te pakken in overeenstemming met het beleid van toonaangevende AI-technologiegiganten.
Het waarborgen van de veilige afstemming van grote taalmodellen (LLMs) op menselijke waarden is cruciaal naarmate ze een integraal onderdeel worden van toepassingen zoals vertaling en vraagbeantwoording. Huidige afstemmingsmethoden hebben moeite met dynamische gebruikersintenties en complexe doelstellingen, waardoor modellen kwetsbaar zijn voor het genereren van schadelijke inhoud. Wij stellen Safety Arithmetic voor, een trainingsvrij framework dat de veiligheid van LLMs verbetert in verschillende scenario's: basismodellen, modellen met supervised fine-tuning (SFT), en bewerkte modellen. Safety Arithmetic omvat Harm Direction Removal om schadelijke inhoud te vermijden en Safety Alignment om veilige reacties te bevorderen. Daarnaast presenteren we NoIntentEdit, een dataset die bewerkingsinstanties belicht die de modelveiligheid in gevaar kunnen brengen als ze onbedoeld worden gebruikt. Onze experimenten tonen aan dat Safety Arithmetic de veiligheidsmaatregelen aanzienlijk verbetert, overmatige veiligheid vermindert en de bruikbaarheid van het model behoudt, waardoor het bestaande methoden overtreft in het waarborgen van veilige inhoudsgeneratie.
De vooruitgang van grote taalmodellen (LLMs) heeft het toepassingsbereik van natuurlijke taalverwerking aanzienlijk uitgebreid, waarbij multi-modale LLMs deze mogelijkheden uitbreiden om visuele data te integreren en te interpreteren. Bestaande benchmarks voor visuele taalmodellen (VLMs) richten zich echter voornamelijk op invoer van één enkele afbeelding, waarbij het cruciale aspect van het begrijpen van meerdere afbeeldingen wordt verwaarloosd. In dit artikel introduceren we een Multi-Image Relational Benchmark (MIRB), ontworpen om het vermogen van VLMs te evalueren om meerdere afbeeldingen te vergelijken, analyseren en redeneren. Onze benchmark omvat vier categorieën: perceptie, visuele wereldkennis, redeneren en multi-hop redeneren. Door een uitgebreide evaluatie van een breed scala aan open-source en closed-source modellen, tonen we aan dat hoewel open-source VLMs de prestaties van GPT-4V benaderden in taken met één afbeelding, er een aanzienlijk prestatieverschil blijft bestaan in taken met meerdere afbeeldingen. Onze bevindingen laten ook zien dat zelfs het state-of-the-art GPT-4V-model moeite heeft met onze benchmark, wat de noodzaak van verder onderzoek en ontwikkeling op dit gebied onderstreept. Wij geloven dat onze bijdrage van MIRB kan dienen als een testomgeving voor de ontwikkeling van de volgende generatie multi-modale modellen.
Ondanks recente vooruitgang in technieken voor hoogwaardige menselijke reconstructie, belemmeren de vereisten voor dicht vastgelegde afbeeldingen of tijdrovende per-instantie optimalisatie hun toepassingen in bredere scenario's aanzienlijk. Om deze problemen aan te pakken, presenteren we HumanSplat, dat de 3D Gaussian Splatting-eigenschappen van elke mens voorspelt vanuit een enkele invoerafbeelding op een generaliseerbare manier. In het bijzonder bestaat HumanSplat uit een 2D multi-view diffusiemodel en een latente reconstructie-transformer met menselijke structuurpriors die geometrische priors en semantische kenmerken op bekwame wijze integreren binnen een uniform raamwerk. Een hiërarchisch verlies dat menselijke semantische informatie incorporeert, is verder ontworpen om hoogwaardige textuurmodellering te bereiken en de geschatte meerdere weergaven beter te beperken. Uitgebreide experimenten op standaard benchmarks en in-the-wild afbeeldingen tonen aan dat HumanSplat bestaande state-of-the-art methoden overtreft in het bereiken van fotorealistische nieuwe-weergave-synthese.
Tabelgegevens -- gestructureerde, heterogene, spreadsheet-achtige gegevens met rijen en kolommen -- worden in de praktijk veel gebruikt in verschillende domeinen. Echter, hoewel recente foundation models de noodzaak hebben verminderd om taakspecifieke datasets en voorspellers te ontwikkelen in domeinen zoals taalmodellering en computervisie, heeft dit transfer learning-paradigma niet een vergelijkbare impact gehad in het domein van tabelgegevens. In dit werk streven we ernaar deze kloof te verkleinen en presenteren we TabuLa-8B, een taalmodel voor tabelvoorspelling. We definiëren een proces voor het extraheren van een grote, hoogwaardige trainingsdataset uit het TabLib-corpus, waarbij we methoden voorstellen voor het filteren en kwaliteitscontrole van tabelgegevens. Met behulp van de resulterende dataset, die bestaat uit meer dan 1,6 miljard rijen uit 3,1 miljoen unieke tabellen, fine-tunen we een Llama 3-8B groot taalmodel (LLM) voor tabelgegevensvoorspelling (classificatie en gebinnde regressie) met behulp van een nieuw packing- en attentieschema voor tabelvoorspelling. Door evaluatie over een testsuite van 329 datasets, vinden we dat TabuLa-8B een zero-shot nauwkeurigheid heeft op onbekende tabellen die meer dan 15 procentpunten (pp) hoger is dan willekeurig gissen, een prestatie die niet mogelijk is met bestaande state-of-the-art tabelvoorspellingsmodellen (bijv. XGBoost, TabPFN). In de few-shot setting (1-32 shots), zonder enige fine-tuning op de doeldatasets, is TabuLa-8B 5-15 pp nauwkeuriger dan XGBoost en TabPFN-modellen die expliciet getraind zijn op gelijke, of zelfs tot 16x meer gegevens. We maken ons model, code en gegevens beschikbaar bij de publicatie van dit artikel.
Om kennis in grote taalmodellen (LLMs) te evalueren, bevragen huidige methoden het model en beoordelen vervolgens de gegenereerde antwoorden. In dit werk onderzoeken we of evaluatie mogelijk is voordat het model tekst heeft gegenereerd. Concreet: is het mogelijk om in te schatten hoe goed een model op de hoogte is van een bepaalde entiteit, alleen op basis van zijn interne berekeningen? We bestuderen deze vraag met twee taken: gegeven een onderwerpentiteit, is het doel om te voorspellen (a) het vermogen van het model om veelgestelde vragen over de entiteit te beantwoorden, en (b) de feitelijkheid van antwoorden die het model over de entiteit genereert. Experimenten met diverse LLMs tonen aan dat KEEN, een eenvoudige sonde getraind op interne voorstellingen van onderwerpen, beide taken succesvol uitvoert – het vertoont een sterke correlatie met zowel de nauwkeurigheid van het model per onderwerp in vraag-antwoordscenario’s als met FActScore, een recente feitelijkheidsmetriek in open-eindegeneratie. Bovendien sluit KEEN natuurlijk aan bij het terughoudende gedrag van het model en weerspiegelt het trouw veranderingen in de kennis van het model na fine-tuning. Tot slot tonen we een meer interpreteerbare maar even goed presterende variant van KEEN, die een kleine set tokens benadrukt die correleert met het gebrek aan kennis van het model. Omdat KEEN eenvoudig en lichtgewicht is, kan het worden ingezet om hiaten en clusters van entiteitskennis in LLMs te identificeren en beslissingen te begeleiden, zoals het verrijken van vragen met retrieval.
Binarisatie, waarbij gewichtsparameters worden omgezet naar binaire waarden, is naar voren gekomen als een effectieve strategie om de omvang van grote taalmodelen (LLM's) te verkleinen. Typische binarisatietechnieken verminderen echter aanzienlijk de linguïstische effectiviteit van LLM's. Om dit probleem aan te pakken, introduceren we een nieuwe binarisatietechniek genaamd Mixture of Scales (BinaryMoS). In tegenstelling tot conventionele methoden, maakt BinaryMoS gebruik van meerdere schaalexperts voor binaire gewichten, waarbij deze experts dynamisch worden samengevoegd voor elk token om adaptief schaalfactoren te genereren. Deze token-adaptieve benadering versterkt het representatievermogen van gebinariseerde LLM's door contextuele aanpassingen aan de waarden van binaire gewichten mogelijk te maken. Bovendien, omdat dit adaptieve proces alleen de schaalfactoren betreft en niet de gehele gewichtsmatrix, behoudt BinaryMoS een compressie-efficiëntie die vergelijkbaar is met traditionele statische binarisatiemethoden. Onze experimentele resultaten tonen aan dat BinaryMoS conventionele binarisatietechnieken overtreft in verschillende natuurlijke taalverwerkingstaken en zelfs 2-bit kwantiseringsmethoden overtreft, terwijl het een vergelijkbare modelgrootte behoudt als statische binarisatietechnieken.
Text-to-image (T2I) diffusiemodellen hebben indrukwekkende beeldgeneratiecapaciteiten getoond. Toch verhindert hun rekenintensiteit dat organisaties met beperkte middelen T2I-modellen kunnen inzetten na het finetunen op hun interne doeldataset. Hoewel pruningtechnieken een mogelijke oplossing bieden om de rekenlast van T2I-modellen te verminderen, gebruiken statische pruningmethoden hetzelfde geprunte model voor alle invoerprompts, wat de variërende capaciteitsbehoeften van verschillende prompts over het hoofd ziet. Dynamisch pruning lost dit probleem op door voor elke prompt een apart subnetwerk te gebruiken, maar dit belemmert batchparallelisme op GPU's. Om deze beperkingen te overwinnen, introduceren we Adaptive Prompt-Tailored Pruning (APTP), een nieuwe prompt-gebaseerde pruningmethode ontworpen voor T2I-diffusiemodellen. Centraal in onze aanpak staat een promptroutermodel, dat leert om de benodigde capaciteit voor een invoertekstprompt te bepalen en deze door te sturen naar een architectuurcode, gegeven een totaal gewenst rekenbudget voor prompts. Elke architectuurcode vertegenwoordigt een gespecialiseerd model dat is afgestemd op de prompts die eraan zijn toegewezen, en het aantal codes is een hyperparameter. We trainen de promptrouter en de architectuurcodes met contrastief leren, zodat vergelijkbare prompts worden toegewezen aan nabijgelegen codes. Verder gebruiken we optimaal transport om te voorkomen dat de codes samenvallen in één enkele code. We demonstreren de effectiviteit van APTP door Stable Diffusion (SD) V2.1 te prunen met CC3M en COCO als doeldatasets. APTP presteert beter dan de single-model pruning-baselines in termen van FID, CLIP en CMMD-scores. Onze analyse van de door APTP geleerde clusters laat zien dat ze semantisch betekenisvol zijn. We tonen ook aan dat APTP automatisch eerder empirisch gevonden uitdagende prompts voor SD kan ontdekken, zoals prompts voor het genereren van tekstbeelden, en deze toewijst aan codes met een hogere capaciteit.
De snelle evolutie van taalmodellen heeft de ontwikkeling van uitdagendere benchmarks noodzakelijk gemaakt. Huidige statische benchmarks hebben vaak moeite om consistent onderscheid te maken tussen de capaciteiten van verschillende modellen en sluiten niet altijd aan bij de voorkeuren van gebruikers in de praktijk. Aan de andere kant verzamelen live, door crowdsourcing aangedreven platforms zoals de Chatbot Arena een breed scala aan natuurlijke prompts en gebruikersfeedback. Deze prompts variëren echter in complexiteit en de feedback kan niet offline worden toegepast op nieuwe modellen. Om ervoor te zorgen dat benchmarks het tempo van de ontwikkeling van taalmodellen bijhouden, onderzoeken we hoe benchmarks kunnen worden geëvalueerd op hun vermogen om modellen betrouwbaar te onderscheiden en hun afstemming op menselijke voorkeuren. Op basis van deze principes hebben we BenchBuilder ontwikkeld, een dynamische benchmark die hoogwaardige prompts uit live databronnen filtert om offline evaluatie op nieuwe, uitdagende prompts mogelijk te maken. BenchBuilder identificeert zeven indicatoren van een hoogwaardige prompt, zoals de vereiste van domeinkennis, en gebruikt een LLM-annotator om een hoogwaardige subset van prompts uit verschillende onderwerpclusters te selecteren. Het LLM-evaluatieproces maakt gebruik van een LLM-rechter om een volledig geautomatiseerde, hoogwaardige en voortdurend bijgewerkte benchmark te garanderen. We passen BenchBuilder toe op prompts uit de Chatbot Arena om Arena-Hard-Auto v0.1 te creëren: 500 uitdagende gebruikersprompts uit een breed scala aan taken. Arena-Hard-Auto v0.1 biedt 3x smallere betrouwbaarheidsintervallen dan MT-Bench en bereikt een state-of-the-art overeenstemming van 89,1% met menselijke voorkeursrangschikkingen, allemaal tegen een kostprijs van slechts $25 en zonder menselijke labelers. De BenchBuilder-pijplijn verbetert evaluatiebenchmarks en biedt ontwikkelaars een waardevol hulpmiddel, waardoor ze met minimale inspanning hoogwaardige benchmarks uit uitgebreide gegevens kunnen extraheren.
Medische kennis is contextafhankelijk en vereist consistent redeneren over verschillende natuurlijke taaluitdrukkingen van semantisch equivalente zinnen. Dit is vooral cruciaal voor medicijnnamen, waar patiënten vaak merknamen zoals Advil of Tylenol gebruiken in plaats van hun generieke equivalenten. Om dit te onderzoeken, creëren we een nieuwe robuustheidsdataset, RABBITS, om prestatieverschillen op medische benchmarks te evalueren na het uitwisselen van merk- en generieke medicijnnamen met behulp van annotaties door medische experts. We beoordelen zowel open-source als API-gebaseerde LLM's op MedQA en MedMCQA, wat een consistent prestatieverlies van 1-10\% aan het licht brengt. Bovendien identificeren we een mogelijke bron van deze kwetsbaarheid als de besmetting van testgegevens in veelgebruikte pre-trainingsdatasets. Alle code is toegankelijk op https://github.com/BittermanLab/RABBITS, en een HuggingFace leaderboard is beschikbaar op https://huggingface.co/spaces/AIM-Harvard/rabbits-leaderboard.
Direct alignment from preferences (DAP) is naar voren gekomen als een veelbelovend paradigma voor het afstemmen van grote taalmodellen (LLMs) op menselijke wensen op basis van vooraf verzamelde, offline voorkeursdatasets. Hoewel recente studies aangeven dat bestaande offline DAP-methoden direct kunnen profiteren van online trainingsvoorbeelden, benadrukken wij de noodzaak om specifieke online DAP-algoritmen te ontwikkelen om de kracht van online training volledig te benutten. Specifiek identificeren wij dat het geleerde LLM de nabijheid van het gedrags-LLM, dat de trainingsvoorbeelden verzamelt, moet behouden. Hiertoe stellen wij online Preference Optimization in de nabijheid van het Gedrags-LLM (BPO) voor, waarbij het belang van het construeren van een geschikt vertrouwensgebied voor LLM-afstemming wordt benadrukt. Wij voeren uitgebreide experimenten uit om de effectiviteit en toepasbaarheid van onze aanpak te valideren door deze te integreren met verschillende DAP-methoden, wat resulteert in significante prestatieverbeteringen over een breed scala aan taken bij training met dezelfde hoeveelheid voorkeursdata. Zelfs bij het introduceren van slechts één extra dataverzamelingsfase, verbetert onze online BPO de offline DAP-baseline van 72,0% naar 80,2% op TL;DR en van 82,2% naar 89,1% op Anthropic Helpfulness in termen van winrate ten opzichte van menselijke referentieteksten.
Het beoordelen van de effectiviteit van grote taalmodellen (LLMs) bij het aanpakken van diverse taken is essentieel om hun sterke en zwakke punten te begrijpen. Conventionele evaluatietechnieken passen meestal een enkele promptstrategie uniform toe op datasets, zonder rekening te houden met de verschillende niveaus van taakcomplexiteit. Wij introduceren de Hierarchical Prompting Taxonomy (HPT), een taxonomie die gebruikmaakt van een Hierarchical Prompt Framework (HPF) dat bestaat uit vijf unieke promptstrategieën, gerangschikt van de eenvoudigste tot de meest complexe, om LLMs nauwkeuriger te beoordelen en een duidelijker perspectief te bieden. Deze taxonomie kent een score toe, genaamd de Hierarchical Prompting Score (HP-Score), aan datasets en LLMs op basis van de regels van de taxonomie, wat een genuanceerd inzicht biedt in hun vermogen om diverse taken op te lossen en een universele maatstaf biedt voor taakcomplexiteit. Daarnaast introduceren we het Adaptive Hierarchical Prompt Framework, dat de selectie van geschikte promptstrategieën voor elke taak automatiseert. Deze studie vergelijkt handmatige en adaptieve hiërarchische promptframeworks met behulp van vier instructie-afgestemde LLMs, namelijk Llama 3 8B, Phi 3 3.8B, Mistral 7B en Gemma 7B, over vier datasets: BoolQ, CommonSenseQA (CSQA), IWSLT-2017 en-fr (IWSLT) en SamSum. Experimenten tonen de effectiviteit van HPT aan en bieden een betrouwbare manier om verschillende taken en LLM-capaciteiten te vergelijken. Dit artikel leidt tot de ontwikkeling van een universele evaluatiemetriek die kan worden gebruikt om zowel de complexiteit van datasets als de capaciteiten van LLMs te evalueren. De implementatie van zowel het handmatige HPF als het adaptieve HPF is publiekelijk beschikbaar.
Video editing vormt een hoeksteen van digitale media, van entertainment en onderwijs tot professionele communicatie. Eerdere methoden hebben echter vaak de noodzaak over het hoofd gezien om zowel de globale als lokale contexten grondig te begrijpen, wat leidt tot onnauwkeurige en inconsistente bewerkingen in de spatiotemporele dimensie, vooral bij lange video's. In dit artikel introduceren we VIA, een uniform spatiotemporeel VIdeo Adaptatiekader voor globale en lokale videobewerking, dat de grenzen verlegt van het consistent bewerken van minutenlange video's. Ten eerste, om lokale consistentie binnen individuele frames te waarborgen, is de basis van VIA een nieuwe testtijd-bewerkingsadaptatiemethode, die een vooraf getraind beeldbewerkingsmodel aanpast om de consistentie tussen mogelijke bewerkingsrichtingen en de tekstinstructie te verbeteren, en gemaskeerde latente variabelen aanpast voor precieze lokale controle. Verder introduceren we, om globale consistentie over de videosequentie te behouden, spatiotemporele adaptatie die consistente aandachtvariabelen in sleutelframes aanpast en deze strategisch over de hele sequentie toepast om de bewerkingseffecten te realiseren. Uitgebreide experimenten tonen aan dat, in vergelijking met baseline-methoden, onze VIA-aanpak bewerkingen produceert die trouwer zijn aan de bronvideo's, coherenter in de spatiotemporele context, en preciezer in lokale controle. Belangrijker nog, we laten zien dat VIA consistente lange videobewerking in minuten kan bereiken, waardoor de mogelijkheden voor geavanceerde videobewerkingstaken over lange videosequenties worden ontsloten.
Superalignment, waarbij mensen zwakke supervisors zijn van bovenmenselijke modellen, is een belangrijk en veelbesproken onderwerp geworden in het huidige tijdperk van snelle ontwikkeling van Large Language Models (LLM's). Recent onderzoek heeft dit probleem voorlopig bestudeerd door zwakke modellen te gebruiken om sterke modellen te begeleiden. Het ontdekte dat sterkere studenten die zwak worden begeleid, consistent beter presteren dan zwakke lerenden richting het alignment-doel, wat leidt tot een zwak-naar-sterk generalisatiefenomeen. Wij maken ons echter zorgen dat achter dit veelbelovende fenomeen een probleem van zwak-naar-sterk misleiding schuilgaat, waarbij sterke modellen zwakke modellen kunnen misleiden door goed gealigneerd gedrag te vertonen in gebieden die de zwakke modellen kennen, maar misaligned gedrag te produceren in gevallen die de zwakke modellen niet kennen. We nemen een eerste stap om dit beveiligingsprobleem te verkennen in een specifiek maar realistisch geval van multi-objective alignment, waarbij sommige alignment-doelen met elkaar in conflict kunnen zijn (bijvoorbeeld behulpzaamheid versus onschadelijkheid). Zo'n conflict kan ertoe leiden dat sterke modellen zwakke modellen misleiden in één alignment-dimensie om een hoge beloning te verkrijgen in een andere alignment-dimensie. Onze experimenten in zowel de beloningsmodelleringstaak als het voorkeursoptimalisatiescenario geven aan: (1) de zwak-naar-sterk misleiding bestaat; (2) het misleidingsfenomeen kan intensiveren naarmate het vermogensverschil tussen zwakke en sterke modellen toeneemt. We bespreken ook mogelijke oplossingen en ontdekken dat bootstrapping met een tussenliggend model de misleiding enigszins kan verminderen. Ons werk benadrukt de dringende noodzaak om meer aandacht te besteden aan de werkelijke betrouwbaarheid van superalignment.
Vision-enabled taalmodellen (VLMs) worden nu gebruikt om autonome multimodale agents te bouwen die acties kunnen ondernemen in echte omgevingen. In dit artikel laten we zien dat multimodale agents nieuwe veiligheidsrisico's met zich meebrengen, ook al is het aanvallen van agents uitdagender dan eerdere aanvallen vanwege beperkte toegang tot en kennis over de omgeving. Onze aanvallen maken gebruik van adversariële tekstreeksen om op een gradient-gebaseerde verstoring te sturen over één triggerafbeelding in de omgeving: (1) onze captioner-aanval valt white-box captioners aan als deze worden gebruikt om afbeeldingen te verwerken in bijschriften als aanvullende invoer voor het VLM; (2) onze CLIP-aanval valt een set CLIP-modellen gezamenlijk aan, wat kan worden overgedragen naar propriëtaire VLMs. Om de aanvallen te evalueren, hebben we VisualWebArena-Adv samengesteld, een set adversariële taken gebaseerd op VisualWebArena, een omgeving voor webgebaseerde multimodale agenttaken. Binnen een L-infinity norm van 16/256 op één afbeelding kan de captioner-aanval een met een captioner uitgebreide GPT-4V-agent de adversariële doelen laten uitvoeren met een slagingspercentage van 75%. Wanneer we de captioner verwijderen of GPT-4V gebruiken om zijn eigen bijschriften te genereren, kan de CLIP-aanval slagingspercentages van respectievelijk 21% en 43% behalen. Experimenten op agents gebaseerd op andere VLMs, zoals Gemini-1.5, Claude-3 en GPT-4o, tonen interessante verschillen in hun robuustheid. Verdere analyse onthult verschillende sleutelfactoren die bijdragen aan het succes van de aanval, en we bespreken ook de implicaties voor verdedigingsmaatregelen. Projectpagina: https://chenwu.io/attack-agent Code en data: https://github.com/ChenWu98/agent-attack
In dit artikel wijzen we erop dat een suboptimale ruis-data mapping leidt tot trage training van diffusiemodellen. Tijdens de diffusietraining verspreiden huidige methoden elke afbeelding over de gehele ruisruimte, wat resulteert in een mengsel van alle afbeeldingen op elk punt in de ruislaag. We benadrukken dat deze willekeurige menging van ruis-data mapping de optimalisatie van de ruisverwijderingsfunctie in diffusiemodellen bemoeilijkt. Geïnspireerd door het onmengbare fenomeen in de natuurkunde, stellen we Immiscible Diffusion voor, een eenvoudige en effectieve methode om de willekeurige menging van ruis-data mapping te verbeteren. In de natuurkunde kan mengbaarheid variëren afhankelijk van verschillende intermoleculaire krachten. Onmengbaarheid betekent dus dat de menging van de moleculaire bronnen onderscheidbaar is. Hierdoor geïnspireerd, stellen we een toewijzing-dan-diffusie trainingsstrategie voor. Specifiek, voordat we de afbeeldingsdata in ruis diffunderen, wijzen we diffusiedoelruis toe aan de afbeeldingsdata door de totale afbeelding-ruispaarafstand in een mini-batch te minimaliseren. De toewijzing functioneert analoog aan externe krachten om de diffuseerbare gebieden van afbeeldingen te scheiden, waardoor de inherente moeilijkheden in diffusietraining worden verminderd. Onze aanpak is opmerkelijk eenvoudig, waarbij slechts één regel code nodig is om het diffuseerbare gebied voor elke afbeelding te beperken, terwijl de Gaussische verdeling van de ruis behouden blijft. Dit zorgt ervoor dat elke afbeelding alleen naar nabije ruis wordt geprojecteerd. Om de hoge complexiteit van het toewijzingsalgoritme aan te pakken, gebruiken we een gekwantiseerde-toewijzingsmethode om de rekenkosten tot een verwaarloosbaar niveau te reduceren. Experimenten tonen aan dat onze methode tot 3x snellere training bereikt voor consistentiemodellen en DDIM op de CIFAR-dataset, en tot 1.3x sneller op CelebA-datasets voor consistentiemodellen. Daarnaast voeren we een grondige analyse uit van Immiscible Diffusion, wat inzicht geeft in hoe het de snelheid van diffusietraining verbetert terwijl het de getrouwheid verbetert.
Grote modellen voor tekst-naar-muziekgeneratie hebben aanzienlijke vooruitgang geboekt, waardoor het mogelijk is om hoogwaardige en gevarieerde muziekcomposities te creëren op basis van gegeven tekstprompts. Echter, kunnen tekstprompts niet altijd precies de gebruikerswensen vastleggen, vooral wanneer het doel is om muziek te genereren die een specifiek concept belichaamt dat is afgeleid van een aangewezen referentiecollectie. In dit artikel stellen we een nieuwe methode voor voor gepersonaliseerde tekst-naar-muziekgeneratie, die het concept kan vastleggen uit een tweeminuten durend referentiemuziekstuk en een nieuw muziekstuk kan genereren dat aan dit concept voldoet. We bereiken dit door een vooraf getraind tekst-naar-muziekmodel te finetunen met behulp van de referentiemuziek. Echter, leidt het direct finetunen van alle parameters tot overfittingproblemen. Om dit probleem aan te pakken, stellen we een Pivotal Parameters Tuning-methode voor die het model in staat stelt om het nieuwe concept te assimileren terwijl het zijn oorspronkelijke generatieve capaciteiten behoudt. Daarnaast identificeren we een mogelijk conceptconflict wanneer meerdere concepten worden geïntroduceerd in het vooraf getrainde model. We presenteren een conceptversterkingsstrategie om meerdere concepten te onderscheiden, waardoor het gefinetunede model muziek kan genereren die individuele of meerdere concepten tegelijkertijd omvat. Aangezien wij de eersten zijn die werken aan de gepersonaliseerde muziekgeneratietaak, introduceren we ook een nieuwe dataset en evaluatieprotocol voor deze nieuwe taak. Onze voorgestelde Jen1-DreamStyler presteert beter dan verschillende baseline-methoden in zowel kwalitatieve als kwantitatieve evaluaties. Demo's zullen beschikbaar zijn op https://www.jenmusic.ai/research#DreamStyler.
In dit artikel introduceren we een op deelruimten geïnspireerde Low-Rank Adaptation (LoRA)-methode, die computationeel efficiënt, eenvoudig te implementeren en direct toepasbaar is op grote taal-, multimodale- en diffusiemodellen. Aanvankelijk decomponeren we de gewichten van LoRA equivalent in twee deelruimten, en ontdekken dat het simpelweg mengen ervan de prestaties kan verbeteren. Om dit fenomeen te bestuderen, bekijken we het opnieuw door een fijnmazige deelruimten-lens, waaruit blijkt dat een dergelijke aanpassing equivalent is aan het gebruik van een vaste mixer om de deelruimten te fuseren. Om flexibeler te zijn, leren we de mixer gezamenlijk met de oorspronkelijke LoRA-gewichten, en noemen we de methode Mixture-of-Subspaces LoRA (MoSLoRA). MoSLoRA presteert consistent beter dan LoRA bij taken in verschillende modaliteiten, waaronder gezond verstand redeneren, visuele instructieafstemming en onderwerpgestuurde tekst-naar-beeldgeneratie, wat de effectiviteit en robuustheid ervan aantoont. Codes zijn beschikbaar op https://github.com/wutaiqiang/MoSLoRA{github}.