Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Spreadsheets, met hun uitgebreide tweedimensionale rasters, diverse lay-outs en verschillende opmaakopties, vormen aanzienlijke uitdagingen voor grote taalmmodellen (LLMs). Als reactie hierop introduceren we SpreadsheetLLM, dat een efficiënte coderingsmethode pionier die is ontworpen om het krachtige begrip en redeneervermogen van LLMs op spreadsheets te ontketenen en te optimaliseren. Eerst stellen we een eenvoudige serialisatiebenadering voor die celadressen, waarden en opmaak incorporeert. Deze benadering werd echter beperkt door de tokenbeperkingen van LLMs, waardoor het voor de meeste toepassingen onpraktisch was. Om deze uitdaging aan te pakken, ontwikkelen we SheetCompressor, een innovatief coderingsraamwerk dat spreadsheets effectief comprimeert voor LLMs. Het bestaat uit drie modules: structureel-anker gebaseerde compressie, inverse indexvertaling en data-opmaakbewuste aggregatie. Het verbetert de prestaties aanzienlijk in de taak van spreadsheet-tabeldetectie, waarbij het de eenvoudige benadering met 25,6% overtreft in de in-context leeromgeving van GPT4. Bovendien heeft een fijn afgestelde LLM met SheetCompressor een gemiddeld compressiepercentage van 25 keer, maar behaalt een state-of-the-art F1-score van 78,9%, wat de beste bestaande modellen met 12,3% overtreft. Tot slot stellen we Chain of Spreadsheet voor voor downstream taken van spreadsheetbegrip en valideren we dit in een nieuwe en veeleisende spreadsheet QA-taak. We benutten methodisch de inherente lay-out en structuur van spreadsheets, wat aantoont dat SpreadsheetLLM zeer effectief is in een verscheidenheid aan spreadsheet taken.
Grote taalmodellen (LLM's) hebben opmerkelijke capaciteiten getoond, maar worstelen nog steeds met het verwerken van uitgebreide contexten, wat hun vermogen beperkt om samenhang en nauwkeurigheid over lange sequenties te behouden. Daarentegen blinkt het menselijk brein uit in het organiseren en ophalen van episodische ervaringen over enorme tijdschalen, die een leven lang kunnen beslaan. In dit werk introduceren we EM-LLM, een nieuwe aanpak die belangrijke aspecten van menselijk episodisch geheugen en gebeurteniscognitie integreert in LLM's, waardoor ze praktisch oneindige contextlengtes effectief kunnen verwerken terwijl ze rekenkundige efficiëntie behouden. EM-LLM organiseert sequenties van tokens in samenhangende episodische gebeurtenissen met behulp van een combinatie van Bayesiaanse verrassing en grafentheoretische grenspolijsting op een online manier. Wanneer nodig, worden deze gebeurtenissen opgehaald via een tweestaps geheugenproces, dat gelijkheidsgebaseerde en temporeel aaneengesloten ophaling combineert voor efficiënte en mensachtige toegang tot relevante informatie. Experimenten op de LongBench-dataset demonstreren de superieure prestaties van EM-LLM, waarbij het het state-of-the-art InfLLM-model overtreft met een algehele relatieve verbetering van 4,3% over verschillende taken, inclusief een verbetering van 33% op de PassageRetrieval-taak. Bovendien onthult onze analyse sterke correlaties tussen de gebeurtenissegmentatie van EM-LLM en door mensen waargenomen gebeurtenissen, wat een brug suggereert tussen dit kunstmatige systeem en zijn biologische tegenhanger. Dit werk bevordert niet alleen de capaciteiten van LLM's in het verwerken van uitgebreide contexten, maar biedt ook een computationeel raamwerk voor het verkennen van menselijke geheugenmechanismen, wat nieuwe wegen opent voor interdisciplinair onderzoek in AI en cognitieve wetenschappen.
Dit technische rapport beschrijft de Time Series Optimized Transformer for Observability (Toto), een nieuw state-of-the-art foundation model voor tijdreeksvoorspelling, ontwikkeld door Datadog. Naast het verbeteren van de state-of-the-art op algemene tijdreeksbenchmarks in domeinen zoals elektriciteit en weer, is dit model het eerste algemene tijdreeksvoorspellingsfoundationmodel dat specifiek is afgestemd op observabilitymetrieken. Toto is getraind op een dataset van één biljoen tijdreeksdatapunten, de grootste onder alle momenteel gepubliceerde tijdreeksfoundationmodellen. Naast openbaar beschikbare tijdreeksdatasets bestaat 75% van de data die gebruikt is om Toto te trainen uit volledig anonieme numerieke metriekdatapunten van het Datadog-platform. In onze experimenten presteert Toto beter dan bestaande tijdreeksfoundationmodellen op observabilitydata. Dit doet het terwijl het ook uitblinkt in algemene voorspellingstaken, waarbij het state-of-the-art zero-shot-prestaties behaalt op meerdere open benchmarkdatasets.
Grote Taalmodellen (LLMs) worden regelmatig bijgewerkt vanwege wijzigingen in data of architectuur om hun prestaties te verbeteren. Bij het updaten van modellen richten ontwikkelaars zich vaak op het verhogen van algemene prestatiemetrics, met minder nadruk op compatibiliteit met eerdere modelversies. Gebruikers ontwikkelen echter vaak een mentaal model van de functionaliteit en mogelijkheden van een specifiek machine learning-model waarmee ze interacteren. Zij moeten hun mentale model bij elke update aanpassen — een vermoeiende taak die kan leiden tot gebruikersontevredenheid. In de praktijk zijn fijn afgestemde adapters voor downstream taken afhankelijk van vooraf getrainde LLM-basismodellen. Wanneer deze basismodellen worden bijgewerkt, ervaren deze gebruikersgerichte downstream-taken instance regression of negative flips — eerder correcte instanties worden nu incorrect voorspeld. Dit gebeurt zelfs wanneer de trainingsprocedures voor downstream taken identiek blijven. Ons werk heeft als doel om gebruikers naadloze modelupdates te bieden op twee manieren. Ten eerste bieden we evaluatiemetrics voor een notie van compatibiliteit met eerdere modelversies, specifiek voor generatieve taken maar ook toepasbaar voor discriminatieve taken. We observeren regressie en inconsistenties tussen verschillende modelversies bij een diverse set taken en modelupdates. Ten tweede stellen we een trainingsstrategie voor om het aantal inconsistenties bij modelupdates te minimaliseren, waarbij een compatibiliteitsmodel wordt getraind dat fijn afgestemde taalmodelen kan verbeteren. We verminderen negative flips — instanties waarbij een eerdere modelversie correct was, maar een nieuw model incorrect — met tot wel 40% van Llama 1 naar Llama 2.
Grote Taalmodellen (LLM's) hebben groot potentieel getoond als algemene assistenten, waarbij ze krachtige taakbegrip en probleemoplossende vaardigheden demonstreren. Om LLM's als AI-assistenten in te zetten, is het cruciaal dat deze modellen gewenste gedragskenmerken vertonen, zoals niet-toxiciteit en weerbaarheid tegen jailbreak-pogingen. Huidige methoden voor detoxificatie of het voorkomen van jailbreaking omvatten meestal Supervised Fine-Tuning (SFT) of Reinforcement Learning from Human Feedback (RLHF), wat het finetunen van miljarden parameters vereist via gradient descent met aanzienlijke rekenkosten. Bovendien kunnen modellen die via SFT en RLHF zijn aangepast, afwijken van de vooraf getrainde modellen, wat mogelijk leidt tot een verslechtering van de fundamentele LLM-capaciteiten. In dit artikel observeren we dat, verrassend genoeg, het direct bewerken van een kleine subset van parameters specifieke gedragingen van LLM's effectief kan moduleren, zoals detoxificatie en weerstand tegen jailbreaking. Specifiek gebruiken we voor een gedrag dat we willen vermijden een lineaire classifier, die we de gedragsprobe noemen, om binaire gedragslabels te classificeren binnen de verborgen toestandsruimte van het LLM. Met behulp van deze probe introduceren we een algoritme om een kritieke subset van LLM-parameters te identificeren die significant invloed hebben op dit doelgedrag. Vervolgens bewerken we deze geselecteerde parameters direct door ze te verschuiven in de richting van de gedragsprobe. Zo'n directe parameterbewerkingsmethode vereist alleen rekenbronnen op inferentieniveau. Experimenten tonen aan dat in de representatieve detoxificatietaak onze aanpak reducties tot 90,0\% in toxiciteit bereikt op de RealToxicityPrompts-dataset en 49,2\% op ToxiGen, terwijl de algemene capaciteiten van het LLM op gebieden zoals gezond verstand, vraagbeantwoording en wiskunde behouden blijven. Onze code is beschikbaar op https://github.com/lucywang720/model-surgery.
We presenteren H2O-Danube3, een reeks kleine taalmodelen bestaande uit H2O-Danube3-4B, getraind op 6T tokens, en H2O-Danube3-500M, getraind op 4T tokens. Onze modellen zijn voorgetraind op hoogwaardige webdata, voornamelijk bestaande uit Engelse tokens, in drie fasen met verschillende datamixen, gevolgd door een laatste afstemming voor de chatversie. De modellen vertonen zeer competitieve prestaties op een breed scala aan academische, chat- en fine-tuning benchmarks. Dankzij de compacte architectuur kan H2O-Danube3 efficiënt worden uitgevoerd op een moderne smartphone, wat lokale inferentie en snelle verwerkingsmogelijkheden mogelijk maakt, zelfs op mobiele apparaten. We stellen alle modellen openbaar beschikbaar onder de Apache 2.0-licentie, waardoor LLM's economisch toegankelijker worden voor een breder publiek.
Het automatisch genereren van nieuwe en interessante spellen is een complexe taak. Uitdagingen zijn onder meer het representeren van spelregels in een computationeel werkbare vorm, het doorzoeken van de grote ruimte van mogelijke spellen onder de meeste van dergelijke representaties, en het nauwkeurig beoordelen van de originaliteit en kwaliteit van voorheen onbekende spellen. Eerder werk op het gebied van geautomatiseerde spelgeneratie heeft zich grotendeels gericht op relatief beperkte regelrepresentaties en vertrouwd op domeinspecifieke heuristieken. In dit werk onderzoeken we de generatie van nieuwe spellen in de relatief uitgebreide Ludii spelbeschrijvingstaal, die de regels van meer dan 1000 bordspellen codeert in een verscheidenheid aan stijlen en speelwijzen. We putten inspiratie uit recente vooruitgang in grote taalmodellen en evolutionaire berekening om een model te trainen dat intelligent spellen en mechanica, uitgedrukt als code, muteert en combineert. We demonstreren zowel kwantitatief als kwalitatief dat onze aanpak in staat is om nieuwe en interessante spellen te genereren, inclusief in regio's van de mogelijke regelruimte die niet gedekt worden door bestaande spellen in de Ludii-dataset. Een selectie van de gegenereerde spellen is online beschikbaar om te spelen via het Ludii-portaal.
Ondanks hun bijna universele toepassing voor grote taalmodelen, zijn de interne werking van transformers niet goed begrepen. Wij streven ernaar om beter te begrijpen wat de impact is van het verwijderen of herschikken van informatie door de lagen van een voorgetrainde transformer heen. Zo'n begrip zou zowel een beter gebruik van bestaande modellen kunnen opleveren als architectonische verbeteringen om nieuwe varianten te produceren. Wij presenteren een reeks empirische studies op bevroren modellen die aantonen dat de onderste en laatste lagen van voorgetrainde transformers verschillen van de middelste lagen, maar dat de middelste lagen een verrassende mate van uniformiteit vertonen. We tonen verder aan dat sommige probleemklassen robuust zijn tegen het overslaan van lagen, het uitvoeren van de lagen in een andere volgorde dan waarin ze zijn getraind, of het parallel uitvoeren van de lagen. Onze observaties suggereren dat zelfs bevroren voorgetrainde modellen elegant nauwkeurigheid kunnen inruilen voor latentie door lagen over te slaan of lagen parallel uit te voeren.
Recente ontwikkelingen in radiance fields hebben nieuwe mogelijkheden geopend voor het creëren van hoogwaardige 3D-assets en scènes. Stijloverdracht kan deze 3D-assets verrijken met diverse artistieke stijlen, wat de creatieve expressie transformeert. Bestaande technieken zijn echter vaak traag of niet in staat om stijloverdracht te lokaliseren naar specifieke objecten. Wij introduceren StyleSplat, een lichtgewicht methode voor het styliseren van 3D-objecten in scènes die worden gerepresenteerd door 3D Gaussians op basis van referentiestijlafbeeldingen. Onze aanpak leert eerst een fotorealistische representatie van de scène met behulp van 3D Gaussian splatting, terwijl tegelijkertijd individuele 3D-objecten worden gesegmenteerd. Vervolgens gebruiken we een nearest-neighbor feature matching loss om de Gaussians van de geselecteerde objecten te finetunen, waarbij hun sferische harmonische coëfficiënten worden afgestemd op de stijlafbeelding om consistentie en visuele aantrekkingskracht te waarborgen. StyleSplat maakt snelle, aanpasbare stijloverdracht en gelokaliseerde stylisatie van meerdere objecten binnen een scène mogelijk, elk met een andere stijl. We demonstreren de effectiviteit ervan in diverse 3D-scènes en stijlen, waarbij verbeterde controle en aanpassingsmogelijkheden in 3D-creatie worden getoond.
Het zoeken naar antwoorden op vragen binnen lange wetenschappelijke onderzoeksartikelen is een cruciaal onderzoeksgebied dat lezers helpt om snel hun vragen te beantwoorden. Bestaande vraag-antwoord (QA) datasets gebaseerd op wetenschappelijke artikelen zijn echter beperkt in omvang en richten zich uitsluitend op tekstuele inhoud. Om deze beperking aan te pakken, introduceren we SPIQA (Scientific Paper Image Question Answering), de eerste grootschalige QA-dataset die specifiek is ontworpen om complexe figuren en tabellen binnen de context van wetenschappelijke onderzoeksartikelen in verschillende domeinen van de informatica te interpreteren. Door gebruik te maken van de brede expertise en het vermogen van multimodale grote taalmodellen (MLLMs) om figuren te begrijpen, zetten we automatische en handmatige curatie in om de dataset te creëren. We ontwerpen een informatiezoektaak waarbij meerdere afbeeldingen betrokken zijn die een breed scala aan grafieken, diagrammen, tabellen, schematische weergaven en resultaatvisualisaties omvatten. SPIQA bestaat uit 270K vragen, verdeeld over trainings-, validatie- en drie verschillende evaluatiesplits. Door middel van uitgebreide experimenten met 12 prominente fundamentele modellen evalueren we het vermogen van huidige multimodale systemen om de genuanceerde aspecten van onderzoeksartikelen te begrijpen. Daarnaast stellen we een Chain-of-Thought (CoT) evaluatiestrategie voor met in-context retrieval, die een gedetailleerde, stap-voor-stap beoordeling mogelijk maakt en de modelprestaties verbetert. We onderzoeken verder de bovengrenzen van prestatieverbetering met aanvullende tekstuele informatie, wat het veelbelovende potentieel voor toekomstig onderzoek benadrukt en de impact van de dataset op de revolutie in hoe we omgaan met wetenschappelijke literatuur.
Langetermijncontextinferentie brengt uitdagingen met zich mee op systeemniveau, zoals verhoogde reken- en geheugenvereisten, evenals vanuit een nauwkeurigheidsperspectief bij het redeneren over lange contexten. Onlangs zijn verschillende methoden voorgesteld om de prompt te comprimeren en zo de contextlengte te verminderen. Er is echter weinig werk verricht om de verschillende voorgestelde methoden over verschillende taken heen te vergelijken via een gestandaardiseerde analyse. Dit heeft geleid tot tegenstrijdige resultaten. Om dit aan te pakken, voeren we hier een uitgebreide karakterisering en evaluatie uit van verschillende promptcompressiemethoden. In het bijzonder analyseren we extractieve compressie, samenvattingsgebaseerde abstractieve compressie en tokenpruningmethoden. Verrassend genoeg ontdekken we dat extractieve compressie vaak beter presteert dan alle andere benaderingen en tot 10x compressie mogelijk maakt met minimale nauwkeurigheidsvermindering. Interessant is dat we ook ontdekken dat, ondanks verschillende recente beweringen, tokenpruningmethoden vaak achterblijven bij extractieve compressie. We vonden slechts marginale verbeteringen op samenvattings taken.
Grote taalmodellen hebben in het verleden doorgaans vertrouwd op een vorm van reinforcement learning met menselijke feedback (RLHF) om modelreacties beter af te stemmen op menselijke voorkeuren. Vanwege de vaak waargenomen instabiliteiten bij het implementeren van deze RLHF-pipelines, zijn recentelijk verschillende herparameterisatietechnieken geïntroduceerd om de noodzaak van het apart leren van een RL-beloningsmodel te omzeilen. In plaats daarvan wordt directe fine-tuning voor menselijke voorkeuren bereikt door het minimaliseren van een enkele gesloten trainingsdoelstelling, een proces dat oorspronkelijk werd aangeduid als direct preference optimization (DPO) en dat werd gevolgd door verschillende opmerkelijke varianten. Hoewel effectief in bepaalde real-world situaties, introduceren we nieuwe evaluatiecriteria die onopgeloste tekortkomingen benadrukken in het vermogen van bestaande DPO-methoden om te interpoleren tussen een vooraf getraind referentiemodel en empirische metingen van menselijke voorkeuren, evenals onvermijdelijke afwegingen in hoe laag- en hoogwaardige reacties worden geregulariseerd en beperkingen worden behandeld. Onze inzichten motiveren vervolgens een alternatief DPO-achtig verlies dat deze beperkingen aantoonbaar vermindert. Empirische resultaten ondersteunen opmerkelijke aspecten van onze analyses.
Het is te vroeg om te concluderen dat Mamba een beter alternatief is voor transformers in spraaktoepassingen, voordat Mamba en transformers zijn vergeleken op zowel prestaties als efficiëntie in meerdere spraakgerelateerde taken. Om tot deze conclusie te komen, stellen we drie modellen voor en evalueren deze voor drie taken: Mamba-TasNet voor spraakscheiding, ConMamba voor spraakherkenning en VALL-M voor spraaksynthese. We vergelijken deze met transformers van vergelijkbare grootte op het gebied van prestaties, geheugengebruik en snelheid. Onze Mamba- of Mamba-transformer hybride modellen laten vergelijkbare of betere prestaties zien dan hun transformer-tegenhangers: Sepformer, Conformer en VALL-E. Ze zijn efficiënter dan transformers in geheugengebruik en snelheid voor spraak die langer is dan een drempelduur, die omgekeerd evenredig is aan de resolutie van een spraaktoken. Mamba voor scheiding is het meest efficiënt, en Mamba voor herkenning het minst. Verder laten we zien dat Mamba niet efficiënter is dan transformer voor spraak die korter is dan de drempelduur en slechter presteert in modellen die gezamenlijke modellering van tekst en spraak vereisen, zoals kruis- of gemaskeerde aandacht van twee invoeren. Daarom stellen we dat de superioriteit van Mamba of transformer afhangt van specifieke problemen en modellen. Code is beschikbaar op https://github.com/xi-j/Mamba-TasNet en https://github.com/xi-j/Mamba-ASR.
Pose-gestuurde diffusiemodellen voor menselijke beeldanimatie hebben opmerkelijke mogelijkheden getoond in realistische menselijke videosynthese. Ondanks de veelbelovende resultaten die eerdere benaderingen hebben bereikt, blijven er uitdagingen bestaan in het bereiken van temporeel consistente animatie en het waarborgen van robuustheid met kant-en-klare posedetectoren. In dit artikel presenteren we TCAN, een pose-gestuurde methode voor menselijke beeldanimatie die robuust is tegen foutieve poses en consistent in de tijd. In tegenstelling tot eerdere methoden maken we gebruik van het vooraf getrainde ControlNet zonder fine-tuning om de uitgebreide vooraf verworven kennis uit talloze pose-beeld-bijschriftparen te benutten. Om het ControlNet bevroren te houden, passen we LoRA aan op de UNet-lagen, waardoor het netwerk in staat is om de latente ruimte tussen de pose- en uiterlijkkenmerken uit te lijnen. Daarnaast verhogen we de robuustheid tegen uitschieters van de posedetector door een extra temporele laag aan het ControlNet toe te voegen. Door de analyse van aandachtsoverzichten over de temporele as hebben we ook een nieuwe temperatuurkaart ontworpen die pose-informatie benut, waardoor een statischer achtergrond mogelijk wordt. Uitgebreide experimenten tonen aan dat de voorgestelde methode veelbelovende resultaten kan bereiken in videosynthesetaken die verschillende poses omvatten, zoals chibi. Projectpagina: https://eccv2024tcan.github.io/
Recente vooruitgang in retrieval-augmented modellen voor beeldbeschrijving benadrukt het voordeel van het ophalen van gerelateerde bijschriften voor efficiënte, lichtgewicht modellen met sterke domeinoverdrachtsmogelijkheden. Hoewel deze modellen het succes van retrieval-augmentatie aantonen, zijn retrieval-modellen in de praktijk nog verre van perfect: de opgehaalde informatie kan het model soms misleiden, wat resulteert in onjuiste generatie en slechtere prestaties. In dit artikel analyseren we de robuustheid van het retrieval-augmented beeldbeschrijvingsmodel SmallCap. Onze analyse toont aan dat het model gevoelig is voor tokens die in de meerderheid van de opgehaalde bijschriften voorkomen, en de input-attributie laat zien dat deze tokens waarschijnlijk worden gekopieerd naar de gegenereerde uitvoer. Gezien deze bevindingen stellen we voor om het model te trainen door opgehaalde bijschriften te selecteren uit meer diverse sets. Dit verkleint de kans dat het model leert om meerderheidstokens te kopiëren en verbetert zowel de prestaties binnen het domein als over domeinen heen.
Dit onderzoek behandelt een kritieke leemte in de veiligheidsafstemmingspraktijken voor Large Language Models (LLMs) door een weigeringspositiebias in de veiligheidsafstemmingsdata te identificeren en aan te pakken, wat het vermogen van de modellen om het genereren van onveilige inhoud gepast te weigeren, in gevaar brengt. We introduceren een nieuwe aanpak, Decoupled Refusal Training (DeRTa), ontworpen om LLMs in staat te stellen om op elke reactiepositie te weigeren om schadelijke prompts te volgen, waardoor hun veiligheidsmogelijkheden aanzienlijk worden verbeterd. DeRTa omvat twee nieuwe componenten: (1) Maximum Likelihood Estimation (MLE) met Schadelijke Reactieprefix, die modellen traint om onveilige inhoud te herkennen en te vermijden door een segment van een schadelijke reactie aan het begin van een veilige reactie toe te voegen, en (2) Reinforced Transition Optimization (RTO), die modellen uitrust met het vermogen om consistent over te gaan van potentieel gevaar naar een veiligheidsweigering gedurende de schadelijke reactiereeks. Onze empirische evaluatie, uitgevoerd met de LLaMA3- en Mistral-modelfamilies over zes aanvalsscenario's, toont aan dat onze methode niet alleen de modelveiligheid verbetert zonder de prestaties aan te tasten, maar ook bekende modellen zoals GPT-4 overtreft in het verdedigen tegen aanvallen. Belangrijk is dat onze aanpak recente geavanceerde aanvalsmethoden (bijv. CodeAttack) die GPT-4 en LLaMA3-70B-Instruct hebben 'gejailbroken', succesvol verdedigt. Onze code en data zijn te vinden op https://github.com/RobustNLP/DeRTa.
Het synthetiseren van NeRF's onder willekeurige belichting is de afgelopen jaren een fundamenteel probleem geworden. Recente inspanningen pakken het probleem aan via de extractie van fysiek gebaseerde parameters die vervolgens onder willekeurige belichting kunnen worden weergegeven, maar ze zijn beperkt in het bereik van scènes die ze aankunnen, waarbij meestal glanzende scènes verkeerd worden behandeld. Wij stellen RRM voor, een methode die de materialen, geometrie en omgevingsbelichting van een scène kan extraheren, zelfs in aanwezigheid van sterk reflecterende objecten. Onze methode bestaat uit een fysiek bewuste radiance field-representatie die fysiek gebaseerde parameters informeert, en een expressieve omgevingslichtstructuur gebaseerd op een Laplaciaanse piramide. We tonen aan dat onze bijdragen de state-of-the-art overtreffen bij taken voor parameterretrieval, wat leidt tot hoogwaardige herbelichting en synthese van nieuwe gezichtspunten op oppervlakkige scènes.