Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Recente ontwikkelingen in Multi-modale Grote Taalmodellen (MLLM's) hebben nieuwe mogelijkheden geopend voor toepassingen in Embodied AI. Voortbouwend op eerdere werkzaamheden, EgoThink, introduceren we VidEgoThink, een uitgebreide benchmark voor het evalueren van egocentrische videobegripsmogelijkheden. Om de kloof tussen MLLM's en laag-niveau controle in Embodied AI te overbruggen, ontwerpen we vier sleutelgerelateerde taken: video-vraagbeantwoording, hiërarchieplanning, visuele verankering en beloningsmodellering. Om de kosten van handmatige annotatie te minimaliseren, ontwikkelen we een automatisch gegevensgeneratieproces op basis van de Ego4D-dataset, waarbij gebruik wordt gemaakt van de voorkennis en multimodale mogelijkheden van GPT-4o. Vervolgens filteren drie menselijke annotatoren de gegenereerde gegevens om diversiteit en kwaliteit te waarborgen, resulterend in de VidEgoThink benchmark. We voeren uitgebreide experimenten uit met drie soorten modellen: API-gebaseerde MLLM's, open-source afbeeldingsgebaseerde MLLM's en open-source videogebaseerde MLLM's. Experimentele resultaten geven aan dat alle MLLM's, inclusief GPT-4o, slecht presteren op alle taken met betrekking tot egocentrisch videobegrip. Deze bevindingen suggereren dat foundation modellen nog aanzienlijke vooruitgang nodig hebben om effectief toegepast te kunnen worden op eerstepersoonsscenario's in Embodied AI. Ter afsluiting weerspiegelt VidEgoThink een onderzoekstrend om MLLM's in te zetten voor egocentrische visie, vergelijkbaar met menselijke mogelijkheden, waardoor actieve observatie en interactie in complexe real-world omgevingen mogelijk worden gemaakt.
Het uitvoeren van programmeertaken is waardevol gebleken voor het evalueren van Grote Taalmodellen (LLM's), omdat ze de begrip van hoog-niveau instructies, complex redeneren en de implementatie van functionele programma's vereisen - kernvaardigheden voor de vooruitgang van Kunstmatige Algemene Intelligentie. Ondanks de vooruitgang in Grote Multimodale Modellen (LMM's), die LLM's uitbreiden met visuele waarneming en begripsvaardigheden, blijft er een opmerkelijk gebrek aan programmeerbenchmarks die deze modellen grondig beoordelen, met name in taken die visueel redeneren benadrukken. Om deze lacune aan te pakken, introduceren we HumanEval-V, een nieuw en lichtgewicht benchmark specifiek ontworpen om de visuele begrips- en redeneervaardigheden van LMM's te evalueren via codegeneratie. HumanEval-V bevat 108 zorgvuldig samengestelde, instapniveau Python programmeertaken afgeleid van platforms zoals CodeForces en Stack Overflow. Elke taak is aangepast door de context en algoritmische patronen van de oorspronkelijke problemen te wijzigen, waarbij visuele elementen opnieuw getekend zijn om onderscheid te waarborgen van de bron, om mogelijke datalekken te voorkomen. LMM's moeten de codeoplossing voltooien op basis van de verstrekte visuele context en een vooraf gedefinieerde Python functiehandtekening waarin de taakeisen worden beschreven. Elke taak is voorzien van zorgvuldig met de hand gemaakte testgevallen om een grondige en betrouwbare evaluatie van door het model gegenereerde oplossingen te garanderen. We evalueren 19 toonaangevende LMM's met behulp van HumanEval-V en onthullen significante uitdagingen. Eigen modellen zoals GPT-4o behalen slechts 13% pass@1 en 36,4% pass@10, terwijl open-gewicht modellen met 70B parameters onder de 4% pass@1 scoren. Ablatiestudies onthullen verder de beperkingen van huidige LMM's in visueel redeneren en programmeervaardigheden. Deze resultaten benadrukken belangrijke gebieden voor toekomstig onderzoek om de capaciteiten van LMM's te verbeteren. We hebben onze code en benchmark openbaar gemaakt op https://github.com/HumanEval-V/HumanEval-V-Benchmark.
Document Layout Analysis is cruciaal voor documentbegripssystemen in de echte wereld, maar het staat voor een uitdagend compromis tussen snelheid en nauwkeurigheid: multimodale methoden die zowel tekst- als visuele kenmerken benutten behalen een hogere nauwkeurigheid, maar hebben te maken met aanzienlijke latentie, terwijl unimodale methoden die uitsluitend vertrouwen op visuele kenmerken snellere verwerkingssnelheden bieden ten koste van nauwkeurigheid. Om dit dilemma aan te pakken, introduceren we DocLayout-YOLO, een nieuw benadering die de nauwkeurigheid verbetert terwijl de snelheidsvoordelen behouden blijven door documentspecifieke optimalisaties in zowel pre-training als modelontwerp. Voor robuuste documentpre-training introduceren we het Mesh-candidate BestFit-algoritme, dat documentsynthese kaderstelt als een tweedimensionaal bin-packingprobleem, resulterend in het genereren van de grootschalige, diverse DocSynth-300K dataset. Pre-training op de resulterende DocSynth-300K dataset verbetert aanzienlijk de fine-tuning prestaties over verschillende soorten documenten. Wat betreft modeloptimalisatie stellen we een Global-to-Local Controllable Receptive Module voor die beter in staat is om multi-schaal variaties van documentelementen te verwerken. Bovendien introduceren we een complexe en uitdagende benchmark genaamd DocStructBench om de prestaties over verschillende soorten documenten te valideren. Uitgebreide experimenten op downstream datasets tonen aan dat DocLayout-YOLO uitblinkt in zowel snelheid als nauwkeurigheid. Code, data en modellen zijn beschikbaar op https://github.com/opendatalab/DocLayout-YOLO.
Recente ontwikkelingen in grote multimodale modellen (LMM's) hebben de prestaties aanzienlijk verbeterd over diverse taken, met voortdurende inspanningen om extra modaliteiten zoals video en audio verder te integreren. Echter, de meeste bestaande LMM's blijven kwetsbaar voor hallucinaties, het verschil tussen de feitelijke multimodale invoer en de gegenereerde tekstuele uitvoer, wat hun toepasbaarheid in verschillende real-world scenario's beperkt heeft. Dit artikel presenteert het eerste systematische onderzoek naar hallucinaties in LMM's met de drie meest voorkomende modaliteiten: taal, visueel en audio. Onze studie onthult twee belangrijke bijdragers aan hallucinaties: te veel vertrouwen op unimodale prior-kennis en spurious inter-modaliteitscorrelaties. Om deze uitdagingen aan te pakken, introduceren we de benchmark The Curse of Multi-Modalities (CMM), die hallucinaties in LMM's uitgebreid evalueert en een gedetailleerde analyse biedt van hun onderliggende problemen. Onze bevindingen benadrukken belangrijke kwetsbaarheden, waaronder onevenwichtigheden in modale integratie en vooringenomenheden van trainingsdata, waarbij de noodzaak voor gebalanceerd cross-modale leren en verbeterde hallucinatie-mitigatiestrategieën wordt onderstreept. Op basis van onze observaties en bevindingen suggereren we potentiële onderzoeksrichtingen die de betrouwbaarheid van LMM's kunnen verbeteren.
Autonoom plannen is een voortdurende zoektocht geweest sinds de oprichting van kunstmatige intelligentie. Op basis van samengestelde probleemoplossers konden vroege planningsagenten nauwkeurige oplossingen leveren voor specifieke taken, maar misten generalisatie. De opkomst van grote taalmodellen (LLM's) en hun krachtige redeneervermogen heeft de interesse in autonoom plannen nieuw leven ingeblazen door automatisch redelijke oplossingen te genereren voor gegeven taken. Echter, eerdere onderzoeken en onze experimenten tonen aan dat huidige taalagenten nog steeds niet beschikken over planningsvaardigheden op menselijk niveau. Zelfs het state-of-the-art redeneringsmodel, OpenAI o1, behaalt slechts 15,6% op een van de complexe planningsbenchmarks in de echte wereld. Dit benadrukt een kritieke vraag: Wat belemmert taalagenten om menselijk niveau van plannen te bereiken? Hoewel bestaande studies zwakke prestaties in agentplanning hebben benadrukt, blijven de dieperliggende problemen en de mechanismen en beperkingen van de voorgestelde strategieën om ze aan te pakken onvoldoende begrepen. In dit werk passen we de functietoewijzingsstudie toe en identificeren twee belangrijke factoren die agentplanning belemmeren: de beperkte rol van beperkingen en de afnemende invloed van vragen. We vinden ook dat hoewel huidige strategieën helpen om deze uitdagingen te verminderen, ze deze niet volledig oplossen, wat aangeeft dat agenten nog een lange weg te gaan hebben voordat ze menselijk niveau van intelligentie bereiken.
Het samenvoegen van modellen is een van de belangrijkste technologieën geworden om de mogelijkheden en efficiëntie van Grote Taalmodellen (LLMs) te verbeteren. Onze kennis over de verwachte prestatieverbeteringen en principes bij het samenvoegen van willekeurige twee modellen blijft echter beperkt. In dit werk introduceren we modelverwantschap, de mate van gelijkenis of verwantschap tussen LLMs, analoog aan biologische evolutie. Met uitgebreide empirische analyse vinden we dat er een zekere relatie is tussen modelverwantschap en de prestatieverbeteringen na model samenvoeging, wat kan helpen bij het selecteren van kandidaatmodellen. Geïnspireerd hierdoor stellen we een nieuwe strategie voor model samenvoeging voor: Top-k Greedy Samenvoeging met Modelverwantschap, wat betere prestaties kan opleveren op benchmark datasets. Specifiek ontdekken we dat het gebruik van modelverwantschap als criterium ons kan helpen bij het continu uitvoeren van model samenvoeging, waardoor de degradatie (lokale optima) in model evolutie wordt verlicht, terwijl modelverwantschap kan dienen als gids om deze valkuilen te vermijden. De code is beschikbaar op https://github.com/zjunlp/ModelKinship.
Consistentiemodellen (CM's) zijn een krachtige klasse van diffusie-gebaseerde generatieve modellen geoptimaliseerd voor snelle bemonstering. De meeste bestaande CM's worden getraind met behulp van gedisciplineerde tijdstappen, die extra hyperparameters introduceren en gevoelig zijn voor discretisatiefouten. Hoewel continue-tijd formuleringen deze problemen kunnen verminderen, is hun succes beperkt gebleven door trainingsinstabiliteit. Om dit aan te pakken, stellen we een vereenvoudigd theoretisch kader voor dat eerdere parameterisaties van diffusiemodellen en CM's verenigt, waarbij de oorzaken van instabiliteit worden geïdentificeerd. Op basis van deze analyse introduceren we belangrijke verbeteringen in de parameterisatie van diffusieprocessen, netwerkarchitectuur en trainingsdoelstellingen. Deze veranderingen stellen ons in staat om continue-tijd CM's op een ongekende schaal te trainen, met 1,5 miljard parameters op ImageNet 512x512. Ons voorgestelde trainingsalgoritme, met slechts twee bemonsteringsstappen, behaalt FID-scores van 2,06 op CIFAR-10, 1,48 op ImageNet 64x64, en 1,88 op ImageNet 512x512, waarbij het verschil in FID-scores met de beste bestaande diffusiemodellen tot binnen 10% wordt verkleind.
Naarmate grote taalmodellen (LLM's) blijven evolueren, zijn efficiënte evaluatiemethoden essentieel om hun vermogen om informatie te comprimeren en redundantie te verminderen te beoordelen. Hoewel traditionele methoden zoals Matrix Entropie waardevolle inzichten bieden, zijn ze rekenkundig intensief voor grootschalige modellen vanwege hun \( O(n^3) \) tijdscomplexiteit met Singular Value Decomposition (SVD). Om dit probleem te verminderen, introduceren we de Matrix Nucleaire Norm, die niet alleen dient als een maatstaf om de datacompressievaardigheid van LLM te kwantificeren, maar ook een convexe benadering van de matrixrang biedt om zowel voorspellende onderscheidendheid als diversiteit vast te leggen. Door de \( L_{1,2}-norm \) te gebruiken om de nucleaire norm verder te benaderen, kunnen we effectief de informatiecomprimeermogelijkheden van het model beoordelen. Deze benadering verlaagt de tijdscomplexiteit naar \( O(n^2) \) en elimineert de noodzaak voor SVD-berekeningen. Als gevolg hiervan behaalt de Matrix Nucleaire Norm snelheden die 8 tot 24 keer sneller zijn dan Matrix Entropie voor het CEREBRAS-GPT-model naarmate de groottes toenemen van 111M tot 6.7B. Dit prestatieverschil wordt duidelijker bij grotere modellen, zoals bevestigd in tests met andere modellen zoals Pythia. Bovendien bevestigen evaluaties op benchmarks en modelreacties dat onze voorgestelde Matrix Nucleaire Norm een betrouwbaar, schaalbaar en efficiënt hulpmiddel is voor het beoordelen van de prestaties van LLM's, waarbij een balans wordt gevonden tussen nauwkeurigheid en rekenkundige efficiëntie. De code is beschikbaar op https://github.com/MLGroupJLU/MatrixNuclearNorm.
De snelle vooruitgang van tekst-naar-afbeelding (T2I) diffusiemodellen heeft hen in staat gesteld ongekende resultaten te genereren uit gegeven teksten. Echter, naarmate de tekstinputs langer worden, lopen bestaande coderingsmethoden zoals CLIP tegen beperkingen aan, en wordt het uitlijnen van de gegenereerde afbeeldingen met lange teksten uitdagend. Om deze problemen aan te pakken, stellen wij LongAlign voor, dat een segmentniveau-coderingsmethode omvat voor het verwerken van lange teksten en een gedecomposeerde voorkeurs optimalisatiemethode voor effectieve uitlijningstraining. Voor segmentniveau-codering worden lange teksten opgedeeld in meerdere segmenten en afzonderlijk verwerkt. Deze methode overwint de maximale invoerlengtebeperkingen van vooraf getrainde coderingsmodellen. Voor voorkeurs optimalisatie bieden wij gedecomposeerde op CLIP gebaseerde voorkeursmodellen om diffusiemodellen fijn af te stemmen. Specifiek, om op CLIP gebaseerde voorkeursmodellen te gebruiken voor T2I uitlijning, duiken we in hun scoremechanismen en vinden we dat de voorkeursscores kunnen worden gedecomposeerd in twee componenten: een tekstrelevante deel dat T2I uitlijning meet en een tekstirrelevante deel dat andere visuele aspecten van menselijke voorkeur beoordeelt. Daarnaast vinden we dat het tekstirrelevante deel bijdraagt aan een veelvoorkomend overpassingsprobleem tijdens het fijn afstemmen. Om dit aan te pakken, stellen we een herwegingsstrategie voor die verschillende gewichten toewijst aan deze twee componenten, waardoor overpassing wordt verminderd en uitlijning wordt verbeterd. Na het fijn afstemmen van 512 keer 512 Stable Diffusion (SD) v1.5 gedurende ongeveer 20 uur met onze methode, presteert de gefinetunede SD beter dan sterkere basis modellen in T2I uitlijning, zoals PixArt-alpha en Kandinsky v2.2. De code is beschikbaar op https://github.com/luping-liu/LongAlign.
Het huidige paradigma voor veiligheidsafstemming van grote taalmodellen (LLM's) volgt een one-size-fits-all benadering: het model weigert om te interageren met inhoud die door de modelaanbieder als onveilig wordt beschouwd. Deze benadering ontbeert flexibiliteit in het licht van variërende sociale normen over culturen en regio's. Bovendien kunnen gebruikers diverse veiligheidsbehoeften hebben, waardoor een model met statische veiligheidsnormen te beperkend is om nuttig te zijn, en te kostbaar om opnieuw af te stemmen. We stellen Controllable Safety Alignment (CoSA) voor, een raamwerk dat is ontworpen om modellen aan te passen aan diverse veiligheidseisen zonder opnieuw te trainen. In plaats van een vast model af te stemmen, stemmen we modellen af op veiligheidsconfiguraties - vrije natuurlijke taalbeschrijvingen van de gewenste veiligheidsgedragingen - die worden verstrekt als onderdeel van de systeemprompt. Om het veiligheidsgedrag van het model aan te passen, hoeven geautoriseerde gebruikers alleen dergelijke veiligheidsconfiguraties te wijzigen op inferentietijd. Om dat mogelijk te maken, stellen we CoSAlign voor, een op gegevens gerichte methode voor het afstemmen van LLM's om zich gemakkelijk aan te passen aan diverse veiligheidsconfiguraties. Bovendien bedenken we een nieuw protocol voor controleerbaarheidsevaluatie dat zowel behulpzaamheid als geconfigureerde veiligheid in overweging neemt, deze samenvat in CoSA-Score, en construeren CoSApien, een door mensen samengestelde benchmark die bestaat uit LLM-gebruikssituaties in de echte wereld met diverse veiligheidseisen en bijbehorende evaluatieprompts. We tonen aan dat CoSAlign leidt tot aanzienlijke winst in controleerbaarheid ten opzichte van sterke baselines, inclusief in-context afstemming. Ons raamwerk moedigt een betere representatie en aanpassing aan van pluralistische menselijke waarden in LLM's, en vergroot daarmee hun praktische toepasbaarheid.
Grote taalmodellen (LLM's) hebben indrukwekkende mogelijkheden laten zien bij verschillende taken, maar hun prestaties zijn zeer gevoelig voor de gebruikte prompts. Deze variabiliteit vormt uitdagingen voor nauwkeurige beoordeling en gebruikerstevredenheid. Huidig onderzoek besteedt vaak te weinig aandacht aan promptvariaties op instantieniveau en hun implicaties voor subjectieve beoordelingen. Om deze tekortkomingen aan te pakken, introduceren we ProSA, een raamwerk dat is ontworpen om promptgevoeligheid in LLM's te evalueren en te begrijpen. ProSA omvat een nieuwe gevoeligheidsmaatstaf, PromptSensiScore, en maakt gebruik van decoderingsvertrouwen om onderliggende mechanismen toe te lichten. Onze uitgebreide studie, die meerdere taken beslaat, onthult dat promptgevoeligheid varieert over datasets en modellen, waarbij grotere modellen verbeterde robuustheid vertonen. We merken op dat few-shot voorbeelden dit gevoeligheidsprobleem kunnen verlichten, en dat subjectieve beoordelingen ook vatbaar zijn voor promptgevoeligheden, met name bij complexe, redeneringsgerichte taken. Bovendien geven onze bevindingen aan dat hoger modelvertrouwen correleert met verhoogde promptrobuustheid. Wij geloven dat dit werk zal dienen als een nuttig instrument om de promptgevoeligheid van LLM's te bestuderen. Het project is beschikbaar op: https://github.com/open-compass/ProSA.
Leermodellen voor Schrale Ophaling (LSR) maken gebruik van woordenschat uit vooraf getrainde transformers, die vaak entiteiten opsplitsen in onsamenhangende fragmenten. Het opsplitsen van entiteiten kan de ophaalnauwkeurigheid verminderen en beperkt het vermogen van het model om actuele wereldkennis op te nemen die niet in de trainingsgegevens is opgenomen. In dit werk verbeteren we de LSR-woordenschat met Wikipedia-concepten en entiteiten, waardoor het model ambiguïteiten effectiever kan oplossen en actueel kan blijven met evoluerende kennis. Centraal in onze aanpak staat een Dynamische Woordenschat (DyVo) kop, die bestaande entiteitsembeddings benut en een entiteitenophaalcomponent die entiteiten identificeert die relevant zijn voor een query of document. We gebruiken de DyVo kop om entiteitsgewichten te genereren, die vervolgens worden samengevoegd met woordstukgewichten om gezamenlijke representaties te creëren voor efficiënte indexering en ophaling met behulp van een omgekeerde index. In experimenten over drie documentrangschikkingsdatasets met veel entiteiten presteert het resulterende DyVo-model aanzienlijk beter dan state-of-the-art baselines.
De efficiëntie van grote visie-taalmodellen (LVLM's) wordt beperkt door de computationele bottleneck van het aandachtsmechanisme tijdens de voorvul fase en de geheugenbottleneck van het ophalen van de sleutel-waarde (KV) cache in de decoderingsfase, met name in scenario's met hoge-resolutie afbeeldingen of video's. Visuele inhoud vertoont vaak aanzienlijke redundantie, resulterend in zeer spaarzame aandachtskaarten binnen LVLM's. Deze spaarzaamheid kan worden benut om aandachtsberekeningen te versnellen of de KV-cache te comprimeren via verschillende benaderingen. De meeste studies richten zich echter alleen op het aanpakken van een van deze bottlenecks en ondersteunen niet adequaat de dynamische aanpassing van spaarzaamheid met betrekking tot verschillende lagen of taken. In dit artikel presenteren we ZipVL, een efficiënt inferentiekader ontworpen voor LVLM's dat zowel de computationele als geheugenbottlenecks oplost door middel van een dynamische verhoudingsallocatiestrategie van belangrijke tokens. Deze verhouding wordt adaptief bepaald op basis van de laagspecifieke verdeling van aandachtsscores, in plaats van vaste hyperparameters, waardoor de efficiëntie wordt verbeterd voor minder complexe taken terwijl de prestaties hoog blijven voor meer uitdagende taken. Vervolgens selecteren we belangrijke tokens op basis van hun genormaliseerde aandachtsscores en voeren we het aandachtsmechanisme uitsluitend uit op die belangrijke tokens om de voorvul fase te versnellen. Om de geheugenbottleneck in de decoderingsfase te verminderen, passen we gemengde precisiequantisering toe op de KV-cache, waarbij hoge-bit quantisering wordt gebruikt voor caches van belangrijke tokens, terwijl lage-bit quantisering wordt toegepast op die van minder belang. Onze experimenten tonen aan dat ZipVL de voorvul fase kan versnellen met 2,6 keer en het GPU-geheugengebruik met 50,0% kan verminderen, met een minimale nauwkeurigheidsvermindering van slechts 0,2% op de Video-MME benchmark ten opzichte van het LongVA-7B model, waardoor de generatie-efficiëntie van LVLM's effectief wordt verbeterd.
Latentie-gebaseerde beeldgeneratiemodellen, zoals Latente Diffusiemodellen (LDM's) en Maskerbeeldmodellen (MIM's), hebben opmerkelijk succes behaald in beeldgeneratietaken. Deze modellen maken doorgaans gebruik van reconstructieve auto-encoders zoals VQGAN of VAE om pixels te encoderen naar een compacter latent ruimte en om de gegevensverdeling in de latent ruimte te leren in plaats van rechtstreeks van pixels. Echter, deze praktijk roept een relevante vraag op: Is dit werkelijk de optimale keuze? Als reactie hierop beginnen we met een intrigerende observatie: ondanks het delen van dezelfde latent ruimte, blijven autoregressieve modellen aanzienlijk achter bij LDM's en MIM's in beeldgeneratie. Deze bevinding staat scherp in contrast met het veld van NLP, waar het autoregressieve model GPT een dominante positie heeft verworven. Om deze discrepantie aan te pakken, introduceren we een verenigd perspectief op de relatie tussen latent ruimte en generatieve modellen, waarbij de stabiliteit van de latent ruimte in beeldgeneratiemodellering wordt benadrukt. Bovendien stellen we een eenvoudige maar effectieve discrete beeld-tokenizer voor om de latent ruimte te stabiliseren voor beeldgeneratiemodellering. Experimentele resultaten tonen aan dat beeld-autoregressieve modellering met onze tokenizer (DiGIT) zowel de beeldbegrip als de beeldgeneratie ten goede komt met het principe van voorspelling van het volgende token, wat inherent eenvoudig is voor GPT-modellen maar uitdagend voor andere generatieve modellen. Opmerkelijk genoeg presteert voor het eerst een GPT-stijl autoregressief model voor beelden beter dan LDM's, wat ook aanzienlijke verbeteringen vertoont vergelijkbaar met GPT bij het vergroten van de modelgrootte. Onze bevindingen benadrukken het potentieel van een geoptimaliseerde latent ruimte en de integratie van discrete tokenisatie bij het bevorderen van de mogelijkheden van beeldgeneratiemodellen. De code is beschikbaar op https://github.com/DAMO-NLP-SG/DiGIT.
Grote taalmodellen (LLM's) hebben aanzienlijke invloed gehad op vele aspecten van ons leven. Het beoordelen en waarborgen van hun chronologische kennis blijft echter een uitdaging. Bestaande benaderingen schieten tekort in het aanpakken van de cumulatieve aard van kennis, vaak vertrouwend op een enkel tijdstempel. Om dit te overwinnen, introduceren we ChroKnowBench, een benchmark dataset ontworpen om chronologisch opgebouwde kennis te evalueren over drie belangrijke aspecten: meerdere domeinen, tijdsafhankelijkheid, temporele staat. Onze benchmark maakt onderscheid tussen kennis die evolueert (bijv. wetenschappelijke ontdekkingen, gewijzigde wetten) en kennis die constant blijft (bijv. wiskundige waarheden, gezond verstand feiten). Voortbouwend op deze benchmark, presenteren we ChroKnowledge (Chronologische Categorisering van Kennis), een nieuw bemonsteringsgebaseerd raamwerk voor het evalueren en bijwerken van LLM's niet-parametrische chronologische kennis. Onze evaluatie toont aan: (1) Het vermogen om tijdsgebonden kennis op te roepen varieert afhankelijk van het gegevensformaat waarop het model is getraind. (2) LLM's roepen kennis gedeeltelijk op of tonen een afkapping bij tijdsbegrenzingen in plaats van alle aspecten van kennis correct op te roepen. Daarom passen we onze ChroKnowPrompt toe, een diepgaande aanmoediging om chronologische kennis op te roepen door stapsgewijs door de omliggende tijdsperiodes te gaan. We constateren dat ons raamwerk succesvol de algehele kennis over de gehele tijdlijn bijwerkt in zowel het biomedische domein (+11,9%) als het algemene domein (+2,8%), waarbij de effectiviteit ervan wordt aangetoond in het verfijnen van temporele kennis. Deze niet-parametrische benadering maakt ook kennisupdates mogelijk niet alleen in open-source modellen maar ook in eigendoms-LMM's, waarbij een uitgebreide toepasbaarheid over modeltypen wordt gegarandeerd. We voeren een uitgebreide analyse uit op basis van temporele kenmerken van ChroKnowPrompt en valideren het potentieel van verschillende modellen om intrinsieke temporele kennis op te roepen via onze methode.
Dit artikel introduceert een nieuw leerperspectief genaamd Neural Metamorphosis (NeuMeta), dat tot doel heeft zelf-vervormbare neurale netwerken te bouwen. In tegenstelling tot het maken van afzonderlijke modellen voor verschillende architecturen of groottes, leert NeuMeta rechtstreeks de continue gewichtsmanifold van neurale netwerken. Eenmaal getraind, kunnen we gewichten monsteren voor netwerken van elke grootte rechtstreeks vanuit de manifold, zelfs voor eerder ongeziene configuraties, zonder opnieuw te trainen. Om dit ambitieuze doel te bereiken, traint NeuMeta neurale impliciete functies als hypernetwerken. Ze accepteren coördinaten binnen de modelruimte als invoer en genereren overeenkomstige gewichtswaarden op de manifold. Met andere woorden, de impliciete functie wordt op zo'n manier geleerd dat de voorspelde gewichten goed presteren over verschillende modelgroottes. Bij het trainen van die modellen merken we op dat de uiteindelijke prestatie nauw verband houdt met de gladheid van de geleerde manifold. In het streven naar het verbeteren van deze gladheid passen we twee strategieën toe. Ten eerste permuteren we gewichtsmatrices om intra-model gladheid te bereiken, door het Shortest Hamiltonian Path-probleem op te lossen. Bovendien voegen we ruis toe aan de invoercoördinaten bij het trainen van de impliciete functie, waardoor modellen met verschillende groottes consistente uitvoer tonen. Als zodanig toont NeuMeta veelbelovende resultaten bij het synthetiseren van parameters voor verschillende netwerkconfiguraties. Onze uitgebreide tests in beeldclassificatie, semantische segmentatie en beeldgeneratie tonen aan dat NeuMeta de prestaties op volledige grootte behoudt, zelfs bij een compressiesnelheid van 75%.
Multimodale/vision-taalmodellen (VLM's) worden steeds vaker ingezet in zorginstellingen over de hele wereld, wat robuuste benchmarks vereist om hun veiligheid, doeltreffendheid en rechtvaardigheid te waarborgen. Meerkeuzevraag-en-antwoord (QA) datasets afgeleid van nationale medische examens hebben lange tijd gediend als waardevolle evaluatietools, maar bestaande datasets zijn grotendeels alleen tekstueel en beschikbaar in een beperkte subset van talen en landen. Om deze uitdagingen aan te pakken, presenteren we WorldMedQA-V, een bijgewerkte meertalige, multimodale benchmark dataset ontworpen om VLM's in de gezondheidszorg te evalueren. WorldMedQA-V omvat 568 gelabelde meerkeuze QAs gekoppeld aan 568 medische afbeeldingen uit vier landen (Brazilië, Israël, Japan en Spanje), waarbij oorspronkelijke talen en gevalideerde Engelse vertalingen door moedertaalspecialisten worden behandeld. Baseline prestaties voor gangbare open- en gesloten-bronmodellen worden geleverd in de lokale taal en Engelse vertalingen, zowel met als zonder afbeeldingen die aan het model worden verstrekt. Het WorldMedQA-V benchmark heeft tot doel om AI-systemen beter af te stemmen op de diverse zorgomgevingen waarin ze worden ingezet, waardoor meer rechtvaardige, effectieve en representatieve toepassingen worden bevorderd.
We onderzoeken hoe kenmerken ontstaan, verdwijnen en aanwezig blijven in modellen die fijnafgestemd zijn op verschillende domeinen van tekst. Meer specifiek vertrekken we van een basis éénlaags Transformer-taalmodel dat getraind is op een combinatie van het BabyLM-corpus en een verzameling Python-code van The Stack. Dit basismodel wordt aangepast aan twee nieuwe tekst domeinen: TinyStories en de Lua-programmeertaal, respectievelijk; en vervolgens worden deze twee modellen samengevoegd door middel van sferische lineaire interpolatie. Onze verkenning heeft tot doel diepere inzichten te bieden in de stabiliteit en transformatie van kenmerken in typische transfer-leerscenario's met behulp van kleinschalige modellen en schaarse auto-encoders.
Grote taalmodellen (LLM's) die zijn getraind met Versterkend Leren van Menselijke Feedback (RLHF) hebben opmerkelijke capaciteiten aangetoond, maar hun onderliggende beloningsfuncties en besluitvormingsprocessen blijven ondoorzichtig. Dit artikel introduceert een nieuwe benadering om LLM's te interpreteren door omgekeerd versterkend leren (IRL) toe te passen om hun impliciete beloningsfuncties te herstellen. We voeren experimenten uit op toxiciteit-gealigneerde LLM's van verschillende groottes, waarbij beloningsmodellen worden geëxtraheerd die tot 80,40% nauwkeurigheid behalen bij het voorspellen van menselijke voorkeuren. Onze analyse onthult belangrijke inzichten in de niet-identificeerbaarheid van beloningsfuncties, de relatie tussen modelgrootte en interpreteerbaarheid, en mogelijke valkuilen in het RLHF-proces. We tonen aan dat beloningsmodellen afgeleid van IRL kunnen worden gebruikt om nieuwe LLM's af te stemmen, resulterend in vergelijkbare of verbeterde prestaties op toxiciteitsbenchmarks. Dit werk biedt een nieuwe kijk op het begrijpen en verbeteren van LLM-alignement, met implicaties voor de verantwoorde ontwikkeling en implementatie van deze krachtige systemen.
Grote Taalmodellen (LLM's) hebben aanzienlijke vooruitgang geboekt op het gebied van tekstgeneratie en -begrip, waarbij recente ontwikkelingen zich uitstrekken tot multimodale LLM's die visuele en auditieve invoer integreren. Echter, deze modellen blijven worstelen met gedetailleerd, cross-modale temporele begrip, met name bij het correleren van gebeurtenissen over audio- en videostreams heen. We pakken deze uitdagingen aan met twee belangrijke bijdragen: een nieuw dataset en model, respectievelijk OCTAV en OMCAT genoemd. OCTAV (Omni Context en Temporele Audio Video) is een nieuw dataset ontworpen om gebeurtenisovergangen over audio en video vast te leggen. Ten tweede is OMCAT (Omni Context Bewuste Transformer) een krachtig model dat gebruikmaakt van RoTE (Rotary Time Embeddings), een innovatieve uitbreiding van RoPE, om temporele verankering en computationele efficiëntie te verbeteren in tijd-gerelateerde taken. Door middel van een robuuste drie-fasen trainingspipeline - kenmerkalignering, instructieafstemming en OCTAV-specifieke training - blinkt OMCAT uit in cross-modale temporele begrip. Ons model toont state-of-the-art prestaties op Audio-Visuele Vraag Antwoord (AVQA) taken en de OCTAV benchmark, waarbij significante winsten in temporeel redeneren en cross-modale afstemming worden aangetoond, zoals bevestigd door uitgebreide experimenten en ablatie studies. Onze dataset en code zullen openbaar beschikbaar worden gesteld. De link naar onze demopagina is https://om-cat.github.io.
Moderne Vraag-Antwoord (QA) en Redeneerbenaderingen gebaseerd op Grote Taalmodellen (LLMs) maken vaak gebruik van aanwijstechnieken, zoals Chain-of-Thought (CoT), waarbij wordt aangenomen dat de resulterende generatie een meer gedetailleerde verkenning en redenering over de vraagruimte en -scope zal hebben. Echter, dergelijke methoden worstelen met het genereren van uitvoer die trouw is aan de tussenliggende redeneringsketen geproduceerd door het model. Aan de andere kant van het spectrum stellen neuro-symbolische methoden zoals Faithful CoT (F-CoT) voor om LLMs te combineren met externe symbolische oplossers. Hoewel dergelijke benaderingen een hoog niveau van trouw beloven, vereisen ze meestal een model dat is getraind voor codegeneratie en worstelen ze met taken die ambigu of moeilijk strikt te formaliseren zijn. Wij introduceren Faithful Logic-Geassisteerde Redenering en Verkenning (\ours), een nieuw interpreteerbaar benadering voor het doorkruisen van het probleemgebied door middel van taakdecomposities. We gebruiken het LLM om een oplossing te plannen, de query zacht te formaliseren in feiten en predikaten met behulp van een logisch programmeercode en simuleren die code-uitvoering met een uitputtende multi-hop zoektocht over de gedefinieerde ruimte. Onze methode stelt ons in staat om de trouw van het redeneerproces t.o.v. de gegenereerde code te berekenen en de stappen van de multi-hop zoektocht te analyseren zonder te vertrouwen op externe oplossers. Onze methoden behalen SOTA-resultaten op 7 van de 9 diverse redeneerbenchmarks. We tonen ook aan dat modeltrouw positief correleert met de algehele prestaties en demonstreren verder dat {\ours} het mogelijk maakt om de beslissende factoren aan te wijzen die voldoende zijn voor en leiden tot het juiste antwoord met optimale redenering tijdens de multi-hop zoektocht.
Taalmodelkalibratie verwijst naar de afstemming tussen het vertrouwen van het model en de daadwerkelijke prestaties van zijn reacties. Terwijl eerdere studies wijzen op het overmoedfenomeen in Grote Taalmodellen (GTM's) en aantonen dat GTM's die zijn getraind met Versterkend Leren van Menselijke Feedback (VLMF) overmoedig zijn met een scherper uitvoeringswaarschijnlijkheid, onthullen we in deze studie dat VLMF modellen ertoe neigen om verbaal overmoedig te zijn in hun eigen reacties. We onderzoeken de onderliggende oorzaak van deze overmoed en tonen aan dat beloningsmodellen die worden gebruikt voor Proximale Beleidsoptimalisatie (PBO) inherente vooroordelen vertonen ten opzichte van hoge vertrouwensscores ongeacht de daadwerkelijke kwaliteit van de reacties. Voortbouwend op deze inzichten stellen we twee PBO-varianten voor: PBO-M: PBO met Gekalibreerde Beloningsmodellering en PBO-C: PBO met Gekalibreerde Beloningsberekening. PBO-M integreert expliciete vertrouwensscores in de training van beloningsmodellen, wat beloningsmodellen kalibreert om beter de afstemming tussen reactiekwaliteit en verbaald vertrouwen vast te leggen. PBO-C past de beloningscore aan tijdens PBO op basis van het verschil tussen de huidige beloning en het voortschrijdend gemiddelde van eerdere beloningen. Zowel PBO-M als PBO-C kunnen naadloos worden geïntegreerd in de huidige PBO-pijplijn en vereisen geen extra gouden labels. We evalueren onze methoden op zowel Llama3-8B als Mistral-7B over zes diverse datasets, waaronder meerkeuze- en open-eindgeneratie. Experimentresultaten tonen aan dat beide methoden de kalibratiefout kunnen verminderen en prestaties kunnen behouden die vergelijkbaar zijn met standaard PBO. We tonen verder aan dat ze de modelcapaciteiten niet in gevaar brengen in open-einde gespreksomgevingen.
Grote taalmodellen (LLM's) hebben aanzienlijk potentieel aangetoond in de ontwikkeling van intelligente toepassingen en systemen zoals op LLM's gebaseerde agenten en agent besturingssystemen (AIOS). Echter, wanneer deze toepassingen en systemen interacteren met het onderliggende bestandssysteem, blijft het bestandssysteem nog steeds het traditionele paradigma: afhankelijk van handmatige navigatie via precieze commando's. Dit paradigma vormt een knelpunt voor de bruikbaarheid van deze systemen aangezien gebruikers verplicht zijn om complexe maphiërarchieën te navigeren en cryptische bestandsnamen te onthouden. Om deze beperking aan te pakken, stellen wij een op LLM's gebaseerd semantisch bestandssysteem (LSFS) voor voor opdrachtgestuurd bestandsbeheer. In tegenstelling tot conventionele benaderingen, integreert LSFS LLM's om gebruikers of agenten in staat te stellen om met bestanden te interacteren via natuurlijke taalopdrachten, waardoor semantisch bestandsbeheer wordt vergemakkelijkt. Op macroniveau ontwikkelen we een uitgebreide API-set om semantische bestandsbeheerfunctionaliteiten te bereiken, zoals semantische bestandsopvraging, bestandsupdatebewaking en samenvatting, en semantische bestandsrollback. Op microniveau slaan we bestanden op door semantische indexen voor hen te construeren, ontwerpen en implementeren we systeemaanroepen van verschillende semantische operaties (bijv. CRUD, groeperen op, samenvoegen) aangedreven door een vector database. Onze experimenten tonen aan dat LSFS aanzienlijke verbeteringen biedt ten opzichte van traditionele bestandssystemen op het gebied van gebruikersgemak, de diversiteit van ondersteunde functies, en de nauwkeurigheid en efficiëntie van bestandsbewerkingen. Bovendien, met de integratie van LLM, maakt ons systeem meer intelligente bestandsbeheertaken mogelijk, zoals inhoudssamenvatting en versievergelijking, waardoor de mogelijkheden verder worden verbeterd.