Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Als een van de meest populaire en gewilde generatieve modellen van de afgelopen jaren hebben diffusiemodellen de interesse gewekt van veel onderzoekers en consequent uitstekende voordelen getoond in verschillende generatieve taken zoals beeldsynthese, videogeneratie, molecuulontwerp, 3D-scenerendering en multimodale generatie, gebaseerd op hun dichte theoretische principes en betrouwbare toepassingspraktijken. Het opmerkelijke succes van deze recente inspanningen op het gebied van diffusiemodellen komt grotendeels voort uit progressieve ontwerpprincipes en efficiënte architectuur, training, inferentie en implementatiemethodologieën. Er is echter nog geen allesomvattende en diepgaande review geweest om deze principes en praktijken samen te vatten om te helpen bij het snel begrijpen en toepassen van diffusiemodellen. In deze survey bieden we een nieuwe efficiëntiegerichte perspectief op deze bestaande inspanningen, die zich voornamelijk richt op de diepgaande principes en efficiënte praktijken in architectuurontwerpen, modeltraining, snelle inferentie en betrouwbare implementatie, om verdere theoretisch onderzoek, algoritme migratie en modeltoepassing voor nieuwe scenario's op een lezersvriendelijke manier te begeleiden.
Hedendaagse evaluatietechnieken zijn ontoereikend voor agentische systemen. Deze benaderingen richten zich ofwel uitsluitend op eindresultaten - waarbij de stapsgewijze aard van agentische systemen wordt genegeerd - of vereisen overmatige handmatige arbeid. Om dit aan te pakken, introduceren we het Agent-als-Rechter framework, waarbij agentische systemen worden gebruikt om andere agentische systemen te evalueren. Dit is een organische uitbreiding van het LLM-als-Rechter framework, waarbij agentische kenmerken worden opgenomen die tussentijdse feedback mogelijk maken voor het gehele taakoplossingsproces. We passen het Agent-als-Rechter framework toe op de taak van codegeneratie. Om problemen met bestaande benchmarks te overwinnen en een proof-of-concept testomgeving te bieden voor Agent-als-Rechter, presenteren we DevAI, een nieuwe benchmark van 55 realistische geautomatiseerde AI-ontwikkeltaken. Het bevat uitgebreide handmatige annotaties, zoals in totaal 365 hiërarchische gebruikersvereisten. We beoordelen drie van de populaire agentische systemen met behulp van het Agent-als-Rechter framework en vinden dat het aanzienlijk beter presteert dan het LLM-als-Rechter framework en net zo betrouwbaar is als onze menselijke evaluatie-baseline. Al met al zijn we van mening dat Agent-als-Rechter een concrete stap voorwaarts betekent voor moderne agentische systemen - door rijke en betrouwbare beloningssignalen te bieden die nodig zijn voor dynamische en schaalbare zelfverbetering.
Multimodale Grote Taalmodellen (MGT's) vertonen vaak hallucinatieverschijnselen, maar de onderliggende redenen blijven slecht begrepen. In dit artikel presenteren we een empirische analyse en vinden we dat, hoewel MGT's de objecten incorrect genereren in de uiteindelijke output, ze eigenlijk in staat zijn om visuele objecten te herkennen in de voorafgaande lagen. We speculeren dat dit te wijten kan zijn aan de sterke kennisvoorkeuren van het taalmodel die de visuele informatie onderdrukken, wat leidt tot hallucinaties. Gemotiveerd door dit inzicht stellen we een nieuw dynamisch correctie-decoderingsmethode voor MGT's (DeCo) voor, die adaptief de juiste voorafgaande lagen selecteert en kennis proportioneel integreert in de uiteindelijke laag om de output logits aan te passen. Let op dat DeCo modelagnostisch is en naadloos kan worden geïntegreerd met verschillende klassieke decoderingsstrategieën en kan worden toegepast op verschillende MGT's. We evalueren DeCo op veelgebruikte benchmarks en tonen aan dat het hallucinatiepercentages aanzienlijk kan verminderen in vergelijking met baselines, waarbij het potentieel wordt benadrukt om hallucinaties te verminderen. De code is beschikbaar op https://github.com/zjunlp/DeCo.
De effectiviteit van videogeneratiemodellen is sterk afhankelijk van de kwaliteit van hun trainingsdatasets. De meeste eerdere videogeneratiemodellen worden getraind op korte videoclips, terwijl er recentelijk steeds meer interesse is in het direct trainen van langere videogeneratiemodellen op langere video's. Echter, het gebrek aan dergelijke hoogwaardige lange video's belemmert de vooruitgang van lang videogeneratie. Om onderzoek naar lang videogeneratie te bevorderen, streven we naar een nieuwe dataset met vier essentiële kenmerken voor het trainen van lang videogeneratiemodellen: (1) lange video's van minimaal 10 seconden, (2) lange opnames zonder cuts, (3) grote bewegingen en diverse inhoud, en (4) temporeel dichte bijschriften. Om dit te bereiken, introduceren we een nieuw proces voor het selecteren van hoogwaardige lange opnames en het genereren van temporeel dichte bijschriften. Specifiek definiëren we een reeks metrieken om de videokwaliteit kwantitatief te beoordelen, waaronder scènecuts, dynamische graden en kwaliteit op semantisch niveau, waardoor we hoogwaardige lange opnames kunnen filteren uit een grote hoeveelheid bronvideo's. Vervolgens ontwikkelen we een hiërarchisch videobijschriftproces om lange video's te annoteren met temporeel dichte bijschriften. Met dit proces cureren we de eerste dataset van lange opnames, LVD-2M, bestaande uit 2 miljoen lange opnames, elk van meer dan 10 seconden en geannoteerd met temporeel dichte bijschriften. We valideren verder de effectiviteit van LVD-2M door videogeneratiemodellen fijn af te stemmen om lange video's met dynamische bewegingen te genereren. We geloven dat ons werk aanzienlijk zal bijdragen aan toekomstig onderzoek naar lang videogeneratie.
Hoewel grote taalmodellen (LLM's) uitblinken in generatietaken, beperkt hun alleen-decoder-architectuur vaak hun potentieel als insluitingsmodellen als er geen verdere representatiefijnafstemming wordt toegepast. Is dit in strijd met hun claim van generalisten? Om de vraag te beantwoorden, bekijken we Mixture-of-Experts (MoE) LLM's van dichterbij. Onze studie toont aan dat de expert-routers in MoE LLM's kunnen dienen als een kant-en-klaar insluitingsmodel met veelbelovende prestaties op een diverse klasse van op insluiting gerichte taken, zonder dat er enige fijnafstemming nodig is. Bovendien toont onze uitgebreide analyse aan dat de MoE-routeringsgewichten (RW) complementair zijn aan de verborgen toestand (HS) van LLM's, een veelgebruikte insluiting. Vergeleken met HS vinden we dat RW robuuster is voor de keuze van prompts en zich richt op hoog-niveau semantiek. Gemotiveerd door de analyse stellen we MoEE voor, waarbij RW en HS worden gecombineerd, wat betere prestaties oplevert dan wanneer ze afzonderlijk worden gebruikt. Onze verkenning van hun combinatie en promptingstrategie werpt verschillende nieuwe inzichten op, bijvoorbeeld dat een gewogen som van RW- en HS-overeenkomsten beter presteert dan de overeenkomst bij hun concatenatie. Onze experimenten zijn uitgevoerd op 6 insluitingstaken met 20 datasets van de Massive Text Embedding Benchmark (MTEB). De resultaten tonen de significante verbetering aan die MoEE brengt aan op LLM-gebaseerde insluiting zonder verdere fijnafstemming.
Het vergroten van het contextvenster van grote taalmodellen (LLM's) is een cruciaal onderzoeksgebied geworden, met name voor toepassingen die zeer lange teksten omvatten. In dit werk stellen we een nieuw trainingvrij kader voor om lange teksten te verwerken, waarbij een verdeel-en-heersstrategie wordt gebruikt om een uitgebreid begrip van documenten te bereiken. Het voorgestelde LLMtimesMapReduce-kader splitst het volledige document in verschillende brokken voor LLM's om te lezen en aggregeert vervolgens de tussentijdse antwoorden om de uiteindelijke output te produceren. De belangrijkste uitdaging voor verdeel-en-heerskaders voor het verwerken van lange teksten ligt in het risico van het verliezen van essentiële informatie op lange afstand bij het opsplitsen van het document, wat het model kan leiden tot het produceren van onvolledige of onjuiste antwoorden op basis van de gesegmenteerde teksten. Verstoorde informatie op lange afstand kan worden ingedeeld in twee categorieën: inter-brok afhankelijkheid en inter-brok conflict. We ontwerpen een gestructureerd informatieprotocol om beter om te gaan met inter-brok afhankelijkheid en een in-context vertrouwenskalibratiemechanisme om inter-brok conflicten op te lossen. Experimentele resultaten tonen aan dat LLMtimesMapReduce beter kan presteren dan representatieve open-source en commerciële LLM's met een lange context, en toepasbaar is op verschillende modellen.
Het aanpassen van medische Large Language Models naar lokale talen kan de drempels voor toegang tot gezondheidszorgdiensten verlagen, maar gegevensschaarste blijft een aanzienlijke uitdaging, vooral voor talen met weinig bronnen. Om dit aan te pakken, construeren we eerst een hoogwaardige medische dataset en voeren we analyses uit om de kwaliteit ervan te waarborgen. Om de generalisatiecapaciteit van meertalige LLMs efficiënt uit te breiden naar talen met beperkte bronnen, verkennen we de interne informatiestroom van LLMs vanuit een meertalig perspectief met behulp van de Modulariteit van Experts (MoE). Technisch gezien stellen we een nieuw MoE-routingmethode voor die taalspecifieke experts en cross-linguale routing gebruikt. Geïnspireerd door circuittheorie onthulde onze routinganalyse een informatie-stroommechanisme genaamd Spread Out in the End: terwijl eerdere lagen zich concentreren op cross-linguale informatiestroom, vertonen latere lagen taalspecifieke divergentie. Deze inzichten leidden rechtstreeks tot de ontwikkeling van de Post-MoE-architectuur, die schaarse routing alleen toepast in de latere lagen, terwijl andere dicht blijven. Experimentele resultaten tonen aan dat deze aanpak de generalisatie van meertalige modellen naar andere talen verbetert en tegelijkertijd de interpreteerbaarheid behoudt. Tot slot introduceren we, om het model efficiënt uit te breiden naar 50 talen, het concept van taalfamilie-experts, gebaseerd op linguïstische aannames, waardoor het aantal talen kan worden uitgebreid zonder extra parameters toe te voegen.
Grote Taalmodellen (LLM's) hebben enorme verbeteringen laten zien in redeneer- en besluitvormingsvaardigheden en kunnen natuurlijke gesprekken voeren met gebruikers. Onlangs zijn er veel benchmark datasets voor gereedschapsgebruik voorgesteld. Echter, bestaande datasets hebben de volgende beperkingen: (1). Onvoldoende evaluatiescenario's (bijv. dekken slechts beperkte gereedschapsgebruiksscènes). (2). Hoge evaluatiekosten (bijv. GPT API-kosten). Om deze beperkingen aan te pakken, stellen we in dit werk een multi-granulariteitsgereedschapsgebruik benchmark voor voor grote taalmodellen genaamd MTU-Bench voor. Voor de eigenschap "multi-granulariteit" dekt onze MTU-Bench vijf gereedschapsgebruiksscènes (d.w.z. enkele beurt en enkel gereedschap, enkele beurt en meerdere gereedschappen, meerdere beurten en enkel gereedschap, meerdere beurten en meerdere gereedschappen, en taken buiten de distributie). Bovendien zijn alle evaluatiemetrics van onze MTU-Bench gebaseerd op de voorspellingsresultaten en de grondwaarheid zonder gebruik te maken van GPT of menselijke evaluatiemetrics. Bovendien wordt onze MTU-Bench verzameld door bestaande hoogwaardige datasets te transformeren om realistische gereedschapsgebruiksscenario's te simuleren, en we stellen ook een instructiedataset voor genaamd MTU-Instructiedata om de gereedschapsgebruiksvaardigheden van bestaande LLM's te verbeteren. Uitgebreide experimentele resultaten tonen de effectiviteit van onze MTU-Bench aan. Code en data worden vrijgegeven op https://github.com/MTU-Bench-Team/MTU-Bench.git.
Recente ontwikkelingen in Computer Vision (CV) en Natural Language Processing (NLP) zijn grotendeels gestimuleerd door het vergroten van het aantal netwerkparameters, ondanks dat traditionele theorieën suggereren dat grotere netwerken vatbaar zijn voor overfitting. Deze grote netwerken vermijden overfitting door componenten te integreren die een eenvoudigheidsbias induceren, waardoor modellen worden geleid naar eenvoudige en generaliseerbare oplossingen. Echter, in deep Reinforcement Learning (RL) is het ontwerpen en vergroten van netwerken minder onderzocht. Gemotiveerd door deze kans, presenteren we SimBa, een architectuur ontworpen om parameters in deep RL op te schalen door een eenvoudigheidsbias toe te voegen. SimBa bestaat uit drie componenten: (i) een observatienormalisatielaag die inputs standaardiseert met lopende statistieken, (ii) een residu feedforward blok om een lineair pad van de input naar de output te bieden, en (iii) een laagnormalisatie om kenmerkmagnitudes te controleren. Door parameters op te schalen met SimBa, wordt de steekproefeffectiviteit van verschillende deep RL-algoritmen - inclusief off-policy, on-policy en ongesuperviseerde methoden - consequent verbeterd. Bovendien, alleen door de SimBa-architectuur te integreren in SAC, evenaart of overtreft het de state-of-the-art deep RL-methoden met hoge rekenkundige efficiëntie over DMC, MyoSuite en HumanoidBench. Deze resultaten tonen de brede toepasbaarheid en effectiviteit van SimBa aan over diverse RL-algoritmen en omgevingen.
Grote taalmodellen (LLM's) gecombineerd met gereedschapsleren hebben indrukwekkende resultaten behaald in praktische toepassingen. Tijdens gereedschapsleren kunnen LLM's meerdere gereedschappen in geneste volgordes aanroepen, waarbij het latere gereedschap de reactie van het voorgaande als invoerparameters kan gebruiken. Echter, het huidige onderzoek naar de mogelijkheden van genest gereedschapsleren is nog onderbelicht, aangezien de bestaande benchmarks ontbreken aan relevante gegevensvoorbeelden. Om dit probleem aan te pakken, introduceren we NesTools om de huidige kloof in uitgebreide evaluaties van genest gereedschapsleren te overbruggen. NesTools omvat een nieuwe automatische gegevensgeneratiemethode om geneste gereedschapsaanroepen op grote schaal te construeren met verschillende neststructuren. Met handmatige beoordeling en verfijning is de dataset van hoge kwaliteit en nauw afgestemd op realistische scenario's. Daarom kan NesTools dienen als een nieuwe benchmark om de mogelijkheden van LLM's voor genest gereedschapsleren te evalueren. We voeren uitgebreide experimenten uit op 22 LLM's en bieden diepgaande analyses met NesTools, die aantonen dat huidige LLM's nog steeds moeite hebben met de complexe taak van genest gereedschapsleren.
De toenemende vraag naar veelzijdige robotische systemen om te opereren in diverse en dynamische omgevingen heeft het belang benadrukt van een generalistisch beleid, dat gebruikmaakt van een groot corpus aan data over verschillende lichamen om brede aanpasbaarheid en hoog niveau van redeneren te vergemakkelijken. Echter, de generalist zou moeite hebben met inefficiënte inferentie en kostbare training. Het specialistische beleid daarentegen is samengesteld voor specifieke domeingegevens en blinkt uit in precisie op taakniveau met efficiëntie. Toch ontbreekt het aan generalisatiecapaciteit voor een breed scala aan toepassingen. Geïnspireerd door deze observaties introduceren we RoboDual, een synergetisch dual-systeem dat de voordelen van zowel het generalistische als het specialistische beleid aanvult. Een specialist op basis van een diffusietransformator is ontworpen voor multi-stap actie-uitvoeringen, voortreffelijk geconditioneerd op het begrip van de taak op hoog niveau en de gedesintegreerde actie-uitvoer van een visie-taal-actie (VLA) gebaseerde generalist. In vergelijking met OpenVLA behaalt RoboDual een verbetering van 26,7% in een real-world setting en een winst van 12% op CALVIN door een specialistisch beleid te introduceren met slechts 20M trainbare parameters. Het behoudt sterke prestaties met slechts 5% van de demonstratiedata en maakt een 3,8 keer hogere controlefrequentie mogelijk bij implementatie in de echte wereld. De code zal openbaar beschikbaar worden gesteld. Onze projectpagina is te vinden op: https://opendrivelab.com/RoboDual/
Recente benaderingen proberen krachtige interactieve segmentatiemodellen, zoals SAM, aan te passen aan interactieve matting en de modellen af te stemmen op basis van synthetische matting-datasets. Modellen die zijn getraind op synthetische data falen echter in het generaliseren naar complexe en occlusiescènes. We pakken deze uitdaging aan door een nieuwe matting-dataset voor te stellen op basis van de COCO-dataset, namelijk COCO-Matting. Specifiek omvat de constructie van onze COCO-Matting accessoirefusie en masker-naar-matte, waarbij complexe afbeeldingen uit de echte wereld worden geselecteerd uit COCO en semantische segmentatiemaskers worden omgezet naar matting-labels. De gebouwde COCO-Matting bestaat uit een uitgebreide verzameling van 38.251 alfamatjes op instantieniveau van mensen in complexe natuurlijke scenario's. Bovendien halen bestaande op SAM gebaseerde matting-methoden tussenliggende kenmerken en maskers uit een bevroren SAM en trainen alleen een lichtgewicht matting-decoder met end-to-end matting-verliezen, die niet volledig profiteren van het potentieel van de vooraf getrainde SAM. Daarom stellen we SEMat voor, dat het netwerkarchitectuur en trainingsdoelstellingen herziet. Voor netwerkarchitectuur leert de voorgestelde feature-uitgelijnde transformer fijnkorrelige rand- en transparantiekenmerken te extraheren. De voorgestelde matte-uitgelijnde decoder heeft tot doel matting-specifieke objecten te segmenteren en grove maskers om te zetten in hoogwaardige mattes. Voor trainingsdoelstellingen beogen de voorgestelde regulering en trimap-verlies de prior van het vooraf getrainde model te behouden en duwen de matting-logits die zijn geëxtraheerd uit de maskerdecoder om trimap-gebaseerde semantische informatie te bevatten. Uitgebreide experimenten over zeven diverse datasets tonen de superieure prestaties van onze methode aan, waarbij de doeltreffendheid ervan in interactieve natuurlijke beeldmatting wordt aangetoond. We stellen onze code, modellen en dataset beschikbaar op https://github.com/XiaRho/SEMat.
Echocardiografie is de meest gebruikte cardiale beeldvormingsmodaliteit, waarbij ultrasone videogegevens worden vastgelegd om de structuur en functie van het hart te beoordelen. Kunstmatige intelligentie (AI) in echocardiografie heeft het potentieel om handmatige taken te stroomlijnen en de reproduceerbaarheid en precisie te verbeteren. De meeste AI-modellen voor echocardiografie zijn echter enkelvoudige weergave, enkelvoudige taaksystemen die geen aanvullende informatie synthetiseren uit meerdere weergaven die tijdens een volledig onderzoek zijn vastgelegd, en daardoor leiden tot beperkte prestaties en toepassingsmogelijkheden. Om dit probleem aan te pakken, introduceren we EchoPrime, een multi-weergave, weergave-geïnformeerd, op video gebaseerd visie-taal foundation model dat is getraind op meer dan 12 miljoen video-rapportparen. EchoPrime maakt gebruik van contrastief leren om een verenigd insluitingsmodel te trainen voor alle standaard weergaven in een uitgebreide echocardiogramstudie met de representatie van zowel zeldzame als veelvoorkomende ziekten en diagnoses. Vervolgens maakt EchoPrime gebruik van weergave-classificatie en een weergave-geïnformeerd anatomisch aandachtsmodel om videospecifieke interpretaties te wegen die nauwkeurig de relatie tussen echocardiografische weergaven en anatomische structuren in kaart brengen. Met opvragingsversterkte interpretatie integreert EchoPrime informatie uit alle echocardiografievideo's in een uitgebreide studie en voert het een holistische, uitgebreide klinische echocardiografische interpretatie uit. In datasets van twee onafhankelijke gezondheidssystemen behaalt EchoPrime state-of-the-art prestaties op 23 diverse benchmarks van cardiale vorm en functie, waarbij het de prestaties van zowel taakspecifieke benaderingen als eerdere foundation-modellen overtreft. Na een grondige klinische evaluatie kan EchoPrime artsen helpen bij de geautomatiseerde voorlopige beoordeling van uitgebreide echocardiografie.
Het Mutual Reinforcement Effect (MRE) onderzoekt de synergetische relatie tussen classificaties op woordniveau en tekstniveau bij tekstclassificatietaken. Het stelt dat de prestaties van beide classificatieniveaus elkaar wederzijds kunnen versterken. Deze mechanisme is echter nog niet voldoende aangetoond of uitgelegd in eerdere onderzoeken. Om deze lacune aan te pakken, voeren we empirische experimenten uit om de MRE-theorie te observeren en te onderbouwen. Onze experimenten met 21 MRE-mixdatasets onthulden de aanwezigheid van MRE in het model en de impact ervan. Specifiek hebben we vergelijkende experimenten uitgevoerd met fine-tuning. De resultaten van de bevindingen uit de vergelijkende experimenten bevestigen het bestaan van MRE. Bovendien hebben we de toepassing van MRE uitgebreid naar prompt learning, waarbij informatie op woordniveau wordt gebruikt als versterker om de voorspelling van tekstniveau classificatielabels van het model te verbeteren. In ons laatste experiment overtrof de F1-score significant de baseline in 18 van de 21 MRE-mixdatasets, wat de notie verder bevestigt dat informatie op woordniveau het begrip van het taalmodel van de tekst als geheel verbetert.
We presenteren een op een ruimte- en hoekige Gauss gebaseerde representatie en een drievoudig splatproces, voor real-time, hoogwaardige nieuwe verlichtings- en weergavesynthese van multi-view puntverlichte invoerbeelden. Om complexe verschijningen te beschrijven, gebruiken we een Lambertiaanse plus een mengsel van hoekige Gaussians als een effectieve reflectiefunctie voor elke ruimtelijke Gauss. Om zelfschaduw te genereren, splatten we alle ruimtelijke Gaussians naar de lichtbron om schaduwwaarden te verkrijgen, die verder verfijnd worden door een kleine multi-layer perceptron. Om andere effecten zoals globale verlichting te compenseren, wordt een ander netwerk getraind om een per-ruimtelijke-Gaussische RGB-tuple te berekenen en toe te voegen. De effectiviteit van onze representatie wordt gedemonstreerd op 30 monsters met een brede variatie in geometrie (van massief tot pluizig) en verschijning (van doorschijnend tot anisotroop), evenals het gebruik van verschillende vormen van invoergegevens, inclusief gerenderde beelden van synthetische/gereconstrueerde objecten, foto's genomen met een handcamera en een flitser, of van een professionele lichtcabine. We bereiken een trainingsduur van 40-70 minuten en een renderingsnelheid van 90 fps op een enkele commodity GPU. Onze resultaten zijn gunstig in vergelijking met state-of-the-art technieken op het gebied van kwaliteit/prestatie. Onze code en gegevens zijn openbaar beschikbaar op https://GSrelight.github.io/.
Hoewel het opschalen van op Transformer gebaseerde grote taalmodellen (LLM's) veelbelovende prestaties heeft laten zien bij verschillende taken, introduceert het ook overbodige architecturen, wat efficiëntie-uitdagingen met zich meebrengt voor implementatie in de echte wereld. Ondanks enige erkenning van redundantie in LLM's, is de variabiliteit van redundantie over verschillende architecturen in transformers, zoals MLP en Aandachtslagen, onderbelicht. In dit werk onderzoeken we redundantie over verschillende modules binnen Transformers, waaronder Blokken, MLP en Aandachtslagen, met behulp van een op gelijkenis gebaseerde metriek. Verrassend genoeg, ondanks de cruciale rol van aandachtslagen bij het onderscheiden van transformers van andere architecturen, hebben we ontdekt dat een groot deel van deze lagen een overdreven hoge gelijkenis vertoont en kunnen worden weggesneden zonder prestatieverlies. Zo behaalde Llama-2-70B bijvoorbeeld een versnelling van 48,4% met slechts een prestatiedaling van 2,4% door de helft van de aandachtslagen weg te snijden. Bovendien hebben we door modelcontrolepunten gedurende het trainingsproces te volgen, waargenomen dat redundantie van aandachtslagen inherent is en consistent is over trainingsfasen. Daarnaast stellen we een methode voor die zowel Aandachts- als MLP-lagen gezamenlijk laat vallen, waardoor we agressiever extra lagen kunnen laten vallen. Zo behoudt Llama-2-13B bijvoorbeeld nog steeds 90% van de prestaties op de MMLU-taak bij het laten vallen van 31 lagen (Aandacht + MLP). Ons werk biedt waardevolle inzichten voor toekomstig netwerkarchitectuurontwerp. De code is beschikbaar op: https://github.com/Shwai-He/LLM-Drop.
Bestaande werken hebben meerdere benchmarks vastgesteld om de beveiligingsrisico's van Code GenAI te benadrukken. Deze risico's worden voornamelijk weerspiegeld in twee gebieden: het potentieel van een model om onveilige code te genereren (onveilig coderen) en de bruikbaarheid ervan bij cyberaanvallen (cyberaanval behulpzaamheid). Hoewel deze benchmarks aanzienlijke vooruitgang hebben geboekt, blijven er mogelijkheden voor verdere verbetering. Zo richten veel huidige benchmarks zich meer op de capaciteit van een model om aanvalssuggesties te bieden dan op zijn vermogen om uitvoerbare aanvallen te genereren. Bovendien vertrouwen de meeste benchmarks zwaar op statische evaluatiemetrics, die mogelijk niet zo nauwkeurig zijn als dynamische metrics zoals het slagen voor testgevallen. Daarentegen opereren door experts geverifieerde benchmarks, hoewel ze hoogwaardige gegevens bieden, vaak op kleinere schaal. Om deze hiaten aan te pakken, ontwikkelen we SecCodePLT, een verenigd en uitgebreid evaluatieplatform voor de risico's van code GenAI. Voor onveilige code introduceren we een nieuwe methodologie voor gegevenscreatie die experts combineert met automatische generatie. Onze methodologie waarborgt de gegevenskwaliteit en maakt grootschalige generatie mogelijk. We koppelen ook voorbeelden aan testgevallen om dynamische evaluatie met betrekking tot code uit te voeren. Voor de behulpzaamheid bij cyberaanvallen creëren we een echte omgeving en construeren we voorbeelden om een model aan te zetten tot het genereren van daadwerkelijke aanvallen, samen met dynamische metrics in onze omgeving. We voeren uitgebreide experimenten uit en tonen aan dat SecCodePLT beter presteert dan de state-of-the-art (SOTA) benchmark CyberSecEval op het gebied van beveiligingsrelevantie. Bovendien identificeert het beter de beveiligingsrisico's van SOTA-modellen op het gebied van onveilig coderen en cyberaanval behulpzaamheid. Tot slot passen we SecCodePLT toe op de SOTA code-agent, Cursor, en identificeren we voor het eerst niet-triviale beveiligingsrisico's in deze geavanceerde code-agent.
Het efficiënt ophalen en synthetiseren van informatie uit grootschalige multimodale collecties is een kritische uitdaging geworden. Bestaande video-ophaaldatasets kampen echter met beperkingen wat betreft scope, waarbij ze zich voornamelijk richten op het matchen van beschrijvende maar vage zoekopdrachten met kleine collecties professioneel bewerkte, op het Engels gerichte video's. Om dit hiaat aan te pakken, introduceren we MultiVENT 2.0, een grootschalige, meertalige op gebeurtenissen gerichte video-ophaalbenchmark met een collectie van meer dan 218.000 nieuwsvideo's en 3.906 zoekopdrachten gericht op specifieke wereldgebeurtenissen. Deze zoekopdrachten richten zich specifiek op informatie die te vinden is in de visuele inhoud, audio, ingebedde tekst en tekstmetadata van de video's, waarbij systemen al deze bronnen moeten benutten om te slagen in de taak. Voorlopige resultaten tonen aan dat vision-language modellen van de staat-van-de-kunst aanzienlijke moeite hebben met deze taak, en hoewel alternatieve benaderingen veelbelovend zijn, zijn ze nog steeds onvoldoende om dit probleem adequaat aan te pakken. Deze bevindingen benadrukken de noodzaak van robuustere multimodale ophaalsystemen, aangezien effectieve video-ophaal een cruciale stap is naar multimodale inhoudsbegrip en generatietaken.