Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Post-training quantisatie is de belangrijkste methode om geheugen gerelateerde knelpunten in LLM-inferentie aan te pakken, maar helaas leidt dit tot aanzienlijke prestatievermindering bij precisies onder de 4 bits. Een alternatieve benadering is het direct trainen van gecomprimeerde modellen met een lage bitbreedte (bijvoorbeeld binaire of ternaire modellen). De prestaties, trainingsdynamiek en schaalbaarheidstrends van dergelijke modellen zijn echter nog niet goed begrepen. Om dit probleem aan te pakken, trainen en openbaren wij de Spectra LLM-suite, bestaande uit 54 taalmodelen variërend van 99M tot 3.9B parameters, getraind op 300B tokens. Spectra omvat FloatLMs, post-training gequantiseerde QuantLMs (3, 4, 6 en 8 bits), en ternaire LLMs (TriLMs) – onze verbeterde architectuur voor ternaire taalmodeling, die aanzienlijk beter presteert dan eerder voorgestelde ternaire modellen van een bepaalde grootte (in bits), en die op schaal overeenkomt met half-precisie modellen. TriLM 3.9B is bijvoorbeeld (bitgewijs) kleiner dan het half-precisie FloatLM 830M, maar evenaart het half-precisie FloatLM 3.9B in gezond verstand redeneren en kennisbenchmarks. TriLM 3.9B is echter ook even toxisch en stereotyperend als FloatLM 3.9B, een model dat zes keer groter is in omvang. Bovendien loopt TriLM 3.9B achter op FloatLM in perplexiteit op validatiesplits en webgebaseerde corpora, maar presteert beter op minder ruisachtige datasets zoals Lambada en PennTreeBank. Om het begrip van modellen met lage bitbreedte te vergroten, geven wij 500+ tussenliggende checkpoints van de Spectra-suite vrij op https://github.com/NolanoOrg/SpectraSuite{https://github.com/NolanoOrg/SpectraSuite}.
We introduceren GoldFinch, een hybride Lineaire Attention/Transformer-sequentiemodel dat een nieuwe techniek gebruikt om efficiënt een sterk gecomprimeerde en herbruikbare KV-Cache te genereren in lineaire tijd en ruimte ten opzichte van de sequentielengte. GoldFinch plaatst onze nieuwe GOLD-transformer bovenop een verbeterde versie van de Finch (RWKV-6)-architectuur. We trainen modellen van de Finch-, Llama- en GoldFinch-architecturen tot 1,5B parameters en vinden een aanzienlijk verbeterde modelprestatie ten opzichte van zowel Finch als Llama. Onze besparingen in cachegrootte nemen lineair toe met het aantal modellagen, variërend van 756 tot 2550 keer kleiner dan de traditionele transformercache voor gangbare groottes, wat inferentie van extreem grote contextlengtes mogelijk maakt, zelfs op beperkte hardware. Hoewel autoregressieve generatie een O(n)-tijdscomplexiteit per token heeft vanwege attention, kost de voorafgaande berekening van de volledige initiële cachestatus voor een ingediende context slechts O(1) tijd per token dankzij het gebruik van een recurrent neural network (RNN) om deze cache te genereren. We geven onze getrainde gewichten en trainingscode vrij onder de Apache 2.0-licentie voor gebruik door de gemeenschap.
LLM-agents hebben opmerkelijke prestaties geleverd in diverse toepassingen, voornamelijk dankzij hun geavanceerde mogelijkheden in redeneren, het benutten van externe kennis en tools, het aanroepen van API's en het uitvoeren van acties om te interageren met omgevingen. Huidige agents maken doorgaans gebruik van een geheugenmodule of een retrieval-augmented generation (RAG)-mechanisme, waarbij ze eerdere kennis en instanties met vergelijkbare embeddings uit kennisbanken ophalen om taakplanning en -uitvoering te informeren. De afhankelijkheid van niet-geverifieerde kennisbanken roept echter aanzienlijke zorgen op over hun veiligheid en betrouwbaarheid. Om dergelijke kwetsbaarheden bloot te leggen, stellen we een nieuwe red teaming-benadering voor, genaamd AgentPoison, de eerste backdoor-aanval die gericht is op generieke en RAG-gebaseerde LLM-agents door hun langetermijngeheugen of RAG-kennisbank te vergiftigen. In het bijzonder formuleren we het trigger-generatieproces als een geoptimaliseerde beperkte optimalisatie om backdoor-triggers te optimaliseren door de getriggerde instanties te mappen naar een unieke embeddingruimte, zodat ervoor wordt gezorgd dat wanneer een gebruikersinstructie de geoptimaliseerde backdoor-trigger bevat, de kwaadaardige demonstraties met hoge waarschijnlijkheid worden opgehaald uit het vergiftigde geheugen of de kennisbank. Tegelijkertijd zullen goedaardige instructies zonder de trigger nog steeds normale prestaties behouden. In tegenstelling tot conventionele backdoor-aanvallen vereist AgentPoison geen aanvullende modeltraining of fine-tuning, en vertoont de geoptimaliseerde backdoor-trigger superieure overdraagbaarheid, in-context coherentie en onopvallendheid. Uitgebreide experimenten tonen de effectiviteit van AgentPoison aan bij het aanvallen van drie soorten real-world LLM-agents: een RAG-gebaseerde autonome rijdende agent, een kennisintensieve QA-agent en een gezondheidszorg-EHRAgent. Op elke agent behaalt AgentPoison een gemiddeld aanvalssuccespercentage van meer dan 80% met een minimaal effect op de goedaardige prestaties (minder dan 1%) bij een vergiftigingspercentage van minder dan 0,1%.
Multimodale grote taalmodellen (MLLMs) hebben veelbelovende vooruitgang geboekt in algemeen visueel en taalbegrip. De representatie van multimodale informatie met behulp van MLLMs blijft echter grotendeels onontgonnen. In dit werk introduceren we een nieuw framework, E5-V, ontworpen om MLLMs aan te passen voor het bereiken van universele multimodale embeddings. Onze bevindingen benadrukken het aanzienlijke potentieel van MLLMs in het representeren van multimodale inputs in vergelijking met eerdere benaderingen. Door MLLMs te benutten met prompts, overbrugt E5-V effectief de modale kloof tussen verschillende soorten inputs, waarbij het sterke prestaties laat zien in multimodale embeddings, zelfs zonder fine-tuning. We stellen een enkele modaliteit trainingsbenadering voor E5-V voor, waarbij het model uitsluitend wordt getraind op tekstparen. Deze methode toont aanzienlijke verbeteringen ten opzichte van traditionele multimodale training op beeld-tekstparen, terwijl de trainingskosten met ongeveer 95% worden verlaagd. Bovendien elimineert deze aanpak de noodzaak van kostbare verzameling van multimodale trainingsdata. Uitgebreide experimenten over vier soorten taken demonstreren de effectiviteit van E5-V. Als een universeel multimodaal model bereikt E5-V niet alleen, maar overtreft vaak de state-of-the-art prestaties in elke taak, ondanks dat het op een enkele modaliteit is getraind.
De vooruitgang van grote foundationmodellen vereist benchmarks met een brede dekking, lage kosten en nul besmetting. Ondanks voortdurende verkenningen van evaluaties van taalmodelen, blijven uitgebreide studies over de evaluatie van Grote Multimodale Modellen (LMMs) beperkt. In dit werk introduceren we LMMS-EVAL, een uniform en gestandaardiseerd multimodaal benchmarkraamwerk met meer dan 50 taken en meer dan 10 modellen om transparante en reproduceerbare evaluaties te bevorderen. Hoewel LMMS-EVAL een uitgebreide dekking biedt, ontbreekt het nog aan lage kosten en nul besmetting. Om dit evaluatiedrilemma te benaderen, introduceren we verder LMMS-EVAL LITE, een gesnoeid evaluatiegereedschap dat zowel dekking als efficiëntie benadrukt. Daarnaast presenteren we Multimodal LIVEBENCH, dat gebruikmaakt van continu bijgewerkt nieuws en online forums om de generalisatievermogens van modellen in de praktijk te beoordelen, met een evaluatiebenadering die laag in kosten en nul besmetting is. Samenvattend benadrukt ons werk het belang van het overwegen van het evaluatiedrilemma en biedt het praktische oplossingen om de afwegingen in de evaluatie van grote multimodale modellen te navigeren, waardoor de weg wordt geëffend voor effectievere en betrouwbaardere benchmarking van LMMs. We openen onze codebase en onderhouden een leaderboard van LIVEBENCH op https://github.com/EvolvingLMMs-Lab/lmms-eval en https://huggingface.co/spaces/lmms-lab/LiveBench.
Naarmate grote taalmmodellen (LLMs) opmerkelijke vooruitgang boeken in taalbegrip en -generatie, is hun trainings efficiëntie een kritieke zorg geworden. Traditioneel worden LLMs getraind om het volgende token in een reeks te voorspellen. Ondanks het succes van training op tokenniveau, lijdt deze aanzienlijke rekenkosten door de noodzaak om een uitgebreid aantal tokens te verwerken. Om dit probleem te verlichten, introduceert dit artikel training op patchniveau voor LLMs, waarbij de sequentielengte wordt verminderd door meerdere tokens in een enkel patch samen te persen. Tijdens training op patchniveau voeden we het taalmodel kortere sequenties van patches en trainen we het om het volgende patch te voorspellen, waardoor het grootste deel van de trainingsgegevens tegen aanzienlijk lagere rekenkosten wordt verwerkt. Vervolgens gaat het model door met training op tokenniveau op de resterende trainingsgegevens om af te stemmen op de inferentiemodus. Experimenten op een diverse reeks modellen (370M-2.7B parameters) tonen aan dat training op patchniveau de totale rekenkosten kan verminderen tot 0.5 keer, zonder in te boeten aan modelprestaties vergeleken met training op tokenniveau. Broncode: https://github.com/shaochenze/PatchTrain.
Moderne tekst-naar-video-synthesemodellen tonen coherente, fotorealistische generatie van complexe video's vanuit een tekstbeschrijving. De meeste bestaande modellen bieden echter geen fijnmazige controle over camerabeweging, wat cruciaal is voor downstream-toepassingen gerelateerd aan contentcreatie, visuele effecten en 3D-visie. Recentelijk hebben nieuwe methoden het vermogen aangetoond om video's te genereren met controleerbare cameraposities; deze technieken maken gebruik van vooraf getrainde U-Net-gebaseerde diffusiemodellen die ruimtelijke en temporele generatie expliciet ontwarren. Toch maakt geen enkele bestaande aanpak cameracontrole mogelijk voor nieuwe, transformer-gebaseerde videodiffusiemodellen die ruimtelijke en temporele informatie gezamenlijk verwerken. Hier stellen we voor om videotransformers te temmen voor 3D-cameracontrole met behulp van een ControlNet-achtig conditioneringsmechanisme dat spatiotemporele camera-embeddingen op basis van Plücker-coördinaten integreert. De aanpak toont state-of-the-art prestaties voor controleerbare videogeneratie na fine-tuning op de RealEstate10K-dataset. Voor zover wij weten, is ons werk het eerste dat cameracontrole mogelijk maakt voor transformer-gebaseerde videodiffusiemodellen.
De nieuwste ontwikkelingen hebben realistische virtuele passen (VTON) bereikt door middel van gelokaliseerde kledinginpainting met behulp van latente diffusiemodellen, wat de online winkelervaring van consumenten aanzienlijk verbetert. Bestaande VTON-technologieën negeren echter de behoefte van verkopers om kleding uitgebreid te presenteren, inclusief flexibele controle over kleding, optionele gezichten, poses en scènes. Om dit probleem aan te pakken, definiëren we een virtueel aankleden (VD) taak die gericht is op het genereren van vrij bewerkbare menselijke afbeeldingen met vaste kleding en optionele voorwaarden. Tegelijkertijd ontwerpen we een uitgebreide affiniteitsmetriekindex (CAMI) om de consistentie tussen gegenereerde afbeeldingen en referentiekleding te evalueren. Vervolgens stellen we IMAGDressing-v1 voor, dat een kleding-UNet bevat dat semantische kenmerken van CLIP en textuurkenmerken van VAE vastlegt. We introduceren een hybride aandachtmodule, bestaande uit een bevroren zelf-aandacht en een trainbare kruis-aandacht, om kledingkenmerken van het kleding-UNet te integreren in een bevroren denoiserings-UNet, waardoor gebruikers verschillende scènes kunnen controleren via tekst. IMAGDressing-v1 kan worden gecombineerd met andere uitbreidingsplugins, zoals ControlNet en IP-Adapter, om de diversiteit en beheersbaarheid van gegenereerde afbeeldingen te vergroten. Bovendien, om het gebrek aan data aan te pakken, brengen we de interactieve kledingparen (IGPair) dataset uit, die meer dan 300.000 paren van kleding en aangeklede afbeeldingen bevat, en stellen we een standaardpijplijn voor data-assemblage op. Uitgebreide experimenten tonen aan dat onze IMAGDressing-v1 state-of-the-art prestaties bereikt in menselijke afbeeldingssynthese onder verschillende gecontroleerde omstandigheden. De code en het model zullen beschikbaar zijn op https://github.com/muzishen/IMAGDressing.
De meeste huidige LLM-gebaseerde modellen voor videobegrip kunnen video's binnen enkele minuten verwerken. Ze hebben echter moeite met lange video's vanwege uitdagingen zoals "ruis en redundantie", evenals "geheugen- en rekenbeperkingen". In dit artikel presenteren we Goldfish, een methodologie die is afgestemd op het begrijpen van video's van willekeurige lengtes. We introduceren ook de TVQA-long benchmark, die specifiek is ontworpen om de capaciteiten van modellen te evalueren in het begrijpen van lange video's met vragen over zowel visuele als tekstuele inhoud. Goldfish benadert deze uitdagingen met een efficiënt retrievalsysteem dat eerst de top-k videoclips verzamelt die relevant zijn voor de instructie, voordat het het gewenste antwoord geeft. Dit ontwerp van het retrievalsysteem stelt Goldfish in staat om willekeurig lange videosequenties efficiënt te verwerken, wat de toepassing ervan in contexten zoals films of televisieseries vergemakkelijkt. Om het retrievalsysteem te faciliteren, ontwikkelden we MiniGPT4-Video, dat gedetailleerde beschrijvingen genereert voor de videoclips. Om het gebrek aan benchmarks voor lange video-evaluatie aan te pakken, hebben we de TVQA short video benchmark aangepast voor uitgebreide inhoudsanalyse door vragen van hele afleveringen te aggregeren, waardoor de evaluatie verschuift van gedeeltelijk naar volledig afleveringsbegrip. We behaalden een nauwkeurigheid van 41,78% op de TVQA-long benchmark, wat een verbetering is van 14,94% ten opzichte van eerdere methoden. Onze MiniGPT4-Video toont ook uitzonderlijke prestaties in kort videobegrip, waarbij het bestaande state-of-the-art methoden overtreft met respectievelijk 3,23%, 2,03%, 16,5% en 23,59% op de MSVD, MSRVTT, TGIF en TVQA short video benchmarks. Deze resultaten geven aan dat onze modellen aanzienlijke verbeteringen vertonen in zowel lang als kort videobegrip. Onze modellen en code zijn openbaar beschikbaar gemaakt op https://vision-cair.github.io/Goldfish_website/.
Complexe redenering is een indrukwekkend vermogen dat wordt getoond door grote taalmodellen (LLM's). De meeste LLM's zijn bedreven in deductief redeneren, zoals ketting-van-gedachten-prompting of het iteratief gebruiken van tools om uitdagende taken stap voor stap op te lossen. In dit artikel hopen we ons te richten op het evalueren en aanleren van inductief redeneren aan LLM's, dat wil zeggen, LLM's moeten onderliggende regels afleiden door het observeren van voorbeelden of sequentiële transformaties. Het verzamelen van grootschalige en diverse door mensen gegenereerde inductieve data is echter een uitdaging. We richten ons op datasynthese in het code-domein en stellen een Case2Code-taak voor door gebruik te maken van de expressiviteit en correctheid van programma's. Specifiek verzamelen we een diverse set uitvoerbare programma's, synthetiseren we input-output-transformaties voor elk programma en dwingen we LLM's om de onderliggende code-implementaties af te leiden op basis van de synthetische I/O-gevallen. We evalueren eerst representatieve LLM's op de gesynthetiseerde Case2Code-taak en tonen aan dat de Case-to-code-inductie uitdagend is voor LLM's. Vervolgens synthetiseren we grootschalige Case2Code-trainingsvoorbeelden om LLM's te trainen in inductief redeneren. Experimentele resultaten laten zien dat dergelijke inductietraining niet alleen voordelen biedt voor de prestaties binnen de distributie van Case2Code, maar ook verschillende codeervaardigheden van getrainde LLM's verbetert, wat het grote potentieel aantoont van het leren van inductief redeneren via synthetische data.
Terwijl de meeste muziekgeneratiemodellen gebruikmaken van tekstuele of parametrische conditionering (bijv. tempo, harmonie, muziekgenre), stellen wij voor om een op taalmodel gebaseerd muziekgeneratiesysteem te conditioneren met audio-input. Onze verkenning omvat twee verschillende strategieën. De eerste strategie, genaamd tekstuele inversie, maakt gebruik van een vooraf getraind tekst-naar-muziek-model om audio-input te mappen naar corresponderende "pseudowoorden" in de tekstuele inbeddingsruimte. Voor het tweede model trainen we een muziektalenmodel van scratch, samen met een tekstconditioner en een gekwantiseerde audiofeature-extractor. Tijdens inferentie kunnen we tekstuele en audioconditionering mengen en balanceren dankzij een nieuwe dubbele classifier-free guidance-methode. We voeren automatische en menselijke studies uit die onze aanpak valideren. We zullen de code vrijgeven en bieden muziekvoorbeelden op https://musicgenstyle.github.io om de kwaliteit van ons model te demonstreren.
Het synthetiseren van nieuwe aanzichten uit onbeperkte, in het wild verzamelde afbeeldingscollecties blijft een belangrijk maar uitdagend probleem vanwege fotometrische variaties en tijdelijke occluders die een nauwkeurige scène-reconstructie bemoeilijken. Eerdere methoden hebben deze problemen benaderd door per-afbeelding uiterlijkheidskenmerken in te bedden in Neural Radiance Fields (NeRFs). Hoewel 3D Gaussian Splatting (3DGS) snellere training en real-time rendering biedt, is het aanpassen ervan voor onbeperkte afbeeldingscollecties niet triviaal vanwege de aanzienlijk verschillende architectuur. In dit artikel introduceren we Splatfacto-W, een benadering die per-Gaussiaanse neurale kleurkenmerken en per-afbeelding uiterlijkheidsinbeddingen integreert in het rasterisatieproces, samen met een op sferische harmonieën gebaseerd achtergrondmodel om variërende fotometrische uiterlijken te representeren en achtergronden beter weer te geven. Onze belangrijkste bijdragen omvatten latent uiterlijkheidsmodellering, efficiënte verwerking van tijdelijke objecten en precies achtergrondmodellering. Splatfacto-W levert hoogwaardige, real-time synthese van nieuwe aanzichten met verbeterde scèneconsistentie in in het wild scenario's. Onze methode verbetert de Peak Signal-to-Noise Ratio (PSNR) met gemiddeld 5,3 dB vergeleken met 3DGS, verhoogt de trainingssnelheid met 150 keer vergeleken met NeRF-gebaseerde methoden, en bereikt een vergelijkbare renderingssnelheid als 3DGS. Aanvullende videoresultaten en code geïntegreerd in Nerfstudio zijn beschikbaar op https://kevinxu02.github.io/splatfactow/.
Robotisch grijpen in rommelige omgevingen blijft een aanzienlijke uitdaging vanwege occlusies en complexe objectarrangementen. We hebben ThinkGrasp ontwikkeld, een plug-and-play visie-taal grijpsysteem dat gebruikmaakt van GPT-4o's geavanceerde contextuele redeneervaardigheden voor grijpstrategieën in zwaar rommelige omgevingen. ThinkGrasp kan effectief grijpposities identificeren en genereren voor doelobjecten, zelfs wanneer deze zwaar gehinderd of bijna onzichtbaar zijn, door doelgerichte taal te gebruiken om het verwijderen van hinderende objecten te begeleiden. Deze aanpak legt het doelobject geleidelijk bloot en grijpt het uiteindelijk in een paar stappen en met een hoog slagingspercentage. In zowel gesimuleerde als echte experimenten behaalde ThinkGrasp een hoog slagingspercentage en overtrof het significant state-of-the-art methoden in zwaar rommelige omgevingen of met diverse onbekende objecten, wat sterke generalisatiecapaciteiten aantoont.
De Grafische Gebruikersinterface (GUI) is de manier waarop gebruikers interacteren met mobiele apps. Om ervoor te zorgen dat deze correct functioneert, moeten testengineers verifiëren dat deze werkt zoals bedoeld, op basis van testvereisten die doorgaans in natuurlijke taal zijn geschreven. Hoewel veelgebruikte methoden zoals handmatig testen en scriptgebaseerde methoden effectief zijn, vergen ze aanzienlijke inspanning vanwege het grote aantal GUI-pagina's en de snelle iteraties in moderne mobiele apps. Dit artikel introduceert AUITestAgent, het eerste automatische, natuurlijke taal-gestuurde GUI-testtool voor mobiele apps, dat in staat is om het hele proces van GUI-interactie en functieverificatie volledig te automatiseren. Aangezien testvereisten doorgaans interactiecommando's en verificatieorakels bevatten, kan AUITestAgent GUI-interacties uit de testvereisten extraheren via dynamisch georganiseerde agents. Vervolgens gebruikt AUITestAgent een multidimensionale data-extractiestrategie om gegevens die relevant zijn voor de testvereisten uit het interactiespoor te halen en verificatie uit te voeren. Experimenten op aangepaste benchmarks tonen aan dat AUITestAgent bestaande tools overtreft in de kwaliteit van gegenereerde GUI-interacties en een nauwkeurigheid van 94% bereikte bij verificaties. Bovendien heeft een praktijkimplementatie bij Meituan de praktische bruikbaarheid van AUITestAgent aangetoond, waarbij het 4 nieuwe functionele bugs detecteerde tijdens 10 regressietests in twee maanden.
Chatgebaseerde taalmmodellen zijn ontworpen om behulpzaam te zijn, maar ze zouden niet aan elk gebruikersverzoek moeten voldoen. Hoewel het meeste bestaande werk zich vooral richt op het weigeren van "onveilige" verzoeken, stellen wij dat de reikwijdte van niet-naleving verbreed zou moeten worden. We introduceren een uitgebreide taxonomie van contextuele niet-naleving die beschrijft wanneer en hoe modellen niet aan gebruikersverzoeken zouden moeten voldoen. Onze taxonomie omvat een breed scala aan categorieën, waaronder onvolledige, niet-onderbouwde, onbepaalde en humaniserende verzoeken (naast onveilige verzoeken). Om de niet-nalevingscapaciteiten van taalmmodellen te testen, gebruiken we deze taxonomie om een nieuwe evaluatieset van 1000 niet-nalevingsprompts te ontwikkelen. We constateren dat de meeste bestaande modellen aanzienlijk hoge nalevingspercentages vertonen in bepaalde voorheen onderbelichte categorieën, waarbij modellen zoals GPT-4 in maar liefst 30% van de gevallen onterecht aan verzoeken voldoen. Om deze tekortkomingen aan te pakken, onderzoeken we verschillende trainingsstrategieën met behulp van een synthetisch gegenereerde trainingsset van verzoeken en verwachte niet-nalevingsreacties. Onze experimenten tonen aan dat, hoewel direct finetunen van instructie-getrainde modellen kan leiden tot zowel overmatige weigering als een afname van algemene capaciteiten, het gebruik van parameter-efficiënte methoden zoals low-rank adapters helpt om een goede balans te vinden tussen gepaste niet-naleving en andere capaciteiten.
Hoewel LLM's indrukwekkende prestaties hebben laten zien in verschillende domeinen en taken, zijn hun beveiligingsproblemen steeds ernstiger geworden. Machine unlearning (MU) is naar voren gekomen als een veelbelovende oplossing om deze problemen aan te pakken door de invloed van ongewenste data op het doelmodel te verwijderen zonder het nut ervan in andere aspecten aan te tasten. MU gaat er doorgaans van uit dat er volledige toegang is tot de oorspronkelijke trainingsdata om het nut te behouden, wat moeilijk te realiseren is bij LLM unlearning. Bestaande LLM unlearning-methoden gaan er vaak van uit dat er toegang is tot de data die het meest beïnvloed worden door het verwijderen van ongewenste data. Deze aanname onderschat echter de verstrengeling tussen verschillende LLM-capaciteiten en negeert beperkingen in data-toegang vanwege diverse problemen. Bovendien houden deze LLM unlearning-methoden onvoldoende rekening met het feit dat unlearning-verzoeken in real-world scenario's continu opkomen. Om deze uitdagingen te overwinnen en praktisch LLM unlearning te bereiken, stellen we het O3-framework voor. Het O3-framework omvat een Out-Of-Distribution (OOD) detector om de gelijkenis tussen invoer en unlearning-data te meten, en een Orthogonale low-rank adapter (LoRA) voor het continu verwijderen van aangevraagde data. De OOD-detector wordt getraind met een nieuwe contrastieve entropieverliesfunctie en maakt gebruik van een lokaal-globaal laag-geaggregeerd scoringsmechanisme. De orthogonale LoRA bereikt parameterontwarring tussen voortdurende unlearning-verzoeken. Tijdens inferentie kan ons O3-framework slim beslissen of en in hoeverre de unlearning LoRA moet worden geladen op basis van de voorspellingen van de OOD-detector. Opmerkelijk is dat de effectiviteit van O3 niet afhankelijk is van enige bewaarde data. We hebben uitgebreide experimenten uitgevoerd met O3 en state-of-the-art LLM unlearning-methoden over drie taken en zeven datasets. De resultaten geven aan dat O3 consistent de beste balans bereikt tussen unlearning-effectiviteit en nuttigheidsbehoud, vooral bij het omgaan met continue unlearning-verzoeken.
Gebruikmakend van de opmerkelijke vooruitgang in Large Language Models (LLM's), is er een groeiende initiatief om LLM's in te zetten voor instructievolgend robotnavigatie. Deze trend benadrukt het potentieel van LLM's om navigatieredenering en diverse taalbegrip te generaliseren. Echter, wordt een significant verschil in agentprestaties waargenomen bij het integreren van LLM's in Vision-and-Language Navigation (VLN)-taken in vergelijking met eerdere gespecialiseerde downstream-modellen. Bovendien wordt de inherente capaciteit van taal om communicatie in agentinteracties te interpreteren en te faciliteren vaak onderbenut in deze integraties. In dit werk streven we ernaar de kloof te overbruggen tussen VLN-gespecialiseerde modellen en LLM-gebaseerde navigatieparadigma's, terwijl we het interpretatieve vermogen van LLM's behouden in het genereren van linguïstische navigatieredenering. Door visuele inhoud uit te lijnen in een bevroren LLM, omvatten we visuele observatiebegrip voor LLM's en benutten we een manier om LLM's en navigatiebeleidsnetwerken te integreren voor effectieve actievoorspellingen en navigatieredenering. We demonstreren de data-efficiëntie van de voorgestelde methoden en elimineren de kloof tussen LM-gebaseerde agenten en state-of-the-art VLN-specialisten.
Methoden voor Grammatical Error Detection (GED) zijn sterk afhankelijk van door mensen geannoteerde foutencorpora. Deze annotaties zijn echter niet beschikbaar in veel talen met beperkte bronnen. In dit artikel onderzoeken we GED in deze context. Door gebruik te maken van de zero-shot cross-linguale transfermogelijkheden van meertalige vooraf getrainde taalmodelen, trainen we een model met gegevens uit een diverse set van talen om synthetische fouten in andere talen te genereren. Deze synthetische foutencorpora worden vervolgens gebruikt om een GED-model te trainen. Specifiek stellen we een tweestaps fine-tuningpijplijn voor, waarbij het GED-model eerst wordt gefinetuned op meertalige synthetische gegevens uit doeltalen, gevolgd door finetuning op door mensen geannoteerde GED-corpora uit brontalen. Deze aanpak overtreft de huidige state-of-the-art annotatievrije GED-methoden. We analyseren ook de fouten die door onze methode en andere sterke baselines worden geproduceerd, en constateren dat onze aanpak fouten produceert die diverser en meer vergelijkbaar zijn met menselijke fouten.
Videogeneratiemodellen (VGMs) hebben het vermogen aangetoond om hoogwaardige output te synthetiseren. Het is belangrijk om hun potentieel om onveilige inhoud te produceren, zoals gewelddadige of angstaanjagende video's, te begrijpen. In dit werk bieden we een uitgebreid inzicht in onveilige videogeneratie. Eerst, om de mogelijkheid te bevestigen dat deze modellen inderdaad onveilige video's kunnen genereren, selecteren we prompts voor het genereren van onveilige inhoud die zijn verzameld van 4chan en Lexica, en gebruiken we drie open-source SOTA VGMs om onveilige video's te genereren. Na het filteren van duplicaten en slecht gegenereerde inhoud, hebben we een initiële set van 2112 onveilige video's gemaakt uit een oorspronkelijke pool van 5607 video's. Door clustering en thematische codeeranalyse van deze gegenereerde video's identificeren we 5 categorieën van onveilige video's: Vervormd/Raar, Angstaanjagend, Pornografisch, Gewelddadig/Bloedig en Politiek. Met goedkeuring van de IRB hebben we vervolgens online deelnemers geworven om te helpen bij het labelen van de gegenereerde video's. Op basis van de annotaties die zijn ingediend door 403 deelnemers, hebben we 937 onveilige video's geïdentificeerd uit de initiële videoset. Met de gelabelde informatie en de bijbehorende prompts hebben we de eerste dataset van onveilige video's gegenereerd door VGMs gemaakt. Vervolgens bestuderen we mogelijke verdedigingsmechanismen om de generatie van onveilige video's te voorkomen. Bestaande verdedigingsmethoden in beeldgeneratie richten zich op het filteren van de invoerprompt of de uitvoerresultaten. Wij stellen een nieuwe aanpak voor genaamd Latent Variable Defense (LVD), die werkt binnen het interne samplingproces van het model. LVD kan een verdedigingsnauwkeurigheid van 0,90 bereiken terwijl de tijd en rekenbronnen met 10x worden verminderd bij het bemonsteren van een groot aantal onveilige prompts.