Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Moderne Parameter-Efficiënte Fine-Tuning (PEFT) methoden, zoals low-rank adaptation (LoRA), verlagen de kosten voor het aanpassen van grote taalmodellen (LLMs), maar vereisen nog steeds een aparte optimalisatierun voor elke downstream dataset. Wij introduceren Drag-and-Drop LLMs (\textit{DnD)}, een prompt-geconditioneerde parameter generator die per-taak training elimineert door een handvol ongelabelde taakprompts direct te mappen naar LoRA gewichtsaanpassingen. Een lichtgewicht tekst encoder destilleert elke prompt batch naar conditie-embeddings, die vervolgens getransformeerd worden door een gecascadeerde hyper-convolutionele decoder naar de volledige set van LoRA matrices. Eenmaal getraind in een diverse collectie van prompt-checkpoint paren, produceert DnD taakspecifieke parameters in seconden, wat resulteert in i) tot 12.000 keer lagere overhead dan volledige fine-tuning, ii) gemiddelde verbeteringen tot 30\% in prestaties ten opzichte van de sterkste getrainde LoRA's op onbekende common-sense redenering, wiskunde, codering en multimodale benchmarks, en iii) robuuste cross-domein generalisatie ondanks dat de doeldata of labels nooit zijn gezien. Onze resultaten tonen aan dat prompt-geconditioneerde parameter generatie een haalbaar alternatief is voor gradient-gebaseerde aanpassing voor het snel specialiseren van LLMs. Ons project is beschikbaar op https://jerryliang24.github.io/DnD{https://jerryliang24.github.io/DnD}.
Retrieval-Augmented Generation (RAG)-systemen hebben een revolutie teweeggebracht in informatiezoekopdrachten en vraagbeantwoording, maar traditionele tekstgebaseerde chunkingmethoden hebben moeite met complexe documentstructuren, meerbladige tabellen, ingebedde figuren en contextuele afhankelijkheden over paginagrenzen heen. Wij presenteren een nieuwe multimodale documentchunking-aanpak die gebruikmaakt van Large Multimodal Models (LMMs) om PDF-documenten in batches te verwerken, waarbij semantische samenhang en structurele integriteit behouden blijven. Onze methode verwerkt documenten in configureerbare paginabatches met behoud van context over batchgrenzen heen, waardoor nauwkeurige verwerking van tabellen die over meerdere pagina's lopen, ingebedde visuele elementen en procedurele inhoud mogelijk wordt. We evalueren onze aanpak op een samengestelde dataset van PDF-documenten met handmatig vervaardigde queries, waarbij verbeteringen in chunkkwaliteit en downstream RAG-prestaties worden aangetoond. Onze visiegestuurde aanpak behaalt een betere nauwkeurigheid in vergelijking met traditionele vanilla RAG-systemen, met kwalitatieve analyses die een superieure bewaring van documentstructuur en semantische samenhang aantonen.
Bij visuele generatie resulteert de kwadratische complexiteit van aandachtmechanismen in hoge geheugen- en rekenkosten, vooral voor langere tokenreeksen die nodig zijn bij het genereren van hoge-resolutiebeelden of meerdere frames van video. Om dit aan te pakken, heeft eerder onderzoek technieken zoals verspreiding en kwantisering verkend. Deze technieken worden echter geconfronteerd met aanzienlijke uitdagingen bij lage dichtheid en gereduceerde bitbreedtes. Door systematische analyse identificeren we dat de kernmoeilijkheid voortkomt uit de verspreide en onregelmatige kenmerken van visuele aandachtspatronen. Daarom stellen we, in plaats van gespecialiseerde verspreidings- en kwantiseringsontwerpen te introduceren om dergelijke patronen te accommoderen, een alternatieve strategie voor: het *herorganiseren* van het aandachtspatroon om de uitdagingen te verlichten. Geïnspireerd door de lokale aggregatie van visuele kenmerkenextractie, ontwerpen we een nieuwe **Pattern-Aware token ReOrdering (PARO)**-techniek, die de diverse aandachtspatronen verenigt in een hardwarevriendelijk bloksgewijs patroon. Deze vereniging vereenvoudigt en verbetert zowel verspreiding als kwantisering aanzienlijk. We evalueren de prestatie-efficiëntie-afwegingen van verschillende ontwerpkeuzes en finaliseren een methodologie die is afgestemd op het verenigde patroon. Onze aanpak, **PAROAttention**, bereikt videogeneratie en beeldgeneratie met verliesloze metrieken en bijna identieke resultaten ten opzichte van full-precision (FP) basislijnen, terwijl deze werkt met aanzienlijk lagere dichtheid (~20%-30%) en bitbreedte (**INT8/INT4**), wat resulteert in een **1,9x** tot **2,7x** end-to-end latentieversnelling.
Recente vooruitgang in diffusiegebaseerde en controleerbare videogeneratie heeft hoogwaardige en temporeel coherente videosynthese mogelijk gemaakt, wat de basis legt voor meeslepende interactieve gamingervaringen. Huidige methoden kampen echter met beperkingen op het gebied van dynamiek, algemeenheid, langetermijnconsistentie en efficiëntie, wat het vermogen om diverse gameplayvideo's te creëren beperkt. Om deze tekortkomingen aan te pakken, introduceren we Hunyuan-GameCraft, een nieuw raamwerk voor hoogdynamische interactieve videogeneratie in gameomgevingen. Om fijnmazige actiecontrole te bereiken, verenigen we standaard toetsenbord- en muisinvoer in een gedeelde camerarepresentatieruimte, wat soepele interpolatie tussen verschillende camera- en bewegingsoperaties mogelijk maakt. Vervolgens stellen we een hybride geschiedenis-geconditioneerde trainingsstrategie voor die videosequenties autoregressief uitbreidt terwijl game-scène-informatie behouden blijft. Daarnaast bereiken we modeldistillatie om de rekenefficiëntie en speelbaarheid te verbeteren, waarbij de consistentie over lange temporele sequenties behouden blijft, wat het geschikt maakt voor realtime-implementatie in complexe interactieve omgevingen. Het model wordt getraind op een grootschalige dataset bestaande uit meer dan een miljoen gameplayopnames van meer dan 100 AAA-games, wat een brede dekking en diversiteit garandeert, en vervolgens afgestemd op een zorgvuldig geannoteerde synthetische dataset om precisie en controle te verbeteren. De gecureerde game-scènedata verbetert de visuele kwaliteit, realisme en actiecontroleerbaarheid aanzienlijk. Uitgebreide experimenten tonen aan dat Hunyuan-GameCraft bestaande modellen significant overtreft, waardoor het realisme en de speelbaarheid van interactieve gamevideogeneratie worden bevorderd.
Het coördineren van meerdere belichaamde agents in dynamische omgevingen blijft een kernuitdaging in kunstmatige intelligentie, waarvoor zowel perceptiegestuurd redeneren als schaalbare samenwerkingsstrategieën nodig zijn. Hoewel recente werken grote taalmodellen (LLMs) hebben ingezet voor multi-agent planning, zijn er slechts enkele begonnen met het verkennen van visie-taalmodellen (VLMs) voor visueel redeneren. Deze op VLM gebaseerde benaderingen blijven echter beperkt in hun ondersteuning voor diverse belichaamingsvormen. In dit werk introduceren we VIKI-Bench, de eerste hiërarchische benchmark specifiek ontworpen voor belichaamde multi-agent samenwerking, met drie gestructureerde niveaus: agentactivering, taakplanning en trajectperceptie. VIKI-Bench omvat diverse robotbelichamingen, multi-view visuele observaties en gestructureerde begeleidingssignalen om redeneren gebaseerd op visuele input te evalueren. Om het nut van VIKI-Bench aan te tonen, stellen we VIKI-R voor, een tweestaps raamwerk dat een voorgetraind visie-taalmodel (VLM) fine-tunt met behulp van Chain-of-Thought geannoteerde demonstraties, gevolgd door reinforcement learning onder multi-level beloningssignalen. Onze uitgebreide experimenten tonen aan dat VIKI-R de baseline-methoden significant overtreft op alle taakniveaus. Bovendien laten we zien dat reinforcement learning het ontstaan van compositionele samenwerkingspatronen tussen heterogene agents mogelijk maakt. Samen bieden VIKI-Bench en VIKI-R een uniforme testomgeving en methode voor het bevorderen van multi-agent, visueel-gestuurde samenwerking in belichaamde AI-systemen.
Vision-language models (VLMs) blinken uit in multimodale begrip, maar hun tekstgerichte decodering dwingt hen om visuele redenering te verbaliseren, wat de prestaties beperkt bij taken die visuele verbeelding vereisen. Recente pogingen trainen VLMs om expliciete afbeeldingen te genereren, maar de intensieve voorafgaande training voor beeldgeneratie belemmert vaak het redeneervermogen. Geïnspireerd door de manier waarop mensen redeneren met mentale beelden – de interne constructie en manipulatie van visuele aanwijzingen – onderzoeken we of VLMs kunnen redeneren via interleaved multimodale trajecten zonder expliciete afbeeldingen te produceren. Hiertoe presenteren we een Machine Mental Imagery-framework, genaamd Mirage, dat VLM-decodering verrijkt met latente visuele tokens naast gewone tekst. Concreet, wanneer het model ervoor kiest om "visueel te denken", hervormt het zijn verborgen toestanden als volgende tokens, waardoor een multimodaal traject wordt voortgezet zonder pixel-niveau afbeeldingen te genereren. We beginnen met het begeleiden van de latente tokens via distillatie van grondwaarheid-beeldembeddings, waarna we overschakelen naar tekstgerichte begeleiding om het latente traject nauw te laten aansluiten bij het taakdoel. Een daaropvolgende fase van reinforcement learning versterkt verder het multimodale redeneervermogen. Experimenten op diverse benchmarks tonen aan dat Mirage sterker multimodaal redeneren mogelijk maakt zonder expliciete beeldgeneratie.
In dit rapport presenteren we Hunyuan3D 2.5, een krachtige suite van 3D-diffusiemodellen die gericht is op het genereren van hoogwaardige en gedetailleerde getextureerde 3D-assets. Hunyuan3D 2.5 volgt de tweestaps-pipeline van zijn voorganger Hunyuan3D 2.0, maar laat aanzienlijke verbeteringen zien in zowel vorm- als textuurgeneratie. Wat betreft vormgeneratie introduceren we een nieuw vormfundamentmodel – LATTICE, dat is getraind met geschaalde hoogwaardige datasets, modelgrootte en rekenkracht. Ons grootste model bereikt 10 miljard parameters en genereert scherpe en gedetailleerde 3D-vormen met nauwkeurige beeld-3D-volging, terwijl het mesh-oppervlak schoon en glad blijft, waardoor de kloof tussen gegenereerde en handgemaakte 3D-vormen aanzienlijk wordt verkleind. Wat betreft textuurgeneratie is het geüpgraded met fysiek gebaseerde rendering (PBR) via een nieuwe multi-view-architectuur die is uitgebreid vanuit het Hunyuan3D 2.0 Paint-model. Onze uitgebreide evaluatie toont aan dat Hunyuan3D 2.5 aanzienlijk beter presteert dan eerdere methoden in zowel vorm- als end-to-end textuurgeneratie.
State-of-the-art tekst-naar-spraak (TTS) systemen bereiken een hoge mate van natuurlijkheid in eentalige omgevingen, maar het synthetiseren van spraak met correcte meertalige accenten (met name voor Indiase talen) en contextueel relevante emoties blijft een uitdaging vanwege culturele nuanceverschillen in huidige frameworks. Dit artikel introduceert een nieuwe TTS-architectuur die accent integreert en tegelijkertijd transliteratie behoudt met multi-schaal emotiemodellering, specifiek afgestemd op Hindi en het Indiase Engels accent. Onze aanpak breidt het Parler-TTS model uit door een taal-specifieke foneemalignering hybride encoder-decoder architectuur te integreren, en cultuurgevoelige emotie-embeddinglagen die getraind zijn op native speaker corpora, evenals het incorporeren van dynamische accent code switching met residuale vectorkwantisatie. Kwantitatieve tests tonen een verbetering van 23,7% in accentnauwkeurigheid (woordfoutpercentage reductie van 15,4% naar 11,8%) en 85,3% emotieherkenningsnauwkeurigheid door native luisteraars, wat de METTS en VECL-TTS benchmarks overtreft. De nieuwigheid van het systeem is dat het code in realtime kan mixen - uitspraken zoals "Namaste, let's talk about <Hindi zin>" kan genereren met ononderbroken accentverschuivingen terwijl emotionele consistentie behouden blijft. Subjectieve evaluatie met 200 gebruikers rapporteerde een gemiddelde opiniescore (MOS) van 4,2/5 voor culturele correctheid, aanzienlijk beter dan bestaande meertalige systemen (p<0,01). Dit onderzoek maakt cross-linguale synthese haalbaarder door schaalbare accent-emotie-ontwarring te demonstreren, met directe toepassing in Zuid-Aziatische EdTech en toegankelijkheidssoftware.
3D-panoramasynthese is een veelbelovende maar uitdagende taak die een hoogwaardige en diverse visuele uitstraling en geometrie vereist van het gegenereerde omnidirectionele beeld. Bestaande methoden maken gebruik van rijke beeldprioriteiten van vooraf getrainde 2D-basismodellen om het gebrek aan 3D-panoramadata te omzeilen, maar de onverenigbaarheid tussen 3D-panorama's en 2D-enkelbeelden beperkt hun effectiviteit. In dit werk tonen we aan dat door multi-plane synchronisatie toe te passen op de operatoren van 2D-basismodellen, hun mogelijkheden naadloos kunnen worden uitgebreid naar het omnidirectionele domein. Op basis van dit ontwerp introduceren we verder DreamCube, een multi-plane RGB-D diffusiemodel voor 3D-panoramageneratie, dat het hergebruik van 2D-basismodelprioriteiten maximaliseert om diverse uitstralingen en nauwkeurige geometrie te bereiken, terwijl multi-view consistentie wordt behouden. Uitgebreide experimenten demonstreren de effectiviteit van onze aanpak in panoramabeeldgeneratie, panoramadiepteschatting en 3D-scenegeneratie.
Moderne multimodale grote taalmodellen (MLLMs) kunnen redeneren over video's van een uur lang, maar hun key-value (KV) cache groeit lineair met de tijd en overschrijdt snel het vaste geheugen van telefoons, AR-brillen en edge-robots. Bestaande compressieschema's gaan ervan uit dat de hele video en gebruikersquery offline beschikbaar zijn of moeten eerst de volledige cache opbouwen, waardoor het geheugen nog steeds schaalt met de lengte van de stream. InfiniPot-V is het eerste trainingsvrije, query-agnostische framework dat een harde, lengte-onafhankelijke geheugenlimiet afdwingt voor het begrijpen van streaming video. Tijdens het coderen van de video houdt het de cache in de gaten en, zodra een door de gebruiker ingestelde drempel is bereikt, voert het een lichtgewicht compressie uit die (i) tijdelijk redundante tokens verwijdert via de Temporal-axis Redundancy (TaR) metriek en (ii) semantisch significante tokens behoudt via Value-Norm (VaN) rangschikking. Over vier open-source MLLMs en vier lange-video en twee streaming-video benchmarks, reduceert InfiniPot-V het piek-GPU-geheugen met tot wel 94%, behoudt real-time generatie en evenaart of overtreft de nauwkeurigheid van de volledige cache—zelfs in meerronde dialogen. Door de KV-cache-knelpunt op te lossen zonder hertraining of kennis van de query, sluit InfiniPot-V de kloof voor on-device streaming video-assistenten.
3D AI-gegenereerde inhoud (AIGC) is een dynamisch vakgebied dat de creatie van 3D-modellen in gaming, film en design aanzienlijk heeft versneld. Ondanks de ontwikkeling van verschillende baanbrekende modellen die de 3D-generatie hebben gerevolutioneerd, blijft het veld grotendeels toegankelijk voor onderzoekers, ontwikkelaars en ontwerpers vanwege de complexiteit die komt kijken bij het verzamelen, verwerken en trainen van 3D-modellen. Om deze uitdagingen aan te pakken, introduceren we Hunyuan3D 2.1 als een casestudy in deze tutorial. Deze tutorial biedt een uitgebreide, stapsgewijze handleiding over het verwerken van 3D-data, het trainen van een generatief 3D-model en het evalueren van de prestaties met behulp van Hunyuan3D 2.1, een geavanceerd systeem voor het produceren van hoogwaardige, getextureerde 3D-assets. Het systeem bestaat uit twee kerncomponenten: de Hunyuan3D-DiT voor vormgeneratie en de Hunyuan3D-Paint voor texturesynthese. We zullen de volledige workflow verkennen, inclusief data-preparatie, modelarchitectuur, trainingsstrategieën, evaluatiemetrics en implementatie. Aan het einde van deze tutorial beschik je over de kennis om een robuust generatief 3D-model te finetunen of te ontwikkelen dat geschikt is voor toepassingen in gaming, virtual reality en industrieel ontwerp.
Unified beeldbegrip en -generatie is naar voren gekomen als een veelbelovend paradigma in multimodale kunstmatige intelligentie. Ondanks recente vooruitgang blijft het optimale architectonische ontwerp voor dergelijke unified modellen een open uitdaging. In dit werk beginnen we met het analyseren van de modaliteitsuitlijning van taakspecifieke expertmodellen voor begrip en generatie, evenals van huidige unified modellen. Onze analyse onthult een cruciaal inzicht: begriptaken profiteren van een progressief toenemende modaliteitsuitlijning over de diepte van het netwerk, wat helpt bij het opbouwen van semantische informatie voor beter begrip; daarentegen volgen generatietaken een ander patroon: modaliteitsuitlijning neemt toe in de vroege lagen maar neemt af in de diepere lagen om ruimtelijke details te herstellen. Deze uiteenlopende uitlijningpatronen creëren een fundamenteel conflict in volledig gedeelde Transformer-backbones, waar een uniforme representatiestroom vaak leidt tot prestatiecompromissen over beide taken. Gemotiveerd door deze bevinding introduceren we UniFork, een nieuwe Y-vormige architectuur die de ondiepe lagen deelt voor kruistaakrepresentatieleer, terwijl taakspecifieke takken in diepere lagen worden gebruikt om taakinterferentie te voorkomen. Dit ontwerp balanceert effectief gedeeld leren en taakspecialisatie. Door uitgebreide ablatie-experimenten tonen we aan dat UniFork consequent beter presteert dan conventionele volledig gedeelde Transformer-architecturen, en prestaties bereikt die vergelijkbaar zijn met of beter dan taakspecifieke modellen.
Een belofte die Vision-Language-Action (VLA)-modellen hebben ten opzichte van traditioneel imitatieleren voor robotica, is het benutten van de brede generalisatiecapaciteiten van grote Vision-Language Models (VLMs) om veelzijdige, "generalistische" robotbeleidsregels te produceren. Echter, de huidige evaluaties van VLA's blijven ontoereikend. Traditionele benchmarks voor imitatieleren zijn ongeschikt vanwege het ontbreken van taal instructies. Opkomende benchmarks voor VLA's die taal integreren, hebben vaak beperkte evaluatietaken en zijn niet bedoeld om te onderzoeken hoeveel VLM-voorafgaande training daadwerkelijk bijdraagt aan de generalisatiecapaciteiten van het downstream robotbeleid. Tegelijkertijd vertrouwt veel onderzoek op real-world robotopstellingen die in isolatie zijn ontworpen door verschillende instellingen, wat een barrière vormt voor reproduceerbaarheid en toegankelijkheid. Om dit gat te dichten, introduceren we een uniforme testsuite van 50 simulatiegebaseerde taken verdeeld over 10 subcategorieën die taal instructie, visie en objecten omvatten. We evalueren systematisch verschillende state-of-the-art VLA-architecturen op deze suite om hun generalisatievermogen te begrijpen. Onze resultaten laten zien dat hoewel VLM-backbones VLA's voorzien van robuust perceptueel begrip en hoog niveau planning, wat we goede intenties noemen, dit niet betrouwbaar vertaalt naar precieze motorische uitvoering: wanneer ze worden geconfronteerd met out-of-distribution observaties, vertonen beleidsregels vaak coherente intenties, maar falen in actie-uitvoering. Bovendien kan finetunen op actiegegevens de oorspronkelijke generalistische redeneervaardigheden van de VLM aantasten. We geven onze tasksuite en evaluatiecode vrij om te dienen als een gestandaardiseerde benchmark voor toekomstige VLA's en om onderzoek te stimuleren naar het dichten van de kloof tussen perceptie en actie. Meer informatie, inclusief de broncode, is te vinden op https://ai4ce.github.io/INT-ACT/.
Een ideale verkeerssimulator bootst de realistische langeafstandsrit van punt naar punt na die een zelfrijdend systeem ervaart tijdens de inzet. Eerdere modellen en benchmarks richten zich op gesloten-lusbewegingssimulatie voor initiële agents in een scène. Dit is problematisch voor langetermijnsimulatie. Agents komen de scène binnen en verlaten deze terwijl het ego-voertuig nieuwe regio's betreedt. Wij stellen InfGen voor, een uniform next-token-voorspellingsmodel dat afwisselend gesloten-lusbewegingssimulatie en scènegeneratie uitvoert. InfGen schakelt automatisch tussen gesloten-lusbewegingssimulatie en scènegeneratiemodus. Het maakt stabiele langetermijnrolloutsimulatie mogelijk. InfGen presteert op het hoogste niveau in kortetermijnverkeerssimulatie (9s) en overtreft alle andere methoden aanzienlijk in langetermijnsimulatie (30s). De code en het model van InfGen zullen worden vrijgegeven op https://orangesodahub.github.io/InfGen.
Het combineren van vooraf getrainde expertmodellen biedt aanzienlijk potentieel voor schaalbare multimodale redenering, maar het bouwen van een uniform raamwerk blijft uitdagend vanwege de toenemende diversiteit aan invoermodaliteiten en taakcomplexiteit. Zo vereist medische diagnose nauwkeurige redenering over gestructureerde klinische tabellen, terwijl financiële prognoses afhankelijk zijn van het interpreteren van plotgebaseerde gegevens om weloverwogen voorspellingen te doen. Om deze uitdaging aan te pakken, introduceren we MEXA, een trainingsvrij raamwerk dat modaliteits- en taakbewuste aggregatie van meerdere expertmodellen uitvoert om effectieve multimodale redenering over diverse en verschillende domeinen mogelijk te maken. MEXA selecteert dynamisch expertmodellen op basis van de invoermodaliteit en de taakspecifieke redeneringseisen (d.w.z. vaardigheden). Elk expertmodel, gespecialiseerd in een modaliteit-taakpaar, genereert interpreteerbare tekstuele redeneringsuitvoer. MEXA aggregeert en redeneert vervolgens over deze uitvoer met behulp van een Large Reasoning Model (LRM) om het uiteindelijke antwoord te produceren. Dit modulaire ontwerp maakt flexibele en transparante multimodale redenering over diverse domeinen mogelijk zonder extra trainingsoverhead. We evalueren onze aanpak uitgebreid op diverse multimodale benchmarks, waaronder Video Reasoning, Audio Reasoning, 3D Understanding en Medical QA. MEXA levert consistent prestatieverbeteringen op ten opzichte van sterke multimodale basislijnen, wat de effectiviteit en brede toepasbaarheid van onze expertgedreven selectie en aggregatie in diverse multimodale redeneertaken benadrukt.
Het genereren van onbevooroordeelde samenvattingen in realistische situaties, zoals het samenvatten van politieke perspectieven, blijft een cruciale toepassing van Large Language Models (LLMs). Toch baseren bestaande evaluatiekaders zich op traditionele metrieken voor het meten van belangrijke kenmerken zoals dekking en betrouwbaarheid, zonder de toepasbaarheid ervan te verifiëren, en inspanningen om verbeterde samenvattingsmethoden te ontwikkelen zijn nog in een vroeg stadium. Wij pakken deze tekortkomingen aan door (1) betrouwbare metrieken te identificeren voor het meten van de kwaliteit van perspectiefsamenvattingen, en (2) de effectiviteit van LLM-gebaseerde methoden te onderzoeken die verder gaan dan zero-shot inferentie. Concreet bouwen we een testset voor het benchmarken van de betrouwbaarheid van metrieken met behulp van menselijke annotaties en laten we zien dat traditionele metrieken onderpresteren in vergelijking met taalmodel-gebaseerde metrieken, die zich bewezen als sterke evaluatoren. Met behulp van deze metrieken tonen we aan dat herrangschikkingsmethoden sterke resultaten opleveren, en dat voorkeursafstemming met synthetisch gegenereerde en herrangschikkingsgelabelde gegevens de prestaties verder verbetert. Onze bevindingen beogen bij te dragen aan de betrouwbare evaluatie en ontwikkeling van methoden voor perspectiefsamenvatting.
Het watermerken van de uitvoer van generatieve modellen is naar voren gekomen als een veelbelovende benadering om hun herkomst te volgen. Ondanks de aanzienlijke interesse in autoregressieve beeldgeneratiemodellen en hun potentieel voor misbruik, heeft geen eerder werk geprobeerd hun uitvoer op tokenniveau te watermerken. In dit werk presenteren we de eerste dergelijke benadering door technieken voor het watermerken van taalmodelen aan te passen aan deze context. We identificeren een belangrijke uitdaging: het ontbreken van omgekeerde cyclusconsistentie (RCC), waarbij het opnieuw tokeniseren van gegenereerde beeldtokens de tokensequentie aanzienlijk verandert, waardoor het watermerk effectief wordt gewist. Om dit aan te pakken en om onze methode robuust te maken tegen veelvoorkomende beeldtransformaties, neurale compressie en verwijderingsaanvallen, introduceren we (i) een aangepaste fine-tuningprocedure voor tokenizer-detokenizer die de RCC verbetert, en (ii) een complementaire watermerksynchronisatielaag. Zoals onze experimenten aantonen, maakt onze benadering betrouwbare en robuuste watermerkdetectie mogelijk met theoretisch onderbouwde p-waarden.
Taalmodelinversie streeft ernaar verborgen prompts te herstellen met alleen de uitvoer van een taalmodel. Deze mogelijkheid heeft implicaties voor beveiliging en verantwoording bij de inzet van taalmodellen, zoals het lekken van privé-informatie uit een systeemboodschap van een API-beveiligd taalmodel. Wij stellen een nieuwe methode voor — promptinversie uit logprob-reeksen (PILS) — die verborgen prompts herstelt door aanwijzingen te verzamelen uit de volgende-token-kansen van het model gedurende meerdere generatiestappen. Onze methode wordt mogelijk gemaakt door een belangrijk inzicht: de vectorwaardige uitvoer van een taalmodel bevindt zich in een laagdimensionale deelruimte. Hierdoor kunnen we de volledige volgende-token-kansverdeling over meerdere generatiestappen verliesvrij comprimeren met behulp van een lineaire afbeelding, waardoor meer uitvoerinformatie kan worden gebruikt voor inversie. Onze aanpak levert enorme verbeteringen op ten opzichte van eerdere state-of-the-art methoden voor het herstellen van verborgen prompts, met 2–3,5 keer hogere exacte herstelpercentages over testverzamelingen, waarbij in één geval het herstelpercentage stijgt van 17% naar 60%. Onze methode vertoont ook verrassend goed generalisatiegedrag; bijvoorbeeld, een inverter getraind op 16 generatiestappen behaalt 5–27 punten hogere promptherstelpercentages wanneer we het aantal stappen tijdens de test verhogen naar 32. Bovendien demonstreren we sterke prestaties van onze methode bij de uitdagendere taak van het herstellen van verborgen systeemboodschappen. We analyseren ook de rol van letterlijke herhaling bij promptherstel en stellen een nieuwe methode voor voor cross-family modeltransfer voor logit-gebaseerde inverters. Onze bevindingen tonen aan dat volgende-token-kansen een aanzienlijk kwetsbaarder aanvalsoppervlak vormen voor inversieaanvallen dan eerder bekend was.