Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Detectie van Kunstmatige Tekst (ATD) wordt steeds belangrijker met de opkomst van geavanceerde Large Language Models (LLMs). Ondanks talrijke inspanningen presteert geen enkel algoritme consistent goed over verschillende soorten ongeziene tekst of garandeert het effectieve generalisatie naar nieuwe LLMs. Interpretabiliteit speelt een cruciale rol bij het bereiken van dit doel. In deze studie verbeteren we de interpretabiliteit van ATD door gebruik te maken van Sparse Autoencoders (SAE) om kenmerken te extraheren uit de reststroom van Gemma-2-2b. We identificeren zowel interpreteerbare als efficiënte kenmerken en analyseren hun semantiek en relevantie door middel van domein- en modelspecifieke statistieken, een stuurmethode, en handmatige of LLM-gebaseerde interpretatie. Onze methoden bieden waardevolle inzichten in hoe teksten van verschillende modellen verschillen van door mensen geschreven inhoud. We laten zien dat moderne LLMs een onderscheidende schrijfstijl hebben, vooral in informatie-dichte domeinen, ook al kunnen ze mensachtige uitvoer produceren met gepersonaliseerde prompts.
Grote Taalmodellen hebben opmerkelijke successen behaald bij diverse natuurlijke taalverwerkingstaken, maar hun hoge rekenkosten tijdens inferentie blijven een groot knelpunt. Dit artikel introduceert Sparse Expert Activation Pruning (SEAP), een trainingsvrije pruningmethode die selectief taakrelevante parameters behoudt om de inferentie-overhead te verminderen. Geïnspireerd door de clusteringpatronen van verborgen toestanden en activeringen in LLM's, identificeert SEAP taakspecifieke expertactivatiepatronen en snoeit het model terwijl de taakprestaties behouden blijven en de rekenkundige efficiëntie wordt verbeterd. Experimentele resultaten tonen aan dat SEAP de rekenkundige overhead aanzienlijk vermindert terwijl het concurrerende nauwkeurigheid behoudt. Opmerkelijk is dat SEAP bij 50% pruning zowel WandA als FLAP met meer dan 20% overtreft, en bij 20% pruning slechts een prestatieverlies van 2,2% heeft in vergelijking met het dichte model. Deze bevindingen benadrukken de schaalbaarheid en effectiviteit van SEAP, wat het een veelbelovende aanpak maakt voor het optimaliseren van grootschalige LLM's.
We presenteren MM-Eureka, een multimodaal redeneermodel dat grootschalige, op regels gebaseerde reinforcement learning (RL) succesvol uitbreidt naar multimodaal redeneren. Hoewel op regels gebaseerde RL opmerkelijke successen heeft geboekt in het verbeteren van de redeneervaardigheden van LLM's in tekstuele domeinen, is de toepassing ervan in multimodale settings uitdagend gebleven. Ons werk reproduceert belangrijke kenmerken van op tekst gebaseerde RL-systemen zoals DeepSeek-R1 in de multimodale ruimte, waaronder gestage toename in nauwkeurigheidsbeloning en responslengte, en het ontstaan van reflectiegedrag. We tonen aan dat zowel instructie-getrainde als vooraf getrainde modellen sterke multimodale redeneervaardigheden kunnen ontwikkelen via op regels gebaseerde RL zonder begeleide fine-tuning, en daarbij superieure data-efficiëntie tonen in vergelijking met alternatieve benaderingen. We maken onze volledige pipeline open source om verder onderzoek op dit gebied te stimuleren. We geven al onze codes, modellen, data, etc. vrij op https://github.com/ModalMinds/MM-EUREKA.
Diffusion Transformer heeft een krachtige capaciteit en schaalbaarheid getoond bij het genereren van hoogwaardige afbeeldingen en video's. Het verder nastreven van de unificatie van generatie- en bewerkingstaken heeft aanzienlijke vooruitgang geboekt in het domein van beeldinhoudcreatie. Vanwege de inherente eisen voor consistentie in zowel temporele als ruimtelijke dynamiek blijft het echter een uitdaging om een uniforme aanpak voor videosynthese te bereiken. Wij introduceren VACE, waarmee gebruikers videotaken kunnen uitvoeren binnen een alles-in-één framework voor creatie en bewerking. Deze taken omvatten referentie-naar-video generatie, video-naar-video bewerking, en gemaskeerde video-naar-video bewerking. Specifiek integreren we de vereisten van verschillende taken effectief door video-taakinvoeren, zoals bewerking, referentie en maskering, te organiseren in een uniforme interface die de Video Condition Unit (VCU) wordt genoemd. Bovendien gebruiken we een Context Adapter-structuur om verschillende taakconcepten in het model te injecteren met behulp van geformaliseerde representaties van temporele en ruimtelijke dimensies, waardoor het flexibel willekeurige videosynthesetaken kan verwerken. Uitgebreide experimenten tonen aan dat het uniforme model van VACE prestaties bereikt die vergelijkbaar zijn met taakspecifieke modellen over verschillende subtaken. Tegelijkertijd maakt het diverse toepassingen mogelijk door middel van veelzijdige taakcombinaties. Projectpagina: https://ali-vilab.github.io/VACE-Page/.
Bestaande frameworks voor het genereren van lange video's ontberen automatische planning, waardoor handmatige invoer nodig is voor verhaallijnen, scènes, cinematografie en karakterinteracties, wat resulteert in hoge kosten en inefficiënties. Om deze uitdagingen aan te pakken, presenteren we MovieAgent, een automatisch filmgeneratiesysteem via multi-agent Chain of Thought (CoT) planning. MovieAgent biedt twee belangrijke voordelen: 1) We verkennen en definiëren als eerste het paradigma van automatische film/lange-video-generatie. Gegeven een script en een karakterbank, kan onze MovieAgent meer-scène, meer-shot lange video's genereren met een samenhangend verhaal, terwijl karakterconsistentie, gesynchroniseerde ondertiteling en stabiele audio gedurende de film worden gewaarborgd. 2) MovieAgent introduceert een hiërarchisch CoT-gebaseerd redeneerproces om scènes, camerainstellingen en cinematografie automatisch te structureren, waardoor de menselijke inspanning aanzienlijk wordt verminderd. Door meerdere LLM-agenten in te zetten om de rollen van een regisseur, scenarioschrijver, storyboardkunstenaar en locatiemanager te simuleren, stroomlijnt MovieAgent het productieproces. Experimenten tonen aan dat MovieAgent nieuwe state-of-the-art resultaten behaalt op het gebied van scriptgetrouwheid, karakterconsistentie en verhaalcoherentie. Ons hiërarchische framework zet een stap voorwaarts en biedt nieuwe inzichten in volledig geautomatiseerde filmgeneratie. De code en projectwebsite zijn beschikbaar op: https://github.com/showlab/MovieAgent en https://weijiawu.github.io/MovieAgent.
Multimodale grote taalmodellen (MLLMs), gebouwd op grootschalige vooraf getrainde visuele torens en taalmodellen, hebben grote mogelijkheden getoond in multimodale begripsvorming. De meeste bestaande MLLMs zijn echter getraind op enkelvoudige visuele vraag-antwoordtaken, wat niet nauwkeurig de realistische menselijke gesprekken weerspiegelt. In dit artikel introduceren we MMDiag, een multi-turn multimodaal dialoogdataset. Deze dataset is gezamenlijk gegenereerd via zorgvuldig ontworpen regels en GPT-assistentie, met sterke correlaties tussen vragen, tussen vragen en afbeeldingen, en tussen verschillende beeldregio's; waardoor deze beter aansluit bij realistische scenario's. MMDiag dient als een sterke benchmark voor multi-turn multimodale dialoogleerprocessen en brengt meer uitdagingen voor de grondings- en redeneervaardigheden van MLLMs. Verder presenteren we, geïnspireerd door menselijke visuele verwerking, DiagNote, een MLLM uitgerust met multimodale grondings- en redeneervaardigheden. DiagNote bestaat uit twee modules (Deliberate en Gaze) die met elkaar interageren om respectievelijk Chain-of-Thought en annotaties uit te voeren gedurende multi-turn dialogen. We tonen empirisch de voordelen van DiagNote aan in zowel gronding als het gezamenlijk verwerken en redeneren met visuele en taalgegevens ten opzichte van bestaande MLLMs.
Federated Learning (FL) is een veelgebruikt raamwerk voor het trainen van modellen op een gedecentraliseerde manier, waarbij wordt gewaarborgd dat de centrale server geen directe toegang heeft tot gegevens van lokale clients. Deze aanpak kan echter nog steeds tekortschieten in het volledig waarborgen van gegevensprivacy, omdat modellen van lokale clients worden blootgesteld aan de centrale server tijdens het aggregatieproces. Dit probleem wordt nog kritischer bij het trainen van vision-language modellen (VLMs) met FL, aangezien VLMs gemakkelijk trainingsgegevens kunnen onthouden, waardoor ze kwetsbaar zijn voor membership inference attacks (MIAs). Om deze uitdaging aan te pakken, stellen we het FedRand-raamwerk voor, waarbij de volledige set clientparameters niet wordt vrijgegeven. In dit raamwerk selecteert elke client willekeurig subparameters van Low-Rank Adaptation (LoRA) van de server en houdt de overige LoRA-gewichten als privéparameters. Na het trainen van beide parameters op de privédataset van de client, worden alleen de niet-privé clientparameters teruggestuurd naar de server voor aggregatie. Deze aanpak vermindert het risico van blootstelling van client-side VLM-parameters, waardoor de gegevensprivacy wordt verbeterd. We valideren empirisch dat FedRand de robuustheid tegen MIAs verbetert in vergelijking met relevante baseline-methoden, terwijl het een nauwkeurigheid bereikt die vergelijkbaar is met methoden die volledige LoRA-parameters communiceren over verschillende benchmarkdatasets.
Ondanks het succes van distillatie in grote taalmodellen (LLM's), passen de meeste eerdere onderzoeken identieke verliesfuncties toe op zowel door de leraar als door de leerling gegenereerde data. Deze strategieën negeren de synergie tussen verliesformuleringen en datatypes, wat leidt tot een suboptimale prestatieverbetering in leerlingmodellen. Om dit aan te pakken, stellen we DistiLLM-2 voor, een contrastieve benadering die tegelijkertijd de waarschijnlijkheid van lerarenreacties verhoogt en die van leerlingreacties verlaagt door gebruik te maken van deze synergie. Onze uitgebreide experimenten tonen aan dat DistiLLM-2 niet alleen hoogpresterende leerlingmodellen bouwt voor een breed scala aan taken, waaronder instructievolgen en codegeneratie, maar ook diverse toepassingen ondersteunt, zoals voorkeursuitlijning en visie-taal-extensies. Deze bevindingen benadrukken het potentieel van een contrastieve benadering om de effectiviteit van LLM-distillatie te vergroten door leraren- en leerlingmodellen effectief uit te lijnen over verschillende datatypes.
DeepSeek-R1-Zero heeft met succes het ontstaan van redeneervaardigheden in LLMs (Large Language Models) puur door middel van Reinforcement Learning (RL) aangetoond. Geïnspireerd door deze doorbraak onderzoeken we hoe RL kan worden ingezet om de redeneervaardigheid van MLLMs (Multimodal Large Language Models) te verbeteren. Directe training met RL heeft echter moeite om complexe redeneervaardigheden zoals vragen stellen en reflectie in MLLMs te activeren, vanwege het ontbreken van substantiële hoogwaardige multimodale redeneergegevens. Om dit probleem aan te pakken, stellen we de redeneer-MLLM, Vision-R1, voor om de multimodale redeneervaardigheid te verbeteren. Specifiek construeren we eerst een hoogwaardige multimodale CoT-dataset (Chain-of-Thought) zonder menselijke annotaties door gebruik te maken van een bestaande MLLM en DeepSeek-R1 via modale overbrugging en datafiltering, wat resulteert in een 200K multimodale CoT-dataset, de Vision-R1-cold dataset. Deze dient als koude-start-initialisatiedata voor Vision-R1. Om de optimalisatieproblemen veroorzaakt door overdenken na de koude start te verminderen, stellen we de Progressive Thinking Suppression Training (PTST)-strategie voor en gebruiken we Group Relative Policy Optimization (GRPO) met de hard formatting result reward function om het vermogen van het model om correcte en complexe redeneerprocessen te leren geleidelijk te verfijnen op een 10K multimodale wiskundedataset. Uitgebreide experimenten tonen aan dat ons model een gemiddelde verbetering van ~6% behaalt op verschillende multimodale wiskunderedeneerbenchmarks. Vision-R1-7B behaalt een nauwkeurigheid van 73,5% op de veelgebruikte MathVista-benchmark, wat slechts 0,4% lager is dan het toonaangevende redeneermodel, OpenAI O1. De datasets en code zullen worden vrijgegeven op: https://github.com/Osilly/Vision-R1.
Recente ontwikkelingen in Unet-gebaseerde diffusiemodellen, zoals ControlNet en IP-Adapter, hebben effectieve ruimtelijke en onderwerpgerichte controlemechanismen geïntroduceerd. De DiT (Diffusion Transformer)-architectuur heeft echter nog steeds moeite met efficiënte en flexibele controle. Om dit probleem aan te pakken, stellen we EasyControl voor, een nieuw framework ontworpen om condition-guided diffusie-transformers te verenigen met hoge efficiëntie en flexibiliteit. Ons framework is gebouwd op drie belangrijke innovaties. Ten eerste introduceren we een lichtgewicht Condition Injection LoRA Module. Deze module verwerkt conditionele signalen geïsoleerd en fungeert als een plug-and-play oplossing. Het vermijdt het aanpassen van de basisgewichten van het model, waardoor compatibiliteit met aangepaste modellen wordt gegarandeerd en de flexibele injectie van diverse condities mogelijk wordt gemaakt. Opmerkelijk is dat deze module ook harmonieuze en robuuste zero-shot multi-condition generalisatie ondersteunt, zelfs wanneer deze alleen op single-condition data is getraind. Ten tweede stellen we een Position-Aware Training Paradigm voor. Deze aanpak standaardiseert invoercondities tot vaste resoluties, waardoor het genereren van afbeeldingen met willekeurige beeldverhoudingen en flexibele resoluties mogelijk wordt. Tegelijkertijd optimaliseert het de rekenkundige efficiëntie, waardoor het framework praktischer wordt voor real-world toepassingen. Ten derde ontwikkelen we een Causal Attention Mechanism gecombineerd met de KV Cache-techniek, aangepast voor conditionele generatietaken. Deze innovatie vermindert de latentie van beeld synthese aanzienlijk, waardoor de algehele efficiëntie van het framework wordt verbeterd. Door uitgebreide experimenten tonen we aan dat EasyControl uitstekende prestaties bereikt in diverse toepassingsscenario's. Deze innovaties maken ons framework gezamenlijk zeer efficiënt, flexibel en geschikt voor een breed scala aan taken.
Het integreren van externe kennis in grote taalmodellen (LLMs) vergroot hun nut in diverse toepassingen, maar bestaande methoden hebben afwegingen. Retrieval-Augmented Generation (RAG) haalt bewijs op via gelijkeniszoekopdrachten, maar cruciale informatie kan buiten de hoogst gerangschikte resultaten vallen. Lang-contextmodellen kunnen meerdere documenten verwerken, maar zijn rekenkundig duur en beperkt door de grootte van het contextvenster. Geïnspireerd door studenten die studiemateriaal samenvatten voor open-boekexamens, stellen we taakbewuste key-value (KV) cachecompressie voor, die externe kennis comprimeert in een zero- of few-shot opzet. Hierdoor kunnen LLMs efficiënt redeneren over een gecomprimeerde weergave van alle relevante informatie. Experimenten tonen aan dat onze aanpak zowel RAG als taakagnostische compressiemethoden overtreft. Op LongBench v2 verbetert het de nauwkeurigheid met tot 7 absolute punten ten opzichte van RAG met een compressieratio van 30x, terwijl de inferentielatentie wordt teruggebracht van 0,43s naar 0,16s. Een synthetische dataset benadrukt dat RAG goed presteert wanneer schaars bewijs voldoende is, terwijl taakbewuste compressie superieur is voor taken die brede kennis vereisen.
OpenAI o1 en DeepSeek R1 bereiken of overtreffen zelfs het prestatieniveau van menselijke experts in complexe domeinen zoals wiskunde en wetenschap, waarbij reinforcement learning (RL) en redeneren een cruciale rol spelen. In autonoom rijden hebben recente end-to-end-modellen de planningsprestaties aanzienlijk verbeterd, maar worstelen ze nog steeds met long-tailed problemen vanwege beperkt gezond verstand en redeneervermogen. Sommige studies integreren vision-language-modellen (VLMs) in autonoom rijden, maar deze vertrouwen doorgaans op vooraf getrainde modellen met eenvoudige supervised fine-tuning (SFT) op rijdata, zonder verdere verkenning van trainingsstrategieën of optimalisaties die specifiek zijn afgestemd op planning. In dit artikel stellen we AlphaDrive voor, een RL- en redeneerframework voor VLMs in autonoom rijden. AlphaDrive introduceert vier GRPO-gebaseerde RL-beloningen die zijn afgestemd op planning en maakt gebruik van een tweefasen planningsredeneertrainingsstrategie die SFT combineert met RL. Als resultaat verbetert AlphaDrive zowel de planningsprestaties als de trainingsefficiëntie aanzienlijk in vergelijking met het gebruik van alleen SFT of zonder redeneren. Bovendien zijn we ook enthousiast om te ontdekken dat AlphaDrive, na RL-training, enkele emergente multimodale planningscapaciteiten vertoont, wat cruciaal is voor het verbeteren van rijveiligheid en efficiëntie. Voor zover wij weten, is AlphaDrive de eerste die GRPO-gebaseerde RL integreert met planningsredeneren in autonoom rijden. Code zal worden vrijgegeven om toekomstig onderzoek te faciliteren.
Het implementeren van nieuwe functies in repository-level codebases is een cruciale toepassing van codegeneratiemodellen. Huidige benchmarks missen echter een specifiek evaluatiekader voor deze mogelijkheid. Om deze leemte op te vullen, introduceren we FEA-Bench, een benchmark die is ontworpen om het vermogen van grote taalmodellen (LLMs) te beoordelen om incrementele ontwikkeling binnen coderepositories uit te voeren. We verzamelen pull requests van 83 GitHub-repositories en gebruiken regelgebaseerde en intentiegebaseerde filtering om taakinstanties te construeren die gericht zijn op de ontwikkeling van nieuwe functies. Elke taakinstantie met codewijzigingen wordt gekoppeld aan relevante unit testbestanden om ervoor te zorgen dat de oplossing kan worden geverifieerd. De implementatie van functies vereist dat LLMs zowel codecompleteringsmogelijkheden voor nieuwe componenten als codebewerkingsmogelijkheden voor andere relevante delen in de coderepository bezitten, wat een uitgebreidere evaluatiemethode biedt van de geautomatiseerde software-engineeringcapaciteiten van LLMs. Experimentele resultaten tonen aan dat LLMs aanzienlijk slechter presteren in de FEA-Bench, wat aanzienlijke uitdagingen benadrukt bij dergelijke repository-level incrementele codeontwikkeling.
Recente ontwikkelingen in grote taalmodellen (LLMs) hebben de mogelijkheden voor tekstgeneratie aanzienlijk verbeterd, maar het evalueren van hun prestaties in generatief schrijven blijft een uitdaging. Bestaande benchmarks richten zich voornamelijk op generieke tekstgeneratie of beperkte schrijftaken, waardoor ze niet voldoen aan de diverse vereisten van hoogwaardige geschreven inhoud in verschillende domeinen. Om deze kloof te overbruggen, presenteren we WritingBench, een uitgebreide benchmark die is ontworpen om LLMs te evalueren over 6 kernschrijfdomeinen en 100 subdomeinen, waaronder creatief, overtuigend, informatief en technisch schrijven. We introduceren verder een query-afhankelijk evaluatieraamwerk dat LLMs in staat stelt om dynamisch instancespecifieke beoordelingscriteria te genereren. Dit raamwerk wordt aangevuld met een fijn afgestemd criticusmodel voor criteria-bewuste scoring, waardoor evaluaties op het gebied van stijl, opmaak en lengte mogelijk worden. De geldigheid van het raamwerk wordt verder aangetoond door zijn mogelijkheid tot datacuratie, waardoor modellen met 7B parameters de prestaties van state-of-the-art (SOTA) benaderen. We maken de benchmark, samen met evaluatietools en modulaire raamwerkcomponenten, open source om de ontwikkeling van LLMs in schrijven te bevorderen.
Traditionele agent-gebaseerde workflows vertrouwen op externe prompts om interacties met tools en de omgeving te beheren, wat de autonomie van redeneermodellen beperkt. Wij positioneren Large Agent Models (LAMs) die het genereren van een Chain-of-Action (CoA) internaliseren, waardoor het model autonoom kan beslissen wanneer en hoe externe tools te gebruiken. Ons voorgestelde AutoCoA-framework combineert supervised fine-tuning (SFT) en reinforcement learning (RL), waardoor het model naadloos kan schakelen tussen redeneren en actie terwijl het efficiënt omgevingsinteracties beheert. Belangrijke componenten zijn stapgewijze actietriggering, trajectniveau CoA-optimalisatie en een intern wereldmodel om de kosten van interacties met de echte omgeving te verminderen. Evaluaties op open-domein QA-taken tonen aan dat met AutoCoA getrainde agentmodellen aanzienlijk beter presteren dan ReAct-gebaseerde workflows in taakvoltooiing, vooral bij taken die langetermijnredenering en meerdere stappen vereisen. Code en dataset zijn beschikbaar op https://github.com/ADaM-BJTU/AutoCoA.
Overzichtspapers spelen een cruciale rol in wetenschappelijk onderzoek, vooral gezien de snelle groei van onderzoekspublicaties. Recentelijk zijn onderzoekers begonnen met het gebruik van LLM's (Large Language Models) om het genereren van overzichten te automatiseren voor betere efficiëntie. De kwaliteitskloof tussen door LLM's gegenereerde overzichten en die geschreven door mensen blijft echter aanzienlijk, met name wat betreft de kwaliteit van de opzet en de nauwkeurigheid van citaten. Om deze kloof te dichten, introduceren we SurveyForge, dat eerst de opzet genereert door de logische structuur van door mensen geschreven overzichten te analyseren en te verwijzen naar opgehaalde domeingerelateerde artikelen. Vervolgens maakt SurveyForge, door gebruik te maken van hoogwaardige papers die door onze scholar navigation agent uit het geheugen zijn opgehaald, automatisch de inhoud van het gegenereerde artikel aan en verfijnt deze. Bovendien hebben we SurveyBench ontwikkeld voor een uitgebreide evaluatie, dat 100 door mensen geschreven overzichtspapers bevat voor win-rate vergelijking en AI-gegenereerde overzichtspapers beoordeelt op drie dimensies: referentie, opzet en inhoudskwaliteit. Experimenten tonen aan dat SurveyForge eerdere werken zoals AutoSurvey kan overtreffen.
Grote Taalmodellen (LLMs) hebben indrukwekkende prestaties laten zien op bestaande benchmarks voor medische vraag-antwoordtaken. Deze hoge prestaties maken het steeds moeilijker om geavanceerde methoden zinvol te evalueren en te onderscheiden. Wij presenteren MedAgentsBench, een benchmark die zich richt op uitdagende medische vragen die multi-staps klinisch redeneren, diagnoseformulering en behandelplanning vereisen - scenario's waarin huidige modellen nog steeds moeite hebben ondanks hun sterke prestaties op standaardtests. Gebaseerd op zeven gevestigde medische datasets, adresseert onze benchmark drie belangrijke beperkingen in bestaande evaluaties: (1) de prevalentie van eenvoudige vragen waarbij zelfs basismodellen hoge prestaties behalen, (2) inconsistente steekproef- en evaluatieprotocollen tussen studies, en (3) het ontbreken van een systematische analyse van de wisselwerking tussen prestaties, kosten en inferentietijd. Door experimenten met verschillende basismodellen en redeneermethoden tonen we aan dat de nieuwste denkmodellen, DeepSeek R1 en OpenAI o3, uitzonderlijke prestaties leveren in complexe medische redeneertaken. Daarnaast bieden geavanceerde zoekgebaseerde agentmethoden veelbelovende prestatie-kostenverhoudingen in vergelijking met traditionele benaderingen. Onze analyse onthult aanzienlijke prestatieverschillen tussen modelfamilies op complexe vragen en identificeert optimale modelselecties voor verschillende computationele beperkingen. Onze benchmark en evaluatieraamwerk zijn publiekelijk beschikbaar op https://github.com/gersteinlab/medagents-benchmark.
We presenteren Autoregressive Representation Alignment (ARRA), een nieuw trainingsframework dat wereldwijd coherente tekst-naar-beeldgeneratie mogelijk maakt in autoregressieve LLM's zonder architectuurwijzigingen. In tegenstelling tot eerder werk dat complexe architectuurherzieningen vereist, aligneert ARRA verborgen toestanden van LLM's met visuele representaties van externe visuele foundationmodellen via een globaal visueel aligneringsverlies en een hybride token, <HYBNEXT>. Deze token legt dubbele beperkingen op: lokale volgende-tokenvoorspelling en globale semantische destillatie, waardoor LLM's impliciet ruimtelijke en contextuele coherentie kunnen leren terwijl ze hun oorspronkelijke autoregressieve paradigma behouden. Uitgebreide experimenten valideren de plug-and-play veelzijdigheid van ARRA. Bij het trainen van LLM's die alleen tekst genereren of bij willekeurige initialisatie, reduceert ARRA de FID met 25,5% (MIMIC-CXR), 8,8% (DeepEyeNet) en 7,5% (ImageNet) voor geavanceerde autoregressieve LLM's zoals Chameleon en LlamaGen, allemaal zonder frameworkwijzigingen. Voor domeinaanpassing aligneert ARRA algemene LLM's met gespecialiseerde modellen (bijv. BioMedCLIP), wat resulteert in een FID-reductie van 18,6% ten opzichte van directe fine-tuning op medische beeldvorming (MIMIC-CXR). Door aan te tonen dat herontwerp van het trainingsdoel – niet alleen architectuurinnovatie – wereldwijde coherentie-uitdagingen tussen modaliteiten kan oplossen, biedt ARRA een complementair paradigma voor het bevorderen van autoregressieve modellen. Code en modellen zullen worden vrijgegeven om autoregressieve beeldgeneratie verder te ontwikkelen.
Universele multimodale embeddingmodellen spelen een cruciale rol in taken zoals geïnterleefde beeld-tekst retrieval, multimodale RAG en multimodale clustering. Onze empirische resultaten tonen echter aan dat bestaande LMM-gebaseerde embeddingmodellen die zijn getraind met het standaard InfoNCE-verlies een hoge mate van overlap vertonen in de gelijkenisverdeling tussen positieve en negatieve paren, wat het effectief onderscheiden van moeilijke negatieve paren bemoeilijkt. Om dit probleem aan te pakken, stellen we een eenvoudig maar effectief raamwerk voor dat dynamisch de representatieleer van het embeddingmodel voor negatieve paren verbetert op basis van hun onderscheidende moeilijkheidsgraad. Binnen dit raamwerk trainen we een reeks modellen, genaamd LLaVE, en evalueren we deze op de MMEB-benchmark, die 4 meta-taken en 36 datasets omvat. Experimentele resultaten laten zien dat LLaVE sterkere basislijnen vaststelt die state-of-the-art (SOTA) prestaties bereiken, terwijl ze sterke schaalbaarheid en efficiëntie demonstreren. Specifiek overtreft LLaVE-2B de vorige SOTA 7B-modellen, terwijl LLaVE-7B een verdere prestatieverbetering van 6,2 punten behaalt. Hoewel LLaVE is getraind op beeld-tekst data, kan het generaliseren naar tekst-video retrieval taken op een zero-shot manier en sterke prestaties leveren, wat zijn opmerkelijke potentieel voor overdracht naar andere embeddingtaken aantoont.
Relationele videoaanpassing verwijst naar het creëren van gepersonaliseerde video's die door de gebruiker gespecificeerde relaties tussen twee onderwerpen weergeven, een cruciale taak voor het begrijpen van visuele inhoud uit de echte wereld. Hoewel bestaande methoden het uiterlijk en de bewegingen van onderwerpen kunnen personaliseren, hebben ze nog steeds moeite met complexe relationele videoaanpassing, waarbij nauwkeurige relationele modellering en hoge generalisatie over onderwerpcategorieën essentieel zijn. De belangrijkste uitdaging ontstaat door de ingewikkelde ruimtelijke arrangementen, lay-outvariaties en genuanceerde temporele dynamiek die inherent zijn aan relaties; als gevolg daarvan hebben huidige modellen de neiging om irrelevante visuele details te veel te benadrukken in plaats van betekenisvolle interacties vast te leggen. Om deze uitdagingen aan te pakken, stellen we DreamRelation voor, een nieuwe aanpak die relaties personaliseert via een kleine set voorbeeldvideo's, gebruikmakend van twee sleutelcomponenten: Relationeel Ontkoppelend Leren en Relationele Dynamiekverbetering. Ten eerste, in Relationeel Ontkoppelend Leren, ontwarren we relaties van het uiterlijk van onderwerpen met behulp van een relationele LoRA-triplet en een hybride maskertrainingsstrategie, wat zorgt voor betere generalisatie over diverse relaties. Bovendien bepalen we het optimale ontwerp van het relationele LoRA-triplet door de verschillende rollen van de query-, key- en waardefeatures binnen het aandachtmechanisme van MM-DiT te analyseren, waardoor DreamRelation het eerste relationele videogeneratieframework met verklaarbare componenten wordt. Ten tweede, in Relationele Dynamiekverbetering, introduceren we een ruimte-tijd relationeel contrastief verlies, dat prioriteit geeft aan relationele dynamiek terwijl het de afhankelijkheid van gedetailleerde onderwerpverschijningen minimaliseert. Uitgebreide experimenten tonen aan dat DreamRelation state-of-the-art methoden overtreft in relationele videoaanpassing. Code en modellen zullen publiekelijk beschikbaar worden gemaakt.
Hoewel gemaskerde beeldgeneratiemodellen en gemaskerde diffusiemodellen zijn ontworpen met verschillende motivaties en doelstellingen, observeren we dat ze binnen een enkel raamwerk kunnen worden verenigd. Op basis van dit inzicht verkennen we zorgvuldig de ontwerpruimte van training en sampling, waarbij we belangrijke factoren identificeren die bijdragen aan zowel prestaties als efficiëntie. Gebaseerd op de verbeteringen die tijdens deze verkenning zijn waargenomen, ontwikkelen we ons model, genaamd eMIGM. Empirisch toont eMIGM sterke prestaties bij het genereren van ImageNet, zoals gemeten door de Fréchet Inception Distance (FID). In het bijzonder presteert eMIGM op ImageNet 256x256, met een vergelijkbaar aantal functie-evaluaties (NFEs) en modelparameters, beter dan het baanbrekende VAR. Bovendien, naarmate NFE en modelparameters toenemen, bereikt eMIGM prestaties die vergelijkbaar zijn met de state-of-the-art continue diffusiemodellen, terwijl minder dan 40% van de NFE nodig is. Daarnaast presteert eMIGM op ImageNet 512x512, met slechts ongeveer 60% van de NFE, beter dan de state-of-the-art continue diffusiemodellen.
Traditionele methoden voor redeneersegmentatie vertrouwen op supervised fine-tuning met categorische labels en eenvoudige beschrijvingen, wat de generalisatie buiten het domein beperkt en expliciete redeneerprocessen mist. Om deze beperkingen aan te pakken, stellen we Seg-Zero voor, een nieuw framework dat opmerkelijke generaliseerbaarheid demonstreert en expliciete ketens van redenering afleidt door cognitieve versterking. Seg-Zero introduceert een ontkoppelde architectuur bestaande uit een redeneermodel en een segmentatiemodel. Het redeneermodel interpreteert gebruikersintenties, genereert expliciete redeneerketens en produceert positionele prompts, die vervolgens door het segmentatiemodel worden gebruikt om nauwkeurige pixelgewijze maskers te genereren. We ontwerpen een geavanceerd beloningsmechanisme dat zowel formaat- als nauwkeurigheidsbeloningen integreert om de optimalisatierichtingen effectief te sturen. Uitsluitend getraind via reinforcement learning met GRPO en zonder expliciete redeneergegevens, bereikt Seg-Zero robuuste zero-shot generalisatie en vertoont het emergente redeneervaardigheden tijdens het testen. Experimenten tonen aan dat Seg-Zero-7B een zero-shot prestatie van 57,5 behaalt op de ReasonSeg benchmark, wat een verbetering van 18\% is ten opzichte van het vorige LISA-7B. Deze significante verbetering benadrukt het vermogen van Seg-Zero om te generaliseren over domeinen heen, terwijl het een expliciet redeneerproces presenteert. De code is beschikbaar op https://github.com/dvlab-research/Seg-Zero.
Recente vooruitgang in 2D-naar-3D-perceptie heeft het begrip van 3D-scènes uit 2D-beelden aanzienlijk verbeterd. Bestaande methoden kampen echter met kritieke uitdagingen, waaronder beperkte generalisatie over verschillende scènes, suboptimale perceptienauwkeurigheid en trage reconstructiesnelheden. Om deze beperkingen aan te pakken, stellen we Perception-Efficient 3D Reconstruction (PE3R) voor, een nieuw framework ontworpen om zowel nauwkeurigheid als efficiëntie te verbeteren. PE3R maakt gebruik van een feed-forward architectuur om snelle 3D-semantische veldreconstructie mogelijk te maken. Het framework toont robuuste zero-shot generalisatie over diverse scènes en objecten, terwijl het de reconstructiesnelheid aanzienlijk verbetert. Uitgebreide experimenten op 2D-naar-3D open-vocabulary segmentatie en 3D-reconstructie valideren de effectiviteit en veelzijdigheid van PE3R. Het framework bereikt een minimaal 9-voudige versnelling in 3D-semantische veldreconstructie, samen met aanzienlijke verbeteringen in perceptienauwkeurigheid en reconstructieprecisie, waarmee het nieuwe benchmarks stelt in het veld. De code is publiekelijk beschikbaar op: https://github.com/hujiecpp/PE3R.
Object detection en segmentatie worden veelvuldig toegepast in computervisietoepassingen, maar conventionele modellen zoals de YOLO-serie, hoewel efficiënt en nauwkeurig, worden beperkt door vooraf gedefinieerde categorieën, wat de aanpassingsvermogen in open scenario's belemmert. Recente open-set methoden maken gebruik van tekstprompts, visuele aanwijzingen of een prompt-vrij paradigma om dit te overwinnen, maar gaan vaak een compromis aan tussen prestaties en efficiëntie vanwege hoge rekenkundige eisen of implementatiecomplexiteit. In dit werk introduceren we YOLOE, dat detectie en segmentatie integreert over diverse open promptmechanismen binnen een enkel zeer efficiënt model, waardoor real-time "alles zien" mogelijk wordt. Voor tekstprompts stellen we de Re-parameterizable Region-Text Alignment (RepRTA) strategie voor. Deze verfijnt vooraf getrainde tekstuele embeddings via een herparameteriseerbaar lichtgewicht hulpnetwerk en verbetert de visueel-tekstuele uitlijning zonder inferentie- en overdrachtskosten. Voor visuele prompts presenteren we de Semantic-Activated Visual Prompt Encoder (SAVPE). Deze maakt gebruik van ontkoppelde semantische en activeringsvertakkingen om verbeterde visuele embedding en nauwkeurigheid te bieden met minimale complexiteit. Voor het prompt-vrije scenario introduceren we de Lazy Region-Prompt Contrast (LRPC) strategie. Deze maakt gebruik van een ingebouwde grote woordenschat en gespecialiseerde embedding om alle objecten te identificeren, waardoor de afhankelijkheid van kostbare taalmodellen wordt vermeden. Uitgebreide experimenten tonen de uitzonderlijke zero-shot prestaties en overdraagbaarheid van YOLOE aan, met hoge inferentie-efficiëntie en lage trainingskosten. Opmerkelijk is dat YOLOE-v8-S op LVIS, met 3 keer minder trainingskosten en 1,4 keer snellere inferentie, YOLO-Worldv2-S met 3,5 AP overtreft. Bij overdracht naar COCO behaalt YOLOE-v8-L 0,6 AP^b en 0,4 AP^m winst ten opzichte van het gesloten-set YOLOv8-L, met bijna 4 keer minder trainingsduur. Code en modellen zijn beschikbaar op https://github.com/THU-MIG/yoloe.
Vision-Language Models (VLMs) blinken uit in het integreren van visuele en tekstuele informatie voor visueel gerichte taken, maar hun omgang met inconsistenties tussen modaliteiten is onderbelicht. Wij onderzoeken de modaliteitsvoorkeuren van VLMs wanneer ze worden geconfronteerd met visuele data en gevarieerde tekstuele invoer in visueel gerichte contexten. Door tekstuele variaties te introduceren in vier visueel gerichte taken en tien Vision-Language Models (VLMs) te evalueren, ontdekken we een fenomeen van 'blind vertrouwen in tekst': VLMs vertrouwen onevenredig sterk op tekstuele data boven visuele data wanneer inconsistenties optreden, wat leidt tot aanzienlijke prestatieverminderingen bij gecorrumpeerde tekst en veiligheidszorgen oproept. We analyseren factoren die deze tekstbias beïnvloeden, waaronder instructieprompts, de grootte van het taalmodel, tekstrelevantie, tokenvolgorde en de wisselwerking tussen visuele en tekstuele zekerheid. Hoewel bepaalde factoren, zoals het opschalen van de grootte van het taalmodel, de tekstbias enigszins verminderen, kunnen andere, zoals tokenvolgorde, deze verergeren vanwege positionele biases die zijn overgenomen uit taalmodelen. Om dit probleem aan te pakken, onderzoeken we supervised fine-tuning met tekstaugmentatie en tonen we de effectiviteit ervan aan in het verminderen van tekstbias. Daarnaast bieden we een theoretische analyse die suggereert dat het fenomeen van blind vertrouwen in tekst mogelijk voortkomt uit een onbalans tussen pure tekst en multimodale data tijdens de training. Onze bevindingen benadrukken de noodzaak van gebalanceerde training en zorgvuldige overweging van modaliteitsinteracties in VLMs om hun robuustheid en betrouwbaarheid te verbeteren bij het omgaan met inconsistenties in multimodale data.
Architecturen van Mixture of Large Language Model Agents (MoA) behalen state-of-the-art prestaties op toonaangevende benchmarks zoals AlpacaEval 2.0 door de samenwerking van meerdere LLM's tijdens inferentie te benutten. Ondanks deze successen ontbreekt een evaluatie van de veiligheid en betrouwbaarheid van MoA. Wij presenteren de eerste uitgebreide studie naar de robuustheid van MoA tegenover misleidende LLM-agents die opzettelijk foutieve antwoorden geven. We onderzoeken factoren zoals de verspreiding van misleidende informatie, modelgrootte en informatiebeschikbaarheid, en leggen kritieke kwetsbaarheden bloot. Op AlpacaEval 2.0 behaalt het populaire LLaMA 3.1-70B-model een lengte-gecontroleerde Win Rate (LC WR) van 49,2% wanneer het wordt gekoppeld aan een 3-laags MoA (6 LLM-agents). Echter, tonen we aan dat de introductie van slechts één zorgvuldig geïnstrueerde misleidende agent in de MoA de prestaties kan terugbrengen tot 37,9%, waardoor alle MoA-winsten effectief teniet worden gedaan. Op QuALITY, een meerkeuzebegripstaak, is de impact eveneens ernstig, waarbij de nauwkeurigheid met een verbijsterende 48,5% daalt. Gedeeltelijk geïnspireerd door het historische Doge van Venetië-stemproces, dat ontworpen is om invloed en misleiding te minimaliseren, stellen we een reeks ongecontroleerde verdedigingsmechanismen voor die het grootste deel van de verloren prestaties herstellen.
We stellen DiffCLIP voor, een nieuw vision-language model dat het differentiële aandachtmechanisme uitbreidt naar CLIP-architecturen. Differentiële aandacht werd oorspronkelijk ontwikkeld voor grote taalmodellen om relevante context te versterken terwijl ruisachtige informatie wordt geneutraliseerd. In dit werk integreren we dit mechanisme in het duale encoder (beeld en tekst) framework van CLIP. Met minimale extra parameters behaalt DiffCLIP superieure prestaties op beeld-tekst begripstaken. Op zero-shot classificatie, retrieval en robuustheid benchmarks overtreft DiffCLIP consistent baseline CLIP-modellen. Opmerkelijk is dat deze verbeteringen worden gerealiseerd met verwaarloosbare rekenkosten, wat aantoont dat differentiële aandacht multi-modale representaties aanzienlijk kan verbeteren zonder in te leveren op efficiëntie. Code is beschikbaar op https://github.com/hammoudhasan/DiffCLIP.
We onderzoeken een nieuw zero-shot Audio-Visueel Spraakherkenning (AVSR) raamwerk, genaamd Zero-AVSR, dat spraakherkenning in doeltalen mogelijk maakt zonder enige audio-visuele spraakdata in die talen te vereisen. Specifiek introduceren we de Audio-Visuele Spraak Romanizer (AV-Romanizer), die taal-onafhankelijke spraakrepresentaties leert door Romeinse tekst te voorspellen. Vervolgens maken we gebruik van de sterke meertalige modelleringscapaciteiten van Large Language Models (LLMs) door de voorspelde Romeinse tekst om te zetten in taal-specifieke grafemen, wat resulteert in het voorgestelde Cascaded Zero-AVSR. We gaan een stap verder door een geïntegreerde Zero-AVSR aanpak te verkennen, waarbij de audio-visuele spraakrepresentaties die door de AV-Romanizer zijn gecodeerd, direct in de LLM worden geïntegreerd. Dit wordt bereikt door de adapter en de LLM te finetunen met behulp van ons voorgestelde multi-task learning schema. Om het brede spectrum van fonetische en linguïstische diversiteit vast te leggen, introduceren we ook een Meertalig Audio-Visueel Geromaniseerd Corpus (MARC) bestaande uit 2.916 uur aan audio-visuele spraakdata in 82 talen, samen met transcripties in zowel taal-specifieke grafemen als Romeinse tekst. Uitgebreide analyses en experimenten bevestigen dat het voorgestelde Zero-AVSR raamwerk het potentieel heeft om taalondersteuning uit te breiden voorbij de talen die tijdens de training van de AV-Romanizer zijn gezien.
Tijdreeksmodellen staan voor aanzienlijke uitdagingen bij het opschalen om grote en complexe datasets te verwerken, vergelijkbaar met de schaalbaarheid die grote taalmmodellen (LLM's) hebben bereikt. De unieke kenmerken van tijdreeksgegevens en de rekenkundige eisen van modelschaling vereisen innovatieve benaderingen. Hoewel onderzoekers verschillende architecturen zoals Transformers, LSTMs en GRUs hebben verkend om deze uitdagingen aan te pakken, stellen wij een nieuwe oplossing voor met RWKV-7, dat meta-leren integreert in zijn staatupdate-mechanisme. Door RWKV-7's tijdmix- en kanaalmix-componenten te integreren in het transformer-gebaseerde tijdreeksmodel Timer, behalen we een aanzienlijke prestatieverbetering van ongeveer 1,13 tot 43,3x en een reductie van 4,5x in de trainingstijd met 1/23 parameters, terwijl we minder parameters gebruiken. Onze code en modelgewichten zijn publiekelijk beschikbaar voor verder onderzoek en ontwikkeling op https://github.com/Alic-Li/BlackGoose_Rimer.
State Space Models (SSMs) zijn naar voren gekomen als efficiënte alternatieven voor Transformers, waardoor de kwadratische rekenkosten worden verminderd. Toch blijft de toepassing van Parameter-Efficient Fine-Tuning (PEFT) methoden op SSMs grotendeels onontgonnen. Met name prompt-gebaseerde methoden zoals Prompt Tuning en Prefix-Tuning, die veel worden gebruikt in Transformers, presteren niet goed op SSMs. Om dit aan te pakken, stellen we state-gebaseerde methoden voor als een superieur alternatief voor prompt-gebaseerde methoden. Deze nieuwe familie van methoden vloeit natuurlijk voort uit de architecturale kenmerken van SSMs. State-gebaseerde methoden passen state-gerelateerde kenmerken direct aan in plaats van te vertrouwen op externe prompts. Bovendien introduceren we een nieuwe state-gebaseerde PEFT-methode: State-offset Tuning. Bij elke tijdstap beïnvloedt onze methode direct de state van de huidige stap, wat leidt tot effectievere aanpassing. Door uitgebreide experimenten op diverse datasets tonen we de effectiviteit van onze methode aan. Code is beschikbaar op https://github.com/furiosa-ai/ssm-state-tuning.
De toenemende populariteit van grote taalmodellen heeft niet alleen geleid tot wijdverbreid gebruik, maar heeft ook verschillende risico's met zich meegebracht, waaronder de mogelijkheid om systematisch nepnieuws te verspreiden. Als gevolg hiervan is de ontwikkeling van classificatiesystemen zoals DetectGPT van cruciaal belang geworden. Deze detectoren zijn kwetsbaar voor ontwijkingstechnieken, zoals aangetoond in een experimentele reeks: systematische aanpassingen van de temperatuur van de generatieve modellen toonden aan dat oppervlakkige leer-detectoren het minst betrouwbaar zijn. Het finetunen van het generatieve model via reinforcement learning omzeilde BERT-gebaseerde detectoren. Tot slot leidde herformulering tot een ontwijking van >90\% van zero-shot-detectoren zoals DetectGPT, hoewel de teksten sterk vergelijkbaar bleven met het origineel. Een vergelijking met bestaand werk benadrukt de betere prestaties van de gepresenteerde methoden. Mogelijke implicaties voor de samenleving en verder onderzoek worden besproken.
Hoewel classifier-free guidance (CFG) essentieel is voor conditionele diffusiemodellen, verdubbelt het het aantal neurale functie-evaluaties (NFEs) per inferentiestap. Om deze inefficiëntie te verminderen, introduceren we adapter guidance distillation (AGD), een nieuwe aanpak die CFG simuleert in een enkele voorwaartse doorloop. AGD maakt gebruik van lichtgewicht adapters om CFG te benaderen, waardoor de bemonsteringssnelheid effectief wordt verdubbeld terwijl de kwaliteit van de samples behouden blijft of zelfs verbetert. In tegenstelling tot eerdere methoden voor guidance distillation die het hele model afstemmen, houdt AGD het basismodel bevroren en traint het alleen minimale extra parameters (circa 2%) om de resourcebehoefte van de distillatiefase aanzienlijk te verminderen. Bovendien behoudt deze aanpak de oorspronkelijke modelgewichten en maakt het mogelijk om de adapters naadloos te combineren met andere checkpoints die van hetzelfde basismodel zijn afgeleid. We behandelen ook een belangrijk verschil tussen training en inferentie in bestaande guidance distillation-methoden door te trainen op CFG-gestuurde trajecten in plaats van standaard diffusietrajecten. Door uitgebreide experimenten tonen we aan dat AGD vergelijkbare of superieure FID bereikt ten opzichte van CFG over meerdere architecturen met slechts de helft van de NFEs. Opmerkelijk is dat onze methode het mogelijk maakt om grote modellen (circa 2,6 miljard parameters) te distilleren op een enkele consumenten-GPU met 24 GB VRAM, waardoor het toegankelijker is dan eerdere benaderingen die meerdere high-end GPU's vereisen. We zullen de implementatie van onze methode openbaar beschikbaar stellen.
Text-to-Image (T2I)-modellen zijn in staat om hoogwaardige artistieke creaties en visuele content te genereren. Bestaand onderzoek en evaluatiestandaarden richten zich echter voornamelijk op beeldrealisme en oppervlakkige tekst-beeldafstemming, waarbij een uitgebreide beoordeling van complex semantisch begrip en de integratie van wereldkennis in tekst-naar-beeldgeneratie ontbreekt. Om deze uitdaging aan te pakken, stellen we WISE voor, de eerste benchmark die specifiek is ontworpen voor World Knowledge-Informed Semantic Evaluation. WISE gaat verder dan eenvoudige woord-pixel-mapping door modellen uit te dagen met 1000 zorgvuldig opgestelde prompts verspreid over 25 subdomeinen in cultureel gezond verstand, ruimtelijk-temporeel redeneren en natuurwetenschappen. Om de beperkingen van de traditionele CLIP-metric te overwinnen, introduceren we WiScore, een nieuwe kwantitatieve metric voor het beoordelen van kennis-beeldafstemming. Door uitgebreide tests van 20 modellen (10 toegewijde T2I-modellen en 10 verenigde multimodale modellen) met behulp van 1.000 gestructureerde prompts over 25 subdomeinen, onthullen onze bevindingen aanzienlijke beperkingen in hun vermogen om wereldkennis effectief te integreren en toe te passen tijdens beeldgeneratie, wat cruciale verbeterpunten benadrukt voor de integratie en toepassing van kennis in de volgende generatie T2I-modellen. Code en data zijn beschikbaar op https://github.com/PKU-YuanGroup/WISE.
Het oplossen van expert-level multimodale taken is een belangrijke mijlpaal op weg naar algemene intelligentie. Naarmate de mogelijkheden van multimodale grote taalmodellen (MLLMs) blijven verbeteren, wordt de evaluatie van dergelijke geavanceerde multimodale intelligentie noodzakelijk maar ook uitdagend. In dit werk introduceren we ProBench, een benchmark van open-einde gebruikersvragen die professionele expertise en geavanceerd redeneren vereisen. ProBench bestaat uit 4.000 hoogwaardige voorbeelden die onafhankelijk zijn ingediend door professionals op basis van hun dagelijkse productiviteitsbehoeften. Het omvat 10 vakgebieden en 56 subgebieden, waaronder wetenschap, kunst, geesteswetenschappen, programmeren, wiskunde en creatief schrijven. Experimenteel evalueren en vergelijken we 24 nieuwste modellen met behulp van MLLM-as-a-Judge. Onze resultaten laten zien dat hoewel de beste open-source modellen de propriëtaire modellen evenaren, ProBench aanzienlijke uitdagingen biedt op het gebied van visuele perceptie, tekstueel begrip, domeinkennis en geavanceerd redeneren, en daarmee waardevolle richtingen biedt voor toekomstige multimodale AI-onderzoeksinspanningen.
Domain Generalization heeft als doel modellen te ontwikkelen die kunnen generaliseren naar nieuwe en onbekende datadistributies. In dit werk onderzoeken we hoe modelarchitecturen en pre-trainingsdoelstellingen de rijkdom van kenmerken beïnvloeden en stellen we een methode voor om deze effectief te benutten voor domeingeneralizatie. Specifiek, gegeven een vooraf getrainde kenmerkenruimte, ontdekken we eerst latente domeinstructuren, aangeduid als pseudo-domeinen, die domeinspecifieke variaties op een onbewaakte manier vastleggen. Vervolgens verrijken we bestaande classificatiemodellen met deze aanvullende pseudo-domeinrepresentaties, waardoor ze beter geschikt worden voor diverse onbekende testdomeinen. We analyseren hoe verschillende vooraf getrainde kenmerkenruimten verschillen in de domeinspecifieke varianties die ze vastleggen. Onze empirische studies tonen aan dat kenmerken van diffusiemodellen uitblinken in het scheiden van domeinen zonder expliciete domeinlabels en subtiele domeinspecifieke informatie vastleggen. Op 5 datasets laten we zien dat ons zeer eenvoudige framework de generalisatie naar onbekende domeinen verbetert met een maximale verbetering van de testnauwkeurigheid van meer dan 4% vergeleken met de standaard baseline Empirical Risk Minimization (ERM). Cruciaal is dat onze methode de meeste algoritmen overtreft die tijdens de training toegang hebben tot domeinlabels.
Voorgetrainde LLM's die verder worden getraind met beeldgegevens presteren goed op visie-taal taken. Hoewel het toevoegen van afbeeldingen tijdens een tweede trainingsfase deze mogelijkheid effectief ontsluit, is het onduidelijk hoeveel winst of verlies deze tweestaps pijplijn oplevert in vergelijking met VLM's die afbeeldingen eerder in het trainingsproces integreren. Om dit te onderzoeken, trainen we modellen over verschillende datasets, schalen, beeld-tekst verhoudingen en hoeveelheden voorafgaande training voordat visuele tokens worden geïntroduceerd. Vervolgens fine-tunen we deze modellen en evalueren we hun downstream prestaties op een reeks visie-taal en alleen-tekst taken. We ontdekken dat vooraf trainen met een mix van beeld- en tekstgegevens modellen in staat stelt beter te presteren op visie-taal taken terwijl ze sterke prestaties behouden op alleen-tekst evaluaties. Gemiddeld over 6 diverse taken, vinden we dat voor een 1B model, het introduceren van visuele tokens 80% van de weg door de voorafgaande training resulteert in een gemiddelde verbetering van 2% ten opzichte van het introduceren van visuele tokens in een volledig voorgetraind model.
Recente vooruitgang in tekst-naar-beeld diffusiemodellen maakt fotorealistische beeldgeneratie mogelijk, maar brengt ook het risico met zich mee om schadelijke inhoud te produceren, zoals NSFW-beelden. Om dit risico te beperken, worden conceptverwijderingsmethoden bestudeerd om het model te helpen specifieke concepten af te leren. Huidige studies hebben echter moeite om schadelijke concepten die impliciet in prompts zijn ingebed (bijvoorbeeld metaforische uitdrukkingen of adversariële prompts) volledig te verwijderen, terwijl de normale generatiecapaciteit van het model behouden blijft. Om deze uitdaging aan te pakken, stelt onze studie TRCE voor, waarbij een tweestaps strategie voor conceptverwijdering wordt gebruikt om een effectieve balans te bereiken tussen betrouwbare verwijdering en kennisbehoud. Ten eerste begint TRCE met het verwijderen van de schadelijke semantiek die impliciet in tekstuele prompts is ingebed. Door een kritisch mappingdoel (d.w.z. de [EoT]-embedding) te identificeren, optimaliseren we de cross-attention lagen om schadelijke prompts te mappen naar contextueel vergelijkbare prompts maar met veilige concepten. Deze stap voorkomt dat het model tijdens het denoisingsproces te veel wordt beïnvloed door schadelijke semantiek. Vervolgens, rekening houdend met de deterministische eigenschappen van de samplingtrajectorie van het diffusiemodel, stuurt TRCE de vroege denoisingvoorspelling verder in de richting van de veilige kant en weg van de onveilige kant door middel van contrastief leren, waardoor de generatie van schadelijke inhoud verder wordt vermeden. Ten slotte voeren we uitgebreide evaluaties van TRCE uit op meerdere benchmarks voor het verwijderen van schadelijke concepten, en de resultaten tonen aan dat het effectief is in het verwijderen van schadelijke concepten terwijl de oorspronkelijke generatiecapaciteit van het model beter behouden blijft. De code is beschikbaar op: http://github.com/ddgoodgood/TRCE. LET OP: Dit artikel bevat modelgegenereerde inhoud die mogelijk aanstootgevend materiaal bevat.
Voorgetrainde visuele modellen (PVM's) zijn fundamenteel voor moderne robotica, maar hun optimale configuratie blijft onduidelijk. Door systematische evaluatie ontdekken we dat hoewel DINO en iBOT MAE overtreffen in visuomotorische controle en perceptietaken, ze moeite hebben wanneer ze getraind worden op niet-(enkel-)objectgerichte (NOC) data—een beperking die sterk gecorreleerd is met hun verminderde vermogen om objectgerichte representaties te leren. Dit onderzoek geeft aan dat het vermogen om objectgerichte representaties te vormen uit niet-objectgerichte robotica-datasets de sleutel tot succes is voor PVM's. Gemotiveerd door deze ontdekking hebben we SlotMIM ontworpen, een methode die objectgerichte representaties induceert door een semantisch knelpunt in te voeren om het aantal prototypes te verminderen, wat de opkomst van objectgerichtheid bevordert, evenals cross-view consistentie-regularisatie om multiview-invariantie te stimuleren. Onze experimenten omvatten vooraf trainen op objectgerichte, scènegerichte, webgecrawlde en ego-centrische data. In alle omstandigheden leert onze aanpak overdraagbare representaties en behaalt significante verbeteringen ten opzichte van eerder werk in beeldherkenning, scènebegrip en robotica-evaluaties. Wanneer opgeschaald met datasets op miljoenschaal, toont onze methode ook superieure data-efficiëntie en schaalbaarheid. Onze code en modellen zijn publiekelijk beschikbaar op https://github.com/CVMI-Lab/SlotMIM.
Audio-Visual Speech Recognition (AVSR) maakt gebruik van zowel audio- als visuele modaliteiten om de robuustheid van spraakherkenning te verbeteren, met name in rumoerige omgevingen. Recente vooruitgang in Large Language Models (LLM's) heeft hun effectiviteit in spraakherkenning, inclusief AVSR, aangetoond. Vanwege de aanzienlijke lengte van spraakrepresentaties brengt directe integratie met LLM's echter aanzienlijke rekenkosten met zich mee. Eerdere benaderingen pakken dit aan door spraakrepresentaties te comprimeren voordat ze in LLM's worden gevoerd. Hogere compressieverhoudingen leiden echter vaak tot prestatieverlies, wat een afweging tussen rekenkundige efficiëntie en herkenningsnauwkeurigheid noodzakelijk maakt. Om deze uitdaging aan te pakken, stellen we Llama-MTSK voor, de eerste Matryoshka-gebaseerde Multimodale LLM voor AVSR, die een flexibele aanpassing van de audio-visuele tokenallocatie mogelijk maakt op basis van specifieke rekenkundige beperkingen, terwijl een hoge prestatieniveau behouden blijft. Onze aanpak, geïnspireerd door Matryoshka Representation Learning, codeert audio-visuele representaties op meerdere granulariteiten binnen een enkel model, waardoor de noodzaak om aparte modellen te trainen voor verschillende compressieniveaus wordt geëlimineerd. Bovendien introduceren we, om de LLM efficiënt te fine-tunen, drie LoRA-gebaseerde Matryoshka-strategieën met behulp van globale en schaalspecifieke LoRA-modules. Uitgebreide evaluaties op de twee grootste AVSR-datasets tonen aan dat Llama-MTSK state-of-the-art resultaten behaalt, die overeenkomen met of zelfs beter zijn dan modellen die onafhankelijk zijn getraind op vaste compressieniveaus.
De snelle uitbreiding van mobiel internet heeft geleid tot een aanzienlijke toename van door gebruikers gegenereerde inhoud (UGC) afbeeldingen, waardoor een grondige beoordeling van UGC-afbeeldingen zowel urgent als essentieel is geworden. Recentelijk hebben multimodale grote taalmodellen (MLLMs) groot potentieel getoond in beeldkwaliteitsbeoordeling (IQA) en beeldesthetische beoordeling (IAA). Ondanks deze vooruitgang zijn er nog steeds twee belangrijke uitdagingen bij het effectief beoordelen van de kwaliteit en esthetiek van UGC-afbeeldingen: 1) Een enkele score is onvoldoende om de hiërarchische menselijke perceptie vast te leggen. 2) Hoe MLLMs kunnen worden gebruikt om numerieke scores, zoals gemiddelde opiniescores (MOS), te genereren, blijft een open vraag. Om deze uitdagingen aan te pakken, introduceren we een nieuwe dataset, genaamd Realistic image Quality and Aesthetic (RealQA), die 14.715 UGC-afbeeldingen bevat, elk geannoteerd met 10 fijnmazige attributen. Deze attributen beslaan drie niveaus: laag niveau (bijv. beeldhelderheid), midden niveau (bijv. onderwerpintegriteit) en hoog niveau (bijv. compositie). Daarnaast voeren we een reeks diepgaande en uitgebreide onderzoeken uit naar hoe numerieke scores effectief kunnen worden voorspeld met behulp van MLLMs. Verrassend genoeg kan het next token-paradigma state-of-the-art (SOTA) prestaties bereiken door slechts twee extra significante cijfers te voorspellen. Bovendien kan de voorgestelde methode, met behulp van chain of thought (CoT) gecombineerd met de geleerde fijnmazige attributen, SOTA-methoden overtreffen op vijf openbare datasets voor IQA en IAA met superieure interpreteerbaarheid en sterke zero-shot generalisatie voor videokwaliteitsbeoordeling (VQA) tonen. De code en dataset zullen worden vrijgegeven.
Bestaande methoden voor 6D-pose-schatting van nieuwe objecten zijn doorgaans afhankelijk van CAD-modellen of dichte referentiebeelden, die beide moeilijk te verkrijgen zijn. Het gebruik van slechts één enkel referentiebeeld is schaalbaarder, maar uitdagend vanwege grote poseverschillen en beperkte geometrische en ruimtelijke informatie. Om deze problemen aan te pakken, stellen we een Single-Reference-based novel object 6D (SinRef-6D) pose-schattingsmethode voor. Onze kernidee is om iteratief puntgewijze uitlijning in het cameracoördinatensysteem te realiseren op basis van state space models (SSMs). Specifiek kan iteratieve puntgewijze uitlijning in de cameraruimte grote poseverschillen effectief aanpakken, terwijl onze voorgestelde RGB- en Points-SSM's langeafstandsafhankelijkheden en ruimtelijke informatie uit één enkel beeld kunnen vastleggen, wat lineaire complexiteit en superieure ruimtelijke modelleringscapaciteit biedt. Eenmaal voorgetraind op synthetische data, kan SinRef-6D de 6D-pose van een nieuw object schatten met slechts één enkel referentiebeeld, zonder hertraining of een CAD-model nodig te hebben. Uitgebreide experimenten op zes populaire datasets en real-world robotsituaties tonen aan dat we vergelijkbare prestaties behalen met CAD-gebaseerde en dichte referentiebeeld-gebaseerde methoden, ondanks dat we werken in de uitdagendere single reference setting. Code zal worden vrijgegeven op https://github.com/CNJianLiu/SinRef-6D.
Recente studies hebben aangetoond dat, wanneer ze op grote schaal worden getraind, uni-modale 2D-visie- en tekstencoders convergeren naar geleerde kenmerken die opmerkelijke structurele eigenschappen delen, ondanks dat ze voortkomen uit verschillende representaties. De rol van 3D-encoders ten opzichte van andere modaliteiten blijft echter onontgonnen. Bovendien worden bestaande 3D-foundationmodellen die gebruikmaken van grote datasets doorgaans getraind met expliciete uitlijningsdoelstellingen ten opzichte van bevroren encoders van andere representaties. In dit werk onderzoeken we de mogelijkheid van a posteriori-uitlijning van representaties die zijn verkregen uit uni-modale 3D-encoders in vergelijking met tekstgebaseerde kenmerkruimten. We laten zien dat naïeve uitlijning van kenmerken na de training van uni-modale tekst- en 3D-encoders resulteert in beperkte prestaties. Vervolgens richten we ons op het extraheren van deelruimten van de corresponderende kenmerkruimten en ontdekken we dat door geleerde representaties te projecteren op goed gekozen lagere-dimensionale deelruimten de kwaliteit van de uitlijning aanzienlijk hoger wordt, wat leidt tot verbeterde nauwkeurigheid bij matching- en retrievalthandelingen. Onze analyse werpt verder licht op de aard van deze gedeelde deelruimten, die ruwweg een scheiding maken tussen semantische en geometrische datarepresentaties. Over het geheel genomen is ons werk het eerste dat helpt bij het vaststellen van een basislijn voor uitlijning na de training van uni-modale 3D- en tekstkenmerkruimten, en dat helpt bij het benadrukken van zowel de gedeelde als de unieke eigenschappen van 3D-data in vergelijking met andere representaties.
Om één-op-veel feitelijke vragen te beantwoorden (bijvoorbeeld het opsommen van steden in een land), moet een taalmodel (LM) tegelijkertijd kennis oproepen en herhaling van eerder gegeven antwoorden vermijden. Hoe worden deze twee subtaken intern geïmplementeerd en geïntegreerd? Over meerdere datasets en modellen identificeren we een promote-then-suppress-mechanisme: het model roept eerst alle antwoorden op en onderdrukt vervolgens eerder gegenereerde antwoorden. Specifiek gebruiken LMs zowel het onderwerp als eerder gegenereerde antwoordtokens om kennis op te roepen, waarbij aandacht (attention) onderwerpinformatie verspreidt en MLPs (multi-layer perceptrons) de antwoorden bevorderen. Vervolgens richt aandacht zich op en onderdrukt eerder gegenereerde antwoordtokens, terwijl MLPs het onderdrukkingssignaal versterken. Ons mechanisme wordt ondersteund door uitgebreid experimenteel bewijs: naast het gebruik van early decoding en causal tracing, analyseren we hoe componenten verschillende tokens gebruiken door zowel Token Lens te introduceren, die geaggregeerde aandachtupdates van gespecificeerde tokens decodeert, als een knockout-methode die veranderingen in MLP-outputs analyseert na het verwijderen van aandacht naar gespecificeerde tokens. Over het geheel genomen bieden we nieuwe inzichten in hoe interne componenten van LMs interageren met verschillende invoertokens om complexe feitelijke herinnering te ondersteunen. Code is beschikbaar op https://github.com/Lorenayannnnn/how-lms-answer-one-to-many-factual-queries.
In dit artikel presenteren we een nieuw framework dat is ontworpen om lange sequenties van 3D menselijke beweging in wereldcoördinaten te reconstrueren uit in-the-wild video's met meerdere shotovergangen. Dergelijke lange sequenties van in-the-wild bewegingen zijn zeer waardevol voor toepassingen zoals beweginggeneratie en bewegingbegrip, maar vormen een grote uitdaging om te herstellen vanwege abrupte shotovergangen, gedeeltelijke occlusies en dynamische achtergronden die in dergelijke video's voorkomen. Bestaande methodes richten zich voornamelijk op video's met één shot, waarbij continuïteit binnen een enkel camerabeeld wordt gehandhaafd, of vereenvoudigen multi-shot uitlijning alleen in de cameraruimte. In dit werk pakken we de uitdagingen aan door een verbeterde camerapose-schatting te integreren met Human Motion Recovery (HMR) door een shotovergangdetector en een robuust uitlijningsmodule op te nemen voor nauwkeurige pose- en oriëntatiecontinuïteit tussen shots. Door gebruik te maken van een aangepaste bewegingintegrator, verminderen we effectief het probleem van voetglijden en zorgen we voor temporele consistentie in de menselijke pose. Uitgebreide evaluaties op onze gecreëerde multi-shot dataset, afgeleid van publieke 3D menselijke datasets, demonstreren de robuustheid van onze methode in het reconstrueren van realistische menselijke beweging in wereldcoördinaten.
Het afstemmen van grote taalmodellen (LLM's) op menselijke voorkeuren is cruciaal voor implementatie in de praktijk, maar bestaande methoden zoals RLHF kampen met computationele en stabiliteitsuitdagingen. Hoewel DPO een offline paradigma introduceert met één hyperparameter beta, brengen latere methoden zoals SimPO opnieuw complexiteit met zich mee door dubbele parameters (beta, gamma). Wij stellen {ReLU-based Preference Optimization (RePO)} voor, een gestroomlijnd algoritme dat beta elimineert via twee innovaties: (1) het behouden van de referentievrije marges van SimPO, maar het verwijderen van beta door middel van gradientanalyse, en (2) het toepassen van een ReLU-gebaseerd max-margin verlies dat triviaal paren op natuurlijke wijze filtert. Theoretisch wordt RePO gekarakteriseerd als het limietgeval van SimPO (beta naar oneindig), waarbij de logistische weging overgaat in binaire drempelvorming, wat een convex omhulsel van het 0-1 verlies vormt. Empirische resultaten op AlpacaEval 2 en Arena-Hard laten zien dat RePO DPO en SimPO overtreft bij meerdere basismodellen, waarbij slechts één hyperparameter afgestemd hoeft te worden.
Multimodale Large Language Models (MLLMs) tonen robuuste zero-shot-capaciteiten bij diverse visueel-taalkundige taken na training op mega-schaal datasets. Dichte voorspellingstaken, zoals semantische segmentatie en keypoint-detectie, vormen echter aanzienlijke uitdagingen voor MLLMs wanneer deze uitsluitend als tekstoutputs worden weergegeven. Tegelijkertijd laten huidige MLLMs die latente embeddings gebruiken voor visuele taakdecodering over het algemeen beperkte aanpassingsvermogen zien voor zowel multi-task learning als multi-granulariteitsscenario's. In dit werk presenteren we REF-VLM, een end-to-end framework voor de geïntegreerde training van diverse visuele decoderingstaken. Om complexe visuele decoderingsscenario's aan te pakken, introduceren we het Triplet-Based Referring Paradigm (TRP), dat drie kritieke dimensies in visuele decoderingstaken expliciet ontkoppelt via een tripletstructuur: concepten, decoderingstypen en doelen. TRP maakt gebruik van symbolische scheidingstekens om gestructureerde representatielearning te bevorderen, waardoor de parseerbaarheid en interpreteerbaarheid van modeloutputs worden verbeterd. Daarnaast construeren we het Visual-Task Instruction Following Dataset (VTInstruct), een grootschalige multi-task dataset met meer dan 100 miljoen multimodale dialoogvoorbeelden over 25 taaktypen. Naast tekstinputs en -outputs bevat VT-Instruct diverse visuele prompts zoals punt, box, scribble en mask, en genereert het outputs die bestaan uit tekst en visuele eenheden zoals box, keypoint, diepte en mask. De combinatie van verschillende visuele prompts en visuele eenheden genereert een breed scala aan taaktypen, waardoor de toepasbaarheid van REF-VLM aanzienlijk wordt uitgebreid. Zowel kwalitatieve als kwantitatieve experimenten tonen aan dat onze REF-VLM andere MLLMs overtreft op diverse standaard benchmarks. De code, dataset en demo zijn beschikbaar op https://github.com/MacavityT/REF-VLM.
Het combineren van bestaande vooraf getrainde expert-LLM's is een veelbelovende aanpak om op schaalbare wijze grootschalige en diverse taken aan te pakken. Het selecteren van experts op takeniveau is echter vaak te grofmazig, aangezien heterogene taken voor elk geval verschillende expertise kunnen vereisen. Om adaptieve, gevalsspecifieke menging van vooraf getrainde LLM-experts mogelijk te maken, stellen we Symbolic-MoE voor, een symbolisch, tekstgebaseerd en gradientvrij Mixture-of-Experts-framework. Symbolic-MoE hanteert een fijnmazige benadering door de nadruk te leggen op vaardigheden, zoals algebra in wiskunde of moleculaire biologie in biomedisch redeneren. We introduceren een op vaardigheden gebaseerde rekruteringsstrategie die dynamisch de meest relevante set expert-LLM's selecteert voor diverse redeneertaken op basis van hun sterktes. Elke geselecteerde expert genereert vervolgens zijn eigen redenering, wat resulteert in k uitvoeren van k experts, die vervolgens worden samengevoegd tot een hoogwaardig eindantwoord door een aggregator die is gekozen op basis van zijn vermogen om diverse redeneeruitkomsten te integreren. We tonen aan dat de gevalsspecifieke expertselectie van Symbolic-MoE de prestaties aanzienlijk verbetert, maar — wanneer naïef geïmplementeerd — een hoge rekenkundige overhead kan introduceren vanwege de noodzaak voor constant laden en ontladen van modellen. Om dit aan te pakken, implementeren we een batch-inferentiestrategie die gevallen groepeert op basis van hun toegewezen experts, waarbij elk model slechts één keer wordt geladen. Hierdoor kunnen we 16 expertmodellen integreren op 1 GPU met een tijdsinvestering die vergelijkbaar is of beter dan eerdere multi-agent-baselines die 4 GPU's gebruiken. Door uitgebreide evaluaties op diverse benchmarks (MMLU-Pro, GPQA, AIME en MedMCQA) demonstreren we dat Symbolic-MoE sterke LLM's zoals GPT4o-mini, evenals multi-agent-benaderingen, overtreft met een absolute gemiddelde verbetering van 8,15% ten opzichte van de beste multi-agent-baseline. Bovendien elimineert Symbolic-MoE de noodzaak voor dure multi-ronde discussies en overtreft het discussie-baselines met minder rekenkracht.
We presenteren PhiloBERTA, een meertalig transformermodel dat semantische relaties meet tussen oude Griekse en Latijnse woordenschatten. Door analyse van geselecteerde termparen uit klassieke teksten gebruiken we contextuele embeddings en hoekvergelijkingsmetrieken om precieze semantische overeenkomsten te identificeren. Onze resultaten tonen aan dat etymologisch verwante paren aanzienlijk hogere gelijkenisscores vertonen, met name voor abstracte filosofische concepten zoals epist\=em\=e (scientia) en dikaiosyn\=e (iustitia). Statistische analyse onthult consistente patronen in deze relaties (p = 0,012), waarbij etymologisch verwante paren opmerkelijk stabiele semantische behoud vertonen in vergelijking met controleparen. Deze bevindingen vormen een kwantitatief kader voor het onderzoeken van hoe filosofische concepten zich tussen de Griekse en Latijnse tradities verplaatsten, en bieden nieuwe methoden voor klassiek filologisch onderzoek.
Robotisch grijpen in scènes met transparante en spiegelende objecten vormt grote uitdagingen voor methoden die afhankelijk zijn van nauwkeurige diepte-informatie. In dit artikel introduceren we NeuGrasp, een neurale oppervlakte-reconstructiemethode die gebruikmaakt van achtergrondpriors voor materiaalonafhankelijke grijpdetectie. NeuGrasp integreert transformers en globale priorvolumes om multiview-kenmerken te aggregeren met ruimtelijke codering, wat robuuste oppervlakte-reconstructie mogelijk maakt onder smalle en schaarse waarnemingsomstandigheden. Door zich te richten op voorgrondobjecten via residu-kenmerkverbetering en ruimtelijke waarneming te verfijnen met een bezettingspriorvolume, blinkt NeuGrasp uit in het omgaan met objecten met transparante en spiegelende oppervlakken. Uitgebreide experimenten in zowel gesimuleerde als realistische scenario's tonen aan dat NeuGrasp state-of-the-art methoden overtreft in grijpen, terwijl het vergelijkbare reconstructiekwaliteit behoudt. Meer details zijn beschikbaar op https://neugrasp.github.io/.
Hoewel score-gebaseerde generatieve modellen het voorkeursmodel zijn in diverse domeinen, zijn er beperkte tools beschikbaar voor het op een principiële manier beheersen van gedrag tijdens inferentie, bijvoorbeeld voor het combineren van meerdere vooraf getrainde modellen. Bestaande methoden voor classifier-free guidance gebruiken een eenvoudige heuristiek om conditionele en niet-conditionele scores te mengen om ongeveer te bemonsteren uit conditionele verdelingen. Dergelijke methoden benaderen echter niet de tussenliggende verdelingen, wat extra 'corrector'-stappen noodzakelijk maakt. In dit werk bieden we een efficiënte en principiële methode voor het bemonsteren uit een reeks van geannealde, geometrisch gemiddelde of productverdelingen afgeleid van vooraf getrainde score-gebaseerde modellen. We leiden een gewogen simulatiewijze af die we Feynman-Kac Correctors (FKCs) noemen, gebaseerd op de beroemde Feynman-Kac-formule door zorgvuldig rekening te houden met termen in de bijbehorende partiële differentiaalvergelijkingen (PDE's). Om deze PDE's te simuleren, stellen we Sequential Monte Carlo (SMC) resampling-algoritmen voor die gebruikmaken van schaling tijdens inferentie om de bemonsteringskwaliteit te verbeteren. We tonen empirisch het nut van onze methoden aan door geamortiseerd bemonsteren via temperatuurannealing tijdens inferentie voor te stellen, de generatie van moleculen met meerdere doelen te verbeteren met behulp van vooraf getrainde modellen, en classifier-free guidance voor tekst-naar-beeldgeneratie te verbeteren. Onze code is beschikbaar op https://github.com/martaskrt/fkc-diffusion.