Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Reinforcement Learning met Verifieerbare Beloningen (RLVR) is naar voren gekomen als een krachtige benadering om de redeneervaardigheden van Grote Taalmodellen (LLMs) te verbeteren, hoewel de onderliggende mechanismen nog niet goed worden begrepen. In dit werk ondernemen we een baanbrekende verkenning van RLVR vanuit het nieuwe perspectief van token-entropiepatronen, waarbij we uitgebreid analyseren hoe verschillende tokens de redeneerprestaties beïnvloeden. Door token-entropiepatronen in Chain-of-Thought (CoT)-redenering te onderzoeken, observeren we dat slechts een klein deel van de tokens een hoge entropie vertoont, en dat deze tokens fungeren als kritieke splitsingen die het model naar diverse redeneerpaden sturen. Bovendien laat de studie van hoe entropiepatronen evolueren tijdens RLVR-training zien dat RLVR grotendeels de entropiepatronen van het basismodel volgt, waarbij voornamelijk de entropie van tokens met hoge entropie wordt aangepast. Deze bevindingen benadrukken het belang van tokens met hoge entropie (d.w.z. splitsingstokens) voor RLVR. We verbeteren RLVR uiteindelijk door policy gradient-updates te beperken tot splitsingstokens en ontdekken een bevinding die zelfs verder gaat dan de 80/20-regel: door slechts 20% van de tokens te gebruiken, behouden we prestaties die vergelijkbaar zijn met volledige gradient-updates op het Qwen3-8B basismodel en overtreffen we deze aanzienlijk op de Qwen3-32B (+11.04 op AIME'25 en +7.71 op AIME'24) en Qwen3-14B (+4.79 op AIME'25 en +5.21 op AIME'24) basismodellen, wat een sterke schaalbaarheidstrend benadrukt. Daarentegen leidt training uitsluitend op de 80% tokens met de laagste entropie tot een aanzienlijke daling in prestaties. Deze bevindingen geven aan dat de effectiviteit van RLVR voornamelijk voortkomt uit het optimaliseren van de tokens met hoge entropie die de redeneerrichtingen bepalen. Collectief benadrukken onze resultaten het potentieel om RLVR te begrijpen vanuit een token-entropieperspectief en RLVR te optimaliseren door gebruik te maken van tokens met hoge entropie om de redeneervaardigheden van LLMs verder te verbeteren.
Vision-language models (VLMs) die vooraf zijn getraind op grootschalige multimodale datasets, bevatten rijke visuele en linguïstische kennis, waardoor ze een sterke basis vormen voor robotica. In plaats van robotbeleid vanaf nul te trainen, passen recente benaderingen VLMs aan tot vision-language-action (VLA) modellen die natuurlijke taalgestuurde perceptie en controle mogelijk maken. Bestaande VLA's zijn echter doorgaans enorm—vaak met miljarden parameters—wat leidt tot hoge trainingskosten en beperkte inzetbaarheid in de praktijk. Bovendien vertrouwen ze op academische en industriële datasets, waarbij de groeiende beschikbaarheid van door de gemeenschap verzamelde data van betaalbare robotplatformen over het hoofd wordt gezien. In dit werk presenteren we SmolVLA, een klein, efficiënt en gemeenschapsgedreven VLA dat zowel de trainings- als de inferentiekosten drastisch verlaagt, terwijl het competitieve prestaties behoudt. SmolVLA is ontworpen om op een enkele GPU getraind te worden en ingezet te worden op consumenten-GPU's of zelfs CPU's. Om de responsiviteit verder te verbeteren, introduceren we een asynchrone inferentiestack die perceptie en actievoorspelling ontkoppelt van actie-uitvoering, waardoor hogere controlefrequenties mogelijk zijn met gefragmenteerde actiegeneratie. Ondanks zijn compacte formaat bereikt SmolVLA prestaties die vergelijkbaar zijn met VLA's die 10x groter zijn. We evalueren SmolVLA op een reeks gesimuleerde en real-world robotbenchmarks en geven alle code, vooraf getrainde modellen en trainingsdata vrij.
We introduceren Reasoning Gym (RG), een bibliotheek van redeneeromgevingen voor reinforcement learning met verifieerbare beloningen. Het biedt meer dan 100 datageneratoren en verifiers die meerdere domeinen omvatten, waaronder algebra, rekenen, computationele taken, cognitie, meetkunde, grafentheorie, logica en diverse gangbare spellen. De belangrijkste innovatie is de mogelijkheid om vrijwel oneindige trainingsdata te genereren met instelbare complexiteit, in tegenstelling tot de meeste eerdere redeneerdatasets, die doorgaans vastliggen. Deze procedurele generatiebenadering maakt continue evaluatie mogelijk over verschillende moeilijkheidsgraden. Onze experimentele resultaten tonen de effectiviteit van RG aan, zowel voor evaluatie als voor reinforcement learning van redeneermodellen.
Multimodale grote taalmodellen (MLLMs) hebben veelbelovende capaciteiten getoond in redeneertaken, maar worstelen nog steeds met complexe problemen die expliciete zelfreflectie en zelfcorrectie vereisen, vooral in vergelijking met hun unimodale tekstgebaseerde tegenhangers. Bestaande reflectiemethoden zijn simplistisch en hebben moeite om zinvolle en instructieve feedback te genereren, aangezien het redeneervermogen en de kennisgrenzen van vooraf getrainde modellen grotendeels vastliggen tijdens de initiële training. Om deze uitdagingen te overwinnen, stellen we Multimodale Zelfreflectie-versterkt redeneren met Groepsrelatief Beleidsoptimalisatie (SRPO) voor, een tweestaps reflectiebewust reinforcement learning (RL) raamwerk dat expliciet is ontworpen om het redeneervermogen van multimodale LLMs te verbeteren. In de eerste fase construeren we een hoogwaardige, reflectiegerichte dataset onder begeleiding van een geavanceerd MLLM, dat reflecties genereert op basis van initiële antwoorden om het beleidsmodel zowel redeneren als zelfreflectie te laten leren. In de tweede fase introduceren we een nieuw beloningsmechanisme binnen het GRPO-raamwerk dat beknopte en cognitief zinvolle reflectie aanmoedigt terwijl redundantie wordt vermeden. Uitgebreide experimenten over meerdere multimodale redeneerbenchmarks, waaronder MathVista, MathVision, MathVerse en MMMU-Pro, met gebruik van Qwen-2.5-VL-7B en Qwen-2.5-VL-32B, tonen aan dat SRPO aanzienlijk beter presteert dan state-of-the-art modellen, met opmerkelijke verbeteringen in zowel redeneernauwkeurigheid als reflectiekwaliteit.
Het trainen van grote taalmmodellen (LLM's) brengt uitdagingen met zich mee vanwege hun enorme schaal en heterogene architecturen. Hoewel adaptieve optimalisatie-algoritmen zoals AdamW helpen bij het aanpakken van gradiëntvariaties, hebben ze nog steeds moeite met efficiënte en effectieve parameterspecifieke leersnelheidsschatting, wat resulteert in trainingsinstabiliteit, trage convergentie en slechte compatibiliteit met parameter-efficiënte fine-tuningtechnieken (PEFT). Dit werk introduceert Scaling with Gradient Grouping (SGG), een optimalisatie-wrapper die adaptieve leersnelheidsschatting verbetert door dynamische groepering en groepsspecifieke schaling. SGG groepeert eerst gradiëntstatistieken in elke laag in clusters en past vervolgens clusterspecifieke schaling toe om de leersnelheden voor elke parameter te kalibreren, waardoor collectieve groepsspecifieke beperkingen worden opgelegd terwijl precieze parameterspecifieke aanpassing behouden blijft. Experimenten op diverse (M)LLM-benchmarks tonen aan dat SGG naadloos integreert met bestaande optimalisatie-algoritmen en consistente verbeteringen en snellere convergentie biedt ten opzichte van baseline-methoden, bij verschillende modelgroottes. De stabiliteit van SGG bij variërende batchgroottes en leersnelheden maakt het tot een robuuste keuze voor LLM-optimalisatie.
Recente vooruitgang in tekst-naar-video diffusiemodellen heeft hoogwaardige videosynthese mogelijk gemaakt, maar beheerste generatie blijft een uitdaging, vooral bij beperkte data en rekenkracht. Bestaande fine-tuningmethoden voor conditionele generatie zijn vaak afhankelijk van externe encoders of architectuurwijzigingen, die grote datasets vereisen en meestal beperkt zijn tot ruimtelijk uitgelijnde conditionering, wat flexibiliteit en schaalbaarheid beperkt. In dit werk introduceren we Temporal In-Context Fine-Tuning (TIC-FT), een efficiënte en veelzijdige aanpak voor het aanpassen van vooraf getrainde videodiffusiemodellen aan diverse conditionele generatietaken. Onze kernidee is om conditie- en doelbeelden langs de temporele as samen te voegen en tussenliggende bufferbeelden in te voegen met geleidelijk toenemende ruisniveaus. Deze bufferbeelden maken soepele overgangen mogelijk, waardoor het fine-tuningproces wordt afgestemd op de temporele dynamiek van het vooraf getrainde model. TIC-FT vereist geen architectuurwijzigingen en behaalt sterke prestaties met slechts 10-30 trainingsmonsters. We valideren onze methode voor een reeks taken, waaronder beeld-naar-video en video-naar-videogeneratie, met behulp van grootschalige basismodellen zoals CogVideoX-5B en Wan-14B. Uitgebreide experimenten tonen aan dat TIC-FT bestaande baseline-methoden overtreft in zowel conditionele trouw als visuele kwaliteit, terwijl het zeer efficiënt blijft in zowel training als inferentie. Voor aanvullende resultaten, bezoek https://kinam0252.github.io/TIC-FT/
Grote taalmodellen (LLMs) hebben agents in staat gesteld om complexe redeneringen en besluitvorming uit te voeren via vrije taalinteracties. Echter, in open-ended taalactieomgevingen (bijvoorbeeld onderhandelings- of vraagstellingsspellen) kan de actieruimte worden geformuleerd als een gezamenlijke verdeling over tokens, wat resulteert in een exponentieel grote actieruimte. Het bemonsteren van acties in zo'n ruimte kan leiden tot extreme beloningsschaarste, wat grote beloningsvariantie veroorzaakt en effectieve reinforcement learning (RL) belemmert. Om dit aan te pakken, stellen we ARIA voor, een methode die beloningen aggregeert in de intentieruimte om efficiënte en effectieve training van taalagents mogelijk te maken. ARIA beoogt natuurlijke taalacties vanuit de hoogdimensionale gezamenlijke tokenverdelingruimte te projecteren in een laagdimensionale intentieruimte, waar semantisch vergelijkbare acties worden gegroepeerd en gedeelde beloningen krijgen toegewezen. Deze intentiebewuste beloningsaggregatie vermindert de beloningsvariantie door beloningssignalen te verdichten, wat betere beleidsoptimalisatie bevordert. Uitgebreide experimenten tonen aan dat ARIA niet alleen de variantie van het beleidsgradiënt aanzienlijk vermindert, maar ook substantiële prestatieverbeteringen oplevert met een gemiddelde van 9,95% over vier downstream taken, en consistent beter presteert dan offline en online RL-baselines.
In de echte wereld worden belichaamde agenten geconfronteerd met taken met een lange horizon, gekenmerkt door hoogwaardige doelen die meerdere stappen vereisen die verder gaan dan enkele acties. Het succesvol navigeren door deze taken vereist zowel hoogwaardige taakplanning (d.w.z. het opdelen van doelen in sub-taken) als laagwaardige bewegingscontrole (d.w.z. het genereren van precieze robotacties). Hoewel bestaande vision-language-action (VLA) modellen en hiërarchische architecturen potentieel bieden voor belichaamde taken, faalt de eerste vaak in planning, en kan de laatste last hebben van coördinatieproblemen, wat beide de prestaties belemmert. We introduceren een nieuw geünificeerd VLA-framework voor taken met een lange horizon, genaamd LoHoVLA, om deze beperkingen te overwinnen. LoHoVLA maakt gebruik van een groot vooraf getraind vision-language model (VLM) als ruggengraat om gezamenlijk taal- en actietokens te genereren voor respectievelijk sub-taakgeneratie en robotactievoorspelling. Deze gedeelde representatie bevordert een betere generalisatie over taken. Daarnaast omarmt LoHoVLA een hiërarchisch gesloten-lus controlemechanisme om fouten afkomstig van zowel hoogwaardige planning als laagwaardige controle te verminderen. Om LoHoVLA te trainen, introduceren we LoHoSet, een dataset gebaseerd op de Ravens-simulator, die 20 taken met een lange horizon bevat, elk met 1.000 expertdemonstraties bestaande uit visuele observaties, linguïstische doelen, sub-taken en robotacties. Experimentele resultaten tonen aan dat LoHoVLA zowel hiërarchische als standaard VLA-benaderingen significant overtreft bij taken met een lange horizon in de Ravens-simulator. Deze bevindingen onderstrepen de belofte van geünificeerde architecturen voor het bevorderen van generaliseerbare belichaamde intelligentie.
Onlangs heeft de krachtige tekst-naar-beeldmogelijkheid van ChatGPT-4o geleid tot een groeiende waardering voor native multimodale grote taalmodellen. Echter, de multimodale mogelijkheden blijven beperkt tot afbeeldingen en tekst. Toch is, naast afbeeldingen, het vermogen om 3D-inhoud te begrijpen en te genereren eveneens cruciaal. Om dit gat te dichten, stellen wij ShapeLLM-Omni voor - een native 3D groot taalmodel dat in staat is om 3D-assets en tekst in elke volgorde te begrijpen en te genereren. Eerst trainen we een 3D vector-gekwantiseerde variational autoencoder (VQVAE), die 3D-objecten afbeeldt op een discreet latent ruimte om efficiënte en nauwkeurige vormrepresentatie en -reconstructie te bereiken. Gebaseerd op de 3D-bewuste discrete tokens, construeren we innovatief een grootschalige continue trainingsdataset genaamd 3D-Alpaca, die generatie, begrip en bewerking omvat, waardoor rijke bronnen worden geboden voor toekomstig onderzoek en training. Ten slotte voeren we instructiegebaseerde training uit van het Qwen-2.5-vl-7B-Instruct model op de 3D-Alpaca dataset. Ons werk biedt een effectieve poging om multimodale modellen uit te breiden met basis 3D-mogelijkheden, wat bijdraagt aan toekomstig onderzoek in 3D-native AI. Projectpagina: https://github.com/JAMESYJL/ShapeLLM-Omni
De toepassing van regelgebaseerd reinforcement learning (RL) op multimodale grote taalmodellen (MLLMs) brengt unieke uitdagingen en mogelijke afwijkingen met zich mee ten opzichte van bevindingen in tekstuele domeinen, met name voor perceptie-intensieve taken. Dit artikel biedt een uitgebreide studie van regelgebaseerd visueel RL, waarbij legpuzzels worden gebruikt als een gestructureerd experimenteel kader. Legpuzzels bieden inherente grondwaarheid, aanpasbare moeilijkheidsgraad en vereisen complexe besluitvorming, wat ze ideaal maakt voor deze studie. Ons onderzoek onthult verschillende belangrijke bevindingen: Ten eerste constateren we dat MLLMs, die aanvankelijk bijna willekeurig gissen op de eenvoudigste legpuzzels, bijna perfecte nauwkeurigheid bereiken en generaliseren naar complexe, onbekende configuraties door middel van fine-tuning. Ten tweede kan training op legpuzzels generalisatie naar andere visuele taken induceren, waarbij de effectiviteit gebonden is aan specifieke taakconfiguraties. Ten derde kunnen MLLMs leren en generaliseren met of zonder expliciete redenering, hoewel open-source modellen vaak de voorkeur geven aan direct antwoorden. Hierdoor kunnen ze, zelfs wanneer ze getraind zijn voor stap-voor-stap redenering, het denkproces negeren bij het afleiden van het uiteindelijke antwoord. Ten vierde observeren we dat complexe redeneerpatronen eerder vooraf bestaan dan emergent zijn, waarbij hun frequentie toeneemt naarmate de training en taakmoeilijkheid toenemen. Tot slot tonen onze resultaten aan dat RL effectievere generalisatie vertoont dan Supervised Fine-Tuning (SFT), en dat een initiële SFT cold start-fase de daaropvolgende RL-optimalisatie kan belemmeren. Hoewel deze observaties gebaseerd zijn op legpuzzels en kunnen variëren bij andere visuele taken, draagt dit onderzoek een waardevol puzzelstukje bij aan het grotere geheel van het collectieve begrip van regelgebaseerd visueel RL en zijn potentieel in multimodaal leren. De code is beschikbaar op: https://github.com/zifuwanggg/Jigsaw-R1.
Recente vooruitgang in videodiffusiemodellen heeft een sterk potentieel aangetoond voor het genereren van gegevens voor robotische besluitvorming, waarbij trajectcondities een fijnmazige controle mogelijk maken. Bestaande methoden op basis van trajecten richten zich echter voornamelijk op de beweging van individuele objecten en hebben moeite met het vastleggen van interacties tussen meerdere objecten, wat cruciaal is voor complexe robotmanipulatie. Deze beperking ontstaat door de verstrengeling van meerdere kenmerken in overlappende gebieden, wat leidt tot verminderde visuele kwaliteit. Om dit aan te pakken, presenteren we RoboMaster, een nieuw raamwerk dat de dynamiek tussen objecten modelleert via een collaboratieve trajectformulering. In tegenstelling tot eerdere methoden die objecten ontbinden, is onze kern het ontbinden van het interactieproces in drie substappen: pre-interactie, interactie en post-interactie. Elke stap wordt gemodelleerd met behulp van het kenmerk van het dominante object, specifiek de robotarm in de pre- en post-interactiefasen en het gemanipuleerde object tijdens de interactie, waardoor het nadeel van het samenvoegen van kenmerken van meerdere objecten tijdens interactie in eerdere werk wordt verminderd. Om verder de semantische consistentie van het onderwerp gedurende de video te waarborgen, incorporeren we latenterepresentaties die gericht zijn op uiterlijk en vorm voor objecten. Uitgebreide experimenten op de uitdagende Bridge V2-dataset, evenals evaluatie in de praktijk, tonen aan dat onze methode de bestaande benaderingen overtreft en een nieuwe state-of-the-art prestaties vestigt in trajectgecontroleerde videogeneratie voor robotmanipulatie.
Reinforcement learning (RL) is uitgegroeid tot een populaire benadering voor het trainen van grote taalmodelen (LLMs), met name voor redeneertaken. Effectieve RL voor LLMs vereist massale parallelisatie en stelt een dringende behoefte aan efficiënte trainingssystemen. De meeste bestaande grootschalige RL-systemen voor LLMs zijn synchroon door het afwisselen van generatie en training in een batch-setting, waarbij de rollouts in elke trainingsbatch worden gegenereerd door hetzelfde (of meest recente) model. Dit stabiliseert RL-training, maar lijdt onder ernstige systeeminefficiëntie. Generatie moet wachten tot de langste uitvoer in de batch is voltooid voordat het model wordt bijgewerkt, wat resulteert in onderbenutting van GPU's. Wij presenteren AReaL, een volledig asynchroon RL-systeem dat generatie volledig ontkoppelt van training. Rollout-workers in AReaL genereren continu nieuwe uitvoer zonder te wachten, terwijl trainingsworkers het model bijwerken zodra een batch gegevens is verzameld. AReaL bevat ook een reeks systeemoptimalisaties, wat leidt tot aanzienlijk hogere GPU-benutting. Om RL-training te stabiliseren, balanceert AReaL de werklast van rollout- en trainingsworkers om de veroudering van gegevens te beheersen en neemt het een verouderingsverbeterde PPO-variant over om verouderde trainingsmonsters beter te verwerken. Uitgebreide experimenten op benchmarks voor wiskundig en coderingsredeneren tonen aan dat AReaL een trainingsversnelling tot 2,57 keer bereikt in vergelijking met de beste synchrone systemen met hetzelfde aantal GPU's en gelijke of zelfs verbeterde eindprestaties. De code van AReaL is beschikbaar op https://github.com/inclusionAI/AReaL/.
Grote Multimodale Modellen (LMMs) hebben sterke prestaties getoond in diverse visie-taaltaken. Ze hebben echter vaak moeite om Aardobservatie (EO)-data grondig te begrijpen, wat cruciaal is voor het monitoren van het milieu en de effecten van menselijke activiteit daarop. In dit werk presenteren we EarthMind, een nieuw visie-taalraamwerk voor het begrijpen van multi-granulaire en multi-sensor EO-data. EarthMind beschikt over twee kerncomponenten: (1) Spatial Attention Prompting (SAP), dat de aandacht binnen het LLM herverdeelt om het begrip op pixelniveau te verbeteren; en (2) Cross-modale Fusie, die heterogene modaliteiten uitlijnt in een gedeelde ruimte en tokens adaptief herweegt op basis van hun informatiedichtheid voor effectieve fusie. Om de evaluatie van multi-sensorfusie te vergemakkelijken, stellen we EarthMind-Bench voor, een uitgebreide benchmark met meer dan 2000 door mensen geannoteerde multi-sensor beeld-vraagparen, die een breed scala aan perceptie- en redeneertaken bestrijken. Uitgebreide experimenten tonen de effectiviteit van EarthMind aan. Het behaalt state-of-the-art prestaties op EarthMind-Bench en overtreft GPT-4o ondanks dat het slechts 4B in schaal is. Bovendien presteert EarthMind beter dan bestaande methoden op meerdere openbare EO-benchmarks, wat het potentieel aantoont om zowel multi-granulaire als multi-sensoruitdagingen in een uniform raamwerk aan te pakken.
Schaalwetten hebben recente vooruitgang in machine learning vormgegeven door het voorspelbaar schalen van modelprestaties mogelijk te maken op basis van modelgrootte, rekenkracht en datavolume. Tegelijkertijd heeft de stijging van de rekenkosten voor AI geleid tot modelcompressietechnieken, met name kwantisatie en versparsing, die zijn ontstaan om de hoge rekenkundige eisen die gepaard gaan met grootschalige training en inferentie te verminderen. Dit artikel onderzoekt de wisselwerking tussen schaalwetten en compressieformaten, waarbij wordt verkend of een uniform schaalraamwerk nauwkeurig de modelprestaties kan voorspellen wanneer training plaatsvindt over verschillende gecomprimeerde representaties, zoals verspreide, scalaire gekwantiseerde, verspreid-gekwantiseerde of zelfs vector-gekwantiseerde formaten. Onze belangrijkste bijdragen omvatten het valideren van een algemene formulering van schaalwetten en het aantonen dat deze zowel individueel als combineerbaar toepasbaar is over verschillende compressietypen. Op basis hiervan is onze belangrijkste bevinding dat we zowel theoretisch als empirisch aantonen dat er een eenvoudige "capaciteits"metriek bestaat – gebaseerd op het vermogen van de representatie om willekeurige Gaussische data te passen – die robuust de parameter-efficiëntie over meerdere gecomprimeerde representaties kan voorspellen. Praktisch gezien breiden we onze formulering uit om de nauwkeurigheidsmogelijkheden van verschillende gecomprimeerde formaten direct te vergelijken en om betere algoritmen af te leiden voor training over verspreid-gekwantiseerde formaten.
Bestaande grote taalmodellen (LLMs) hebben moeite met het volgen van complexe instructies, vooral wanneer meerdere beperkingen aanwezig zijn en georganiseerd zijn in parallelle, ketting- en vertakkende structuren. Een intuïtieve oplossing, namelijk chain-of-thought (CoT), wordt verwacht de capaciteiten van LLMs universeel te verbeteren. Echter, wij constateren dat de standaard CoT een negatieve impact heeft op de prestaties vanwege het oppervlakkige redeneerpatroon dat simpelweg de instructies parafraseert. Het slaagt er niet in de samenstellingen van beperkingen te ontleden om hun relatie over hiërarchieën van typen en dimensies te identificeren. Daarom stellen wij een systematische methode voor om LLMs te verbeteren in het omgaan met complexe instructies door redeneren te stimuleren voor schaling van rekentijd tijdens testen. Ten eerste vertrekken wij vanuit de ontleding van complexe instructies onder bestaande taxonomieën en stellen wij een reproduceerbare methode voor gegevensverwerving voor. Ten tweede benutten wij reinforcement learning (RL) met verifieerbare regelgerichte beloningssignalen om specifiek redeneren voor het volgen van instructies te cultiveren. Wij pakken het oppervlakkige, niet-essentiële karakter van redeneren onder complexe instructies aan via steekproefgewijs contrast voor superieure CoT-handhaving. Wij benutten ook gedragskloning van experts om een gestage verschuiving in distributie te faciliteren van sneldenkende LLMs naar vaardige redeneerders. Uitgebreide evaluaties op zeven uitgebreide benchmarks bevestigen de geldigheid van de voorgestelde methode, waarbij een 1.5B LLM een winst van 11.74% behaalt met prestaties vergelijkbaar met een 8B LLM. Codes en gegevens zijn beschikbaar op https://github.com/yuleiqin/RAIF.
Beloningsmodellering is een cruciale stap bij het ontwikkelen van veilige basis modellen wanneer reinforcement learning met menselijke feedback (RLHF) wordt toegepast om Large Language Models (LLMs) af te stemmen. Beloningsmodellering gebaseerd op het Bradley-Terry (BT) model veronderstelt echter een globale beloningsfunctie, waardoor het niet in staat is om de inherent diverse en heterogene menselijke voorkeuren vast te leggen. Deze oversimplificatie beperkt LLMs in het ondersteunen van personalisatie en pluralistische afstemming. Theoretisch laten we zien dat wanneer menselijke voorkeuren een mengverdeling van diverse subgroepen volgen, een enkel BT-model een onherleidbare fout heeft. Hoewel bestaande oplossingen, zoals multi-objectief leren met gedetailleerde annotaties, helpen om dit probleem aan te pakken, zijn ze kostbaar en beperkt door vooraf gedefinieerde attributen, waardoor ze niet volledig de rijkdom van menselijke waarden kunnen vastleggen. In dit werk introduceren we MiCRo, een tweestaps raamwerk dat gepersonaliseerd voorkeurenleren verbetert door gebruik te maken van grootschalige binaire voorkeursdatasets zonder expliciete gedetailleerde annotaties te vereisen. In de eerste fase introduceert MiCRo een contextbewuste mengmodelleringbenadering om diverse menselijke voorkeuren vast te leggen. In de tweede fase integreert MiCRo een online routeringsstrategie die de menggewichten dynamisch aanpast op basis van specifieke context om ambiguïteit op te lossen, waardoor efficiënte en schaalbare voorkeursaanpassing mogelijk wordt met minimale aanvullende supervisie. Experimenten op meerdere voorkeursdatasets tonen aan dat MiCRo effectief diverse menselijke voorkeuren vastlegt en de downstream personalisatie aanzienlijk verbetert.
De snelle vooruitgang van door kunstmatige intelligentie gegenereerde inhoud (AIGC) in visuele domeinen heeft geleid tot zeer realistische synthetische afbeeldingen en video's, aangedreven door geavanceerde generatieve frameworks zoals op diffusie gebaseerde architecturen. Hoewel deze doorbraken aanzienlijke mogelijkheden bieden, roepen ze tegelijkertijd kritieke zorgen op over de authenticiteit en integriteit van inhoud. Veel huidige AIGC-detectiemethoden functioneren als black-box binaire classificatoren, die beperkte interpreteerbaarheid bieden, en geen enkele aanpak ondersteunt het detecteren van zowel afbeeldingen als video's in een uniform raamwerk. Deze dubbele beperking ondermijnt de transparantie van het model, vermindert de betrouwbaarheid en belemmert de praktische implementatie. Om deze uitdagingen aan te pakken, introduceren we IVY-FAKE, een nieuw, uniform en grootschalig dataset die specifiek is ontworpen voor interpreteerbare multimodale AIGC-detectie. In tegenstelling tot eerdere benchmarks, die lijden onder gefragmenteerde modaliteitsdekking en schaarse annotaties, bevat IVY-FAKE meer dan 150.000 rijk geannoteerde trainingsvoorbeelden (afbeeldingen en video's) en 18.700 evaluatievoorbeelden, elk vergezeld van gedetailleerde natuurlijke-taalbeweringen die verder gaan dan eenvoudige binaire labels. Hierop voortbouwend stellen we de Ivy Explainable Detector (IVY-XDETECTOR) voor, een uniforme AIGC-detectie- en interpreteerbare architectuur die gezamenlijk interpreteerbare detectie uitvoert voor zowel afbeeldingen als video-inhoud. Ons uniforme visie-taalmodel behaalt state-of-the-art prestaties op meerdere afbeeldingen- en video-detectiebenchmarks, wat de significante vooruitgang benadrukt die mogelijk wordt gemaakt door onze dataset en modelleringsframework. Onze data is publiekelijk beschikbaar op https://huggingface.co/datasets/AI-Safeguard/Ivy-Fake.
Chain-of-Thought (CoT) prompting maakt complex redeneren mogelijk in grote taalmodel(len) (LLM's), inclusief toepassingen in informatiezoeken (IR). Het leidt echter vaak tot overdenken, waarbij modellen excessief lange en semantisch redundante sporen produceren met weinig of geen voordeel. We identificeren twee belangrijke uitdagingen in IR: redundante trajecten die vergelijkbare staten opnieuw bezoeken en misleidend redeneren dat afwijkt van de gebruikersintentie. Om deze problemen aan te pakken, stellen we State Machine Reasoning (SMR) voor, een transitiegebaseerd redeneerkader bestaande uit discrete acties (Verfijnen, Herrangschikken, Stoppen) die vroegtijdig stoppen en fijnmazige controle ondersteunen. Experimenten op de BEIR- en BRIGHT-benchmarks tonen aan dat SMR de zoekprestaties (nDCG@10) met 3,4% verbetert terwijl het tokengebruik met 74,4% wordt verminderd. Het generaliseert over LLM's en zoeksystemen zonder taakspecifieke afstemming te vereisen, en biedt zo een praktisch alternatief voor conventioneel CoT-redeneren. De code en details zijn beschikbaar op https://github.com/ldilab/SMR.
Het direct trainen van Large Language Models (LLMs) voor Multi-Agent Systems (MAS) blijft uitdagend vanwege complexe beloningsmodellering, dynamische agentinteracties en veeleisende generalisatievereisten. Dit artikel onderzoekt of post-trainingtechnieken, specifiek Supervised Fine-Tuning (SFT) en Reinforcement Learning with Verifiable Rewards (RLVR), effectief kunnen generaliseren naar multi-agent scenario's. We gebruiken economisch redeneren als testomgeving, waarbij we gebruikmaken van de sterke wiskundige en speltheoretische fundamenten, de vraag naar gestructureerd analytisch redeneren en de relevantie voor real-world toepassingen zoals marktontwerp, resourceallocatie en beleidsanalyse. We introduceren Recon (Reasoning like an ECONomist), een open-source LLM met 7B parameters dat is post-getraind op een handmatig samengestelde dataset van 2.100 hoogwaardige economische redeneerproblemen. Uitgebreide evaluatie op economische redeneerbenchmarks en multi-agent spellen toont duidelijke verbeteringen in gestructureerd redeneren en economische rationaliteit. Deze resultaten onderstrepen de belofte van domeingerichte post-training voor het verbeteren van redeneren en agentafstemming, en werpen licht op de rollen van SFT en RL in het vormgeven van modelgedrag. De code is beschikbaar op https://github.com/MasterZhou1/Recon.
Beeldbewerking is een belangrijke taak in computergraphics, computervisie en VFX, waarbij recente op diffusie gebaseerde methoden snelle en hoogwaardige resultaten behalen. Bewerkingen die significante structurele veranderingen vereisen, zoals niet-rigide vervormingen, objectmodificaties of contentgeneratie, blijven echter uitdagend. Bestaande benaderingen voor bewerkingen in weinig stappen produceren artefacten zoals irrelevante texturen of hebben moeite om belangrijke attributen van de bronafbeelding (bijvoorbeeld pose) te behouden. Wij introduceren Cora, een nieuw bewerkingsframework dat deze beperkingen aanpakt door correspondentiebewuste ruiscorrectie en geïnterpoleerde aandachtmaps te introduceren. Onze methode aligneert texturen en structuren tussen de bron- en doelafbeeldingen via semantische correspondentie, waardoor nauwkeurige textuuroverdracht mogelijk is terwijl nieuwe content wordt gegenereerd wanneer nodig. Cora biedt controle over de balans tussen contentgeneratie en -behoud. Uitgebreide experimenten tonen aan dat Cora, zowel kwantitatief als kwalitatief, uitblinkt in het behouden van structuur, texturen en identiteit bij diverse bewerkingen, waaronder poseveranderingen, objecttoevoegingen en textuurverfijningen. Gebruikersstudies bevestigen dat Cora superieure resultaten levert en alternatieve methoden overtreft.
De huidige AI-systemen hebben door mensen ontworpen, vaste architecturen en kunnen zich niet autonoom en continu verbeteren. De vooruitgang van AI zou zelf geautomatiseerd kunnen worden. Als dit veilig gebeurt, zou het de ontwikkeling van AI versnellen en ons in staat stellen om de voordelen ervan veel sneller te benutten. Meta-leren kan de ontdekking van nieuwe algoritmen automatiseren, maar wordt beperkt door eerstegraadsverbeteringen en het menselijke ontwerp van een geschikte zoekruimte. De G\"odel-machine stelde een theoretisch alternatief voor: een zelfverbeterende AI die zichzelf herhaaldelijk op een bewezen gunstige manier wijzigt. Helaas is het in de praktijk onmogelijk om te bewijzen dat de meeste wijzigingen netto gunstig zijn. Wij introduceren de Darwin G\"odel Machine (DGM), een zelfverbeterend systeem dat iteratief zijn eigen code wijzigt (en daarmee ook zijn vermogen om zijn eigen codebase te wijzigen verbetert) en elke wijziging empirisch valideert met behulp van coderingsbenchmarks. Geïnspireerd door Darwiniaanse evolutie en onderzoek naar open-eindigheid, onderhoudt de DGM een archief van gegenereerde coderingsagenten. Het breidt het archief uit door een agent eruit te selecteren en een foundation model te gebruiken om een nieuwe, interessante versie van de geselecteerde agent te creëren. Deze open-eindige verkenning vormt een groeiende boom van diverse, hoogwaardige agenten en maakt de parallelle verkenning van vele verschillende paden door de zoekruimte mogelijk. Empirisch verbetert de DGM automatisch zijn coderingscapaciteiten (bijvoorbeeld betere codebewerkingstools, beheer van lange-contextvensters, peer-reviewmechanismen), waardoor de prestaties op SWE-bench stijgen van 20,0% naar 50,0%, en op Polyglot van 14,2% naar 30,7%. Bovendien presteert de DGM aanzienlijk beter dan baselines zonder zelfverbetering of open-eindige verkenning. Alle experimenten werden uitgevoerd met veiligheidsmaatregelen (bijvoorbeeld sandboxing, menselijk toezicht). De DGM is een belangrijke stap in de richting van zelfverbeterende AI, die in staat is om zijn eigen stapstenen te verzamelen langs paden die uitmonden in eindeloze innovatie.
Aangedreven door een groot taalmodel (LLM) opereert een webnavigatieagent op een mensachtige manier in webbrowsers en biedt een zeer transparante aanpak voor het automatiseren van een breed scala aan alledaagse taken. Naarmate webagenten steeds capabeler worden en vaardigheid tonen in algemene navigatietaken, rijst een kritische vraag: Kunnen ze verder gaan dan algemene navigatie en robuust omgaan met taken die vervelend en complex zijn, of klusjes die mensen vaak zelf vermijden? In dit artikel introduceren we WebChoreArena, een nieuwe volledig reproduceerbare benchmark bestaande uit 532 zorgvuldig samengestelde taken, ontworpen om het bereik van WebArena uit te breiden van algemene navigatie naar meer arbeidsintensieve en vervelende taken. WebChoreArena integreert systematisch drie belangrijke uitdagingen: (i) Massive Memory-taken die nauwkeurige ophaling van grote hoeveelheden informatie in de observaties vereisen, (ii) Berekeningstaken die precies wiskundig redeneren vereisen, en (iii) Langetermijngeheugen-taken die langetermijngeheugen over meerdere webpagina's noodzakelijk maken. Gebouwd bovenop de volledig reproduceerbare en breed geaccepteerde vier WebArena-simulatieomgevingen, zorgt WebChoreArena voor strikte reproduceerbaarheid en maakt het eerlijke, directe vergelijkingen met de gevestigde WebArena-benchmark mogelijk, wat belangrijke inzichten biedt in de voortgang van agenten. Onze experimentele resultaten tonen aan dat naarmate LLMs evolueren, vertegenwoordigd door GPT-4o, Claude 3.7 Sonnet en Gemini 2.5 Pro, significante verbeteringen in prestaties worden waargenomen op WebChoreArena. Deze bevindingen suggereren dat WebChoreArena goed geschikt is om de vooruitgang van state-of-the-art LLMs met grotere duidelijkheid te meten. Desalniettemin geven de resultaten ook aan dat er zelfs met Gemini 2.5 Pro nog aanzienlijke ruimte voor verbetering is in vergelijking met WebArena, wat de toegenomen uitdagingen van WebChoreArena benadrukt.
Negatieve begeleiding -- het expliciet onderdrukken van ongewenste attributen -- blijft een fundamentele uitdaging in diffusiemodellen, met name in regimes met weinig samplingstappen. Hoewel Classifier-Free Guidance (CFG) goed werkt in standaardinstellingen, faalt het onder agressieve compressie van samplingstappen vanwege divergerende voorspellingen tussen positieve en negatieve takken. Wij presenteren Normalized Attention Guidance (NAG), een efficiënt, trainingsvrij mechanisme dat extrapolatie toepast in de aandachtruimte met L1-gebaseerde normalisatie en verfijning. NAG herstelt effectieve negatieve begeleiding waar CFG faalt, terwijl de getrouwheid behouden blijft. In tegenstelling tot bestaande benaderingen, generaliseert NAG over architecturen (UNet, DiT), samplingregimes (weinig-stap, multi-stap) en modaliteiten (beeld, video), en functioneert als een universele plug-in met minimale rekenkundige overhead. Door uitgebreide experimenten tonen we consistente verbeteringen aan in tekstuitlijning (CLIP Score), getrouwheid (FID, PFID) en door mensen waargenomen kwaliteit (ImageReward). Onze ablatiestudies valideren elk ontwerpcomponent, terwijl gebruikersstudies een significante voorkeur voor NAG-geleide uitvoer bevestigen. Als een model-agnostische benadering tijdens inferentie die geen hertraining vereist, biedt NAG moeiteloze negatieve begeleiding voor alle moderne diffusieframeworks -- pseudocode in de Bijlage!
Recente ontwikkelingen in Generatieve AI en Grote Taalmodellen (LLMs) hebben het mogelijk gemaakt om zeer realistische synthetische content te creëren, wat zorgen oproept over het potentieel voor kwaadwillig gebruik, zoals desinformatie en manipulatie. Bovendien blijft het detecteren van Machine-Gegenereerde Tekst (MGT) een uitdaging vanwege het ontbreken van robuuste benchmarks die de generaliseerbaarheid naar real-world scenario's beoordelen. In dit werk presenteren we een pipeline om de veerkracht van state-of-the-art MGT-detectoren (bijv. Mage, Radar, LLM-DetectAIve) te testen tegen taalkundig geïnformeerde adversariële aanvallen. Om de detectoren uit te dagen, fine-tunen we taalmodellen met behulp van Direct Preference Optimization (DPO) om de MGT-stijl te verschuiven naar door mensen geschreven tekst (HWT). Dit maakt gebruik van de afhankelijkheid van detectoren van stilistische aanwijzingen, waardoor nieuwe generaties moeilijker te detecteren zijn. Daarnaast analyseren we de taalkundige verschuivingen die door de alignment worden veroorzaakt en welke kenmerken door detectoren worden gebruikt om MGT-teksten te detecteren. Onze resultaten laten zien dat detectoren relatief eenvoudig kunnen worden misleid met relatief weinig voorbeelden, wat resulteert in een significante daling in detectieprestaties. Dit benadrukt het belang van het verbeteren van detectiemethoden en het robuust maken ervan tegen ongeziene in-domein teksten.
Vision language models (VLMs) worden verwacht effectieve multimodale redenering uit te voeren en logisch coherente beslissingen te nemen, wat cruciaal is voor taken zoals diagraminterpretatie en ruimtelijk probleemoplossen. Huidige VLM-redenering heeft echter een gebrek aan grootschalige en goed gestructureerde trainingsdatasets. Om deze kloof te overbruggen, stellen we VisualSphinx voor, een eerste in zijn soort grootschalige synthetische visuele logische redeneringstraindata. Om de uitdaging van beeldgeneratie met gegronde antwoorden aan te pakken, stellen we een regel-naar-beeld synthesepijplijn voor, die puzzelregels uit startvragen extraheert en uitbreidt, en de code genereert voor gegronde beeldgeneratie voor de samenstelling van puzzelvoorbeelden. Experimenten tonen aan dat VLMs die zijn getraind met GRPO op VisualSphinx profiteren van de logische coherentie en leesbaarheid van onze dataset en verbeterde prestaties vertonen bij logische redeneertaken. De verbeterde redeneervaardigheden die zijn ontwikkeld met VisualSphinx, komen ook ten goede aan andere redeneertaken zoals algebraïsch redeneren, rekenkundig redeneren en geometrisch redeneren.
Diffusiegebaseerde taalmodellen bieden een overtuigend alternatief voor autoregressieve (AR) modellen door parallelle en controleerbare generatie mogelijk te maken. Binnen deze familie van modellen behalen Masked Diffusion Models (MDMs) de sterkste prestaties, maar presteren ze nog steeds minder goed dan AR-modellen op het gebied van perplexiteit en missen ze belangrijke efficiëntiefuncties tijdens inferentie—met name KV-caching. In dit werk introduceren we Eso-LMs, een nieuwe familie van modellen die de AR- en MDM-paradigma's combineert, waardoor een soepele interpolatie tussen hun perplexiteiten mogelijk is, terwijl hun respectievelijke beperkingen worden overwonnen. Eso-LMs vestigen een nieuwe standaard op het gebied van taalmodellering. Cruciaal is dat we de **eersten zijn die KV-caching introduceren voor MDMs** terwijl parallelle generatie behouden blijft, wat de inferentie-efficiëntie aanzienlijk verbetert. Gecombineerd met een geoptimaliseerd sampling-schema bereikt onze methode tot **65x** snellere inferentie dan standaard MDMs en **4x** snellere inferentie dan eerdere semi-autoregressieve benaderingen. We bieden de code en modelcheckpoints aan op de projectpagina: [http://s-sahoo.github.io/Eso-LMs](http://s-sahoo.github.io/Eso-LMs)
Het Open Whisper-style Speech Models (OWSM)-project heeft een reeks volledig open spraakfundamentmodellen ontwikkeld met behulp van academische middelen, maar hun trainingsdata blijft onvoldoende. Dit werk verbetert OWSM door YODAS te integreren, een grootschalige dataset die via webcrawling is verzameld en onder een Creative Commons-licentie valt. Het opnemen van YODAS is echter niet eenvoudig vanwege zijn ongestructureerde aard, wat uitdagingen met zich meebrengt zoals incorrecte taallabels en audio-tekst-misalignments. Om dit aan te pakken, ontwikkelen we een schaalbare data-cleaning-pipeline met behulp van openbare toolkits, wat resulteert in een dataset met 166.000 uur spraak in 75 talen. Onze nieuwe reeks OWSM v4-modellen, getraind op deze gecureerde dataset naast bestaande OWSM-data, presteren aanzienlijk beter dan eerdere versies op meertalige benchmarks. Onze modellen evenaren of overtreffen zelfs toonaangevende industriële modellen zoals Whisper en MMS in meerdere scenario's. We zullen de gereinigde YODAS-data, vooraf getrainde modellen en alle bijbehorende scripts openbaar beschikbaar stellen via de ESPnet-toolkit.
Eerder onderzoek heeft de toepassing van Multimodale Grote Taalmodellen (MLLMs) onderzocht bij het begrijpen van 3D-scènes door deze te interpreteren als video's. Deze benaderingen zijn over het algemeen afhankelijk van uitgebreide 3D-gegevensinvoer, zoals puntenwolken of gereconstrueerde Bird's-Eye View (BEV)-kaarten. In ons onderzoek brengen we dit veld verder door het vermogen van MLLMs te verbeteren om 3D-ruimtes te begrijpen en te redeneren, rechtstreeks vanuit videogegevens, zonder de noodzaak van aanvullende 3D-invoer. Wij stellen een nieuwe en efficiënte methode voor, het Video-3D Geometrie Grote Taalmodel (VG LLM). Onze aanpak maakt gebruik van een 3D visuele geometrie-encoder die 3D prior-informatie extraheert uit videosequenties. Deze informatie wordt geïntegreerd met visuele tokens en ingevoerd in het MLLM. Uitgebreide experimenten hebben aangetoond dat onze methode aanzienlijke verbeteringen heeft bereikt in verschillende taken gerelateerd aan 3D-scènebegrip en ruimtelijk redeneren, allemaal rechtstreeks geleerd uit videobronnen. Indrukwekkend genoeg behaalt ons 4B-model, dat niet afhankelijk is van expliciete 3D-gegevensinvoer, competitieve resultaten in vergelijking met bestaande state-of-the-art methoden, en overtreft het zelfs de Gemini-1.5-Pro in de VSI-Bench evaluaties.
Grote taalmodellen (LLMs) die zijn getraind via reinforcement learning met verifieerbare beloning (RLVR) hebben doorbraken bereikt bij taken met expliciete, automatiseerbare verificatie, zoals softwareprogrammering en wiskundige problemen. Het uitbreiden van RLVR naar elektronische ontwerpautomatisering (EDA), met name het automatisch genereren van hardwarebeschrijvingstalen (HDLs) zoals Verilog vanuit natuurlijke taal (NL)-specificaties, brengt echter drie belangrijke uitdagingen met zich mee: het ontbreken van geautomatiseerde en nauwkeurige verificatieomgevingen, het gebrek aan hoogwaardige NL-code-paren, en de buitensporige rekenkosten van RLVR. Daarom introduceren we CodeV-R1, een RLVR-framework voor het trainen van Verilog-genererende LLMs. Ten eerste ontwikkelen we een op regels gebaseerde testbench-generator die robuuste equivalentiecontrole uitvoert tegen gouden referenties. Ten tweede stellen we een round-trip data-synthesemethode voor die open-source Verilog-fragmenten koppelt aan door LLM gegenereerde NL-beschrijvingen, code-NL-code-consistentie verifieert via de gegenereerde testbench, en niet-equivalente voorbeelden filtert om een hoogwaardige dataset te verkrijgen. Ten derde gebruiken we een tweefasen "distill-then-RL" trainingspijplijn: distillatie voor de koude start van redeneervaardigheden, gevolgd door adaptieve DAPO, ons nieuwe RLVR-algoritme dat de trainingskosten kan verlagen door adaptief de bemonsteringssnelheid aan te passen. Het resulterende model, CodeV-R1-7B, behaalt 68,6% en 72,9% pass@1 op respectievelijk VerilogEval v2 en RTLLM v1.1, wat de vorige state-of-the-art met 12~20% overtreft, terwijl het de prestaties van 671B DeepSeek-R1 evenaart of zelfs overtreft. We zullen ons model, trainingspijplijn en dataset vrijgeven om onderzoek in de EDA- en LLM-gemeenschappen te faciliteren.
Open benchmarks zijn essentieel voor het evalueren en verbeteren van grote taalmodellen, omdat ze reproduceerbaarheid en transparantie bieden. Hun toegankelijkheid maakt ze echter waarschijnlijke doelwitten van testsetvervuiling. In dit werk introduceren we DyePack, een raamwerk dat gebruikmaakt van backdoor-aanvallen om modellen te identificeren die benchmarksets tijdens de training hebben gebruikt, zonder toegang te vereisen tot de loss, logits of interne details van het model. Net zoals banken kleurpakketten mengen met hun geld om overvallers te markeren, mengt DyePack backdoor-monsters met de testgegevens om modellen te markeren die erop getraind hebben. We stellen een principieel ontwerp voor dat meerdere backdoors met stochastische doelen incorporeert, waardoor een exacte berekening van het false positive rate (FPR) mogelijk is bij het markeren van elk model. Dit voorkomt bewezen valse beschuldigingen en biedt tegelijkertijd sterk bewijs voor elk gedetecteerd geval van vervuiling. We evalueren DyePack op vijf modellen over drie datasets, waarbij zowel meerkeuzevragen als open-eind-generatietaken worden behandeld. Voor meerkeuzevragen detecteert het met succes alle vervuilde modellen met gegarandeerde FPR's van slechts 0,000073% op MMLU-Pro en 0,000017% op Big-Bench-Hard met behulp van acht backdoors. Voor open-eind-generatietaken generaliseert het goed en identificeert het alle vervuilde modellen op Alpaca met een gegarandeerde false positive rate van slechts 0,127% met behulp van zes backdoors.
Tokenisatie-efficiëntie speelt een cruciale rol in de prestaties en kosten van grote taalmodellen (LLM's), maar de meeste modellen vertrouwen op statische tokenizers die zijn geoptimaliseerd voor algemene corpora. De vaste vocabulaire van deze tokenizers past zich vaak niet aan aan domein- of taal-specifieke invoer, wat leidt tot langere tokenreeksen en hogere rekenkosten. We introduceren zip2zip, een framework dat LLM's in staat stelt om de tokenvocabulaire dynamisch aan te passen tijdens inferentie, waardoor minder tokens worden gegenereerd en de inferentie sneller verloopt. Zip2zip bestaat uit drie belangrijke componenten: (1) een tokenizer gebaseerd op Lempel-Ziv-Welch (LZW)-compressie die tokens incrementeel comprimeert tot herbruikbare "hypertokens" tijdens het proces; (2) een embeddinglaag die embeddings berekent voor nieuw gevormde hypertokens tijdens runtime; en (3) een variant van causaal taalmodelleren die het model traint om te werken op gehypertokeniseerde, gecomprimeerde sequenties. We laten zien dat een bestaand LLM in 10 GPU-uren kan worden omgezet naar zip2zip via parameter-efficiënte finetuning. De resulterende zip2zip LLM's leren effectief hypertokens te gebruiken tijdens inferentie, waardoor de invoer- en uitvoersequentielengte met 20-60\% wordt verminderd, met aanzienlijke verbeteringen in inferentielatentie.
Taakgerichte dialoogsystemen ondervinden vaak moeilijkheden wanneer gebruikersuitingen semantisch compleet lijken, maar de nodige structurele informatie missen voor een passende systeemactie. Dit ontstaat omdat gebruikers vaak hun eigen behoeften niet volledig begrijpen, terwijl systemen precieze intentiedefinities vereisen. Huidige LLM-gebaseerde agents kunnen niet effectief onderscheid maken tussen linguïstisch complete en contextueel triggerbare uitdrukkingen, en missen kaders voor collaboratieve intentievorming. Wij presenteren STORM, een framework dat asymmetrische informatiedynamiek modelleert door gesprekken tussen UserLLM (volledige interne toegang) en AgentLLM (alleen observeerbaar gedrag). STORM produceert geannoteerde corpora die uitdrukkingstrajecten en latente cognitieve overgangen vastleggen, wat een systematische analyse van de ontwikkeling van collaboratief begrip mogelijk maakt. Onze bijdragen omvatten: (1) het formaliseren van asymmetrische informatieverwerking in dialoogsystemen; (2) het modelleren van intentievorming die de evolutie van collaboratief begrip volgt; en (3) evaluatiemetrics die interne cognitieve verbeteringen meten naast taakprestaties. Experimenten met vier taalmmodellen tonen aan dat matige onzekerheid (40-60%) in bepaalde scenario's complete transparantie kan overtreffen, waarbij modelspecifieke patronen suggereren om de optimale informatievolledigheid in mens-AI-samenwerking te heroverwegen. Deze bevindingen dragen bij aan het begrip van asymmetrische redeneerdynamiek en informeren het ontwerp van onzekerheid-gekalibreerde dialoogsystemen.
Modeldistillatie is essentieel geworden voor het creëren van kleinere, inzetbare taalmodelen die de capaciteiten van grotere systemen behouden. Echter, brede inzetbaarheid roept zorgen op over de veerkracht tegen vijandige manipulatie. Dit artikel onderzoekt de kwetsbaarheid van gedistilleerde modellen voor het injecteren van bevooroordeelde inhoud tijdens de training. We tonen aan dat aanvallers subtiele vooroordelen in leraarmodellen kunnen injecteren door minimale datavergiftiging, wat zich verspreidt naar studentmodellen en aanzienlijk wordt versterkt. We stellen twee propagatiemodi voor: Ongerichte Propagatie, waarbij vooroordeel meerdere taken beïnvloedt, en Gerichte Propagatie, gericht op specifieke taken terwijl normaal gedrag elders behouden blijft. Met slechts 25 vergiftigde samples (0,25% vergiftigingspercentage) genereren studentmodellen in gerichte scenario's 76,9% van de tijd bevooroordeelde antwoorden - hoger dan 69,4% in leraarmodellen. Voor ongerichte propagatie verschijnt vijandig vooroordeel 6x-29x vaker in studentmodellen bij onbekende taken. We valideren de bevindingen over zes biassoorten (gerichte advertenties, phishinglinks, narratieve manipulaties, onveilige coderingspraktijken), verschillende distillatiemethoden en verschillende modaliteiten die tekst- en codegeneratie omvatten. Onze evaluatie onthult tekortkomingen in huidige verdedigingsmechanismen - perplexiteitsfiltering, biasdetectiesystemen en LLM-gebaseerde autoraterframeworks - tegen deze aanvallen. De resultaten blootstellen aanzienlijke beveiligingskwetsbaarheden in gedistilleerde modellen, wat de noodzaak voor gespecialiseerde beschermingsmaatregelen benadrukt. We stellen praktische ontwerpprincipes voor voor het bouwen van effectieve strategieën om vijandige bias te mitigeren.
Video Anomaly Understanding (VAU) is essentieel voor toepassingen zoals slimme steden, beveiligingsbewaking en rampenwaarschuwingssystemen, maar blijft uitdagend vanwege de behoefte aan fijnmazige spatio-temporele waarneming en robuuste redenering onder onduidelijkheid. Ondanks vooruitgang in anomaliedetectie missen bestaande methoden vaak interpreteerbaarheid en hebben ze moeite om de causale en contextuele aspecten van abnormale gebeurtenissen vast te leggen. Deze beperking wordt verder versterkt door het ontbreken van uitgebreide benchmarks voor het evalueren van redeneervermogen in anomalie-scenario's. Om beide uitdagingen aan te pakken, introduceren we VAU-R1, een data-efficiënt framework gebaseerd op Multimodale Grote Taalmodellen (MLLMs), dat anomalieredenering verbetert door Reinforcement Fine-Tuning (RFT). Daarnaast stellen we VAU-Bench voor, de eerste Chain-of-Thought benchmark specifiek ontworpen voor video-anomalieredenering, met meerkeuzevragen, gedetailleerde redeneringen, temporele annotaties en beschrijvende bijschriften. Empirische resultaten tonen aan dat VAU-R1 de nauwkeurigheid van vraagbeantwoording, temporele verankering en redeneersamenhang aanzienlijk verbetert in diverse contexten. Samen vormen onze methode en benchmark een sterke basis voor interpreteerbaar en redeneringsbewust video-anomaliebegrip. Onze code is beschikbaar op https://github.com/GVCLab/VAU-R1.
Detoxificatie, de taak om schadelijk taalgebruik te herschrijven naar niet-toxische tekst, is steeds belangrijker geworden door de groeiende prevalentie van toxische inhoud online. Hoogwaardige parallelle datasets voor detoxificatie, met name voor haatspraak, blijven echter schaars vanwege de kosten en gevoeligheid van menselijke annotatie. In dit artikel stellen we een nieuwe LLM-in-the-loop-pijplijn voor die GPT-4o-mini gebruikt voor geautomatiseerde detoxificatie. We repliceren eerst de ParaDetox-pijplijn door menselijke annotators te vervangen door een LLM en laten zien dat de LLM vergelijkbaar presteert als menselijke annotatie. Hierop voortbouwend construeren we PARADEHATE, een grootschalige parallelle dataset specifiek voor detoxificatie van haatspraak. We publiceren PARADEHATE als een benchmark van meer dan 8K haat/niet-haat tekstparen en evalueren een breed scala aan basismethoden. Experimentele resultaten tonen aan dat modellen zoals BART, afgestemd op PARADEHATE, betere prestaties leveren op het gebied van stijlaccuraatheid, inhoudsbehoud en vloeiendheid, wat de effectiviteit aantoont van LLM-gegenereerde detoxificatietekst als een schaalbare alternatief voor menselijke annotatie.
Retrieval-Augmented Generation (RAG) verbetert de actualiteit en feitelijkheid van antwoorden. Bestaande evaluaties testen echter zelden hoe goed deze systemen omgaan met real-world ruis, conflicten tussen interne en externe opgehaalde contexten, of snel veranderende feiten. We introduceren Retrieval-Aware Robustness Evaluation (RARE), een uniform raamwerk en grootschalige benchmark die gezamenlijk stresstests uitvoert op query- en documentverstoringen over dynamische, tijdgevoelige corpora. Een van de centrale kenmerken van RARE is een knowledge-graph-gestuurde synthesepijplijn (RARE-Get) die automatisch enkelvoudige en multi-hop relaties extraheert uit het aangepaste corpus en vraagensets op meerdere niveaus genereert zonder handmatige interventie. Met behulp van deze pijplijn construeren we een dataset (RARE-Set) die 400 expertniveau tijdgevoelige documenten over financiën, economie en beleid omvat, evenals 48.322 vragen waarvan de distributie evolueert naarmate de onderliggende bronnen veranderen. Om veerkracht te kwantificeren, formaliseren we retrieval-geconditioneerde robuustheidsmetrieken (RARE-Met) die het vermogen van een model vastleggen om correct te blijven of te herstellen wanneer queries, documenten of real-world retrievalresultaten systematisch worden gewijzigd. Onze resultaten tonen aan dat RAG-systemen verrassend kwetsbaar zijn voor verstoringen, waarbij documentrobustheid consistent het zwakste punt blijft, ongeacht de grootte of architectuur van de generator. RAG-systemen vertonen consistent een lagere robuustheid op multi-hop queries dan op enkelvoudige queries in alle domeinen.
Grote taalmodellen (LLMs) worden steeds vaker geëvalueerd op meerkeuzetaken met één juist antwoord, terwijl veel problemen in de praktijk vereisen dat alle correcte antwoorden uit een reeks opties worden geïdentificeerd. Deze vaardigheid blijft onderbelicht. Wij introduceren SATA-BENCH, de eerste toegewijde benchmark voor het evalueren van LLMs op 'Select All That Apply' (SATA)-vragen in diverse domeinen, waaronder leesbegrip, recht en biomedische wetenschappen. Onze evaluatie van 27 open-source en propriëtaire modellen onthult een significante kloof: zelfs het sterkste model behaalt slechts 41,8% exacte overeenkomst, wat de onmogelijkheid van LLMs blootlegt om alle correcte antwoorden betrouwbaar te identificeren. Wij constateren dat deze zwakte voortkomt uit twee kernuitdagingen: selectiebias - modellen hebben een voorkeur voor bepaalde keuzes ongeacht de inhoud, en telbias - modellen slagen er niet in het juiste aantal antwoorden te voorspellen. Om deze problemen aan te pakken, stellen wij Choice Funnel voor, een decodeerstrategie die token-debiasing combineert met adaptieve drempelbepaling om modellen te begeleiden naar complete en accurate selecties. Choice Funnel behaalt tot 29% hogere exacte overeenkomst dan concurrerende baselines terwijl de inferentiekosten met meer dan 64% worden verlaagd. Onze bevindingen leggen fundamentele beperkingen in huidige LLMs bloot en introduceren een nieuw raamwerk voor het diagnosticeren en verbeteren van redeneren met meerdere antwoorden. Wij maken SATA-BENCH en Choice Funnel beschikbaar om de ontwikkeling van LLMs te bevorderen voor robuuste besluitvorming in realistische, multi-antwoordtoepassingen.
Tekstgestuurde 3D-bewerking heeft als doel om semantisch relevante lokale 3D-gebieden nauwkeurig te bewerken, wat aanzienlijk potentieel biedt voor diverse praktische toepassingen, variërend van 3D-games tot filmproductie. Bestaande methoden volgen doorgaans een view-ongedifferentieerd paradigma: 2D-weergaven worden ongericht bewerkt en teruggeprojecteerd in de 3D-ruimte. Hierbij worden echter de verschillende kruisweergave-afhankelijkheden over het hoofd gezien, wat resulteert in inconsistente multi-view-bewerkingen. In deze studie stellen wij dat ideale consistente 3D-bewerking kan worden bereikt via een progressieve-weergaven-paradigma, waarbij bewerkingssemantiek wordt doorgegeven van de meest bewerkingsrelevante weergave naar andere bewerkingsarme weergaven. Specifiek stellen wij Pro3D-Editor voor, een nieuw framework dat voornamelijk bestaat uit een Primary-view Sampler, Key-view Render en Full-view Refiner. De Primary-view Sampler bemonstert en bewerkt dynamisch de meest bewerkingsrelevante weergave als de primaire weergave. De Key-view Render verspreidt de bewerkingssemantiek nauwkeurig van de primaire weergave naar andere sleutelweergaven via zijn Mixture-of-View-Experts Low-Rank Adaption (MoVE-LoRA). De Full-view Refiner bewerkt en verfijnt het 3D-object op basis van de bewerkte multi-weergaven. Uitgebreide experimenten tonen aan dat onze methode superieur is aan bestaande methoden wat betreft bewerkingsnauwkeurigheid en ruimtelijke consistentie.
De toenemende rekenkosten en beperkte middelen benadrukken de kritische noodzaak voor training met een vooraf bepaald aantal iteraties, die gericht is op optimaal leren binnen vooraf vastgestelde iteratiebudgetten. Hoewel leercurveschema's fundamenteel de prestaties van verschillende netwerken en taken bepalen, met name in scenario's met een beperkt aantal iteraties, blijft hun ontwerp grotendeels heuristisch en ontbreekt het aan theoretische onderbouwing. Bovendien vereist het optimale leercurveschema uitgebreide trial-and-error selectie, wat het trainingsproces inefficiënt maakt. In dit werk stellen we het Unified Budget-Aware (UBA) schema voor, een theoretisch onderbouwd leercurveschema dat consistent beter presteert dan veelgebruikte schema's bij diverse architecturen en taken onder verschillende beperkte trainingsbudgetten. Eerst overbruggen we de kloof door een nieuw trainingsbudgetbewust optimalisatiekader te construeren, dat expliciet rekening houdt met de robuustheid tegen variaties in landschapskromming. Uit dit kader leiden we het UBA-schema af, dat wordt gecontroleerd door een enkele hyperparameter varphi die een afweging biedt tussen flexibiliteit en eenvoud, waardoor per-netwerk numerieke optimalisatie overbodig wordt. Bovendien leggen we een theoretisch verband tussen varphi en het conditiegetal, wat interpretatie en rechtvaardiging toevoegt aan onze aanpak. Daarnaast bewijzen we de convergentie voor verschillende waarden van varphi. We bieden praktische richtlijnen voor de selectie ervan via theoretische analyse en empirische resultaten. Uitgebreide experimentele resultaten tonen aan dat UBA consistent beter presteert dan de veelgebruikte schema's bij diverse visuele en taaltaken, over verschillende netwerkarchitecturen (bijv. ResNet, OLMo) en schalen, onder verschillende trainingsiteratiebudgetten.
Dit artikel behandelt cruciale leemtes in de evaluatie van Arabische taalmodelen door uitgebreide theoretische richtlijnen vast te stellen en een nieuw evaluatiekader te introduceren. We analyseren eerst bestaande Arabische evaluatiedatasets en identificeren belangrijke problemen op het gebied van linguïstische nauwkeurigheid, culturele afstemming en methodologische strengheid. Om deze beperkingen in LLM's aan te pakken, presenteren we de Arabic Depth Mini Dataset (ADMD), een zorgvuldig samengestelde verzameling van 490 uitdagende vragen die tien grote domeinen beslaan (42 subdomeinen, zie Figuur 1). Met behulp van ADMD evalueren we vijf toonaangevende taalmodelen: GPT-4, Claude 3.5 Sonnet, Gemini Flash 1.5, CommandR 100B en Qwen-Max. Onze resultaten laten significante variaties zien in de prestaties van de modellen over verschillende domeinen, met name uitdagingen in gebieden die diep cultureel begrip en gespecialiseerde kennis vereisen. Claude 3.5 Sonnet toonde de hoogste algehele nauwkeurigheid van 30%, met relatief sterke prestaties in wiskundige theorie in het Arabisch, de Arabische taal en islamitische domeinen. Dit werk biedt zowel theoretische fundamenten als praktische inzichten voor het verbeteren van de evaluatie van Arabische taalmodelen, waarbij het belang van culturele competentie naast technische capaciteiten wordt benadrukt.
Dit artikel behandelt cruciale leemtes in de evaluatie van Arabische taalmodelen door uitgebreide theoretische richtlijnen vast te stellen en een nieuw evaluatiekader te introduceren. We analyseren eerst bestaande Arabische evaluatiedatasets en identificeren belangrijke problemen op het gebied van linguïstische nauwkeurigheid, culturele afstemming en methodologische strengheid. Om deze beperkingen in LLM's aan te pakken, presenteren we de Arabic Depth Mini Dataset (ADMD), een zorgvuldig samengestelde verzameling van 490 uitdagende vragen die tien grote domeinen beslaan (42 subdomeinen, zie Figuur 1). Met behulp van ADMD evalueren we vijf toonaangevende taalmodelen: GPT-4, Claude 3.5 Sonnet, Gemini Flash 1.5, CommandR 100B en Qwen-Max. Onze resultaten laten significante variaties zien in de prestaties van de modellen over verschillende domeinen, met name uitdagingen in gebieden die diep cultureel begrip en gespecialiseerde kennis vereisen. Claude 3.5 Sonnet toonde de hoogste algehele nauwkeurigheid van 30%, met relatief sterke prestaties in wiskundige theorie in het Arabisch, de Arabische taal en islamitische domeinen. Dit werk biedt zowel theoretische fundamenten als praktische inzichten voor het verbeteren van de evaluatie van Arabische taalmodelen, waarbij het belang van culturele competentie naast technische capaciteiten wordt benadrukt.
Het genereren van afbeeldingen uit tekst die complexe en nieuwe objectarrangementen bevatten, blijft een aanzienlijke uitdaging voor huidige tekst-naar-afbeelding (T2I) modellen. Hoewel eerdere op lay-out gebaseerde methoden objectarrangementen verbeteren door gebruik te maken van ruimtelijke beperkingen met 2D-lay-outs, hebben ze vaak moeite met het vastleggen van 3D-positionering en gaan ze ten koste van kwaliteit en samenhang. In dit werk introduceren we ComposeAnything, een nieuw raamwerk voor het verbeteren van compositorische afbeeldingsgeneratie zonder bestaande T2I-modellen opnieuw te trainen. Onze aanpak maakt eerst gebruik van de keten-van-gedachte redeneervaardigheden van LLM's om 2.5D semantische lay-outs uit tekst te produceren, bestaande uit 2D objectbegrenzingsvakken verrijkt met diepte-informatie en gedetailleerde bijschriften. Op basis van deze lay-out genereren we een ruimtelijk en diepte-bewust grof composiet van objecten dat de beoogde compositie vastlegt, wat dient als een sterk en interpreteerbaar voorafgaand dat de stochastische ruisinitialisatie in op diffusie gebaseerde T2I-modellen vervangt. Dit voorafgaande begeleidt het denoisingsproces door objectpriorversterking en ruimtelijk gecontroleerde denoising, waardoor naadloze generatie van compositorische objecten en samenhangende achtergronden mogelijk wordt, terwijl het verfijning van onnauwkeurige priors toestaat. ComposeAnything overtreft state-of-the-art methoden op de T2I-CompBench en NSR-1K benchmarks voor prompts met 2D/3D ruimtelijke arrangementen, hoge objectaantallen en surrealistische composities. Menselijke evaluaties tonen verder aan dat ons model hoogwaardige afbeeldingen genereert met composities die de tekst trouw weerspiegelen.
In dit artikel introduceren we Online Multimodale Conversatie Response Generatie (OMCRG), een nieuwe taak die als doel heeft om online gesynchroniseerde verbale en non-verbale luisteraarfeedback te genereren, gebaseerd op de multimodale input van de spreker. OMCRG weerspiegelt natuurlijke dyadische interacties en brengt nieuwe uitdagingen met zich mee bij het bereiken van synchronisatie tussen de gegenereerde audio en gezichtsreacties van de luisteraar. Om deze uitdagingen aan te pakken, introduceren we innovatief tekst als een intermediaire modaliteit om de audio en gezichtsreacties te verbinden. We stellen daarom OmniResponse voor, een Multimodaal Taalmodel (MLLM) dat autoregressief hoogwaardige multimodale luisteraarreacties genereert. OmniResponse maakt gebruik van een voorgetraind Taalmodel (LLM) dat is versterkt met twee nieuwe componenten: Chrono-Text, dat gegenereerde teksttokens tijdelijk verankert, en TempoVoice, een controleerbare online TTS-module die spraak produceert die gesynchroniseerd is met gezichtsreacties. Om verder onderzoek naar OMCRG te ondersteunen, presenteren we ResponseNet, een nieuwe dataset bestaande uit 696 hoogwaardige dyadische interacties met gesynchroniseerde split-screen video's, meerkanaals audio, transcripties en annotaties van gezichtsgedrag. Uitgebreide evaluaties uitgevoerd op ResponseNet tonen aan dat OmniResponse baseline-modellen significant overtreft op het gebied van semantische spraakinhoud, audio-visuele synchronisatie en generatiekwaliteit.
Grote Taalmodellen (LLMs) hebben opmerkelijke successen behaald in complexe redeneertaken, maar hun inferentie blijft computationeel inefficiënt. We observeren een veelvoorkomend falingspatroon bij veel gangbare LLMs, namelijk 'overdenken', waarbij modellen uitgebreide en tangentiële redeneersporen genereren, zelfs voor eenvoudige vragen. Recente werken hebben geprobeerd dit te verhelpen door vaste tokenbudgetten af te dwingen, maar dit kan leiden tot 'onderdenken', vooral bij moeilijkere problemen. Door empirische analyse identificeren we dat deze inefficiëntie vaak voortkomt uit onduidelijke probleemoplossingsstrategieën. Om dit te formaliseren, ontwikkelen we een theoretisch model, BBAM (Bayesian Budget Allocation Model), dat redeneren modelleert als een reeks subvragen met variërende onzekerheid, en introduceren we de E^3-metric om de afweging tussen correctheid en rekenkundige efficiëntie vast te leggen. Gebaseerd op theoretische resultaten van BBAM, stellen we Plan-and-Budget voor, een model-agnostisch, test-time framework dat complexe vragen opsplitst in subvragen en tokenbudgetten toewijst op basis van geschatte complexiteit met behulp van adaptieve planning. Plan-and-Budget verbetert de redeneerefficiëntie over een reeks taken en modellen, met tot wel +70% nauwkeurigheidswinst, -39% tokenreductie en +187,5% verbetering in E^3. Opmerkelijk is dat het een kleiner model (DS-Qwen-32B) opwaardeert om de efficiëntie van een groter model (DS-LLaMA-70B) te evenaren, wat aantoont dat Plan-and-Budget prestatiekloof kan dichten zonder hertraining. Onze code is beschikbaar op anonymous.4open.science/r/P-and-B-6513/.
Verschillende studies hebben de mechanismen van grote taalmodellen (LLMs) onderzocht bij coderings taken, maar de meeste hebben zich gericht op programmeertalen (PLs) in een eentalige omgeving. In dit artikel onderzoeken we de relatie tussen meerdere PLs en Engels in de conceptruimte van LLMs. We voeren een few-shot vertaaltaak uit op 21 PL-paren met behulp van twee Llama-gebaseerde modellen. Door de embeddings van tussenliggende lagen tijdens deze taak te decoderen, observeren we dat de conceptruimte dichter bij Engels ligt (inclusief PL-sleutelwoorden) en hoge waarschijnlijkheden toekent aan Engelse tokens in de tweede helft van de tussenliggende lagen. We analyseren neuronactivaties voor 11 PLs en Engels, waarbij we vaststellen dat hoewel taal-specifieke neuronen voornamelijk geconcentreerd zijn in de onderste lagen, die exclusief voor elke PL de neiging hebben om in de bovenste lagen te verschijnen. Voor PLs die sterk zijn afgestemd op meerdere andere PLs, is het identificeren van taal-specifieke neuronen niet haalbaar. Deze PLs hebben ook de neiging om een grotere set sleutelwoorden te hebben dan andere PLs en liggen dichter bij de conceptruimte van het model, ongeacht de invoer/uitvoer-PL in de vertaaltaak. Onze bevindingen bieden inzicht in hoe LLMs intern PLs representeren, waarbij structurele patronen in de conceptruimte van het model worden onthuld. Code is beschikbaar op https://github.com/cisnlp/code-specific-neurons.
We introduceren SealQA, een nieuwe benchmark voor het evalueren van zoek-aangevulde taalmodelen op feitzoekende vragen waarbij webzoekopdrachten tegenstrijdige, ruisachtige of onbruikbare resultaten opleveren. SealQA is beschikbaar in drie varianten: (1) Seal-0 (hoofdvariant) en (2) Seal-Hard, die feitelijke nauwkeurigheid en redeneervaardigheden beoordelen, waarbij Seal-0 zich richt op de meest uitdagende vragen waar chatmodellen (bijv. GPT-4.1) doorgaans een nauwkeurigheid van bijna nul behalen; en (3) LongSeal, dat SealQA uitbreidt om langetermijncontext en redeneren over meerdere documenten te testen in "naald-in-een-hooiberg"-scenario's. Onze evaluatie onthult kritieke beperkingen in huidige modellen: zelfs toonaangevende grote taalmodelen presteren slecht in alle varianten van SealQA. Op Seal-0 behalen toonaangevende agentische modellen uitgerust met tools zoals o3 en o4-mini slechts 17,1% en 6,3% nauwkeurigheid, respectievelijk, bij hun beste redeneerinspanningen. We constateren dat geavanceerde redeneermodellen zoals DeepSeek-R1-671B en o3-mini zeer kwetsbaar zijn voor ruisachtige zoekresultaten. Opvallend is dat het verhogen van rekentijd tijdens testen geen betrouwbare verbeteringen oplevert bij o3-mini, o4-mini en o3, waarbij de prestaties vaak stabiliseren of zelfs vroegtijdig afnemen. Daarnaast, hoewel recente modellen minder last hebben van het "lost-in-the-middle"-probleem, slagen ze er nog steeds niet in om betrouwbaar relevante documenten te identificeren in LongSeal wanneer ze worden geconfronteerd met talrijke afleiders. Om toekomstig onderzoek te faciliteren, maken we SealQA beschikbaar op huggingface.co/datasets/vtllms/sealqa.
Grote taalmodelen (LLMs) zijn recentelijk toegepast op voorspellingstaken, waarbij sommige werken beweren dat deze systemen de menselijke prestaties evenaren of overtreffen. In dit artikel betogen wij dat we als gemeenschap voorzichtig moeten zijn met dergelijke conclusies, aangezien het evalueren van LLM-voorspellers unieke uitdagingen met zich meebrengt. We identificeren twee brede categorieën van problemen: (1) moeilijkheden bij het vertrouwen van evaluatieresultaten vanwege verschillende vormen van temporele lekkage, en (2) moeilijkheden bij het extrapoleren van evaluatieprestaties naar real-world voorspellingen. Door middel van systematische analyse en concrete voorbeelden uit eerder werk tonen we aan hoe evaluatiefouten zorgen kunnen oproepen over huidige en toekomstige prestatieclaims. We betogen dat er meer rigoureuze evaluatiemethodologieën nodig zijn om de voorspellingsvaardigheden van LLMs met vertrouwen te kunnen beoordelen.
De Distribution Matching Distillation (DMD) is met succes toegepast op tekst-naar-beeld diffusiemodellen zoals Stable Diffusion (SD) 1.5. Echter, de standaard DMD heeft moeite met convergentie op grootschalige flow-based tekst-naar-beeldmodellen, zoals SD 3.5 en FLUX. In dit artikel analyseren we eerst de problemen die ontstaan bij het toepassen van standaard DMD op grootschalige modellen. Vervolgens stellen we, om de schaalbaarheidsuitdaging te overwinnen, impliciete distributie-afstemming (IDA) voor om de afstand tussen de generator en de nepdistributie te reguleren. Daarnaast introduceren we intra-segmentbegeleiding (ISG) om de tijdsstapbelangrijkheidsdistributie van het leraarmodel te herpositioneren. Met alleen IDA convergeert DMD voor SD 3.5; door zowel IDA als ISG te gebruiken, convergeert DMD voor SD 3.5 en FLUX.1 dev. Samen met andere verbeteringen, zoals opgeschaalde discriminator-modellen, bereikt ons uiteindelijke model, genaamd SenseFlow, superieure prestaties in distillatie voor zowel diffusiegebaseerde tekst-naar-beeldmodellen zoals SDXL, als flow-matchingmodellen zoals SD 3.5 Large en FLUX. De broncode zal beschikbaar zijn op https://github.com/XingtongGe/SenseFlow.
Neurale audiocodecs hebben aanzienlijke vooruitgang geboekt in het efficiënt omzetten van ruwe audiogolfvormen naar discrete tokenrepresentaties, wat fundamenteel is voor hedendaagse generatieve audiomodellen. De meeste bestaande codecs zijn echter voornamelijk geoptimaliseerd voor reconstructiekwaliteit, vaak ten koste van de modelleerbaarheid van de gecodeerde tokens in downstream taken. Gemotiveerd door de noodzaak om deze beperking te overwinnen, introduceren we MagiCodec, een innovatieve, op een Transformer gebaseerde audiocodec met één laag en streamingmogelijkheden. MagiCodec is ontworpen met een meerfasig trainingspijplijn die Gaussische ruisinjectie en latente regularisatie omvat, expliciet gericht op het verbeteren van de semantische expressiviteit van de gegenereerde codes terwijl een hoge reconstructiefideliteit behouden blijft. We analyseren het effect van ruisinjectie in het frequentiedomein analytisch en tonen de effectiviteit ervan aan in het dempen van hoogfrequente componenten en het bevorderen van robuuste tokenisatie. Uitgebreide experimentele evaluaties laten zien dat MagiCodec state-of-the-art codecs overtreft in zowel reconstructiekwaliteit als downstream taken. Opmerkelijk is dat de tokens geproduceerd door MagiCodec Zipf-achtige distributies vertonen, zoals waargenomen in natuurlijke talen, waardoor de compatibiliteit met op taalmodellen gebaseerde generatieve architecturen wordt verbeterd. De code en vooraf getrainde modellen zijn beschikbaar op https://github.com/Ereboas/MagiCodec.
Retrieval-Augmented Language Models (RALMs) vertegenwoordigen een klassiek paradigma waarbij modellen hun generatieve capaciteiten verbeteren door gebruik te maken van externe kennis die wordt opgehaald via een gespecialiseerde module. Recente vooruitgang in Agent-technieken stelt Large Language Models (LLMs) in staat om autonoom tools te gebruiken voor het ophalen, plannen en redeneren. Hoewel bestaande op training gebaseerde methoden veelbelovend zijn, worden hun agentische vaardigheden beperkt door inherente kenmerken van de taakspecifieke gegevens die tijdens de training worden gebruikt. Om de universele zoekcapaciteit van agents verder te verbeteren, stellen we een nieuw pre-trainingsframework voor, genaamd MaskSearch. In de pre-trainingsfase introduceren we de Retrieval Augmented Mask Prediction (RAMP)-taak, waarbij het model leert om zoektools te gebruiken om gemaskeerde segmenten in een groot aantal pre-trainingsgegevens in te vullen, waardoor het universele ophaal- en redeneervaardigheden voor LLMs verwerft. Daarna wordt het model getraind op downstreamtaken om verdere verbetering te bereiken. We passen zowel Supervised Fine-tuning (SFT) als Reinforcement Learning (RL) toe voor de training. Voor SFT combineren we agent-gebaseerde en distillatie-gebaseerde methoden om trainingsgegevens te genereren, te beginnen met een multi-agent systeem bestaande uit een planner, herschrijver, observator, gevolgd door een zelf-evoluerend leraarmodel. Voor RL gebruiken we DAPO als het trainingsframework en nemen we een hybride beloningssysteem over dat bestaat uit antwoordbeloningen en formaatbeloningen. Daarnaast introduceren we een curriculumleerbenadering die het model in staat stelt om geleidelijk te leren van eenvoudigere naar meer uitdagende gevallen op basis van het aantal gemaskeerde segmenten. We evalueren de effectiviteit van ons framework in het scenario van open-domein multi-hop vraagbeantwoording. Door uitgebreide experimenten tonen we aan dat MaskSearch de prestaties van LLM-gebaseerde zoekagents aanzienlijk verbetert op zowel in-domein als out-of-domein downstreamtaken.
Naarmate grote taalmmodellen (LLMs) diep verweven raken in het menselijk leven en steeds meer invloed uitoefenen op besluitvorming, is het cruciaal om te evalueren of en in hoeverre ze subjectieve voorkeuren, meningen en overtuigingen vertonen. Deze neigingen kunnen voortkomen uit vooroordelen binnen de modellen, die hun gedrag kunnen vormen, de adviezen en aanbevelingen die ze aan gebruikers geven kunnen beïnvloeden, en mogelijk bepaalde standpunten kunnen versterken. Dit artikel presenteert de Preference, Opinion, and Belief survey (POBs), een benchmark ontwikkeld om de subjectieve neigingen van LLMs te beoordelen op het gebied van maatschappelijke, culturele, ethische en persoonlijke domeinen. We hebben onze benchmark toegepast om toonaangevende open- en closed-source LLMs te evalueren, waarbij gewenste eigenschappen zoals betrouwbaarheid, neutraliteit en consistentie werden gemeten. Daarnaast hebben we het effect onderzocht van het verhogen van de rekencapaciteit tijdens het testen, via redenerings- en zelfreflectiemechanismen, op deze metrieken. Hoewel effectief in andere taken, laten onze resultaten zien dat deze mechanismen slechts beperkte verbeteringen bieden in ons domein. Bovendien blijkt dat nieuwere modelversies minder consistent worden en meer bevooroordeeld zijn richting specifieke standpunten, wat een blinde vlek en een zorgwekkende trend blootlegt. POBS: https://ibm.github.io/POBS
We introduceren Frankenteksten, een nieuw type langere verhalen geproduceerd door LLM's onder de extreme beperking dat de meeste tokens (bijvoorbeeld 90%) letterlijk moeten worden gekopieerd uit menselijke geschriften. Deze taak vormt een uitdagende test voor beheersbare tekstgeneratie, waarbij modellen een schrijfprompt moeten volgen, uiteenlopende tekstfragmenten moeten integreren en toch een coherent verhaal moeten produceren. Om Frankenteksten te genereren, instrueren we het model om een concept te maken door menselijke tekstpassages te selecteren en te combineren, en vervolgens het concept iteratief te reviseren terwijl een door de gebruiker gespecificeerde kopieerratio wordt aangehouden. We evalueren de resulterende Frankenteksten langs drie assen: schrijfkwaliteit, naleving van instructies en detecteerbaarheid. Gemini-2.5-Pro presteert verrassend goed bij deze taak: 81% van zijn Frankenteksten is coherent en 100% relevant voor de prompt. Opmerkelijk is dat tot 59% van deze uitvoer verkeerd wordt geclassificeerd als menselijk geschreven door detectors zoals Pangram, wat beperkingen in AI-tekstdetectors aan het licht brengt. Menselijke annotatoren kunnen Frankenteksten soms identificeren door abrupte toonwisselingen en inconsistente grammatica tussen segmenten, vooral bij langere generaties. Naast het presenteren van een uitdagende generatietaak, nodigen Frankenteksten uit tot discussie over het bouwen van effectieve detectors voor deze nieuwe grijze zone van auteurschap, bieden ze trainingsdata voor detectie van gemengd auteurschap en dienen ze als een sandbox voor het bestuderen van mens-AI samenwerkingsprocessen bij het schrijven.
Vision-language modellen (VLMs) die zijn afgestemd op algemene menselijke doelstellingen, zoals het vermijden van schade en hallucinaties, zijn waardevolle assistenten geworden bij het uitvoeren van visuele taken. Mensen met uiteenlopende achtergronden hebben echter verschillende manieren van waarnemen, zelfs in dezelfde situatie. Hierdoor kunnen zij gepersonaliseerde verwachtingen hebben van VLM-assistenten. Dit benadrukt de dringende noodzaak om VLM-assistenten af te stemmen op gepersonaliseerde situatiegebonden waarneming voor real-world ondersteuning. Om dit probleem te bestuderen, vereenvoudigen we het eerst door individuen te karakteriseren op basis van het sociologische concept van Role-Set. Vervolgens stellen we voor om de acties van individuen te evalueren om te onderzoeken of de gepersonaliseerde afstemming is bereikt. Verder construeren we een benchmark genaamd PCogAlignBench, die 18k instanties en 20 individuen met verschillende Role-Sets omvat. Ten slotte presenteren we een raamwerk genaamd PCogAlign, dat een waarnemingsbewust en actiegebaseerd beloningsmodel construeert voor gepersonaliseerde afstemming. Experimentele resultaten en menselijke evaluaties tonen de betrouwbaarheid van de PCogAlignBench en de effectiviteit van ons voorgestelde PCogAlign aan. We zullen de geconstrueerde benchmark en code openbaar maken op https://github.com/NLPGM/PCogAlign.
Recente studies hebben aangetoond dat supervised fine-tuning van LLM's op een klein aantal hoogwaardige datasets sterke redeneervaardigheden kan opleveren. Volledige fine-tuning (Full FT) is echter, hoewel krachtig, rekenintensief en gevoelig voor overfitting en catastrofaal vergeten, vooral wanneer de data beperkt is. Sparse fine-tuning, dat eerder opmerkelijke successen behaalde door slechts een kleine subset van modelparameters bij te werken, biedt een veelbelovende balans tussen efficiëntie en effectiviteit. Toch is het in het LLM-tijdperk achtergebleven vanwege de moeilijkheid om parameters te identificeren die echt cruciaal zijn voor redeneren. In dit werk stellen we dat gewichten met de grootste omvang na low-rank benadering kritieke gewichten zijn voor fine-tuning, die we Principal Weights noemen. Verrassend genoeg presteert magnitude-gebaseerde sparse fine-tuning als baseline slecht op LLM fine-tuning, maar wordt het zeer effectief na rangreductie. Deze inzichten motiveren onze methode: Low-rank Informed Sparse Fine-Tuning (LIFT). LIFT werkt alleen de top 5% Principal Weights bij tijdens de training en behaalt consistent betere prestaties op redeneertaken dan Full FT, terwijl het geheugenefficiëntie behoudt die vergelijkbaar is met populaire parameter-efficiënte fine-tuning methoden. Naast sterke prestaties op doeldomeinen zoals rekenkundig redeneren, behoudt LIFT ook tot 20% meer brondomeinkennis in vergelijking met Full FT en LoRA. Onze code is beschikbaar op: https://github.com/zihanghliu/LIFT.
Het begrijpen van stedelijke sociaaleconomische omstandigheden door middel van visuele data is een uitdagende maar essentiële taak voor duurzame stedelijke ontwikkeling en beleidsplanning. In dit werk introduceren we CityLens, een uitgebreide benchmark die is ontworpen om de capaciteiten van grote taal-visie modellen (LLVMs) te evalueren bij het voorspellen van sociaaleconomische indicatoren op basis van satelliet- en straatbeeldfoto's. We construeren een multimodale dataset die in totaal 17 wereldwijd verspreide steden omvat, met 6 belangrijke domeinen: economie, onderwijs, criminaliteit, transport, gezondheid en milieu, wat de veelzijdige aard van het stedelijk leven weerspiegelt. Op basis van deze dataset definiëren we 11 voorspellingstaken en gebruiken we drie evaluatieparadigma's: Directe Metrische Voorspelling, Genormaliseerde Metrische Schatting en Feature-Based Regressie. We benchmarken 17 state-of-the-art LLVMs over deze taken. Onze resultaten laten zien dat hoewel LLVMs veelbelovende perceptuele en redeneervaardigheden demonstreren, ze nog steeds beperkingen vertonen bij het voorspellen van stedelijke sociaaleconomische indicatoren. CityLens biedt een uniform raamwerk voor het diagnosticeren van deze beperkingen en het begeleiden van toekomstige inspanningen om LLVMs te gebruiken voor het begrijpen en voorspellen van stedelijke sociaaleconomische patronen. Onze codes en datasets zijn openbaar gemaakt via https://github.com/tsinghua-fib-lab/CityLens.
Dit artikel onderzoekt een cruciaal ontwerpbesluit in de praktijk van massaal meertalige continue voorafgaande training -- de opname van parallelle data. Specifiek bestuderen we de impact van tweetalige vertaaldata voor de massaal meertalige taalaanpassing van de Llama3-familie van modellen aan 500 talen. Hiertoe construeren we het MaLA tweetalige vertaalcorpus, dat data bevat van meer dan 2.500 taalparen. Vervolgens ontwikkelen we de EMMA-500 Llama 3-suite van vier massaal meertalige modellen -- continu vooraf getraind vanuit de Llama 3-familie van basismodellen, uitgebreid op diverse datamixen tot 671B tokens -- en onderzoeken we het effect van continue voorafgaande training met of zonder tweetalige vertaaldata. Een uitgebreide evaluatie over 7 taken en 12 benchmarks toont aan dat tweetalige data de taaloverdracht en prestaties doorgaans verbetert, met name voor talen met weinig bronnen. We maken het MaLA-corpus, de EMMA-500 Llama 3-suite artefacten, code en modelgeneraties openbaar.
Het decoderen van continue taal uit neurale signalen blijft een belangrijke uitdaging op het snijvlak van neurowetenschappen en kunstmatige intelligentie. Wij introduceren Neuro2Semantic, een nieuw raamwerk dat de semantische inhoud van waargenomen spraak reconstrueert uit intracraniële EEG (iEEG)-opnames. Onze aanpak bestaat uit twee fasen: eerst aligneert een LSTM-gebaseerde adapter neurale signalen met vooraf getrainde tekst-embeddings; vervolgens genereert een correctiemodule continue, natuurlijke tekst rechtstreeks vanuit deze gealigneerde embeddings. Deze flexibele methode overkomt de beperkingen van eerdere decodeerbenaderingen en maakt onbeperkte tekstgeneratie mogelijk. Neuro2Semantic behaalt sterke prestaties met slechts 30 minuten neurale data en overtreft een recente state-of-the-art methode in situaties met weinig data. Deze resultaten benadrukken het potentieel voor praktische toepassingen in brain-computer interfaces en neurale decodeertechnologieën.
Binaurale weergave heeft als doel binauraal audio te synthetiseren dat natuurlijk gehoor nabootst op basis van een mono-audio en de locaties van de spreker en luisteraar. Hoewel er veel methoden zijn voorgesteld om dit probleem op te lossen, hebben ze moeite met de weergavekwaliteit en stroombare inferentie. Het synthetiseren van hoogwaardige binaurale audio die niet te onderscheiden is van opnames uit de echte wereld vereist een nauwkeurige modellering van binaurale signalen, ruimtelijke nagalm en omgevingsgeluiden. Daarnaast vereisen praktische toepassingen stroombare inferentie. Om deze uitdagingen aan te pakken, stellen we een op flow matching gebaseerd framework voor stroombare binaurale spraaksynthese voor, genaamd BinauralFlow. We beschouwen binaurale weergave als een generatieprobleem in plaats van een regressieprobleem en ontwerpen een conditioneel flow matching-model om hoogwaardige audio te renderen. Bovendien ontwerpen we een causale U-Net-architectuur die het huidige audiokader uitsluitend schat op basis van eerdere informatie om generatieve modellen aan te passen voor stroombare inferentie. Ten slotte introduceren we een continue inferentiepijplijn die stroombare STFT/ISTFT-operaties, een bufferbank, een midpoint solver en een early skip-schema omvat om de continuïteit en snelheid van de weergave te verbeteren. Kwantitatieve en kwalitatieve evaluaties tonen de superioriteit van onze methode aan ten opzichte van state-of-the-art benaderingen. Een perceptuele studie toont verder aan dat ons model bijna niet te onderscheiden is van opnames uit de echte wereld, met een verwarringspercentage van 42%.
Ondanks vooruitgang in het redeneren en plannen van R1-achtige modellen, hebben Large Language Models (LLMs) nog steeds moeite met taken die precieze berekeningen, symbolische manipulatie, optimalisatie en algoritmisch redeneren vereisen, waarbij tekstueel redeneren de strengheid van code-uitvoering mist. Een belangrijke uitdaging is het in staat stellen van LLMs om te beslissen wanneer tekstueel redeneren versus codegeneratie moet worden gebruikt. Hoewel OpenAI modellen traint om een Code Interpreter aan te roepen wanneer nodig, ontbreekt er in openbaar onderzoek richtlijnen over het afstemmen van vooraf getrainde LLMs om effectief code te benutten en te generaliseren over diverse taken. Wij presenteren R1-Code-Interpreter, een uitbreiding van een tekst-only LLM getraind via multi-turn supervised fine-tuning (SFT) en reinforcement learning (RL) om autonoom meerdere code-query's te genereren tijdens stapsgewijs redeneren. Wij hebben 144 redeneer- en plannings taken samengesteld (107 voor training, 37 voor testen), elk met meer dan 200 diverse vragen. Wij fine-tunen Qwen-2.5 modellen (3B/7B/14B) met verschillende SFT en RL strategieën, waarbij we verschillende antwoordformaten, redenerende versus niet-redenerende modellen, koude versus warme starts, GRPO versus PPO, en gemaskeerde versus ongemaskeerde code-uitvoer onderzoeken. In tegenstelling tot eerder RL werk op smalle domeinen, vinden wij dat Code Interpreter training aanzienlijk moeilijker is vanwege hoge taakdiversiteit en dure code-uitvoering, wat de cruciale rol van de SFT fase benadrukt. Ons uiteindelijke model, R1-CI-14B, verbetert de gemiddelde nauwkeurigheid op de 37 test taken van 44,0\% naar 64,1\%, en overtreft GPT-4o (text-only: 58,6\%) en benadert GPT-4o met Code Interpreter (70,9\%), met het opkomende zelfcontrole gedrag via codegeneratie. Datasets, Codes en Modellen zijn beschikbaar op https://github.com/yongchao98/R1-Code-Interpreter en https://huggingface.co/yongchao98.
Multimodale Large Language Models (MLLMs) presteren goed op taken zoals visueel vraag-antwoord, maar het blijft onduidelijk of hun redenering meer steunt op uit het hoofd geleerde wereldkennis of op de visuele informatie in het invoerbeeld. Om dit te onderzoeken, introduceren we Visual CounterFact, een nieuwe dataset van visueel-realistische tegenstrijdigheden die wereldkennisvooroordelen (bijv. een rode aardbei) rechtstreeks in conflict brengen met visuele invoer (bijv. een blauwe aardbei). Met Visual CounterFact laten we zien dat modelvoorspellingen aanvankelijk de uit het hoofd geleerde vooroordelen weerspiegelen, maar verschuiven naar visueel bewijs in de midden tot late lagen. Deze dynamiek onthult een strijd tussen de twee modaliteiten, waarbij de visuele invoer uiteindelijk de vooroordelen overschrijft tijdens de evaluatie. Om dit gedrag te beheersen, stellen we Pixels Versus Priors (PvP) stuurvectoren voor, een mechanisme om modeluitvoer te sturen naar wereldkennis of visuele invoer via interventies op activatieniveau. Gemiddeld verschuift PvP met succes 92,5% van de kleurvoorspellingen en 74,6% van de groottevoorspellingen van vooroordelen naar tegenstrijdigheden. Samen bieden deze bevindingen nieuwe tools voor het interpreteren en beheersen van feitelijk gedrag in multimodale modellen.
Het verkrijgen van grootschalige emotionele spraakdata met een sterke consistentie blijft een uitdaging voor spraaksynthese. Dit artikel presenteert MIKU-PAL, een volledig geautomatiseerde multimodale pipeline voor het extraheren van hoog-consistente emotionele spraak uit ongelabelde videodata. Door gebruik te maken van gezichtsdetectie en tracking-algoritmen, hebben we een automatisch emotieanalysesysteem ontwikkeld met behulp van een multimodaal groot taalmodel (MLLM). Onze resultaten tonen aan dat MIKU-PAL menselijke nauwkeurigheid kan bereiken (68,5% op MELD) en superieure consistentie (0,93 Fleiss kappa-score) terwijl het veel goedkoper en sneller is dan menselijke annotatie. Met de hoogwaardige, flexibele en consistente annotatie van MIKU-PAL kunnen we fijnmazige spraakemotiecategorieën van maximaal 26 types annoteren, gevalideerd door menselijke annotators met 83% rationaliteitsbeoordelingen. Op basis van ons voorgestelde systeem hebben we verder een fijnmazige emotionele spraakdataset MIKU-EmoBench (131,2 uur) vrijgegeven als een nieuwe benchmark voor emotionele tekst-naar-spraak en visuele stemklonen.
Dit onderzoek richt zich op Source-Free Domain Adaptation (SFDA), waarbij een model zich aanpast aan een doeldomein zonder toegang tot brondata. Een nieuwe augmentatietechniek, Shuffle PatchMix (SPM), en een innovatieve herwegingstrategie worden geïntroduceerd om de prestaties te verbeteren. SPM schudt en mengt beeldpatches om diverse en uitdagende augmentaties te genereren, terwijl de herwegingstrategie betrouwbare pseudo-labels prioriteert om labelruis te verminderen. Deze technieken zijn vooral effectief op kleinere datasets zoals PACS, waar overfitting en pseudo-labelruis grotere risico's vormen. State-of-the-art resultaten worden behaald op drie belangrijke benchmarks: PACS, VisDA-C en DomainNet-126. Opmerkelijk is dat op PACS verbeteringen van 7,3% (van 79,4% naar 86,7%) en 7,2% worden waargenomen in respectievelijk enkelvoudige en meervoudige doelsituaties, terwijl winsten van 2,8% en 0,7% worden behaald op DomainNet-126 en VisDA-C. Deze combinatie van geavanceerde augmentatie en robuuste pseudo-labelherweging stelt een nieuwe standaard voor SFDA. De code is beschikbaar op: https://github.com/PrasannaPulakurthi/SPM.
Het efficiënt compileren van quantumoperaties blijft een grote hindernis bij het opschalen van quantumcomputing. De huidige state-of-the-art methoden bereiken een lage compilatiefout door zoekalgoritmen te combineren met op gradienten gebaseerde parameteroptimalisatie, maar dit gaat gepaard met lange looptijden en vereist meerdere aanroepen naar quantumhardware of dure klassieke simulaties, wat hun schaalbaarheid beperkt. Recentelijk zijn machine learning-modellen naar voren gekomen als een alternatief, hoewel deze momenteel beperkt zijn tot discrete gatesets. Hier introduceren we een multimodaal denoising diffusiemodel dat gelijktijdig de structuur van een circuit en zijn continue parameters genereert voor het compileren van een doelunitair. Het maakt gebruik van twee onafhankelijke diffusieprocessen, één voor discrete gate-selectie en één voor parameterpredictie. We benchmarken het model over verschillende experimenten en analyseren de nauwkeurigheid van de methode bij variërende aantallen qubits, circuitdieptes en verhoudingen van geparametriseerde gates. Ten slotte benutten we de snelle circuitgeneratie om grote datasets van circuits voor specifieke operaties te creëren en gebruiken we deze om waardevolle heuristieken te extraheren die nieuwe inzichten kunnen bieden in quantumcircuitsynthese.