Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Academische presentatievideo's zijn een essentieel medium geworden voor onderzoekcommunicatie, maar het produceren ervan blijft zeer arbeidsintensief, waarbij vaak uren worden besteed aan het ontwerpen van dia's, opnemen en bewerken voor een korte video van 2 tot 10 minuten. In tegenstelling tot natuurlijke video's brengt het genereren van presentatievideo's specifieke uitdagingen met zich mee: input van onderzoeksartikelen, dichte multimodale informatie (tekst, figuren, tabellen), en de noodzaak om meerdere afgestemde kanalen te coördineren, zoals dia's, ondertiteling, spraak en een menselijke spreker. Om deze uitdagingen aan te pakken, introduceren we PaperTalker, de eerste benchmark van 101 onderzoeksartikelen gekoppeld aan door auteurs gemaakte presentatievideo's, dia's en sprekersmetadata. We ontwerpen verder vier op maat gemaakte evaluatiemetrics—Meta Similarity, PresentArena, PresentQuiz en IP Memory—om te meten hoe video's de informatie van het artikel overbrengen naar het publiek. Op basis van deze fundering stellen we PaperTalker voor, het eerste multi-agent framework voor het genereren van academische presentatievideo's. Het integreert dia-generatie met effectieve lay-outverfijning door een nieuwe effectieve boomzoekvisuele keuze, cursorverankering, ondertiteling, spraaksynthese en talking-head rendering, terwijl het dia-voor-dia generatie paralleliseert voor efficiëntie. Experimenten op Paper2Video tonen aan dat de presentatievideo's die door onze aanpak worden geproduceerd, trouwer en informatiever zijn dan bestaande baselines, wat een praktische stap vormt naar geautomatiseerde en gebruiksklare academische videogeneratie. Onze dataset, agent en code zijn beschikbaar op https://github.com/showlab/Paper2Video.
Toepassingen van grote taalmodellen (LLM's), zoals agents en domeinspecifiek redeneren, vertrouwen steeds meer op contextaanpassing — het aanpassen van invoer met instructies, strategieën of bewijs, in plaats van gewichtsaanpassingen. Eerdere benaderingen verbeteren de bruikbaarheid, maar lijden vaak aan beknoptheidsbias, waarbij domeininzichten worden opgeofferd voor beknopte samenvattingen, en aan contextcollaps, waarbij iteratief herschrijven details in de loop van de tijd doet vervagen. Voortbouwend op het adaptieve geheugen geïntroduceerd door Dynamic Cheatsheet, introduceren we ACE (Agentic Context Engineering), een raamwerk dat contexten behandelt als evoluerende playbooks die strategieën accumuleren, verfijnen en organiseren via een modulair proces van generatie, reflectie en curatie. ACE voorkomt collaps met gestructureerde, incrementele updates die gedetailleerde kennis behouden en schalen met lang-contextmodellen. Over benchmarks voor agents en domeinspecifieke taken optimaliseert ACE contexten zowel offline (bijv. systeemprompts) als online (bijv. agentgeheugen), en presteert consequent beter dan sterke baselines: +10,6% op agents en +8,6% op financiële taken, terwijl het de aanpassingslatentie en implementatiekosten aanzienlijk reduceert. Opmerkelijk is dat ACE effectief kon aanpassen zonder gelabelde supervisie, maar door natuurlijke uitvoeringsfeedback te benutten. Op de AppWorld-leaderboard evenaart ACE de top-ranked productie-agent op het algemene gemiddelde en overtreft deze op de moeilijkere test-challenge-splitsing, ondanks het gebruik van een kleiner open-source model. Deze resultaten tonen aan dat uitgebreide, evoluerende contexten schaalbare, efficiënte en zelfverbeterende LLM-systemen mogelijk maken met lage overhead.
Video understanding vertegenwoordigt de meest uitdagende grens in computervisie, waarbij modellen moeten redeneren over complexe spatiotemporele relaties, langetermijnafhankelijkheden en multimodale bewijzen. De recente opkomst van Video-Large Multimodal Models (Video-LMMs), die visuele encoders integreren met krachtige decoder-gebaseerde taalmodelen, heeft opmerkelijke capaciteiten getoond in video understanding taken. Echter, de cruciale fase die deze modellen transformeert van basale perceptiesystemen naar geavanceerde redeneermachines, post-training, blijft gefragmenteerd in de literatuur. Deze survey biedt het eerste uitgebreide onderzoek naar post-training methodologieën voor Video-LMMs, waarbij drie fundamentele pijlers worden behandeld: supervised fine-tuning (SFT) met chain-of-thought, reinforcement learning (RL) vanuit verifieerbare doelstellingen, en test-time scaling (TTS) door verbeterde inferentieberekening. We presenteren een gestructureerde taxonomie die de rollen, onderlinge verbindingen en video-specifieke aanpassingen van deze technieken verduidelijkt, en unieke uitdagingen aanpakt zoals temporele lokalisatie, spatiotemporele verankering, efficiëntie bij lange video's en integratie van multimodale bewijzen. Door systematische analyse van representatieve methoden, synthetiseren we belangrijke ontwerp principes, inzichten en evaluatieprotocollen, terwijl we kritieke open uitdagingen identificeren in beloningsontwerp, schaalbaarheid en kosten-prestatieoptimalisatie. We stellen verder essentiële benchmarks, datasets en metrieken samen om een rigoureuze beoordeling van de effectiviteit van post-training te vergemakkelijken. Deze survey heeft als doel onderzoekers en praktijkmensen een uniform raamwerk te bieden voor het bevorderen van de capaciteiten van Video-LMMs. Aanvullende bronnen en updates worden onderhouden op: https://github.com/yunlong10/Awesome-Video-LMM-Post-Training
Boomzoeken is uitgegroeid tot een representatief raamwerk voor redeneren tijdens testtijd met grote taalmodellen (LLMs), geïllustreerd door methoden zoals Tree-of-Thought en Monte Carlo Tree Search die meerdere redeneerpaden verkennen. Het blijft echter moeilijk om directe en betrouwbare kwantitatieve beoordelingen te geven van de kwaliteit van tussenliggende redeneerstappen, en uitgebreide padverkenning is rekenkundig kostbaar. Om dit aan te pakken, stellen we Mutual Information Tree Search (MITS) voor, een nieuw raamwerk dat redeneren begeleidt met informatie-theoretische principes. MITS introduceert een effectieve scoringsfunctie gebaseerd op pointwise mutual information (PMI), die stapsgewijze evaluatie van redeneerpaden en uitbreiding van de zoekboom via beam search mogelijk maakt zonder dure vooruitbliksimulaties, wat superieure redeneerprestaties oplevert terwijl de rekenkundige efficiëntie behouden blijft. Het raamwerk wordt aangevuld met een op entropie gebaseerde dynamische steekproefstrategie die rekenkundige bronnen adaptief toewijst aan onzekere redeneerstappen waar verkenning het meest voordelig is. Voor de uiteindelijke voorspelling gebruikt MITS een gewogen stemschema dat PMI-scores combineert met voorspellingsconsensus. Door uitgebreide experimenten op diverse redeneerbenchmarks overtreft MITS consistent basislijnmethoden, waarmee een principieel en efficiënt raamwerk voor LLM-redeneren wordt gevestigd.
Recente vooruitgang in grote taalmodellen toont aan dat hybride architecturen--die zelf-attentiemechanismen combineren met gestructureerde toestandsruimtemodellen zoals Mamba--een overtuigende balans kunnen bereiken tussen modelkwaliteit en computationele efficiëntie, vooral voor taken met lange contexten. Hoewel deze hybride modellen veelbelovende prestaties laten zien, zijn systematische vergelijkingen van hybridisatiestrategieën en analyses van de belangrijkste factoren achter hun effectiviteit nog niet duidelijk gedeeld met de gemeenschap. In dit werk presenteren we een holistische evaluatie van hybride architecturen gebaseerd op inter-laag (sequentieel) of intra-laag (parallelle) fusie. We evalueren deze ontwerpen vanuit verschillende perspectieven: taalmodelleringsprestaties, mogelijkheden voor lange contexten, schaalanalyse, en trainings- en inferentie-efficiëntie. Door de kernkenmerken van hun computationele primitief te onderzoeken, identificeren we de meest kritieke elementen voor elke hybridisatiestrategie en stellen we optimale ontwerprecepten voor voor beide hybride modellen. Onze uitgebreide analyse biedt praktische richtlijnen en waardevolle inzichten voor de ontwikkeling van hybride taalmodellen, waardoor de optimalisatie van architectuurconfiguraties wordt gefaciliteerd.
Recente videogeneratiemodellen kunnen vloeiende en visueel aantrekkelijke clips produceren, maar hebben vaak moeite met het synthetiseren van complexe dynamiek met een samenhangende keten van gevolgen. Het nauwkeurig modelleren van visuele uitkomsten en staatsovergangen in de tijd blijft een kernuitdaging. Daarentegen vertonen grote taal- en multimodale modellen (bijv. GPT-4o) sterke visuele staatredenering en toekomstvoorspellingscapaciteiten. Om deze sterke punten te combineren, introduceren we VChain, een nieuw inferentietijd keten-van-visuele-gedachten raamwerk dat visuele redeneersignalen van multimodale modellen injecteert in videogeneratie. Specifiek bevat VChain een toegewijd pipeline dat grote multimodale modellen benut om een beperkte set kritieke keyframes als momentopnamen te genereren, die vervolgens worden gebruikt om de spaarzame inferentietijd afstemming van een vooraf getrainde videogenerator alleen op deze sleutelmomenten te begeleiden. Onze aanpak is afstemmingsefficiënt, introduceert minimale overhead en vermijdt dichte supervisie. Uitgebreide experimenten op complexe, meerstaps scenario's tonen aan dat VChain de kwaliteit van gegenereerde video's aanzienlijk verbetert.
Jailbreaking-aanvallen op de visuele modaliteit maken doorgaans gebruik van onmerkbare adversariële verstoringen, terwijl aanvallen op de tekstuele modaliteit over het algemeen zichtbare wijzigingen vereisen (bijvoorbeeld niet-semantische achtervoegsels). In dit artikel introduceren we onmerkbare jailbreaks die gebruikmaken van een klasse Unicode-tekens genaamd variatieselectors. Door onzichtbare variatieselectors toe te voegen aan kwaadaardige vragen, lijken de jailbreak-prompts visueel identiek aan de originele kwaadaardige vragen op het scherm, terwijl hun tokenisatie "stiekem" wordt gewijzigd. We stellen een keten-van-zoekopdrachten-pijplijn voor om dergelijke adversariële achtervoegsels te genereren die schadelijke reacties veroorzaken. Onze experimenten tonen aan dat onze onmerkbare jailbreaks hoge aanvalssuccespercentages behalen tegen vier uitgelijnde LLM's en zich generaliseren naar promptinjectie-aanvallen, allemaal zonder zichtbare wijzigingen in de geschreven prompt te produceren. Onze code is beschikbaar op https://github.com/sail-sg/imperceptible-jailbreaks.
Ondanks recente vooruitgang in het overdragen van optimale hyperparameters bij schaling van modellen en datasets, is er nog geen verenigend verklarend principe vastgesteld. Met behulp van de Scion-optimalisator ontdekken we dat gezamenlijke optimale schaling over model- en datasetgroottes wordt bepaald door een enkele invariant: de operatornorm van de uitvoerlaag. Over modellen met tot 1,3 miljard parameters getraind op tot 138 miljard tokens, heeft het optimale leerrate/batchgrootte-paar (eta^{ast}, B^{ast}) consistent dezelfde operatornormwaarde - een fenomeen dat we normoverdracht noemen. Deze constante normconditie is noodzakelijk maar niet voldoende: hoewel voor elke datasetgrootte meerdere (eta, B) de optimale norm bereiken, bereikt slechts een uniek (eta^{ast}, B^{ast}) het beste verlies. Als een voldoende voorwaarde bieden we de eerste meting van (eta^{ast}, B^{ast})-schaling met datasetgrootte voor Scion, en vinden we dat de schalingsregels consistent zijn met die van de Adam-optimalisator. Het afstemmen van leerraten per laaggroep verbetert ook de modelprestaties, waarbij de uitvoerlaag het meest gevoelig is en verborgen lagen profiteren van lagere leerraten. We bieden praktische inzichten in normgeleide optimale schaling en geven onze Distributed Scion (Disco)-implementatie vrij met logs van meer dan tweeduizend runs om onderzoek naar LLM-trainingsdynamica op grote schaal te ondersteunen.
Het Transformer-architectuur is de facto standaard geworden voor Large Language Models (LLMs), waarbij het opmerkelijke prestaties vertoont in taalbegrip en -generatie. De toepassing ervan in conversationele AI wordt echter fundamenteel beperkt door zijn stateless aard en de kwadratische rekencomplexiteit (O(L^2)) ten opzichte van de sequentielengte L. Huidige modellen bootsen geheugen na door een steeds uitdijende conversatiegeschiedenis bij elke beurt opnieuw te verwerken, wat leidt tot onhoudbare kosten en latentie in lange dialogen. Dit artikel introduceert de Reactive Transformer (RxT), een nieuwe architectuur die ontworpen is om deze beperkingen te overwinnen door te verschuiven van een data-driven naar een event-driven paradigma. RxT verwerkt elke conversatiebeurt als een discreet event in realtime, waarbij context wordt bewaard in een geïntegreerd, vast formaat Short-Term Memory (STM)-systeem. De architectuur kenmerkt zich door een duidelijk operationeel cyclus waarin een generator-decoder een antwoord produceert op basis van de huidige query en de vorige geheugenstatus, waarna een memory-encoder en een toegewijd Memory Attention-netwerk asynchroon het STM bijwerken met een representatie van de volledige interactie. Dit ontwerp verandert de schaalbaarheidsdynamiek fundamenteel, waardoor de totale gebruikersgerichte kosten van een conversatie worden gereduceerd van kwadratisch (O(N^2 cdot T)) naar lineair (O(N cdot T)) ten opzichte van het aantal interacties N. Door het ontkoppelen van antwoordgeneratie en geheugenupdates bereikt RxT een lage latentie, waardoor echt realtime, stateful en economisch haalbare langdurige gesprekken mogelijk worden. We hebben onze architectuur gevalideerd met een reeks proof-of-concept experimenten op synthetische data, waarbij superieure prestaties en constante-tijd inferentielatentie werden aangetoond in vergelijking met een baseline stateless model van vergelijkbare grootte.
Het heersende paradigma voor het verbeteren van de redeneervaardigheden van LLM's draait om post-training op hoogwaardige, redeneerintensieve data. Hoewel opkomende literatuur suggereert dat redeneerdata steeds vaker ook tijdens de mid-training fase wordt geïntegreerd—een praktijk die relatief meer propriëtair en minder openlijk wordt beschreven—blijft de rol van dergelijke data in de pretraining onduidelijk. Met name vanwege de ondoorzichtigheid van pretraining corpora in de meeste frontier modellen, wordt het effect van redeneerdata die in verschillende fasen van pre- en/of post-training wordt geïntroduceerd relatief minder gerapporteerd in de wetenschappelijke literatuur. Dit roept verschillende belangrijke vragen op: Is het toevoegen van redeneerdata eerder tijdens de pretraining beter dan het introduceren ervan tijdens de post-training? Zou eerdere inclusie het risico van overfitting kunnen vergroten en de generalisatie schaden, of zou het juist duurzame fundamenten kunnen leggen die latere fine-tuning niet kan herstellen? Wij voeren de eerste systematische studie uit naar hoe redeneerdata—variërend in schaal, diversiteit en kwaliteit—de prestaties van LLM's beïnvloedt wanneer deze in verschillende fasen van de training wordt geïntroduceerd. Wij constateren dat het vooraf laden van redeneerdata in de pretraining cruciaal is (19% gemiddelde winst), waarbij fundamentele capaciteiten worden gevestigd die niet volledig kunnen worden gerepliceerd door latere SFT, zelfs niet met meer data. Wij ontdekken een asymmetrisch principe voor optimale data-allocatie: pretraining profiteert het meest van brede diversiteit in redeneerpatronen (11% gemiddelde winst), terwijl SFT gevoeliger is voor data-kwaliteit (15% gemiddelde winst). Wij tonen aan dat hoogwaardige pretraining-data latente effecten heeft, die pas na SFT worden geactiveerd, en dat het naïef opschalen van SFT-data nadelig kan zijn, waardoor de voordelen van vroege redeneerinjectie worden weggespoeld. Onze resultaten dagen de conventionele scheiding tussen taalmodellering en redeneren uit en bieden een principiële gids voor het strategisch alloceren van data over de gehele trainingspipeline om capabelere modellen te bouwen.
Gesproken dialoogsystemen vertrouwen vaak op cascadepipelines die spraak transcriberen, verwerken en opnieuw synthetiseren. Hoewel effectief, gooit dit ontwerp paralinguïstische signalen weg en beperkt het de expressiviteit. Recente end-to-end methoden verminderen de latentie en behouden deze signalen beter, maar blijven nog steeds afhankelijk van tekstintermediairen, wat een fundamenteel knelpunt creëert. Wij presenteren MOSS-Speech, een echt spraak-naar-spraak groot taalmodel dat spraak direct begrijpt en genereert zonder te vertrouwen op tekstbegeleiding. Onze aanpak combineert een op modaliteit gebaseerde laagsplitsingsarchitectuur met een bevroren voorafgaande trainingsstrategie, waardoor het redeneervermogen en de kennis van vooraf getrainde tekst-LLM's behouden blijven terwijl native spraakmogelijkheden worden toegevoegd. Experimenten tonen aan dat ons model state-of-the-art resultaten behaalt in gesproken vraagbeantwoording en vergelijkbare spraak-naar-spraak prestaties levert ten opzichte van bestaande tekstgeleide systemen, terwijl het tegelijkertijd concurrerende tekstprestaties behoudt. Door de kloof tussen tekstgeleide en directe spraakgeneratie te verkleinen, vestigt ons werk een nieuw paradigma voor expressieve en efficiënte end-to-end spraakinteractie.
Hoewel moderne modellen voor visuele generatie uitblinken in het creëren van esthetisch aantrekkelijke natuurlijke afbeeldingen, hebben ze moeite met het produceren of bewerken van gestructureerde visuals zoals grafieken, diagrammen en wiskundige figuren, die compositieplanning, tekstweergave en multimodale redenering vereisen voor feitelijke nauwkeurigheid. Om dit aan te pakken, presenteren we het eerste uitgebreide, systematische onderzoek van dit domein, dat data-constructie, modeltraining en een evaluatiebenchmark omvat. Ten eerste construeren we een grootschalige dataset van 1,3 miljoen hoogwaardige gestructureerde afbeeldingsparen, afgeleid van uitvoerbare tekenprogramma's en aangevuld met keten-van-gedachte redeneringsannotaties. Hierop voortbouwend trainen we een unificatiemodel dat een VLM integreert met FLUX.1 Kontext via een lichtgewicht connector voor verbeterde multimodale begripsvorming. Een driedelige trainingscurriculum maakt progressieve kenmerkuitlijning, kennisinfusie en redeneringsversterkte generatie mogelijk, verder versterkt door een externe redeneerder tijdens de inferentiefase. Ten slotte introduceren we StructBench, een nieuwe benchmark voor generatie en bewerking met meer dan 1.700 uitdagende instanties, en een bijbehorende evaluatiemetriek, StructScore, die een meerronde Q&A-protocol gebruikt om fijnmazige feitelijke nauwkeurigheid te beoordelen. Evaluaties van 15 modellen laten zien dat zelfs toonaangevende closed-source systemen verre van bevredigend presteren. Ons model behaalt sterke bewerkingsprestaties, en inferentie-tijd redenering levert consistente verbeteringen op bij diverse architecturen. Door de dataset, het model en de benchmark vrij te geven, streven we ernaar om de unificatie van multimodale fundamenten voor gestructureerde visuals te bevorderen.
Instruction-tuning speelt een cruciale rol bij het verbeteren van de taakoplossende vaardigheden van grote taalmodellen (LLM's), waardoor hun bruikbaarheid toeneemt bij het genereren van nuttige reacties op diverse taken. Eerder onderzoek heeft echter aangetoond dat ze gevoelig zijn voor kleine variaties in de formulering van instructies. In dit artikel onderzoeken we of het introduceren van verstoringen in instruction-tuning data de weerstand van LLM's tegen onduidelijke instructies kan vergroten. We richten ons op hoe instruction-tuning met verstoringen, zoals het verwijderen van stopwoorden of het door elkaar husselen van woorden, de prestaties van LLM's beïnvloedt op de originele en verstoorde versies van veelgebruikte benchmarks (MMLU, BBH, GSM8K). We beoordelen verder de leer dynamiek en mogelijke verschuivingen in modelgedrag. Verrassend genoeg suggereren onze resultaten dat instruction-tuning op verstoorde instructies in sommige gevallen de prestaties op downstream taken kan verbeteren. Deze bevindingen benadrukken het belang van het opnemen van verstoorde instructies in instruction-tuning, wat LLM's veerkrachtiger kan maken tegen onduidelijke gebruikersinvoer.
Reinforcement learning toegepast op grote taalmodellen (LLMs) voor redeneertaken wordt vaak beperkt door instabiele schattingen van de gradient als gevolg van vaste en uniforme steekproeven van antwoorden over prompts. Eerder werk, zoals GVM-RAFT, pakt dit aan door dynamisch het inferentiebudget per prompt toe te wijzen om de stochastische gradientvariantie te minimaliseren onder een budgetbeperking. Geïnspireerd door dit inzicht stellen we Reinforce-Ada voor, een adaptief steekproefkader voor online RL-post-training van LLMs dat continu de steekproefinspanning herverdeelt naar de prompts met de grootste onzekerheid of leerpotentieel. In tegenstelling tot conventionele tweefasen-toewijzingsmethoden, verweeft Reinforce-Ada schatting en steekproefname in een online opeenvolgende eliminatieproces en stopt automatisch met steekproefname voor een prompt zodra voldoende signaal is verzameld. Om updates te stabiliseren, vormen we groepen met een vaste grootte en gedwongen beloningsdiversiteit en berekenen we voordeelbaselines met behulp van globale statistieken die zijn geaggregeerd over de adaptieve steekproeffase. Empirische resultaten over meerdere modelarchitecturen en redeneerbenchmarks laten zien dat Reinforce-Ada de convergentie versnelt en de uiteindelijke prestaties verbetert in vergelijking met GRPO, vooral bij gebruik van de gebalanceerde steekproefvariant. Ons werk benadrukt de centrale rol van variantiebewuste, adaptieve datacuratie bij het mogelijk maken van efficiënt en betrouwbaar reinforcement learning voor redeneervaardige LLMs. Code is beschikbaar op https://github.com/RLHFlow/Reinforce-Ada.
De afstemming van grote taalmodellen (LLMs) op menselijke waarden is in toenemende mate afhankelijk van het gebruik van andere LLMs als geautomatiseerde beoordelaars, ofwel "autoraters". Hun betrouwbaarheid wordt echter beperkt door een fundamenteel probleem: ze zijn getraind op discrete voorkeurslabels, waardoor een enkele waarheid wordt opgelegd aan taken die vaak subjectief, ambigu of genuanceerd zijn. Wij stellen dat een betrouwbare autorater de volledige verdeling van voorkeuren die door een doelpopulatie wordt gedefinieerd, moet leren modelleren. In dit artikel presenteren we een algemeen raamwerk voor het kalibreren van probabilistische autoraters naar een gegeven voorkeursverdeling. We formaliseren het probleem en presenteren twee leermethoden die zijn afgestemd op verschillende data-omstandigheden: 1) een directe supervised fine-tuning voor dichte, probabilistische labels, en 2) een reinforcement learning-benadering voor schaarse, binaire labels. Onze empirische resultaten tonen aan dat het finetunen van autoraters met een distributie-matching doelstelling leidt tot verbaal uitgedrukte waarschijnlijkheidsvoorspellingen die beter zijn afgestemd op de doelvoorkeursverdeling, met verbeterde kalibratie en aanzienlijk minder positionele bias, terwijl de prestaties op objectieve taken behouden blijven.
Reinforcement learning heeft een centrale rol gespeeld in recente vooruitgangen in het redeneren van grote taalmodellen, maar de meeste algoritmen vertrouwen op on-policy training die verse rollouts vereist bij elke update, wat de efficiëntie en schaalbaarheid beperkt. Asynchrone RL-systemen verlichten dit door het genereren van rollouts te ontkoppelen van training, maar hun effectiviteit hangt af van het tolereren van grote veroudering in rollout-data, een situatie waarin bestaande methoden ofwel in prestaties achteruitgaan of instorten. We herzien deze uitdaging en ontdekken een welvaart-voor-instortingsfenomeen: verouderde data kan net zo informatief zijn als on-policy data als deze op de juiste manier wordt benut. Op basis van dit inzicht introduceren we M2PO (Second-Moment Trust Policy Optimization), dat het tweede moment van belangrijkheidsgewichten beperkt om alleen extreme uitschieters te onderdrukken terwijl informatieve updates behouden blijven. Opmerkelijk is dat M2PO het aandeel van geknipte tokens onder hoge veroudering sterk reduceert (van 1,22% naar 0,06% tijdens de training), waarbij het precies hoge-variantie tokens maskeert terwijl een stabiele optimalisatie behouden blijft. Uitgebreide evaluatie over zes modellen (van 1,7B tot 32B) en acht benchmarks toont aan dat M2PO stabiele off-policy training biedt, zelfs met data die minstens 256 modelupdates verouderd is, en prestaties die overeenkomen met on-policy training.
Recent werk toont aan dat, naast discreet redeneren via expliciete keten-van-gedachten-stappen, die beperkt worden door de grenzen van natuurlijke talen, grote taalmodellen (LLMs) ook continu kunnen redeneren in latente ruimte, wat rijkere informatie per stap mogelijk maakt en daardoor de token-efficiëntie verbetert. Ondanks deze belofte, blijft latent redeneren twee uitdagingen kennen, vooral in trainingsvrije settings: 1) puur latent redeneren verbreedt de zoekverdeling door meerdere impliciete paden te behouden, wat de waarschijnlijkheidsmassa verspreidt, ruis introduceert en de convergentie naar een enkele oplossing met hoge betrouwbaarheid belemmert, waardoor de nauwkeurigheid wordt geschaad; en 2) overdenken blijft bestaan zelfs zonder expliciete tekst, wat tokens verspilt en de efficiëntie vermindert. Om deze problemen aan te pakken, introduceren we SwiReasoning, een trainingsvrij raamwerk voor LLM-redenering dat twee belangrijke innovaties bevat: 1) SwiReasoning schakelt dynamisch tussen expliciet en latent redeneren, geleid door blokgewijze betrouwbaarheid geschat uit entropietrends in volgende-token-verdelingen, om exploratie en exploitatie in balans te brengen en tijdige convergentie te bevorderen. 2) Door het maximale aantal denkblok-schakelingen te beperken, beteugelt SwiReasoning overdenken en verbetert het de token-efficiëntie over verschillende probleem moeilijkheden. Op veelgebruikte wiskunde- en STEM-benchmarks verbetert SwiReasoning consistent de gemiddelde nauwkeurigheid met 1,5%-2,8% over redenerende LLMs van verschillende modelfamilies en schalen. Bovendien verbetert SwiReasoning onder beperkte budgetten de gemiddelde token-efficiëntie met 56%-79%, met grotere winsten naarmate de budgetten krapper worden.
Recente vooruitgang in grote generatieve modellen heeft beeldbewerking en in-context beeldgeneratie aanzienlijk verbeterd, maar een kritieke kloof blijft bestaan in het waarborgen van fysieke consistentie, waarbij bewerkte objecten coherent moeten blijven. Deze mogelijkheid is vooral cruciaal voor taken die verband houden met wereldsimulatie. In dit artikel presenteren we ChronoEdit, een framework dat beeldbewerking herformuleert als een videogeneratieprobleem. Ten eerste behandelt ChronoEdit de invoer- en bewerkte afbeeldingen als de eerste en laatste frames van een video, waardoor het gebruik kan maken van grote vooraf getrainde videogeneratieve modellen die niet alleen het uiterlijk van objecten vastleggen, maar ook de impliciete fysica van beweging en interactie door geleerde temporele consistentie. Ten tweede introduceert ChronoEdit een temporele redeneerfase die expliciet bewerkingen uitvoert tijdens de inferentie. In deze setting wordt het doelbeeld gezamenlijk ontruisd met redeneertokens om een plausibel bewerkingstraject te bedenken dat de oplossingsruimte beperkt tot fysiek haalbare transformaties. De redeneertokens worden vervolgens na een paar stappen verwijderd om de hoge rekenkosten van het renderen van een volledige video te vermijden. Om ChronoEdit te valideren, introduceren we PBench-Edit, een nieuwe benchmark van afbeelding-prompt-paren voor contexten die fysieke consistentie vereisen, en demonstreren we dat ChronoEdit state-of-the-art baselines overtreft in zowel visuele kwaliteit als fysieke plausibiliteit. Code en modellen voor zowel de 14B- als 2B-varianten van ChronoEdit zullen worden vrijgegeven op de projectpagina: https://research.nvidia.com/labs/toronto-ai/chronoedit
Computer use agents (CUAs) moeten taakworkflows plannen die zijn verankerd in diverse, voortdurend veranderende applicaties en omgevingen, maar het leren wordt belemmerd door het gebrek aan grootschalige, hoogwaardige trainingsdata in de doelapplicatie. Bestaande datasets zijn domeinspecifiek, statisch en kostbaar om te annoteren, terwijl huidige methoden voor synthetische datageneratie vaak simplistische of verkeerd uitgelijnde taakdemonstraties opleveren. Om deze beperkingen aan te pakken, introduceren we Watch & Learn (W&L), een framework dat menselijke demonstratievideo's die gemakkelijk beschikbaar zijn op het internet, op grote schaal omzet in uitvoerbare UI-trajecten. In plaats van direct trajecten te genereren of te vertrouwen op ad hoc redeneerheuristieken, formuleren we het probleem als een inverse dynamiek-doelstelling: het voorspellen van de actie van de gebruiker op basis van opeenvolgende schermtoestanden. Deze formulering vermindert handmatige engineering, is gemakkelijker te leren en generaliseert robuuster over applicaties heen. Concreet ontwikkelen we een inverse dynamiek-labelingpijplijn met taakbewuste videoretrieval, genereren we meer dan 53k hoogwaardige trajecten uit ruwe webvideo's, en tonen we aan dat deze trajecten CUAs verbeteren, zowel als in-context demonstraties als als begeleide trainingsdata. Op de uitdagende OSWorld-benchmark verbeteren UI-trajecten die met W&L zijn geëxtraheerd, zowel algemene als state-of-the-art frameworks in-context, en leveren ze sterkere verbeteringen op voor open-source modellen onder begeleide training. Deze resultaten benadrukken web-schaal menselijke demonstratievideo's als een praktische en schaalbare basis voor het bevorderen van CUAs naar real-world implementatie.
Grote taalmodellen (LLMs) lossen steeds vaker complexe redeneertaken op via lange ketens van gedachten, maar hun voorwaartse, autoregressieve generatieproces is kwetsbaar; vroege tokenfouten kunnen zich opstapelen, wat de noodzaak voor zelfreflectiemechanismen duidelijk maakt. Bestaande zelfreflectie voert echter ofwel revisies uit over volledige concepten of leert zelfcorrectie via kostbare training, beide fundamenteel reactief en inefficiënt. Om dit aan te pakken, stellen we Self-Reflective Generation at Test Time (SRGen) voor, een lichtgewicht testtijdraamwerk dat reflecteert voordat het genereert op onzekere punten. Tijdens het genereren van tokens gebruikt SRGen dynamische entropiedrempels om tokens met hoge onzekerheid te identificeren. Voor elk geïdentificeerd token traint het een specifiek correctievector, die de reeds gegenereerde context volledig benut voor een zelfreflectieve generatie om de tokenwaarschijnlijkheidsverdeling te corrigeren. Door retrospectief de gedeeltelijke output te analyseren, maakt deze zelfreflectie betrouwbaardere beslissingen mogelijk, waardoor de kans op fouten op zeer onzekere punten aanzienlijk wordt verminderd. Geëvalueerd op uitdagende wiskundige redeneerbenchmarks en een diverse set van LLMs, kan SRGen consistent modelredenering versterken: verbeteringen in kwaliteit bij een enkele doorloop vertalen zich ook in sterkere zelfconsistentie bij stemmen. Met name op AIME2024 met DeepSeek-R1-Distill-Qwen-7B levert SRGen absolute verbeteringen op van +12,0% bij Pass@1 en +13,3% bij Cons@5. Bovendien positioneren onze bevindingen SRGen als een plug-and-play methode die reflectie integreert in het generatieproces voor betrouwbare LLM-redenering, waarbij consistente winsten worden behaald met beperkte overhead en brede combineerbaarheid met andere trainingstijd- (bijv. RLHF) en testtijdtechnieken (bijv. SLOT).
De adoptie van AI-gestuurde code-completiontools in softwareontwikkeling is aanzienlijk toegenomen, maar de gebruikersinteractiedata die door deze systemen worden gegenereerd, blijven eigendom van grote bedrijven. Dit vormt een barrière voor de academische gemeenschap, aangezien onderzoekers vaak specifieke platforms moeten ontwikkelen om studies naar mens-AI-interactie uit te voeren, wat reproduceerbaar onderzoek en grootschalige data-analyse onpraktisch maakt. In dit werk introduceren we Code4MeV2, een onderzoeksgericht, open-source code-completionplugin voor JetBrains IDEs, als oplossing voor deze beperking. Code4MeV2 is ontworpen met een client-serverarchitectuur en beschikt over inline code-completion en een contextbewuste chatassistent. De kernbijdrage is een modulair en transparant dataverzamelingsframework dat onderzoekers fijnmazige controle geeft over telemetrie en contextverzameling. Code4MeV2 bereikt een prestatieniveau dat vergelijkbaar is met de industrie op het gebied van code-completion, met een gemiddelde latentie van 200~ms. We evalueren onze tool door middel van een combinatie van een expertbeoordeling en een gebruikersstudie met acht deelnemers. Feedback van zowel onderzoekers als dagelijkse gebruikers benadrukt de informatiefheid en bruikbaarheid ervan. We nodigen de gemeenschap uit om deze tool te adopteren en eraan bij te dragen. Meer informatie over de tool is te vinden op https://app.code4me.me.
Grote Taalmodellen (LLMs) voor formeel theorema bewijzen hebben aanzienlijke belofte getoond, maar ze missen vaak generaliseerbaarheid en zijn kwetsbaar voor zelfs kleine transformaties van probleemstellingen. Om deze beperking aan te pakken, introduceren we een innovatieve data-augmentatiepijplijn die is ontworpen om de robuustheid van het model vanuit twee perspectieven te verbeteren: symmetrie en moeilijkheidsgraad. Vanuit het symmetrieperspectief stellen we twee complementaire methoden voor: EvolAST, een Abstract Syntax Tree (AST) gebaseerde aanpak die syntactische symmetrie benut om semantisch equivalente probleemvarianten te genereren, en EvolDomain, dat gebruikmaakt van LLMs om semantische symmetrie aan te pakken door theorema's over verschillende wiskundige domeinen te vertalen. Vanuit het moeilijkheidsperspectief stellen we EvolDifficulty voor, dat zorgvuldig ontworpen evolutionaire instructies gebruikt om LLMs te begeleiden bij het genereren van nieuwe theorema's met een breder scala aan moeilijkheidsgraden. Vervolgens gebruiken we de geëvolueerde data om EvolProver te trainen, een 7B-parameter niet-redenerende theorema-bewijzer. EvolProver vestigt een nieuwe state-of-the-art (SOTA) op FormalMATH-Lite met een 53,8% pass@32-snelheid, waarmee het alle modellen van vergelijkbare grootte overtreft, inclusief redeneringsgebaseerde modellen. Het stelt ook nieuwe SOTA-records voor niet-redenerende modellen op MiniF2F-Test (69,8% pass@32), Ineq-Comp-Seed (52,2% pass@32) en Ineq-Comp-Transformed (34,0% pass@32). Ablatiestudies bevestigen verder de effectiviteit van onze data-augmentatiepijplijn over meerdere benchmarks.
De maatschappelijke impact van Natural Language Processing (NLP) wordt steeds belangrijker, met een groeiende gemeenschapsfocus op initiatieven gerelateerd aan NLP voor Maatschappelijk Welzijn (NLP4SG). Inderdaad, in recente jaren behandelt bijna 20% van alle artikelen in de ACL Anthology onderwerpen die verband houden met maatschappelijk welzijn zoals gedefinieerd door de Duurzame Ontwikkelingsdoelen van de VN (Adauto et al., 2023). In deze studie nemen we een auteur- en tijdschriftniveau-perspectief om het landschap van NLP4SG in kaart te brengen, waarbij we het aandeel werk dat zich richt op maatschappelijke welzijnsproblemen kwantificeren, zowel binnen als buiten de ACL-gemeenschap, door zowel kern-ACL-bijdragers als niet-ACL-auteurs. Met deze aanpak ontdekken we twee verrassende feiten over het landschap van NLP4SG. Ten eerste zijn ACL-auteurs aanzienlijk meer geneigd om werk te doen dat zich richt op maatschappelijke welzijnsproblemen wanneer ze publiceren in tijdschriften buiten de ACL. Ten tweede wordt de overgrote meerderheid van publicaties die NLP-technieken gebruiken om maatschappelijke welzijnsproblemen aan te pakken, gedaan door niet-ACL-auteurs in tijdschriften buiten de ACL. We bespreken de implicaties van deze bevindingen voor agenda-bepalende overwegingen voor de ACL-gemeenschap met betrekking tot NLP4SG.
Stel je voor dat Mr. Bean een stap zet in de wereld van Tom en Jerry—kunnen we video’s genereren waarin personages op natuurlijke wijze interacteren tussen verschillende werelden? Wij onderzoeken inter-persoonsinteractie in tekst-naar-video-generatie, waarbij de belangrijkste uitdaging is om de identiteit en het gedrag van elk personage te behouden terwijl coherente interactie tussen verschillende contexten mogelijk wordt gemaakt. Dit is moeilijk omdat personages mogelijk nooit naast elkaar hebben bestaan en omdat het mengen van stijlen vaak leidt tot stijlverwarring, waarbij realistische personages er cartoonachtig uitzien of vice versa. Wij introduceren een raamwerk dat deze problemen aanpakt met Cross-Character Embedding (CCE), dat identiteit en gedragslogica leert uit multimodale bronnen, en Cross-Character Augmentation (CCA), dat de training verrijkt met synthetische co-existentie en gemengde-stijlgegevens. Samen maken deze technieken natuurlijke interacties mogelijk tussen personages die voorheen niet naast elkaar bestonden, zonder verlies van stilistische trouw. Experimenten op een samengestelde benchmark van tekenfilms en live-action series met 10 personages tonen duidelijke verbeteringen in identiteitsbehoud, interactiekwaliteit en robuustheid tegen stijlverwarring, wat nieuwe vormen van generatief vertellen mogelijk maakt. Aanvullende resultaten en video’s zijn beschikbaar op onze projectpagina: https://tingtingliao.github.io/mimix/.
We geven Code World Model (CWM) vrij, een open-gewichten LLM met 32 miljard parameters, om onderzoek naar codegeneratie met wereldmodellen te bevorderen. Om codebegrip te verbeteren verder dan wat alleen kan worden geleerd door training op statische code, mid-trainen we CWM op een grote hoeveelheid observatie-actie trajecten van Python-interpreter en agentische Docker-omgevingen, en voeren we uitgebreide multi-task redeneer-RL uit in verifieerbare coderings-, wiskunde- en multi-turn software engineering omgevingen. Met CWM bieden we een krachtige testomgeving voor onderzoekers om de mogelijkheden te verkennen die wereldmodellen bieden voor het verbeteren van codegeneratie met redeneren en plannen in computationele omgevingen. We presenteren eerste stappen van hoe wereldmodellen agentisch coderen kunnen bevorderen, stapsgewijze simulatie van Python-code-uitvoering mogelijk maken, en laten vroege resultaten zien van hoe redeneren kan profiteren van het laatste. CWM is een dicht, decoder-only LLM getraind met een contextgrootte van maximaal 131k tokens. Onafhankelijk van zijn wereldmodelleringscapaciteiten, biedt CWM sterke prestaties op algemene coderings- en wiskundetaken: het behaalt pass@1-scores van 65,8% op SWE-bench Verified (met test-time scaling), 68,6% op LiveCodeBench, 96,6% op Math-500, en 76,0% op AIME 2024. Om verder onderzoek naar code wereldmodellering te ondersteunen, geven we modelcheckpoints vrij na mid-training, SFT en RL.
4D Gaussian Splatting is naar voren gekomen als een nieuw paradigma voor de representatie van dynamische scènes, waardoor real-time rendering van scènes met complexe bewegingen mogelijk wordt. Het staat echter voor een grote uitdaging op het gebied van opslagoverhead, aangezien miljoenen Gaussians nodig zijn voor hoogwaardige reconstructie. Hoewel verschillende studies hebben geprobeerd deze geheugenlast te verlichten, blijven ze beperkingen ondervinden in compressieverhouding of visuele kwaliteit. In dit werk presenteren we OMG4 (Optimized Minimal 4D Gaussian Splatting), een raamwerk dat een compacte set van belangrijke Gaussians construeert die in staat zijn om 4D Gaussian-modellen nauwkeurig te representeren. Onze methode snoeit Gaussians progressief in drie fasen: (1) Gaussian Sampling om primitieven te identificeren die cruciaal zijn voor de reconstructiekwaliteit, (2) Gaussian Pruning om redundantie te verwijderen, en (3) Gaussian Merging om primitieven met vergelijkbare kenmerken samen te voegen. Daarnaast integreren we impliciete uiterlijkcompressie en generaliseren we Sub-Vector Quantization (SVQ) naar 4D-representaties, waardoor de opslag verder wordt verminderd terwijl de kwaliteit behouden blijft. Uitgebreide experimenten op standaard benchmark-datasets tonen aan dat OMG4 recente state-of-the-art methoden aanzienlijk overtreft, waarbij de modelgroottes met meer dan 60% worden verkleind terwijl de reconstructiekwaliteit behouden blijft. Deze resultaten positioneren OMG4 als een belangrijke stap voorwaarts in compacte 4D-scènerepresentatie, wat nieuwe mogelijkheden opent voor een breed scala aan toepassingen. Onze broncode is beschikbaar op https://minshirley.github.io/OMG4/.
Grootschalige tekst-naar-beeld diffusiemodellen vormen de ruggengraat van moderne beeldbewerking, maar tekstprompts alleen bieden onvoldoende controle over het bewerkingsproces. Twee eigenschappen zijn vooral wenselijk: ontvlechting, waarbij het veranderen van één attribuut niet onbedoeld andere attributen wijzigt, en continue controle, waarbij de sterkte van een bewerking soepel kan worden aangepast. Wij introduceren een methode voor ontvlochten en continue bewerking door middel van token-level manipulatie van tekstembeddings. De bewerkingen worden toegepast door de embeddings te manipuleren langs zorgvuldig gekozen richtingen, die de sterkte van het doelattribuut beheersen. Om dergelijke richtingen te identificeren, gebruiken we een Sparse Autoencoder (SAE), waarvan de spaarzame latente ruimte semantisch geïsoleerde dimensies blootlegt. Onze methode werkt direct op tekstembeddings zonder het diffusieproces te wijzigen, waardoor het modelagnostisch is en breed toepasbaar op verschillende beeld-synthesebackbones. Experimenten tonen aan dat het intuïtieve en efficiënte manipulaties mogelijk maakt met continue controle over diverse attributen en domeinen.
Diffusie-gebaseerde grote taalmodellen (dLLMs) worden flexibel getraind om extreme afhankelijkheden in de dataverdeling te modelleren; hoe deze informatie echter het beste kan worden benut tijdens inferentie blijft een open probleem. In dit werk ontdekken we een interessante eigenschap van deze modellen: dLLMs die op tekstuele data zijn getraind, leren impliciet een mengsel van semi-autoregressieve experts, waarbij verschillende generatievolgordes verschillende gespecialiseerde gedragingen onthullen. We laten zien dat het vasthouden aan een enkele, vaste inferentievolgorde, een gangbare praktijk, de prestaties ondermijnt doordat dit latente ensemble niet wordt benut. Om dit aan te pakken, introduceren we HEX (Hidden semiautoregressive EXperts for test-time scaling), een trainingsvrije inferentiemethode die ensemblet over heterogene blokvolgordes. Door een meerderheidsstemming uit te voeren over diverse generatiepaden met verschillende blokgroottes, vermijdt HEX robuust faalmodi die geassocieerd zijn met een enkele vaste volgorde. Op redeneerbenchmarks zoals GSM8K verhoogt het de nauwkeurigheid tot wel 3,56X (van 24,72% naar 88,10%), wat beter presteert dan top-K marge-inferentie en gespecialiseerde fine-tuning methoden zoals GRPO, zonder extra training. HEX levert zelfs significante verbeteringen op de MATH benchmark van 16,40% naar 40,00%, wetenschappelijk redeneren op ARC-C van 54,18% naar 87,80%, en TruthfulQA van 28,36% naar 57,46%. Onze resultaten vestigen een nieuw paradigma voor test-time scaling in diffusie-gebaseerde LLMs (dLLMs), waarbij blijkt dat de volgorde waarin masking wordt uitgevoerd een cruciale rol speelt bij het bepalen van de prestaties tijdens inferentie.
Vloeiende spraak-naar-spraak-interactie vereist een betrouwbare en lage-latentie detectie van wanneer een gebruiker is uitgepraat. Traditionele audio-stilte-eindpuntaanduiders voegen honderden milliseconden vertraging toe en falen bij aarzelingen of taal-specifieke fenomenen. Wij presenteren, voor zover wij weten, de eerste systematische studie van Thaise tekst-only eind-van-beurt (EOT) detectie voor real-time agents. Wij vergelijken zero-shot en few-shot prompting van compacte LLM's met supervised fine-tuning van lichtgewicht transformers. Met behulp van getranscribeerde ondertitels uit het YODAS-corpus en Thaise-specifieke linguïstische signalen (bijv., zin-eindpartikels), formuleren wij EOT als een binaire beslissing over token-grenzen. Wij rapporteren een duidelijke nauwkeurigheid-latentie afweging en bieden een implementatieplan dat klaar is voor publiek gebruik. Dit werk legt een Thaise basislijn vast en toont aan dat kleine, fijn afgestemde modellen bijna directe EOT-beslissingen kunnen leveren die geschikt zijn voor on-device agents.
Grote taalmodelen (LLM's) hebben recentelijk een sterk potentieel getoond in audiovisuele spraakherkenning (AVSR), maar hun hoge rekenkundige eisen en gevoeligheid voor tokengranulariteit beperken hun praktische toepasbaarheid in omgevingen met beperkte middelen. Tokencompressiemethoden kunnen de inferentiekosten verlagen, maar ze vereisen het vooraf vaststellen van een compressiesnelheid en produceren een enkele vaste-lengte-uitvoer, wat geen flexibiliteit biedt om informatie dichtheid en efficiëntie tijdens inferentie in balans te brengen. Matryoshka-representatie leren (MRL) lost dit op door een enkel model in staat te stellen te werken over meerdere tokengranulariteiten, waardoor compressiesnelheden dynamisch kunnen worden aangepast. Huidige MRL-gebaseerde methoden behandelen echter elke schaal onafhankelijk tijdens de training, wat de kruisschaalgeneralizatie, robuustheid bij hoge compressie en interpreteerbaarheid beperkt. Om deze beperkingen te overwinnen, stellen we MoME (Mixture of Matryoshka Experts) voor, een nieuw raamwerk dat sparse Mixture-of-Experts (MoE) integreert in MRL-gebaseerde LLM's voor AVSR. MoME versterkt een bevroren LLM met top-k gerouteerde en gedeelde experts, waardoor dynamische capaciteitstoewijzing over schalen en modaliteiten mogelijk wordt. Een gedeelde router bevordert consistente expertactivatie over granulariteiten, waardoor gecomprimeerde sequenties kunnen profiteren van representaties die zijn geleerd bij lagere compressie. Experimenten op LRS2 en LRS3 tonen aan dat MoME state-of-the-art prestaties bereikt over AVSR, ASR en VSR taken, terwijl het aanzienlijk minder parameters vereist en robuustheid onder ruis behoudt. MoME verenigt de aanpasbaarheid van MRL met de efficiëntie van MoE, en biedt een schaalbare en interpreteerbare oplossing voor resourcebewuste spraakherkenning.
Het omzetten van natuurlijke taalvragen naar SQL-query's (Text-to-SQL) stelt niet-deskundige gebruikers in staat om te interageren met relationele databases en is al lang een centrale taak voor natuurlijke taalinterfaces naar data. Hoewel de WikiSQL-dataset een sleutelrol speelde in het vroege NL2SQL-onderzoek, is het gebruik ervan afgenomen vanwege structurele en annotatieproblemen, waaronder inconsistenties in hoofdlettergevoeligheid, mismatches in gegevenstypen, syntaxfouten en onbeantwoorde vragen. Wij presenteren LLMSQL, een systematische revisie en transformatie van WikiSQL, ontworpen voor het LLM-tijdperk. We classificeren deze fouten en implementeren geautomatiseerde methoden voor het opschonen en opnieuw annoteren. Om de impact van deze verbeteringen te beoordelen, hebben we meerdere grote taalmodellen (LLM's) geëvalueerd, waaronder Gemma 3, LLaMA 3.2, Mistral 7B, gpt-oss 20B, Phi-3.5 Mini, Qwen 2.5, OpenAI o4-mini, DeepSeek R1 en anderen. In plaats van te dienen als een update, wordt LLMSQL geïntroduceerd als een LLM-ready benchmark: in tegenstelling tot de originele WikiSQL, die is afgestemd op pointer-netwerkmodellen die tokens selecteren uit de invoer, biedt LLMSQL schone natuurlijke taalvragen en volledige SQL-query's als platte tekst, wat een eenvoudige generatie en evaluatie mogelijk maakt voor moderne natuurlijke taal-naar-SQL-modellen.
Versterkend leren (Reinforcement Learning, RL) is cruciaal geworden voor het verbeteren van redeneervaardigheden in grote taalmmodellen (Large Language Models, LLMs). Toch hebben on-policy algoritmen zoals Group Relative Policy Optimization (GRPO) vaak problemen in de vroege trainingsfase: ruis in de gradients door rollouts van lage kwaliteit leidt tot instabiele updates en inefficiënte exploratie. Wij introduceren Slow-Fast Policy Optimization (SFPO), een eenvoudig maar efficiënt raamwerk om deze beperkingen aan te pakken door elke stap op te delen in drie fasen: een korte, snelle traject van innerlijke stappen op dezelfde batch, een herpositioneringsmechanisme om off-policy drift te beheersen, en een uiteindelijke langzame correctie. Dit herpositioneer-voor-update ontwerp behoudt het doel en het rolloutproces ongewijzigd, waardoor SFPO plug-compatibel is met bestaande policy-gradient pijplijnen. Uitgebreide experimenten tonen aan dat SFPO consistent de stabiliteit verbetert, het aantal rollouts vermindert en de convergentie van RL-training voor redeneren versnelt. Specifiek presteert het tot 2,80 punten beter dan GRPO gemiddeld op wiskundige redeneerbenchmarks. Het bereikt ook tot 4,93 minder rollouts en een reductie van 4,19 in wall-clock tijd om de beste nauwkeurigheid van GRPO te evenaren.
Ondanks vooruitgang in meertalige automatische spraakherkenning (ASR), blijft code-switching (CS), het mengen van talen binnen een uiting dat veel voorkomt in alledaagse spraak, een sterk onderbelichte uitdaging. In dit artikel introduceren we HiKE: de Hierarchical Korean-English code-switching benchmark, het eerste wereldwijd toegankelijke evaluatiekader voor Koreaans-Engels CS, met als doel een middel te bieden voor de nauwkeurige evaluatie van meertalige ASR-modellen en om onderzoek in dit veld te stimuleren. Het voorgestelde kader bestaat niet alleen uit hoogwaardige, natuurlijke CS-gegevens over diverse onderwerpen, maar biedt ook gedetailleerde labels voor leenwoorden en een hiërarchisch CS-labelingschema (woord, zinsdeel en zin) die samen een systematische evaluatie mogelijk maken van het vermogen van een model om elk afzonderlijk niveau van code-switching te verwerken. Door evaluaties van diverse meertalige ASR-modellen en fine-tuningexperimenten toont dit artikel aan dat, hoewel de meeste meertalige ASR-modellen aanvankelijk moeite hebben met CS-ASR, deze capaciteit kan worden geactiveerd door fine-tuning met CS-gegevens. HiKE zal beschikbaar zijn op https://github.com/ThetaOne-AI/HiKE.
Naarmate Large Language Model (LLM)-agenten steeds meer zelf-evolutionaire vermogens verwerven om hun strategieën aan te passen en te verfijnen door middel van interactie in de echte wereld, wordt hun langetermijnbetrouwbaarheid een kritieke zorg. Wij identificeren het Alignment Tipping Process (ATP), een kritiek risico na implementatie dat uniek is voor zelf-evolutionaire LLM-agenten. In tegenstelling tot falen tijdens de training, ontstaat ATP wanneer voortdurende interactie ertoe leidt dat agenten de afstemmingsbeperkingen die tijdens de training zijn vastgesteld, verlaten ten gunste van versterkte, zelfbelanggerichte strategieën. We formaliseren en analyseren ATP via twee complementaire paradigma's: Self-Interested Exploration, waarbij herhaalde afwijkingen met hoge beloningen individuele gedragsdrift veroorzaken, en Imitative Strategy Diffusion, waarbij afwijkend gedrag zich verspreidt in multi-agent systemen. Op basis van deze paradigma's construeren we beheersbare testomgevingen en benchmarken we Qwen3-8B en Llama-3.1-8B-Instruct. Onze experimenten tonen aan dat afstemmingsvoordelen snel eroderen onder zelf-evolutie, waarbij aanvankelijk afgestemde modellen convergeren naar niet-afgestemde toestanden. In multi-agent omgevingen verspreiden succesvolle overtredingen zich snel, wat leidt tot collectieve misafstemming. Bovendien bieden huidige afstemmingsmethoden op basis van reinforcement learning slechts fragiele verdedigingen tegen afstemmingskanteling. Samen tonen deze bevindingen aan dat de afstemming van LLM-agenten geen statische eigenschap is, maar een kwetsbare en dynamische, die vatbaar is voor feedback-gedreven verval tijdens de implementatie. Onze data en code zijn beschikbaar op https://github.com/aiming-lab/ATP.
Mixture-of-Experts (MoE)-architecturen zijn de sleutel geworden tot het schalen van moderne grote taalmodelen (LLMs), maar er is weinig bekend over hoe hun dynamiek van sparse routing reageert op meertalige data. In dit werk analyseren we expert-routingpatronen met behulp van parallelle meertalige datasets en presenteren we zeer interpreteerbare laaggewijze fenomenen. We ontdekken dat MoE-modellen tokens op taal-specifieke manieren routeren in de vroege en late decoderlagen, maar significante cross-linguale routing-alignment vertonen in de middelste lagen, wat de trends in parameterdeling weerspiegelt die worden waargenomen in dense LLMs. In het bijzonder onthullen we een duidelijke, sterke correlatie tussen de prestaties van een model in een bepaalde taal en hoe vergelijkbaar de tokens worden gerouteerd naar het Engels in deze lagen. Voorbij correlatie verkennen we interventies tijdens inferentie die een hogere cross-linguale routing-alignment induceren. We introduceren een methode die de router stuurt door middel-laag taakexperts te bevorderen die vaak worden geactiveerd in het Engels, en deze verhoogt succesvol de meertalige prestaties. Deze winst van 1-2% is opmerkelijk consistent over twee evaluatietaken, drie modellen en 15+ talen, vooral gezien het feit dat deze eenvoudige interventies routers van uitgebreid getrainde, state-of-the-art LLMs overrulen. In vergelijking leveren interventies buiten de middelste lagen of gericht op meertalig-gespecialiseerde experts alleen prestatievermindering op. Al met al presenteren we talrijke bevindingen die verklaren hoe MoEs niet-Engelse tekst verwerken en tonen we aan dat generalisatie wordt beperkt door het vermogen van het model om taal-universele experts in alle talen te benutten.
We presenteren Paris, het eerste openbaar vrijgegeven diffusiemodel dat volledig is voorgetraind via gedecentraliseerde berekening. Paris toont aan dat hoogwaardige tekst-naar-beeldgeneratie mogelijk is zonder centraal gecoördineerde infrastructuur. Paris is beschikbaar voor onderzoek en commercieel gebruik. Voor Paris was het nodig om ons Distributed Diffusion Training-framework vanaf nul te implementeren. Het model bestaat uit 8 expert-diffusiemodellen (elk met 129M-605M parameters) die volledig geïsoleerd zijn getraind zonder synchronisatie van gradients, parameters of tussenliggende activeringen. In plaats van gesynchroniseerde gradientupdates over duizenden GPU's te vereisen, verdelen we de data in semantisch samenhangende clusters, waarbij elke expert onafhankelijk zijn subset optimaliseert en gezamenlijk de volledige distributie benadert. Een lichtgewicht transformer-router selecteert dynamisch de juiste experts tijdens inferentie, waardoor generatiekwaliteit wordt bereikt die vergelijkbaar is met centraal gecoördineerde baselines. Door synchronisatie te elimineren, wordt training op heterogene hardware mogelijk zonder gespecialiseerde interconnecties. Empirische validatie bevestigt dat de gedecentraliseerde training van Paris de generatiekwaliteit behoudt, terwijl de noodzaak voor een toegewijde GPU-cluster voor grootschalige diffusiemodellen wordt weggenomen. Paris bereikt dit met 14 keer minder trainingsdata en 16 keer minder rekenkracht dan de vorige gedecentraliseerde baseline.
Naarmate systemen evolueren naar superintelligentie, is een natuurlijke modelleerpremisse dat agenten zichzelf kunnen verbeteren op elk aspect van hun eigen ontwerp. We formaliseren dit met een vijf-assen decompositie en een beslissingslaag, waarbij we incentives scheiden van leergedrag en de assen geïsoleerd analyseren. Onze centrale bevinding identificeert en introduceert een scherpe spanning tussen nut en leren, het structurele conflict in zelfmodificerende systemen waarbij nutsgedreven veranderingen die directe of verwachte prestaties verbeteren, ook de statistische voorwaarden voor betrouwbaar leren en generalisatie kunnen ondermijnen. Onze resultaten tonen aan dat distributievrije garanties behouden blijven dan en slechts dan als de beleidsbereikbare modelfamilie uniform capaciteitsbegrensd is; wanneer de capaciteit onbeperkt kan groeien, kunnen nutsrationele zelfveranderingen leerbare taken onleerbaar maken. Onder standaard aannames die in de praktijk gebruikelijk zijn, reduceren deze assen tot hetzelfde capaciteitscriterium, wat resulteert in een enkele grens voor veilige zelfmodificatie. Numerieke experimenten over verschillende assen valideren de theorie door destructieve nutbeleid te vergelijken met onze voorgestelde tweegate-beleid die leerbaarheid behouden.
Mensen zijn goed in leren tijdens het werk: We leren hoe we de taken waarmee we worden geconfronteerd moeten oplossen terwijl we bezig zijn. Kan een model hetzelfde doen? Wij stellen een agent voor die een taakspecifiek curriculum samenstelt, genaamd test-time curriculum (TTC-RL), en reinforcement learning toepast om het model verder te trainen voor zijn doeltaak. Het test-time curriculum vermijdt tijdrovende menselijke curatie van datasets door automatisch de meest taakrelevante gegevens te selecteren uit een grote pool van beschikbare trainingsgegevens. Onze experimenten tonen aan dat reinforcement learning op een test-time curriculum het model consistent verbetert voor zijn doel taken, over een verscheidenheid aan evaluaties en modellen. Opvallend is dat TTC-RL op uitdagende wiskunde- en programmeerbenchmarks de pass@1 van Qwen3-8B met ongeveer 1,8x verbetert op AIME25 en met 2,1x op CodeElo. Bovendien vinden we dat TTC-RL de prestatieplafonds aanzienlijk verhoogt in vergelijking met het initiële model, waarbij pass@8 op AIME25 stijgt van 40% naar 62% en op CodeElo van 28% naar 43%. Onze bevindingen tonen het potentieel van test-time curricula aan in het uitbreiden van het test-time schaalparadigma naar voortdurende training op duizenden taakrelevante ervaringen tijdens test-time.
LLM-gebaseerde multi-agent systemen blinken uit in planning, gereedschapsgebruik en rolcoördinatie, maar hun openheid en interactiecomplexiteit maken ze ook kwetsbaar voor jailbreak, prompt-injectie en adversariële samenwerking. Bestaande verdedigingen vallen uiteen in twee benaderingen: (i) zelfverificatie waarbij elke agent onveilige instructies vooraf filtert voordat ze worden uitgevoerd, en (ii) externe bewakingsmodules die gedrag controleren. De eerste benadering presteert vaak ondermaats omdat een individuele agent onvoldoende capaciteit heeft om onveilige ketens tussen agents en risico's door delegatie te detecteren; de tweede benadering verhoogt de systeemoverhead en creëert een single-point-of-failure—eenmaal gecompromitteerd, stort de systeemveiligheid in, en het toevoegen van meer bewakers verergert de kosten en complexiteit. Om deze uitdagingen op te lossen, stellen we AdvEvo-MARL voor, een co-evolutionair multi-agent reinforcement learning-framework dat veiligheid internaliseert in taakagents. In plaats van te vertrouwen op externe bewakers, optimaliseert AdvEvo-MARL zowel aanvallers (die evoluerende jailbreak-prompts synthetiseren) als verdedigers (taakagents die zijn getraind om zowel hun taken uit te voeren als aanvallen te weerstaan) in adversariële leeromgevingen. Om het leren te stabiliseren en samenwerking te bevorderen, introduceren we een publieke basislijn voor voordeelschatting: agents binnen dezelfde functionele groep delen een groepsniveau gemiddelde-opbrengst basislijn, waardoor updates met lagere variantie en sterkere intra-groep coördinatie mogelijk worden. In representatieve aanvalsscenario's houdt AdvEvo-MARL consistent het aanvalsuccespercentage (ASR) onder de 20%, terwijl basislijnen tot 38,33% bereiken, terwijl de taaknauwkeurigheid behouden blijft—en soms verbetert (tot +3,67% bij redeneertaken). Deze resultaten tonen aan dat veiligheid en functionaliteit gezamenlijk kunnen worden verbeterd zonder te vertrouwen op extra bewakingsagents of toegevoegde systeemoverhead.
Grote taalmodellen (LLMs) hebben de neiging om lexicaal, semantisch en stilistisch homogene teksten te genereren. Dit brengt het risico van kennisverval met zich mee, waarbij homogene LLMs een inkrimping van het bereik van toegankelijke informatie over tijd veroorzaken. Bestaande werken over homogenisatie zijn beperkt door een focus op gesloten meerkeuzeopstellingen of vage semantische kenmerken, en kijken niet naar trends over tijd en culturele contexten. Om dit te overwinnen, presenteren we een nieuwe methodologie om epistemische diversiteit te meten, d.w.z. variatie in beweringen over de echte wereld in LLM-outputs, die we gebruiken om een breed empirisch onderzoek uit te voeren naar kennisverval in LLMs. We testen 27 LLMs, 155 onderwerpen die 12 landen bestrijken, en 200 promptvariaties afkomstig uit echte gebruikerschats. Voor de onderwerpen in ons onderzoek tonen we aan dat, hoewel nieuwere modellen de neiging hebben om meer diverse beweringen te genereren, bijna alle modellen minder epistemisch divers zijn dan een eenvoudige webzoekopdracht. We constateren dat de grootte van het model een negatieve invloed heeft op epistemische diversiteit, terwijl retrieval-augmented generation (RAG) een positieve invloed heeft, hoewel de verbetering door RAG varieert per culturele context. Ten slotte, in vergelijking met een traditionele kennisbron (Wikipedia), vinden we dat land-specifieke beweringen het Engels meer weerspiegelen dan de lokale taal, wat een kloof in epistemische representatie benadrukt.
Het discours over privacyrisico's in Large Language Models (LLM's) heeft zich onevenredig gericht op letterlijke memorisatie van trainingsdata, terwijl een reeks van meer directe en schaalbare privacybedreigingen onderbelicht blijft. Dit position paper betoogt dat het privacylandschap van LLM-systemen veel verder reikt dan het extraheren van trainingsdata, en omvat risico's van gegevensverzamelingspraktijken, contextlekken tijdens inferentie, mogelijkheden van autonome agents en de democratisering van surveillance door deep inference-aanvallen. We presenteren een uitgebreide taxonomie van privacyrisico's gedurende de gehele levenscyclus van LLM's -- van gegevensverzameling tot implementatie -- en demonstreren aan de hand van casestudies hoe huidige privacykaders deze veelzijdige bedreigingen niet aanpakken. Door een longitudinale analyse van 1.322 AI/ML-privacyartikelen die de afgelopen tien jaar (2016--2025) op toonaangevende conferenties zijn gepubliceerd, tonen we aan dat memorisatie in technisch onderzoek onevenredig veel aandacht krijgt, terwijl de meest urgente privacyschendingen elders liggen, waar huidige technische benaderingen weinig houvast bieden en haalbare oplossingen onduidelijk blijven. We pleiten voor een fundamentele verschuiving in hoe de onderzoeksgemeenschap LLM-privacys benadert, waarbij wordt uitgegaan van de huidige beperkte focus van technische oplossingen en interdisciplinaire benaderingen worden omarmd die de sociotechnische aard van deze opkomende bedreigingen aanpakken.
Naarmate multimodale LLM-gestuurde agenten blijven vooruitgaan in autonomie en generalisatie, kan evaluatie op basis van statische datasets niet langer adequaat hun werkelijke capaciteiten in dynamische omgevingen en diverse taken beoordelen. Bestaande LLM-gebaseerde methoden voor synthetische data zijn grotendeels ontworpen voor LLM-training en -evaluatie, en kunnen daarom niet direct worden toegepast op agenttaken die gereedschapsgebruik en interactieve capaciteiten vereisen. Hoewel recente studies het automatisch genereren van agenttaken met LLMs hebben onderzocht, blijven de meeste inspanningen beperkt tot tekst- of beeldanalyse, zonder systematisch multi-stapsinteracties in webomgevingen te modelleren. Om deze uitdagingen aan te pakken, stellen we Graph2Eval voor, een op kennisgrafieken gebaseerd framework dat zowel multimodale documentbegriptaken als webinteractietaken automatisch genereert, waardoor een uitgebreide evaluatie van de redeneer-, samenwerkings- en interactiecapaciteiten van agenten mogelijk wordt. In onze aanpak dienen kennisgrafieken die zijn opgebouwd uit multi-bron externe data als de taakruimte, waar we semantische relaties vertalen naar gestructureerde multimodale taken met behulp van subgrafemonstering, taaksjablonen en meta-paden. Een meerfasen filterpipeline gebaseerd op bereikbaarheid van knooppunten, LLM-scoring en gelijkenisanalyse wordt toegepast om de kwaliteit en uitvoerbaarheid van de gegenereerde taken te garanderen. Bovendien ondersteunt Graph2Eval end-to-end evaluatie van meerdere agenttypen (Single-Agent, Multi-Agent, Web Agent) en meet het redeneer-, samenwerkings- en interactiecapaciteiten. We concretiseren het framework met Graph2Eval-Bench, een gecureerde dataset van 1.319 taken die documentbegrip- en webinteractiescenario's omvatten. Experimenten tonen aan dat Graph2Eval efficiënt taken genereert die de prestaties van agenten en modellen differentiëren, hiaten in redeneren, samenwerken en webinteractie in verschillende settings blootleggen en een nieuw perspectief bieden voor agentevaluatie.
Receiver Operating Characteristic (ROC) en Precision-Recall (PR) curves zijn fundamentele hulpmiddelen voor het evalueren van machine learning-classificatiemodellen, die gedetailleerde inzichten bieden in de afwegingen tussen de true positive rate versus de false positive rate (ROC) of precisie versus recall (PR). In Federated Learning (FL)-scenario's, waar gegevens verdeeld zijn over meerdere clients, is het berekenen van deze curves echter uitdagend vanwege privacy- en communicatiebeperkingen. Specifiek heeft de server geen toegang tot de ruwe voorspellingsscores en klasse-labels, die worden gebruikt om de ROC- en PR-curves te berekenen in een gecentraliseerde omgeving. In dit artikel stellen we een nieuwe methode voor om ROC- en PR-curves te benaderen in een federatieve omgeving door kwantielen van de voorspellingsscoreverdeling te schatten onder gedistribueerde differentiële privacy. We bieden theoretische grenzen voor de Area Error (AE) tussen de werkelijke en geschatte curves, waarbij we de afwegingen tussen benaderingsnauwkeurigheid, privacy en communicatiekosten demonstreren. Empirische resultaten op real-world datasets tonen aan dat onze methode een hoge benaderingsnauwkeurigheid bereikt met minimale communicatie en sterke privacygaranties, waardoor het praktisch is voor privacybewaard model-evaluatie in federatieve systemen.
Power-transformaties zijn populaire parametrische technieken om data meer Gaussiaans te maken en worden veelvuldig gebruikt als voorbewerkingsstappen in statistische analyse en machine learning. We constateren echter dat directe implementaties van power-transformaties te lijden hebben onder ernstige numerieke instabiliteiten, wat kan leiden tot incorrecte resultaten of zelfs crashes. In dit artikel bieden we een uitgebreide analyse van de bronnen van deze instabiliteiten en stellen we effectieve oplossingen voor. We breiden power-transformaties verder uit naar de federated learning-omgeving, waarbij we zowel numerieke als distributie-uitdagingen aanpakken die in deze context ontstaan. Experimenten op real-world datasets tonen aan dat onze methoden zowel effectief als robuust zijn, en de stabiliteit aanzienlijk verbeteren in vergelijking met bestaande benaderingen.