Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Het detecteren van hallucinaties blijft een fundamentele uitdaging voor de veilige en betrouwbare inzet van grote taalmodellen (LLM's), met name in toepassingen die feitelijke nauwkeurigheid vereisen. Bestaande benchmarks voor hallucinatiedetectie werken vaak op sequentieniveau en zijn beperkt tot het Engels, waardoor ze de fijnmazige, meertalige supervisie missen die nodig is voor een uitgebreide evaluatie. In dit werk introduceren we PsiloQA, een grootschalige, meertalige dataset die is geannoteerd met hallucinaties op spanniveau in 14 talen. PsiloQA is geconstrueerd via een geautomatiseerde pijplijn in drie fasen: het genereren van vraag-antwoordparen uit Wikipedia met behulp van GPT-4o, het oproepen van potentieel gehallucineerde antwoorden van diverse LLM's in een contextvrije setting, en het automatisch annoteren van gehallucineerde spans met GPT-4o door deze te vergelijken met gouden antwoorden en opgehaalde context. We evalueren een breed scala aan methoden voor hallucinatiedetectie – waaronder onzekerheidskwantificering, LLM-gebaseerde tagging en fijn afgestemde encodermodellen – en laten zien dat encodermodellen de sterkste prestaties leveren over verschillende talen. Bovendien toont PsiloQA effectieve cross-linguale generalisatie en ondersteunt het robuuste kennisoverdracht naar andere benchmarks, terwijl het aanzienlijk kostenefficiënter is dan door mensen geannoteerde datasets. Onze dataset en resultaten bevorderen de ontwikkeling van schaalbare, fijnmazige hallucinatiedetectie in meertalige omgevingen.
Recentelijk heeft Agentic Reinforcement Learning (Agentic RL) aanzienlijke vooruitgang geboekt in het stimuleren van de multi-turn, langetermijn tool-gebruikscapaciteiten van webagentschappen. Hoewel mainstream agentic RL-algoritmen autonoom hoog-onzekere tool-aanroepstappen verkennen onder begeleiding van entropie, kan een overmatige afhankelijkheid van entropiesignalen verdere beperkingen opleggen, wat leidt tot trainingsinstorting. In dit artikel gaan we in op de uitdagingen veroorzaakt door entropie en stellen we de Agentic Entropy-Balanced Policy Optimization (AEPO) voor, een agentic RL-algoritme dat ontworpen is om entropie in zowel de rollout- als beleidsupdatefasen in balans te brengen. AEPO bestaat uit twee kerncomponenten: (1) een dynamisch entropie-gebalanceerd rollout-mechanisme dat adaptief het globale en tak-samplingbudget toewijst via entropie-pre-monitoring, terwijl het een takstraf oplegt aan opeenvolgende hoog-entropie tool-aanroepstappen om overmatige vertakking te voorkomen; en (2) Entropy-Balanced Policy Optimization dat een stop-gradient-operatie in het hoog-entropie afkappingsterm invoegt om gradiënten op hoog-entropie tokens te behouden en correct te herschalen, terwijl het entropie-bewuste voordeelschatting incorporeert om leren op hoog-onzekere tokens te prioriteren. Resultaten over 14 uitdagende datasets tonen aan dat AEPO consistent beter presteert dan 7 mainstream RL-algoritmen. Met slechts 1K RL-steekproeven behaalt Qwen3-14B met AEPO indrukwekkende resultaten: 47,6% op GAIA, 11,2% op Humanity's Last Exam, en 43,0% op WebWalker voor Pass@1; 65,0% op GAIA, 26,0% op Humanity's Last Exam, en 70,0% op WebWalker voor Pass@5. Verdere analyse onthult dat AEPO de diversiteit van rollout-sampling verbetert terwijl het een stabiele beleidsentropie handhaaft, wat schaalbare training van webagentschappen vergemakkelijkt.
Identiteitsconsistente generatie is een belangrijk aandachtspunt geworden in tekst-naar-beeldonderzoek, waarbij recente modellen opmerkelijke successen boeken in het produceren van afbeeldingen die overeenkomen met een referentie-identiteit. Echter, de schaarste aan grootschalige gepaarde datasets met meerdere afbeeldingen van dezelfde persoon dwingt de meeste benaderingen om reconstructie-gebaseerde training te gebruiken. Deze afhankelijkheid leidt vaak tot een foutmodus die we copy-paste noemen, waarbij het model het referentiegezicht direct kopieert in plaats van de identiteit te behouden bij natuurlijke variaties in houding, expressie of belichting. Een dergelijke overmatige gelijkenis ondermijnt de bestuurbaarheid en beperkt de expressieve kracht van de generatie. Om deze beperkingen aan te pakken, (1) construeren we een grootschalige gepaarde dataset, MultiID-2M, afgestemd op scenario's met meerdere personen, die diverse referenties biedt voor elke identiteit; (2) introduceren we een benchmark die zowel copy-paste-artefacten kwantificeert als de afweging tussen identiteitsgetrouwheid en variatie; en (3) stellen we een nieuw trainingsparadigma voor met een contrastief identiteitsverlies dat gepaarde data benut om getrouwheid te balanceren met diversiteit. Deze bijdragen resulteren in WithAnyone, een op diffusie gebaseerd model dat copy-paste effectief vermindert terwijl het een hoge identiteitsgelijkenis behoudt. Uitgebreide kwalitatieve en kwantitatieve experimenten tonen aan dat WithAnyone copy-paste-artefacten aanzienlijk vermindert, de bestuurbaarheid over houding en expressie verbetert en een sterke perceptuele kwaliteit behoudt. Gebruikersstudies bevestigen verder dat onze methode een hoge identiteitsgetrouwheid bereikt terwijl het expressieve en bestuurbare generatie mogelijk maakt.
In een tijdperk waarin AI evolueert van een passief hulpmiddel naar een actieve en adaptieve metgezel, introduceren we AI for Service (AI4Service), een nieuw paradigma dat proactieve en realtime-ondersteuning in het dagelijks leven mogelijk maakt. Bestaande AI-diensten blijven grotendeels reactief, waarbij ze alleen reageren op expliciete gebruikerscommando's. Wij stellen dat een echt intelligente en behulpzame assistent in staat moet zijn om gebruikersbehoeften te anticiperen en waar nodig proactief actie te ondernemen. Om deze visie te realiseren, stellen we Alpha-Service voor, een uniform raamwerk dat twee fundamentele uitdagingen aanpakt: Weten Wanneer in te grijpen door servicekansen te detecteren uit egocentrische videostreams, en Weten Hoe zowel algemene als gepersonaliseerde diensten te bieden. Geïnspireerd door de von Neumann-computerarchitectuur en gebaseerd op AI-brillen, bestaat Alpha-Service uit vijf belangrijke componenten: een Invoereenheid voor waarneming, een Centrale Verwerkingseenheid voor taakplanning, een Rekenkundige Logische Eenheid voor hulpmiddelgebruik, een Geheugeneenheid voor langetermijnpersonalisatie en een Uitvoereenheid voor natuurlijke menselijke interactie. Als eerste verkenning implementeren we Alpha-Service via een multi-agent systeem dat op AI-brillen wordt ingezet. Casestudies, waaronder een realtime Blackjack-adviseur, een museumgids en een winkelpasadviseur, demonstreren het vermogen om naadloos de omgeving waar te nemen, gebruikersintentie af te leiden en tijdige en nuttige ondersteuning te bieden zonder expliciete aanwijzingen.
Het bouwwerk van native Vision-Language Models (VLMs) is naar voren gekomen als een opkomende uitdager voor de typische modulaire VLMs, gevormd door evoluerende modelarchitecturen en trainingsparadigma's. Toch werpen twee blijvende vraagstukken een schaduw over de brede verkenning en promotie ervan: (-) Welke fundamentele beperkingen onderscheiden native VLMs van modulaire, en in hoeverre kunnen deze barrières worden overwonnen? (-) Hoe kan onderzoek naar native VLMs toegankelijker en gedemocratiseerd worden, waardoor de vooruitgang in het veld wordt versneld? In dit artikel verhelderen we deze uitdagingen en schetsen we richtlijnen voor het construeren van native VLMs. Specifiek zou een native VLM-primitief moeten: (i) effectief pixel- en woordrepresentaties uitlijnen binnen een gedeelde semantische ruimte; (ii) naadloos de sterke punten van voorheen gescheiden visie- en taalmodules integreren; (iii) inherent verschillende cross-modale eigenschappen belichamen die een verenigde visie-taalcodering, -uitlijning en -redenering ondersteunen. Daarom lanceren we NEO, een nieuwe familie van native VLMs gebouwd vanuit eerste principes, die in staat is om topmodulaire tegenhangers te evenaren in diverse real-world scenario's. Met slechts 390 miljoen beeld-tekstvoorbeelden ontwikkelt NEO efficiënt visuele perceptie vanaf nul, terwijl visie-taalconflicten worden gemitigeerd binnen een dicht en monolithisch model, vervaardigd vanuit onze uitgebreide primitieven. We positioneren NEO als een hoeksteen voor schaalbare en krachtige native VLMs, gepaard met een rijke set herbruikbare componenten die een kosteneffectief en uitbreidbaar ecosysteem bevorderen. Onze code en modellen zijn publiekelijk beschikbaar op: https://github.com/EvolvingLMMs-Lab/NEO.
In dit rapport stellen we PaddleOCR-VL voor, een state-of-the-art en resource-efficiënt model dat is afgestemd op documentparsing. De kerncomponent is PaddleOCR-VL-0.9B, een compact maar krachtig vision-language model (VLM) dat een NaViT-stijl dynamische resolutie visuele encoder integreert met het ERNIE-4.5-0.3B taalmodel om nauwkeurige elementherkenning mogelijk te maken. Dit innovatieve model ondersteunt efficiënt 109 talen en blinkt uit in het herkennen van complexe elementen (bijv. tekst, tabellen, formules en grafieken), terwijl het een minimaal resourceverbruik behoudt. Door uitgebreide evaluaties op veelgebruikte publieke benchmarks en interne benchmarks bereikt PaddleOCR-VL state-of-the-art prestaties in zowel paginaniveau documentparsing als elementniveau herkenning. Het overtreft aanzienlijk bestaande oplossingen, toont sterke concurrentievermogen tegen top-tier VLMs en levert snelle inferentiesnelheden. Deze sterke punten maken het zeer geschikt voor praktische implementatie in real-world scenario's.
Videogeneratiemodellen hebben opmerkelijke vooruitgang geboekt, met name in realistische scenario's; hun prestaties nemen echter aanzienlijk af in fantasierijke scenario's. Deze prompts omvatten vaak concepten die zelden samen voorkomen en langeafstands semantische relaties hebben, waardoor ze buiten de trainingsdistributies vallen. Bestaande methoden passen meestal testtijd-schaling toe om de videokwaliteit te verbeteren, maar hun vaste zoekruimtes en statische beloningsontwerpen beperken de aanpassingsvermogen aan fantasierijke scenario's. Om deze kloof te overbruggen, stellen we ImagerySearch voor, een prompt-gestuurde adaptieve testtijd-zoekstrategie die zowel de inferentie-zoekruimte als de beloningsfunctie dynamisch aanpast op basis van semantische relaties in de prompt. Hierdoor ontstaan meer samenhangende en visueel plausibele video's in uitdagende fantasierijke omgevingen. Om de vooruitgang in deze richting te evalueren, introduceren we LDT-Bench, de eerste toegewijde benchmark voor langeafstands semantische prompts, bestaande uit 2.839 diverse conceptparen en een geautomatiseerd protocol voor het beoordelen van creatieve generatiecapaciteiten. Uitgebreide experimenten tonen aan dat ImagerySearch consistent sterke videogeneratie-baselines en bestaande testtijd-schalingbenaderingen op LDT-Bench overtreft, en competitieve verbeteringen behaalt op VBench, wat de effectiviteit ervan aantoont bij diverse prompttypen. We zullen LDT-Bench en code vrijgeven om toekomstig onderzoek naar fantasierijke videogeneratie te faciliteren.
In dit artikel presenteren we BitNet Distillation (BitDistill), een lichtgewicht pipeline die kant-en-klare full-precision LLM's (bijvoorbeeld Qwen) fine-tunt naar 1,58-bit precisie (d.w.z. ternaire gewichten {-1, 0, 1}) voor specifieke downstream taken, waarbij sterke taakspecifieke prestaties worden bereikt met minimale rekenkosten. Specifiek integreert BitDistill drie belangrijke technieken: de SubLN-module, zoals geïntroduceerd in BitNet; multi-head attention distillatie, gebaseerd op MiniLM; en voortgezette pre-training, die fungeert als een cruciale opwarmstap om het schaalbaarheidsprobleem van het prestatieverschil tussen gefinetunede full-precision en 1,58-bit LLM's voor specifieke taken te verminderen. Experimentele resultaten laten zien dat BitDistill prestaties bereikt die vergelijkbaar zijn met de full-precision tegenhangers over verschillende modelgroottes, terwijl het tot 10x geheugenbesparing en 2,65x snellere inferentie op CPU's mogelijk maakt. Code is beschikbaar op https://github.com/microsoft/BitNet.
Reinforcement Learning met Verifieerbare Beloningen (RLVR) is recent naar voren gekomen als een kernparadigma voor het verbeteren van de redeneervaardigheden van Grote Taalmodellen (LLMs). Om het gebrek aan verificatiesignalen tijdens de testfase aan te pakken, hebben eerdere studies de training van het zelfverificatievermogen van het model geïntegreerd in het standaard RLVR-proces, waardoor redeneer- en verificatievaardigheden worden verenigd binnen een enkel LLM. Eerdere praktijken vereisten echter dat het LLM sequentieel oplossingen en zelfverificaties genereerde met behulp van twee afzonderlijke promptsjablonen, wat de efficiëntie aanzienlijk verminderde. In dit werk tonen we theoretisch aan dat de gesloten oplossing voor het RL-doel van zelfverificatie kan worden teruggebracht tot een opmerkelijk eenvoudige vorm: de echte redeneerbeloning van een oplossing is gelijk aan de laatste-token zelfbeloningsscore, die wordt berekend als het verschil tussen de volgende-token log-waarschijnlijkheid die het beleidsmodel toekent aan een vooraf gespecificeerde token bij de laatste token van de oplossing en een vooraf berekende constante, geschaald door de KL-coëfficiënt. Op basis van dit inzicht stellen we LaSeR (Reinforcement Learning met Laatste-Token Zelfbeloning) voor, een algoritme dat eenvoudigweg het oorspronkelijke RLVR-verlies uitbreidt met een MSE-verlies dat de laatste-token zelfbeloningsscores afstemt op verificatiegebaseerde redeneerbeloningen, waardoor de redeneer- en zelfbeloningsvaardigheden van LLMs gezamenlijk worden geoptimaliseerd. De geoptimaliseerde zelfbeloningsscores kunnen zowel tijdens de training als tijdens de testfase worden gebruikt om de modelprestaties te verbeteren. Opmerkelijk is dat ons algoritme deze scores afleidt uit de voorspelde volgende-token waarschijnlijkheidsverdeling van de laatste token direct na generatie, wat slechts de minimale extra kosten van één extra token-inferentie met zich meebrengt. Experimenten tonen aan dat onze methode niet alleen de redeneerprestaties van het model verbetert, maar het ook uitrust met een opmerkelijk zelfbeloningsvermogen, waardoor de schaalbaarheid tijdens inferentie wordt bevorderd.
Dit werk onderzoekt hoe sleutel-waarde (KV) caches adaptief opnieuw kunnen worden berekend voor diffusie grote taalmodellen (DLMs) om de voorspellingsnauwkeurigheid te maximaliseren terwijl de decodeerlatentie wordt geminimaliseerd. Eerdere methoden herberekenen QKV voor alle tokens bij elke denoisestap en laag, ondanks dat KV-statussen weinig veranderen over de meeste stappen, vooral in ondiepe lagen, wat leidt tot aanzienlijke redundantie. We doen drie observaties: (1) verre {bf MASK} tokens fungeren voornamelijk als een lengtebias en kunnen bloksgewijs worden gecached buiten het actieve voorspellingsvenster; (2) KV-dynamiek neemt toe met de diepte, wat suggereert dat selectief verversen vanaf diepere lagen voldoende is; en (3) het meest-aandachtige token vertoont de kleinste KV-drift, wat een conservatieve ondergrens biedt voor cacheverandering bij andere tokens. Op basis hiervan stellen we {bf Elastic-Cache} voor, een trainingsvrije, architectuuronafhankelijke strategie die gezamenlijk beslist {wanneer} te verversen (via een aandachtbewuste drifttest op het meest-aandachtige token) en {waar} te verversen (via een dieptebewust schema dat opnieuw berekent vanaf een gekozen laag terwijl ondiepe laagcaches en off-window MASK caches worden hergebruikt). In tegenstelling tot vaste-periodeschema's voert Elastic-Cache adaptieve, laagbewuste cache-updates uit voor diffusie LLMs, wat redundante berekeningen vermindert en het decoderen versnelt met verwaarloosbaar verlies in generatiekwaliteit. Experimenten op LLaDA-Instruct, LLaDA-1.5 en LLaDA-V over wiskundige redeneer- en codegeneratietaken tonen consistente snelheidswinsten: 8.7x op GSM8K (256 tokens), 45.1x op langere sequenties en 4.8x op HumanEval, terwijl consistent een hogere nauwkeurigheid wordt behouden dan de baseline. Onze methode bereikt een aanzienlijk hogere doorvoer (6.8x op GSM8K) dan bestaande op vertrouwen gebaseerde benaderingen terwijl de generatiekwaliteit behouden blijft, wat praktische implementatie van diffusie LLMs mogelijk maakt.
Grote taalmodellen (LLM)-gebaseerde agents worden steeds vaker getraind met reinforcement learning (RL) om hun vermogen te verbeteren om te interageren met externe omgevingen door middel van gereedschapsgebruik, met name in zoekgebaseerde instellingen die multi-turn redenering en kennisverwerving vereisen. Bestaande benaderingen vertrouwen echter meestal op uitkomstgebaseerde beloningen die alleen worden gegeven bij het uiteindelijke antwoord. Deze schaarste aan beloningen wordt vooral problematisch in multi-turn instellingen, waar lange trajecten twee kritieke problemen verergeren: (i) voordeelcollaps, waarbij alle rollouts identieke beloningen ontvangen en geen nuttige leerinformatie bieden, en (ii) gebrek aan fijnmazige krediettoewijzing, waarbij afhankelijkheden tussen beurten worden verdoezeld, vooral in taken met een lange horizon. In dit artikel stellen we Information Gain-based Policy Optimization (IGPO) voor, een eenvoudig maar effectief RL-raamwerk dat dichte en intrinsieke begeleiding biedt voor de training van multi-turn agents. IGPO modelleert elke interactiebeurt als een incrementeel proces van het verwerven van informatie over de grondwaarheid, en definieert beurtniveau beloningen als de marginale toename in de waarschijnlijkheid van het beleid om het juiste antwoord te produceren. In tegenstelling tot eerdere procesniveau beloningsbenaderingen die afhankelijk zijn van externe beloningsmodellen of kostbare Monte Carlo-schattingen, leidt IGPO intrinsieke beloningen direct af uit de eigen geloofsupdates van het model. Deze intrinsieke beurtniveau beloningen worden gecombineerd met uitkomstniveau begeleiding om dichte beloningstrajecten te vormen. Uitgebreide experimenten op zowel in-domein als out-of-domein benchmarks tonen aan dat IGPO consistent sterke basislijnen overtreft in multi-turn scenario's, met hogere nauwkeurigheid en verbeterde steekproefefficiëntie.
Grote taalmodellen (LLM's) voor code maken gebruik van subwoord-tokenizers, zoals byte-pair encoding (BPE), die worden geleerd uit een mix van natuurlijke taaltekst en programmeertaalcode, maar die worden gestuurd door statistieken in plaats van grammatica. Als gevolg hiervan kunnen semantisch identieke codefragmenten verschillend worden getokeniseerd, afhankelijk van oppervlakkige factoren zoals witruimte of de naamgeving van identifiers. Om de impact van deze misalignering te meten, introduceren we TokDrift, een framework dat semantiekbehoudende herschrijfregels toepast om codevarianten te creëren die alleen verschillen in tokenisatie. Over negen code-LLM's, waaronder grote modellen met meer dan 30B parameters, kunnen zelfs kleine opmaakwijzigingen aanzienlijke verschuivingen in het modelgedrag veroorzaken. Laaggewijze analyse toont aan dat het probleem ontstaat in de vroege embeddings, waar subwoordsegmentatie er niet in slaagt om grammatica-tokengrenzen vast te leggen. Onze bevindingen identificeren misaligneerde tokenisatie als een verborgen obstakel voor betrouwbaar codebegrip en -generatie, en benadrukken de noodzaak van grammaticabewuste tokenisatie voor toekomstige code-LLM's.
Hoewel Large Language Models (LLMs) uitblinken in tekstueel redeneren, hebben ze moeite met wiskundige domeinen zoals geometrie die intrinsiek afhankelijk zijn van visuele hulpmiddelen. Bestaande benaderingen van Visual Chain-of-Thought (VCoT) worden vaak beperkt door rigide externe tools of slagen er niet in om de hoogwaardige, strategisch getimede diagrammen te genereren die nodig zijn voor complexe probleemoplossing. Om deze kloof te overbruggen, introduceren we MathCanvas, een uitgebreid framework ontworpen om geünificeerde Large Multimodal Models (LMMs) uit te rusten met intrinsieke VCoT-mogelijkheden voor wiskunde. Onze aanpak bestaat uit twee fasen. Eerst wordt in een Visual Manipulation-fase het model voorgetraind op een nieuw corpus van 15,2 miljoen paren, bestaande uit 10 miljoen caption-to-diagram paren (MathCanvas-Imagen) en 5,2 miljoen stap-voor-stap bewerkingstrajecten (MathCanvas-Edit), om het genereren en bewerken van diagrammen onder de knie te krijgen. Vervolgens wordt in een Strategic Visual-Aided Reasoning-fase het model afgestemd op MathCanvas-Instruct, een nieuwe dataset van 219.000 voorbeelden van verweven visueel-tekstuele redeneerpaden, waarbij het leert wanneer en hoe het visuele hulpmiddelen moet inzetten. Om een rigoureuze evaluatie mogelijk te maken, introduceren we MathCanvas-Bench, een uitdagende benchmark met 3.000 problemen die modellen vereisen om verweven visueel-tekstuele oplossingen te produceren. Ons model, BAGEL-Canvas, getraind onder dit framework, behaalt een relatieve verbetering van 86% ten opzichte van sterke LMM-baselines op MathCanvas-Bench, wat een uitstekende generalisatie naar andere openbare wiskunde-benchmarks aantoont. Ons werk biedt een complete toolkit - framework, datasets en benchmark - om complex, mensachtig visueel ondersteund redeneren in LMMs mogelijk te maken. Projectpagina: https://mathcanvas.github.io/
Wij stellen en testen de LLM Brain Rot Hypothese: voortdurende blootstelling aan rommelige webtekst veroorzaakt een blijvende cognitieve achteruitgang in grote taalmodellen (LLMs). Om de kwaliteit van data causaal te isoleren, voeren we gecontroleerde experimenten uit op echte Twitter/X corpora, waarbij we rommelige en omgekeerd gecontroleerde datasets construeren via twee orthogonale operationalisaties: M1 (betrokkenheidsgraad) en M2 (semantische kwaliteit), met een overeenkomstige tokenschaal en trainingsoperaties in alle condities. In tegenstelling tot de controlegroep veroorzaakt voortdurende pre-training van 4 LLMs op de rommelige dataset aanzienlijke achteruitgangen (Hedges' g>0.3) in redeneren, begrip van lange contexten, veiligheid, en het opblazen van "donkere eigenschappen" (bijv. psychopathie, narcisme). De geleidelijke mengsels van rommelige en gecontroleerde datasets resulteren ook in een dosis-respons cognitieve achteruitgang: bijvoorbeeld, onder M1, daalt ARC-Challenge met Chain Of Thoughts van 74.9 naar 57.2 en RULER-CWE van 84.4 naar 52.3 naarmate het aandeel rommelige data stijgt van 0% naar 100%. Foutanalyse onthult verschillende belangrijke inzichten. Ten eerste identificeren we gedachte-overslaan als de primaire beschadiging: modellen verkorten of slaan steeds vaker redeneerketens over, wat het grootste deel van de foutengroei verklaart. Ten tweede wordt gedeeltelijk maar onvolledig herstel waargenomen: het opschalen van instructie-tuning en pre-training met schone data verbetert de achteruitgegane cognitie, maar kan de baseline-capaciteit niet herstellen, wat wijst op een blijvende representatiedrift in plaats van een formatmismatch. Tot slot ontdekken we dat de populariteit, een niet-semantische metriek, van een tweet een betere indicator is van het Brain Rot-effect dan de lengte in M1. Samen bieden de resultaten significant, multi-perspectief bewijs dat data kwaliteit een causale drijver is van LLM-capaciteitsverval, wat curatie voor voortdurende pre-training herdefinieert als een veiligheidsprobleem tijdens training en routine "cognitieve gezondheidschecks" motiveert voor geïmplementeerde LLMs.
Recente vooruitgang in multimodale beloningsmodellen (RMs) heeft post-training voor visuele generatieve modellen aanzienlijk verbeterd. Huidige RMs kampen echter met inherente beperkingen: (1) visuele inputs verbruiken grote contextbudgetten, waardoor minder frames worden gebruikt en fijnmazige details verloren gaan; en (2) alle visuele informatie wordt samengepakt in de initiële prompt, wat hallucinatie en vergeten tijdens keten-van-gedachten-redenering verergert. Om deze problemen te overwinnen, introduceren we VideoReward Thinker (VR-Thinker), een denken-met-beelden-framework dat de RM uitrust met visuele redeneeroperaties (bijv. frame selecteren) en een configureerbaar visueel geheugenvenster. Hierdoor kan de RM actief visueel bewijs verwerven en bijwerken binnen contextlimieten, wat de redeneernauwkeurigheid en betrouwbaarheid verbetert. We activeren visueel redeneren via een reinforcement fine-tuning-pijplijn: (i) Koude Start met gecureerde visuele keten-van-gedachten-data om basisredeneervaardigheden en operatieformattering te distilleren; (ii) selecteer samples waarvan de per-dimensie- en algehele oordelen allemaal correct zijn, voer vervolgens Rejection Sampling Fine-Tuning uit op deze hoogwaardige sporen om het redeneren verder te versterken; en (iii) pas Group Relative Policy Optimization (GRPO) toe om het redeneren te versterken. Onze aanpak levert state-of-the-art nauwkeurigheid op onder open-source modellen op video-preferentiebenchmarks, vooral voor langere video's: een 7B VR-Thinker behaalt 80,5% op VideoGen Reward, 82,3% op GenAI-Bench en 75,6% op MJ-Bench-Video. Deze resultaten valideren de effectiviteit en belofte van denken-met-beelden multimodale beloningsmodellering.
Recent onderzoek suggereert dat grote taalmodellen (LLMs) signalen van feitelijkheid coderen in hun interne representaties, zoals verborgen toestanden, aandachtswaarden of tokenwaarschijnlijkheden, wat impliceert dat LLMs mogelijk "weten wat ze niet weten". Echter, LLMs kunnen ook feitelijke fouten produceren door te vertrouwen op shortcuts of valse associaties. Deze fouten worden veroorzaakt door hetzelfde trainingsdoel dat correcte voorspellingen aanmoedigt, wat de vraag oproept of interne berekeningen betrouwbaar onderscheid kunnen maken tussen feitelijke en hallucinerende uitvoer. In dit werk voeren we een mechanistische analyse uit van hoe LLMs intern feitelijke vragen verwerken door twee soorten hallucinaties te vergelijken op basis van hun afhankelijkheid van onderwerpinformatie. We ontdekken dat wanneer hallucinaties geassocieerd zijn met onderwerpkennis, LLMs hetzelfde interne recallproces gebruiken als voor correcte antwoorden, wat leidt tot overlappende en ononderscheidbare geometrieën van verborgen toestanden. In tegenstelling hiermee produceren hallucinaties die losstaan van onderwerpkennis duidelijke, gegroepeerde representaties die ze detecteerbaar maken. Deze bevindingen onthullen een fundamentele beperking: LLMs coderen geen waarheidsgetrouwheid in hun interne toestanden, maar alleen patronen van kennisrecall, wat aantoont dat "LLMs niet echt weten wat ze niet weten".
Moderne IR-systemen worden steeds vaker belast met het beantwoorden van complexe, veelzijdige vragen die diepgaande redenering vereisen in plaats van eenvoudige trefwoord- of semantische matching. Hoewel LLM-gebaseerde IR veelbelovend is gebleken, erft het heersende retrieve-then-rerank paradigma de beperkingen van embedding-gebaseerde retrievals; parametrische generatieve benaderingen zijn moeilijk bij te werken met nieuwe informatie; en lange-context methoden die het volledige corpus in context plaatsen, zijn computationeel onhaalbaar voor grote documentcollecties. Om deze uitdagingen aan te pakken, introduceren we LATTICE, een hiërarchisch retrieval-framework dat een LLM in staat stelt om over grote corpora te redeneren en deze te navigeren met logaritmische zoekcomplexiteit door een semantische boomstructuur op het corpus op te leggen. Onze aanpak bestaat uit twee fasen: (1) een offline fase die het corpus organiseert in een semantische hiërarchie via een bottom-up agglomeratieve strategie of een top-down divisieve strategie met behulp van meerdere niveaus van samenvattingen en (2) een online traversalfase waarin een zoek-LLM deze boom navigeert. Een centrale uitdaging bij dergelijke LLM-geleide zoekopdrachten is dat de relevantiebeoordelingen van het model onnauwkeurig, contextafhankelijk en onbewust van de hiërarchie zijn, waardoor vergelijkingen tussen takken en niveaus moeilijk zijn. Om dit te overwinnen, stellen we een traversaalalgoritme voor dat gekalibreerde latente relevantiescores schat uit lokale LLM-outputs en deze aggregeert tot een globale padrelevantiemetric. Ons trainingsvrije framework behaalt state-of-the-art zero-shot prestaties op de redeneringsintensieve BRIGHT-benchmark, met een verbetering van tot 9% in Recall@100 en 5% in nDCG@10 ten opzichte van de op één na beste zero-shot baseline. Bovendien behaalt LATTICE, vergeleken met de fijn afgestemde SOTA-methode DIVER-v2, vergelijkbare resultaten op BRIGHT-subsetten die een statisch corpus gebruiken voor evaluatie.
Huidige vision-language-action (VLA) modellen, vooraf getraind op grootschalige robotgegevens, vertonen sterke multitask-mogelijkheden en generaliseren goed naar variaties in visuele en taal-instructies voor manipulatie. Hun slagingspercentage daalt echter aanzienlijk wanneer ze worden geconfronteerd met objectconcepten buiten de trainingsgegevens, zoals onbekende objectbeschrijvingen en texturen in de dataset. Om dit aan te pakken, stellen we een nieuw agentisch framework voor, VLA^2, dat OpenVLA gebruikt als uitvoeringsbackbone en effectief gebruik maakt van externe modules zoals webretrieval en objectdetectie om visuele en tekstuele kennis over doelobjecten aan de VLA te leveren. Deze aanpak vermindert generalisatiefouten bij het omgaan met out-of-distribution objecten. Gebaseerd op de LIBERO-simulatieomgeving, introduceerden we nieuwe objecten en objectbeschrijvingen om een nieuwe evaluatiebenchmark met drie moeilijkheidsniveaus te construeren om de effectiviteit van onze methode te testen. Ons framework presteerde succesvol beter dan de huidige state-of-the-art modellen op onze ontworpen hard-level generalisatiebenchmark. Vergeleken met de standalone OpenVLA-baseline, behaalt VLA^2 een verbetering van 44,2% in het slagingspercentage in de hard-level benchmark en een gemiddelde verbetering van 20,2% in alle aangepaste omgevingen zonder enige prestatievermindering op in-domeintaken. Projectwebsite: https://vla-2.github.io.
Naarmate grote taalmmodellen (LLM's) steeds krachtiger en breder worden ingezet, wordt het waarborgen van de veiligheid van hun uitvoer steeds kritischer. Bestaande beveiligingsmodellen, hoewel nuttig in statische evaluatieomgevingen, kampen met twee belangrijke beperkingen in real-world toepassingen: (1) ze produceren doorgaans alleen binaire "veilig/onveilig"-labels, die inconsistent kunnen worden geïnterpreteerd bij diverse veiligheidsbeleidsregels, waardoor ze niet in staat zijn om variërende veiligheidstoleranties tussen domeinen te accommoderen; en (2) ze vereisen volledige modeluitvoer voordat ze veiligheidscontroles kunnen uitvoeren, wat ze fundamenteel onverenigbaar maakt met streaming LLM-inferentie, waardoor tijdige interventie tijdens generatie wordt verhinderd en de blootstelling aan schadelijke gedeeltelijke uitvoer wordt vergroot. Om deze uitdagingen aan te pakken, presenteren we Qwen3Guard, een reeks meertalige veiligheidsbeveiligingsmodellen met twee gespecialiseerde varianten: Generative Qwen3Guard, dat veiligheidsclassificatie omzet in een instructievolgende taak om fijnmazige drieklassenbeoordelingen (veilig, controversieel, onveilig) mogelijk te maken; en Stream Qwen3Guard, dat een token-level classificatiekop introduceert voor real-time veiligheidsmonitoring tijdens incrementele tekstgeneratie. Beide varianten zijn beschikbaar in drie formaten (0.6B, 4B en 8B parameters) en ondersteunen tot 119 talen en dialecten, wat een uitgebreide, schaalbare en lage-latentie veiligheidsmoderatie biedt voor wereldwijde LLM-implementaties. Geëvalueerd over Engelse, Chinese en meertalige benchmarks, behaalt Qwen3Guard state-of-the-art prestaties in zowel prompt- als responsveiligheidsclassificatie. Alle modellen zijn vrijgegeven onder de Apache 2.0-licentie voor publiek gebruik.
Grote taalmodellen vertonen systematische tekortkomingen in creatief schrijven, met name in niet-Engelse contexten waar trainingsdata schaars is en procesgerichte begeleiding ontbreekt. Wij presenteren COIG-Writer, een nieuw Chinees dataset voor creatief schrijven dat zowel diverse uitvoer als de onderliggende denkprocessen vastlegt door middel van systematische reverse-engineering van hoogwaardige teksten. In tegenstelling tot bestaande datasets die alleen input-output paren bieden, bestaat COIG-Writer uit 1.665 zorgvuldig samengestelde triplets die 51 genres beslaan, elk bestaande uit: (1) een reverse-engineerde prompt, (2) gedetailleerde creatieve redenering die het besluitvormingsproces documenteert, en (3) de uiteindelijke tekst. Door uitgebreide experimenten identificeren we een tweeledig model van creatief schrijven: narratieve logica (verstrekt door procesbegeleiding) en linguïstische expressie (gehandhaafd door algemene data). Onze bevindingen onthullen drie kritische inzichten: (1) Procesbegeleiding is zeer effectief maar vereist stabilisatie met algemene data. Een verhouding van minimaal één creatief voorbeeld op twaalf algemene voorbeelden is nodig om optimale prestaties te bereiken; onder deze drempel degradeert de winstratio geleidelijk (van 62,75% naar 35,78%). (2) Creatieve capaciteiten zijn cultureel gebonden zonder cross-linguale overdracht (een verschil van 89,26 procentpunten tussen Chinese en Engelse prestaties), en (3) lexicale diversiteit correleert omgekeerd met creatieve kwaliteit (het TTR-paradox), wat suggereert dat hoge diversiteit compenserend gedrag voor logische tekortkomingen signaleert. Deze bevindingen bevestigen dat creatieve excellentie voortkomt uit de interactie tussen logische ondersteuning en linguïstische verankering, analoog aan hoe wiskundig redeneren linguïstische competentie in foundation modellen versterkt maar niet kan vervangen.
In dit werk introduceren we mxbai-edge-colbert-v0-modellen, met twee verschillende parameteraantallen: 17M en 32M. Als onderdeel van ons onderzoek voeren we talrijke experimenten uit om retrievalsystemen en late-interactiemodellen te verbeteren, die we van plan zijn te destilleren in kleinere modellen als proof-of-concepts. Ons uiteindelijke doel is om retrieval op alle schalen te ondersteunen, van grootschalige retrieval in de cloud tot modellen die lokaal op elk apparaat kunnen draaien. mxbai-edge-colbert-v0 is een model dat we hopen te gebruiken als een solide basis voor alle toekomstige experimenten, en dat de eerste versie vertegenwoordigt van een lange reeks kleine proof-of-concepts. Tijdens de ontwikkeling van mxbai-edge-colbert-v0 hebben we meerdere ablatiestudies uitgevoerd, waarvan we de resultaten rapporteren. Wat betreft downstreamprestaties is mxbai-edge-colbert-v0 een bijzonder capabel klein model, dat ColBERTv2 overtreft op gangbare kortetekstbenchmarks (BEIR) en een grote stap voorwaarts betekent in langcontexttaken, met een ongekende efficiëntie.
Diepgaand onderzoek – het produceren van uitgebreide, citatie-gestuurde rapporten door informatie te zoeken en te synthetiseren uit honderden live webbronnen – markeert een belangrijk front voor agent-gebaseerde systemen. Om dit vermogen rigoureus te evalueren, zijn vier principes essentieel: taken moeten (1) gebruikersgericht zijn, realistische informatiebehoeften weerspiegelen, (2) dynamisch zijn, actuele informatie vereisen die verder gaat dan parametrische kennis, (3) eenduidig zijn, zorgen voor consistente interpretatie tussen gebruikers, en (4) veelzijdig en zoekintensief zijn, zoeken over talrijke webbronnen en diepgaande analyse vereisen. Bestaande benchmarks schieten tekort aan deze principes, vaak gericht op smalle domeinen of het stellen van dubbelzinnige vragen die een eerlijke vergelijking belemmeren. Geleid door deze principes introduceren we LiveResearchBench, een benchmark van 100 expert-gecurateerde taken die het dagelijks leven, bedrijfsleven en academie bestrijken, elk vereist uitgebreid, dynamisch, real-time webzoeken en synthese. Gebouwd met meer dan 1.500 uur menselijke arbeid, biedt LiveResearchBench een rigoureuze basis voor systematische evaluatie. Om citatie-gestuurde langere rapporten te evalueren, introduceren we DeepEval, een uitgebreide suite die zowel inhouds- als rapportniveau kwaliteit dekt, inclusief dekking, presentatie, citatie nauwkeurigheid en associatie, consistentie en diepte van analyse. DeepEval integreert vier complementaire evaluatieprotocollen, elk ontworpen om stabiele beoordeling en hoge overeenstemming met menselijke oordelen te waarborgen. Met behulp van LiveResearchBench en DeepEval voeren we een uitgebreide evaluatie uit van 17 frontier diepgaande onderzoekssystemen, waaronder single-agent webzoeken, single-agent diepgaand onderzoek en multi-agent systemen. Onze analyse onthult huidige sterke punten, terugkerende faalmodi en belangrijke systeemcomponenten die nodig zijn om betrouwbaar, inzichtelijk diepgaand onderzoek te bevorderen.
Huidige methoden voor voorkeursleren behalen hoge nauwkeurigheid op standaard benchmarks, maar vertonen een significante prestatievermindering wanneer objectieve kwaliteitssignalen worden verwijderd. Wij introduceren WritingPreferenceBench, een dataset van 1.800 door mensen geannoteerde voorkeursparen (1.200 Engels, 600 Chinees) over 8 creatieve schrijfgenres, waarbij reacties worden gematcht op objectieve correctheid, feitelijke nauwkeurigheid en lengte. Op deze benchmark behalen sequentiegebaseerde beloningsmodellen—de standaardarchitectuur voor RLHF—slechts een gemiddelde nauwkeurigheid van 52,7%, terwijl zero-shot taalmodelbeoordelaars presteren op 53,9%. Daarentegen behalen generatieve beloningsmodellen die expliciete redeneerketens produceren een nauwkeurigheid van 81,8%. We observeren een hoge variantie binnen modellen over genres: individuele modellen variëren van 18,2% tot 81,8% nauwkeurigheid over verschillende schrijfcategorieën, met standaarddeviaties die gemiddeld 10,1% bedragen. Deze variantie blijft bestaan ongeacht de schaal van het model, waarbij 27B-parametermodellen geen consistente verbetering laten zien ten opzichte van 8B-varianten. Onze resultaten suggereren dat huidige RLHF-methoden voornamelijk leren om objectieve fouten te detecteren in plaats van subjectieve kwaliteitsvoorkeuren te vangen (bijv. creativiteit, stijlvolle flair en emotionele resonantie), en dat succesvol voorkeursmodelleren tussenliggende redeneerrepresentaties vereist in plaats van directe classificatie.
We introduceren AnyUp, een methode voor feature-upsampling die kan worden toegepast op elke visuele feature bij elke resolutie, zonder encoder-specifieke training. Bestaande op leren gebaseerde upsamplers voor features zoals DINO of CLIP moeten voor elke feature-extractor opnieuw worden getraind en generaliseren daarom niet naar verschillende feature-types tijdens inferentie. In dit werk stellen we een inferentie-tijd feature-agnostische upsampling-architectuur voor om deze beperking te verlichten en de kwaliteit van upsampling te verbeteren. In onze experimenten stelt AnyUp een nieuwe standaard voor upsampled features, generaliseert het naar verschillende feature-types en behoudt het feature-semantiek, terwijl het efficiënt en eenvoudig toepasbaar is op een breed scala aan downstream taken.
Het ontwerpen van complexe machines geldt zowel als een teken van menselijke intelligentie als een fundament van ingenieurskunst. Gezien de recente vooruitgang in grote taalmmodellen (LLM's), vragen we ons af of ook zij kunnen leren creëren. We benaderen deze vraag vanuit het perspectief van compositorisch machineontwerp: een taak waarbij machines worden samengesteld uit gestandaardiseerde componenten om functionele eisen zoals voortbeweging of manipulatie in een gesimuleerde fysieke omgeving te vervullen. Om dit onderzoek te ondersteunen, introduceren we BesiegeField, een testomgeving gebaseerd op het machinebouwspel Besiege, die op onderdelen gebaseerde constructie, fysieke simulatie en beloningsgestuurde evaluatie mogelijk maakt. Met behulp van BesiegeField testen we state-of-the-art LLM's met agent-gebaseerde workflows en identificeren we belangrijke vaardigheden die nodig zijn voor succes, waaronder ruimtelijk redeneren, strategische assemblage en het volgen van instructies. Omdat huidige open-source modellen tekortschieten, verkennen we reinforcement learning (RL) als een pad naar verbetering: we stellen een cold-start dataset samen, voeren RL-finetuningexperimenten uit en belichten open uitdagingen op het snijvlak van taal, machineontwerp en fysiek redeneren.
Reinforcement learning met verifieerbare beloningen (RLVR) heeft de redeneervaardigheden van grote taalmodellen (LLMs) verder ontwikkeld. Echter, heersende RLVR-methoden vertonen een systematische neiging tot exploitatie boven exploratie, zoals blijkt uit verbeterde pass@1 maar verminderde pass@K (K>1) prestaties. Om dit probleem te begrijpen, analyseren we de trainingsdynamiek van RLVR-methoden door de token-level waarschijnlijkheidsverdelingen over vocabulairekandidaten te volgen. Onze analyse onthult een consistent waarschijnlijkheidsconcentratie-effect waarbij de top-1 kandidaat steeds meer waarschijnlijkheidsmassa accumuleert en die van andere kandidaten onderdrukt. Belangrijker is dat sterkere overconcentratie correleert met slechtere pass@K prestaties. Geïnspireerd door deze bevinding stellen we Simple Pass@K Optimization (SimKO) voor, een methode die is ontworpen om het overconcentratieprobleem te verminderen en daarmee exploratie aan te moedigen. SimKO werkt op een asymmetrische manier. Voor geverifieerd correcte reacties verhoogt het de waarschijnlijkheden van de top-K kandidaten. Voor geverifieerd incorrecte reacties past het sterkere straffen toe op de top-1 kandidaat. We observeren dat dit asymmetrische ontwerp bijzonder effectief is in het verminderen van overconcentratie wanneer het wordt toegepast op tokens met hoge entropie. Over verschillende wiskundige en logisch-redeneerbenchmarks levert SimKO consistent hogere pass@K op voor een breed scala aan K, wat een eenvoudige manier biedt om de exploratie van RLVR te verbeteren.
Vision-Language-Action (VLA)-modellen ondergaan een snelle ontwikkeling en tonen veelbelovende capaciteiten in robotmanipulatietaken. Het opschalen van VLA-modellen brengt echter verschillende kritieke uitdagingen met zich mee: (1) Het trainen van nieuwe VLA-modellen vanaf nul vereist aanzienlijke rekenkracht en uitgebreide datasets. Gezien de huidige schaarste aan robotdata wordt het bijzonder waardevol om goed voorgetrainde VLA-modelgewichten volledig te benutten tijdens het opschaalproces. (2) Real-time controle vereist een zorgvuldige balans tussen modelcapaciteit en rekenkundige efficiëntie. Om deze uitdagingen aan te pakken, stellen we AdaMoE voor, een Mixture-of-Experts (MoE)-architectuur die voorgetrainde gewichten erft van dichte VLA-modellen en de actie-expert opschaalt door de feedforward-lagen te vervangen door spaarzaam geactiveerde MoE-lagen. AdaMoE maakt gebruik van een ontkoppeltechniek die expertselectie ontkoppelt van expertweging via een onafhankelijke schaaladapter die naast de traditionele router werkt. Hierdoor kunnen experts worden geselecteerd op basis van taakrelevantie terwijl ze bijdragen met onafhankelijk gecontroleerde gewichten, wat samenwerking tussen experts mogelijk maakt in plaats van een winner-takes-all-dynamiek. Onze aanpak toont aan dat expertise niet hoeft te monopoliseren. In plaats daarvan kunnen we door samenwerking tussen experts superieure prestaties bereiken terwijl we de rekenkundige efficiëntie behouden. AdaMoE overtreft consequent het basislijnmodel op belangrijke benchmarks, met prestatieverbeteringen van 1,8% op LIBERO en 9,3% op RoboTwin. Het belangrijkste is dat een aanzienlijke verbetering van 21,5% in real-world experimenten de praktische effectiviteit voor robotmanipulatietaken bevestigt.
Vision-Language-Action-modellen (VLA's) bieden enorme mogelijkheden voor het mogelijk maken van algemene robotmanipulatie. De beste manier om ze te bouwen, blijft echter een open vraag. Huidige benaderingen voegen vaak complexiteit toe, zoals het aanpassen van de bestaande woordenschat van een Vision-Language Model (VLM) met actietokens of het introduceren van speciale actiekoppen. Opmerkelijk genoeg is de eenvoudigste strategie om acties direct als tekst weer te geven grotendeels onontgonnen gebleven. Dit werk introduceert VLA-0 om dit idee te onderzoeken. We ontdekken dat VLA-0 niet alleen effectief is; het is verrassend krachtig. Met het juiste ontwerp presteert VLA-0 beter dan complexere modellen. Op LIBERO, een populaire benchmark voor het evalueren van VLA's, presteert VLA-0 beter dan alle bestaande methoden die op dezelfde robotdata zijn getraind, waaronder pi_0.5-KI, OpenVLA-OFT en SmolVLA. Bovendien presteert het, zonder grootschalige robotica-specifieke training, beter dan methoden die op grootschalige robotdata zijn getraind, zoals pi_0.5-KI, pi_0, GR00T-N1 en MolmoAct. Deze bevindingen vertalen zich ook naar de echte wereld, waar VLA-0 beter presteert dan SmolVLA, een VLA-model dat vooraf is getraind op grootschalige echte data. Dit artikel vat onze onverwachte bevindingen samen en beschrijft de specifieke technieken die nodig zijn om de hoge prestaties van dit eenvoudige maar krachtige VLA-ontwerp te ontgrendelen. Visuele resultaten, code en getrainde modellen zijn hier beschikbaar: https://vla0.github.io/.
Grote taalmodellen (LLM's) hebben een groeiende interesse gewekt in automatische machine learning-onderzoeksagenten. Onder hen zijn agenten die autonoom ideeën kunnen voorstellen en machine learning-experimenten kunnen uitvoeren bijzonder veelbelovend, omdat ze onderzoeksautomatisering maximaliseren en wetenschappelijke vooruitgang versnellen door ideeën iteratief te verfijnen op basis van experimentele resultaten. Het blijft echter een uitdaging om dergelijke agenten uitgebreid te evalueren. Bestaande benchmarks leggen vaak te veel nadruk op technische aspecten en verwaarlozen academische strengheid, wat barrières creëert die een duidelijke beoordeling van de wetenschappelijke capaciteiten van een agent in machine learning-onderzoek bemoeilijken. Daarnaast kampen ze met beperkte taakdiversiteit, een overmatige focus op toepassingsgerichte taken in plaats van fundamentele onderzoeksproblemen, en beperkte schaalbaarheid naar realistische onderzoeksomgevingen. Om deze beperkingen aan te pakken, introduceren we FML-bench, een benchmark die is ontworpen om automatische machine learning-onderzoeksagenten te evalueren op 8 diverse en fundamentele machine learning-onderzoeksproblemen. Het vermindert de programmeerlast, benadrukt fundamentele problemen in plaats van specifieke use cases, biedt hoge taakdiversiteit en is uitbreidbaar naar real-world machine learning GitHub-repositories. Bovendien presenteren we een uniform evaluatiekader met vijf complementaire metrieken, ontworpen om de prestaties van agenten op onze benchmark uitgebreid te beoordelen. We evalueren state-of-the-art automatische onderzoeksagenten op FML-bench en ontdekken dat agenten die brede onderzoeksverkenningstrategieën toepassen, beter presteren dan agenten die zich richten op smalle maar diepe verkenning. Deze bevindingen suggereren dat het benadrukken van de breedte van verkenning kan leiden tot effectievere onderzoeksresultaten dan uitsluitend focussen op incrementele verfijning. Onze benchmark is beschikbaar op https://github.com/qrzou/FML-bench.
Weinig-staps diffusie- of stroomgebaseerde generatieve modellen distilleren doorgaans een snelheid-voorspellend leraarmodel naar een studentmodel dat een kortere weg naar ontruiste data voorspelt. Dit formaatverschil heeft geleid tot complexe distillatieprocedures die vaak lijden onder een kwaliteit-diversiteit afweging. Om dit aan te pakken, stellen we policy-gebaseerde stroommodellen (pi-Flow) voor. pi-Flow past de uitvoerlaag van een student-stroommodel aan om een netwerkvrij policy te voorspellen op één tijdstap. Het policy produceert vervolgens dynamische stroomsnelheden op toekomstige substappen met verwaarloosbare overhead, waardoor snelle en nauwkeurige ODE-integratie op deze substappen mogelijk is zonder extra netwerkevaluaties. Om het ODE-traject van het policy af te stemmen op dat van de leraar, introduceren we een nieuwe imitatiedistillatiebenadering, die de snelheid van het policy afstemt op die van de leraar langs het traject van het policy met behulp van een standaard ell_2 stroommatcheringsverlies. Door simpelweg het gedrag van de leraar na te bootsen, maakt pi-Flow stabiele en schaalbare training mogelijk en vermijdt het de kwaliteit-diversiteit afweging. Op ImageNet 256^2 behaalt het een 1-NFE FID van 2,85, wat beter is dan MeanFlow van dezelfde DiT-architectuur. Op FLUX.1-12B en Qwen-Image-20B bij 4 NFEs bereikt pi-Flow aanzienlijk betere diversiteit dan state-of-the-art weinig-staps methoden, terwijl het kwaliteit op leraarniveau behoudt.
Multi-stage reasoning is naar voren gekomen als een effectieve strategie om het redeneervermogen van kleine taalmodellen te verbeteren door complexe problemen op te delen in opeenvolgende substappen. Dit gaat echter ten koste van een verhoogde latentie. We observeren dat bestaande adaptieve versnellingsmethoden, zoals het overslaan van lagen, moeite hebben om efficiëntie en nauwkeurigheid in deze context in balans te brengen vanwege twee belangrijke uitdagingen: (1) variatie in gevoeligheid voor het overslaan van lagen per stap, en (2) de generatie van overbodige uitvoertokens. Om deze problemen aan te pakken, stellen we LiteStage voor, een latentiebewust raamwerk voor het overslaan van lagen bij multi-stage reasoning. LiteStage combineert een stapgewijze offline zoektocht die optimale laagbudgetten toewijst met een online, op vertrouwen gebaseerde vroege beëindiging van de generatie om onnodige decodering te onderdrukken. Experimenten op drie benchmarks, zoals OBQA, CSQA en StrategyQA, tonen aan dat LiteStage een versnelling tot 1,70x bereikt met minder dan 4,0% nauwkeurigheidsverlies, wat beter presteert dan eerdere trainingsvrije methoden voor het overslaan van lagen.
De snelle vooruitgang van grote, vooraf getrainde modellen voor zowel visuele inhoudsgeneratie als 3D-reconstructie opent nieuwe mogelijkheden voor tekst-naar-3D-generatie. Intuïtief zou men een indrukwekkende 3D-scènegenerator kunnen verkrijgen als men de kracht van een modern latent tekst-naar-videomodel als "generator" zou kunnen combineren met de geometrische capaciteiten van een recent (feedforward) 3D-reconstructiesysteem als "decoder". Wij introduceren VIST3A, een algemeen framework dat precies dit doet, waarbij twee hoofduitdagingen worden aangepakt. Ten eerste moeten de twee componenten op een manier worden samengevoegd die de rijke kennis die in hun gewichten is gecodeerd, behoudt. We herzien modelstitching, d.w.z. we identificeren de laag in de 3D-decoder die het beste overeenkomt met de latenterepresentatie die wordt geproduceerd door de tekst-naar-videogenerator en stikken de twee delen aan elkaar. Die operatie vereist slechts een kleine dataset en geen labels. Ten tweede moet de tekst-naar-videogenerator worden afgestemd op de gestikte 3D-decoder, om ervoor te zorgen dat de gegenereerde latenten decodeerbaar zijn in consistente, perceptueel overtuigende 3D-scènegeometrie. Hiertoe passen we direct reward finetuning aan, een populaire techniek voor afstemming op menselijke voorkeuren. We evalueren de voorgestelde VIST3A-aanpak met verschillende videogeneratoren en 3D-reconstructiemodellen. Alle geteste combinaties verbeteren aanzienlijk ten opzichte van eerdere tekst-naar-3D-modellen die Gaussische splats uitvoeren. Bovendien maakt VIST3A, door een geschikt 3D-basismodel te kiezen, ook hoogwaardige tekst-naar-puntenkaartgeneratie mogelijk.
Recente beeldbewerkingsmodellen hebben indrukwekkende resultaten behaald bij het volgen van natuurlijke taal instructies voor bewerkingen, maar ze zijn afhankelijk van supervised fine-tuning met grote datasets van invoer-doelparen. Dit vormt een kritieke bottleneck, aangezien dergelijke natuurlijk voorkomende paren moeilijk op grote schaal te verzamelen zijn. Huidige oplossingen gebruiken synthetische trainingsparen die gebruikmaken van de zero-shot mogelijkheden van bestaande modellen. Dit kan echter de artefacten van het vooraf getrainde model doorgeven en versterken in het uiteindelijk getrainde model. In dit werk presenteren we een nieuwe trainingsparadigma dat de noodzaak van gepaarde data volledig elimineert. Onze aanpak optimaliseert direct een few-step diffusiemodel door het tijdens de training uit te rollen en feedback te benutten van vision-language modellen (VLMs). Voor elke invoer en bewerkingsinstructie evalueert het VLM of een bewerking de instructie volgt en ongewijzigde inhoud behoudt, wat directe gradients biedt voor end-to-end optimalisatie. Om visuele trouw te waarborgen, integreren we een distribution matching loss (DMD), die ervoor zorgt dat gegenereerde afbeeldingen binnen het beeldmanifold blijven dat is geleerd door vooraf getrainde modellen. We evalueren onze methode op standaard benchmarks en voeren een uitgebreide ablatiestudie uit. Zonder enige gepaarde data presteert onze methode op hetzelfde niveau als verschillende beeldbewerkingsdiffusiemodellen die zijn getraind op uitgebreide supervised gepaarde data, onder de few-step instelling. Met hetzelfde VLM als beloningsmodel overtreffen we ook RL-gebaseerde technieken zoals Flow-GRPO.
Videogeneratieve modellen hebben recentelijk aanzienlijke vooruitgang geboekt in de synthesekwaliteit. Het genereren van complexe bewegingen blijft echter een kritieke uitdaging, aangezien bestaande modellen vaak moeite hebben om natuurlijke, vloeiende en contextueel consistente bewegingen te produceren. Deze kloof tussen gegenereerde en realistische bewegingen beperkt hun praktische toepasbaarheid. Om dit probleem aan te pakken, introduceren we RealDPO, een nieuw uitlijningsparadigma dat gebruikmaakt van real-world data als positieve voorbeelden voor voorkeursleren, waardoor nauwkeurigere bewegingssynthese mogelijk wordt. In tegenstelling tot traditionele supervised fine-tuning (SFT), die beperkte correctieve feedback biedt, maakt RealDPO gebruik van Direct Preference Optimization (DPO) met een op maat gemaakte verliesfunctie om de realiteit van bewegingen te verbeteren. Door real-world video's te contrasteren met foutieve modeluitvoer, maakt RealDPO iteratieve zelfcorrectie mogelijk, waardoor de bewegingskwaliteit geleidelijk wordt verfijnd. Om post-training in complexe bewegingssynthese te ondersteunen, stellen we RealAction-5K voor, een gecureerde dataset van hoogwaardige video's die menselijke dagelijkse activiteiten vastleggen met rijke en precieze bewegingsdetails. Uitgebreide experimenten tonen aan dat RealDPO de videokwaliteit, tekstuitlijning en bewegingsrealisme aanzienlijk verbetert in vergelijking met state-of-the-art modellen en bestaande voorkeursoptimalisatietechnieken.
De ontwikkeling van grote taalmodelen is afhankelijk van grootschalige trainingscorpora, maar de meeste bevatten gegevens met onduidelijke licentiestatus, wat de ontwikkeling van echt open modellen beperkt. Dit probleem wordt verergerd voor niet-Engelse talen, waar openlijk gelicentieerde tekst nog steeds schaars is. Wij introduceren de German Commons, de grootste verzameling openlijk gelicentieerde Duitse tekst tot nu toe. Het compileert gegevens uit 41 bronnen in zeven domeinen, waaronder juridische, wetenschappelijke, culturele, politieke, nieuws-, economische en webteksten. Door systematische inwinning van gevestigde dataleveranciers met verifieerbare licenties, levert het 154,56 miljard tokens aan hoogwaardige tekst voor taalmodeltraining. Onze verwerkingspijplijn implementeert uitgebreide kwaliteitsfiltering, deduplicatie en tekstformatteringcorrecties, waardoor een consistente kwaliteit over heterogene tekstbronnen wordt gegarandeerd. Alle domeinsubsets hebben licenties van ten minste CC-BY-SA 4.0 of equivalent, wat juridische conformiteit voor modeltraining en herdistributie verzekert. De German Commons adresseert daarmee het kritieke tekort aan openlijk gelicentieerde Duitse pretrainingsgegevens en maakt de ontwikkeling van echt open Duitse taalmodelen mogelijk. We geven ook code vrij voor corpusconstructie en datafiltering die is afgestemd op Duitse tekst, waardoor de German Commons volledig reproduceerbaar en uitbreidbaar is.
Taalmodellen met recurrente diepte, ook wel universeel of gelust genoemd wanneer rekening wordt gehouden met transformers, worden gedefinieerd door hun vermogen om hun berekeningen uit te breiden door de herhaling van lagen. Recente inspanningen op het gebied van vooraf trainen hebben aangetoond dat deze architecturen kunnen worden opgeschaald voor moderne taalmodelleertaken, terwijl ze voordelen vertonen bij redeneertaken. In dit werk onderzoeken we de relatie tussen modellen met recurrente diepte en diffusie-taalmmodellen. Op basis van hun overeenkomsten ontwikkelen we een nieuwe diffusie-forcerende sampler voor deze modellen om de generatie te versnellen. De sampler vordert door nieuwe tokens te decoderen bij elke voorwaartse passage van het model, terwijl de latente toestanden van deze tokens parallel verder kunnen worden verfijnd door herhaling. Theoretisch gezien is generatie met onze sampler strikt expressiever dan de baseline autoregressieve generatie met hetzelfde tijdsbudget op moderne hardware. Bovendien kan deze sampler, gebaseerd op principes uit de diffusieliteratuur, direct worden toegepast op bestaande 3,5B recurrente-diepte-transformers zonder enige afstemming, wat leidt tot een snelheidswinst van tot wel 5x. Onze bevindingen bieden niet alleen een efficiënt mechanisme voor het paralleliseren van de extra berekeningen in modellen met recurrente diepte tijdens inferentie, maar suggereren ook dat dergelijke modellen natuurlijk kunnen worden gezien als sterke continue, zij het causale, diffusie-taalmmodellen.
Systematische, compositionele generalisatie buiten de trainingsdistributie blijft een kernuitdaging in machine learning – en een kritieke bottleneck voor de opkomende redeneervaardigheden van moderne taalmodelen. Dit werk onderzoekt out-of-distribution (OOD) generalisatie in Transformer-netwerken met behulp van een GSM8K-achtige modulaire rekenkunde op computationele grafieken als testomgeving. We introduceren en onderzoeken een set van vier architecturale mechanismen gericht op het verbeteren van OOD-generalisatie: (i) input-adaptieve recurrentie; (ii) algoritmische supervisie; (iii) verankerde latente representaties via een discreet bottleneck; en (iv) een expliciet foutcorrectiemechanisme. Collectief leveren deze mechanismen een architecturale benadering op voor native en schaalbare latente ruimte-redenering in Transformer-netwerken met robuuste algoritmische generalisatie mogelijkheden. We vullen deze empirische resultaten aan met een gedetailleerde mechanistische interpretatieanalyse die onthult hoe deze mechanismen leiden tot robuuste OOD-generalisatievaardigheden.
Digitale agenten hebben diverse, grootschalige UI-trajecten nodig om zich aan te passen aan real-world taken, maar het verzamelen van dergelijke data is extreem kostbaar vanuit het perspectief van menselijke annotatie, infrastructuur en engineering. Daarom introduceren we UI-Simulator, een schaalbare paradigma dat gestructureerde UI-toestanden en overgangen genereert om trainings-trajecten op grote schaal te synthetiseren. Ons paradigma integreert een digitale wereld-simulator voor diverse UI-toestanden, een geleid uitrolproces voor coherente exploratie, en een traject-wrapper die hoogwaardige en diverse trajecten produceert voor agenttraining. We stellen verder UI-Simulator-Grow voor, een gerichte schaalstrategie die snellere en data-efficiëntere schaling mogelijk maakt door prioriteit te geven aan taken met grote impact en informatieve trajectvarianten te synthetiseren. Experimenten op WebArena en AndroidWorld tonen aan dat UI-Simulator open-source agenten die getraind zijn op echte UI's evenaart of overtreft met aanzienlijk betere robuustheid, ondanks het gebruik van zwakkere leraarmodellen. Bovendien evenaart UI-Simulator-Grow de prestaties van Llama-3-70B-Instruct met alleen Llama-3-8B-Instruct als basismodel, wat het potentieel benadrukt van het gerichte syntheseschaalparadigma om digitale agenten continu en efficiënt te verbeteren.
Contacttalen zoals Engels vertonen rijke regionale variaties in de vorm van dialecten, die vaak worden gebruikt door dialectsprekers die interacteren met generatieve modellen. Echter, kunnen multimodale generatieve modellen effectief content produceren op basis van dialectale tekstuele input? In dit werk bestuderen we deze vraag door een nieuwe grootschalige benchmark te construeren die zes veelvoorkomende Engelse dialecten omvat. We werken samen met dialectsprekers om meer dan 4200 unieke prompts te verzamelen en te verifiëren, en evalueren 17 beeld- en videogeneratieve modellen. Onze automatische en menselijke evaluatieresultaten tonen aan dat de huidige state-of-the-art multimodale generatieve modellen een prestatieverlies van 32,26% tot 48,17% vertonen wanneer een enkel dialectwoord in de prompt wordt gebruikt. Veelgebruikte mitigatiemethoden zoals fine-tuning en het herschrijven van prompts kunnen de dialectprestaties slechts in geringe mate verbeteren (< 7%), terwijl ze mogelijk aanzienlijke prestatieverliezen in Standaard Amerikaans Engels (SAE) veroorzaken. Daarom ontwerpen we een algemene encoder-gebaseerde mitigatiestrategie voor multimodale generatieve modellen. Onze methode leert het model nieuwe dialectkenmerken te herkennen terwijl de SAE-prestaties behouden blijven. Experimenten met modellen zoals Stable Diffusion 1.5 laten zien dat onze methode de prestaties op vijf dialecten gelijktijdig kan verhogen tot op het niveau van SAE (+34,4%), terwijl de SAE-prestaties vrijwel geen kosten ondervinden.
Repository-level pretraining wordt vaak gebruikt om grote taalmodellen voor code in staat te stellen context op codebasisniveau te benutten. Dit verbetert hun vermogen om nauwkeurige en contextbewuste code-completies te genereren. In dit werk onderzoeken we hoe verschillende repository-verwerkingsstrategieën in-context learning beïnvloeden in OpenCoder, een model met 1,5 miljard parameters. We breiden het contextvenster uit van 4.096 naar 16.384 tokens door training op een extra 1 miljard tokens van gecureerde repository-level data. Ondanks het gebruik van een kleinere dataset dan concurrerende modellen (die vaak honderden miljarden tokens gebruiken), behaalt ons model vergelijkbare prestaties op de Long Code Arena-benchmark. We ontdekken dat verschillende repository-verwerkingstechnieken vergelijkbaar sterke resultaten opleveren, waarbij de belangrijkste winst voortkomt uit aanpassing aan een nieuwe schaalparameter voor rotary positional embedding (RoPE). Tot slot tonen we aan dat een eenvoudigere file-level trainingsaanpak op de oorspronkelijke sequentielengte zeer effectief blijft, wat onderzoek naar repository-level code-completies toegankelijk maakt voor omgevingen met beperktere data- en rekenbronnen.
Test-time schaling is een krachtige strategie om de prestaties van grote taalmodellen te verbeteren bij complexe redeneertaken. Hoewel state-of-the-art benaderingen vaak generatieve verifiers gebruiken om de beste oplossing uit een pool van kandidaten te selecteren, brengt deze methode onhoudbare rekenkosten met zich mee, wat de praktische toepasbaarheid beperkt. In dit werk verschuiven we de focus naar een meer budgetbewust paradigma: discriminatieve verificatie. We voeren een grondige empirische analyse uit en tonen aan dat hoewel discriminatieve verifiers in isolatie mogelijk minder presteren, hun combinatie met zelfconsistentie in een hybride aanpak een krachtig en efficiënt test-time schalingsmechanisme creëert. Opmerkelijk is dat deze hybride aanpak, binnen een vast rekenbudget, state-of-the-art generatieve verificatie aanzienlijk overtreft: met een nauwkeurigheid die tot 15,3% hoger ligt op AIME2025. Onze bevindingen bevestigen dat voor praktische, real-world toepassingen, budgetbewuste schaling met discriminatieve verifiers niet alleen een "gratis" upgrade is ten opzichte van zelfconsistentie, maar ook een effectiever en efficiënter alternatief voor kostbare generatieve technieken. Code is beschikbaar op https://github.com/wang-research-lab/verification.
Close-proximity menselijke interactieposities bevatten rijke contextuele informatie over interactiedynamiek. Gegeven dergelijke posities kunnen mensen intuïtief de context afleiden en mogelijke dynamiek uit het verleden en de toekomst anticiperen, waarbij ze steunen op sterke aannames over menselijk gedrag. Geïnspireerd door deze observatie stellen we Ponimator voor, een eenvoudig raamwerk dat is verankerd in proximale interactieposities voor veelzijdige interactie-animatie. Onze trainingsdata bestaat uit close-contact posities van twee personen en hun omringende temporele context uit motion-capture interactiedatasets. Door gebruik te maken van interactiepose-aannames, zet Ponimator twee conditionele diffusiemodellen in: (1) een pose-animator die het temporele aanname gebruikt om dynamische bewegingssequenties te genereren vanuit interactieposities, en (2) een pose-generator die het ruimtelijke aanname toepast om interactieposities te synthetiseren vanuit een enkele pose, tekst, of beide wanneer interactieposities niet beschikbaar zijn. Collectief ondersteunt Ponimator diverse taken, waaronder beeldgebaseerde interactie-animatie, reactie-animatie en tekst-naar-interactie-synthese, waardoor de overdracht van interactiekennis van hoogwaardige mocap-data naar open-wereldscenario's wordt gefaciliteerd. Empirische experimenten over diverse datasets en toepassingen demonstreren de universaliteit van het pose-aanname en de effectiviteit en robuustheid van ons raamwerk.
Schaalwetten hebben ons begrip van grote taalmodellen getransformeerd door upstream metrieken zoals kruisentropieverlies te koppelen aan ontwerpfactoren zoals modelgrootte, trainingsdata en rekenkracht. Deze conventionele wetten slagen er echter niet in om downstream taakprestaties vast te leggen, waar context een cruciale rol speelt. In dit werk stellen we een eenvoudig, interpreteerbaar raamwerk voor dat downstream prestaties gezamenlijk modelleert als een functie van de trainingsrekenkracht en de geboden context. We valideren ons raamwerk empirisch door het aan te passen op de geobserveerde downstream prestaties van extended-context varianten van Llama-2-7B en Llama-2-13B over 65.500 unieke instanties verspreid over drie taken: rekenkundig redeneren, gezond verstand redeneren en machinaal vertalen. Onze resultaten tonen aan dat ons raamwerk in-distribution downstream prestaties nauwkeurig modelleert, generaliseert over drie ordes van grootte in trainingsrekenkracht, en betrouwbaar prestaties extrapoleert naarmate de hoeveelheid context toeneemt. Deze bevindingen bieden waardevolle inzichten in de wisselwerking tussen trainingsrekenkracht en contextgebruik, en bieden richtlijnen voor het ontwerpen van efficiëntere lang-context LLM's voor diverse downstream taken. Onze code is beschikbaar op https://github.com/wang-research-lab/context-scaling.
Webgebaseerde 'diep onderzoek'-agentschappen hebben als doel complexe vraag-antwoordtaken op te lossen door langdurige interacties met online tools. Deze taken blijven uitdagend, omdat de onderliggende taalmodellen vaak niet zijn geoptimaliseerd voor langdurig redeneren en exploratie. Eerder werk heeft workflows voorgesteld voor het construeren van instructie-afstemmingsdatasets, vaak gebruikmakend van kennisgrafieken. Dergelijke methoden ontberen echter meestal fijnmazige controle over moeilijkheidsgraad en kwaliteit, wat resulteert in synthetische data die niet voldoet aan de complexiteit die nodig is voor langdurig redeneren. Bovendien verwarren veel studies data- en trainingseffecten door modellen te vergelijken die zijn getraind onder verschillende optimalisatierecepten, waardoor het moeilijk is om de effectiviteit van de data zelf te isoleren en te evalueren. Wij introduceren een tweeledige datasynthesepijplijn die vraag-antwoordparen genereert door de taakcomplexiteit geleidelijk te verhogen totdat een frontier baseline webagent faalt. De baselineagent speelt meerdere rollen in dit proces: het proberen te beantwoorden van de vragen, het valideren van feitelijkheid, het controleren op alternatieve antwoorden en het handhaven van filtering. Om de effectiviteit van onze synthesemethoden te evalueren, hanteren we een gecontroleerde trainingsopstelling gebaseerd op distillatie van sterke webagentschappen. Experimenten over meerdere webgebaseerde benchmarks tonen aan dat onze dataset - ondanks dat deze kleiner is - het trainen van effectievere webagentschappen mogelijk maakt dan bestaande datasets. In het bijzonder vertoont onze data een tweemaal zo grote diversiteit in toolgebruiksacties, waardoor modellen die erop zijn getraind betere prestaties kunnen bereiken terwijl repetitief tool-aanroepend gedrag wordt vermeden.
Het traditionele RAG-paradigma, dat doorgaans betrokken is bij het begrijpen van relevante tekstfragmenten als reactie op ontvangen vragen, beperkt inherent zowel de diepte van kennisinternalisatie als de redeneervaardigheden. Om deze beperking aan te pakken, transformeert ons onderzoek de tekstverwerking in RAG van passief chunking naar actief begrijpen, waarbij dit proces wordt gedefinieerd als documentgeheugenextractie met als doel het simuleren van menselijke cognitieve processen tijdens het lezen. Hierop voortbouwend stellen we het Mixtures of scenario-aware document Memories (MoM) framework voor, ontworpen om efficiënt om te gaan met documenten uit meerdere domeinen en om kleine taalmodellen (SLMs) te trainen om de vaardigheid te verwerven om proactief documentgeheugens te verkennen en op te bouwen. Het MoM instrueert eerst grote taalmodellen (LLMs) om domeinexperts na te bootsen bij het genereren van logische documentoverzichten, waardoor gestructureerd chunking en extractie van kerninhoud wordt gestuurd. Het maakt gebruik van een multi-path sampling en multi-perspectief evaluatiemechanisme, waarbij specifiek uitgebreide metrieken worden ontworpen die de duidelijkheid van chunks en de volledigheid van extractie vertegenwoordigen om de optimale documentgeheugens te selecteren. Daarnaast integreren we een omgekeerde redeneerstrategie om diepere, mensachtige leesvaardigheden te infuseren tijdens de training van SLMs, waarbij verfijnde expertdenkpaden worden afgeleid uit hoogwaardige resultaten. Ten slotte, gebruikmakend van diverse vormen van inhoud gegenereerd door MoM, ontwikkelen we een driedelig documentgeheugenretrievalmechanisme, dat is gebaseerd op onze theoretische bewijsvoering vanuit het perspectief van probabilistische modellering. Uitgebreide experimentele resultaten in drie verschillende domeinen tonen aan dat het MoM-framework niet alleen de uitdagingen van tekstchunking in bestaande RAG-systemen oplost, waardoor LLMs worden voorzien van semantisch complete documentgeheugens, maar ook de weg effent voor SLMs om mensgerichte intelligente tekstverwerking te bereiken.
Persistente dynamische scènemodellering voor tracking en synthese van nieuwe gezichtspunten blijft uitdagend vanwege de moeilijkheid om nauwkeurige vervormingen vast te leggen terwijl de rekenkundige efficiëntie behouden blijft. Wij stellen SCas4D voor, een gecascadeerd optimalisatiekader dat gebruikmaakt van structurele patronen in 3D Gaussian Splatting voor dynamische scènes. Het kernidee is dat vervormingen in de echte wereld vaak hiërarchische patronen vertonen, waarbij groepen van Gaussiaanse verdelingen vergelijkbare transformaties delen. Door vervormingen progressief te verfijnen van grof op deelniveau naar fijn op puntniveau, bereikt SCas4D convergentie binnen 100 iteraties per tijdseenheid en produceert het resultaten die vergelijkbaar zijn met bestaande methoden met slechts een twintigste van de trainingsiteraties. De aanpak toont ook effectiviteit in zelfgesuperviseerde segmentatie van gearticuleerde objecten, synthese van nieuwe gezichtspunten en taken voor dichte punt-tracking.
Grote taalmmodellen (LLMs) worden steeds vaker gebruikt als rollenspelagenten, maar hun vermogen om versiespecifieke personages trouw en consistent uit te beelden – bijvoorbeeld superhelden uit verschillende strip- en filmuniversa – blijft onderbelicht. Superheldencanons zoals Marvel en DC bieden een rijke testomgeving: decennia van verhalen resulteren in meerdere incarnaties van hetzelfde personage met verschillende achtergronden, waarden en morele codes. Om dit probleem te bestuderen, introduceren we Beyond One World, een benchmark voor karaktergebaseerd rollenspel dat 30 iconische helden en 90 canonspecifieke versies omvat. De benchmark bestaat uit twee taken: (i) Canon Events, die het feitelijke geheugen van cruciale levensfasen test, en (ii) Moral Dilemmas, die modellen confronteert met ethisch geladen scenario’s. We beoordelen antwoorden op canonieke nauwkeurigheid en redeneerbetrouwbaarheid binnen een raamwerk dat interne overwegingen ("denken") scheidt van uiterlijke beslissingen ("handelen"). We introduceren verder Think-Act Matching, een metriek die de afstemming tussen redenen en acties kwantificeert en als proxy dient voor modelbetrouwbaarheid. Experimenten met zowel redeneer- als niet-redeneergerichte modellen leveren drie bevindingen op: (1) chain-of-thought prompting verbetert narratieve samenhang bij zwakkere modellen, maar kan canonieke nauwkeurigheid bij sterkere modellen verminderen; (2) cross-versie generalisatie binnen een personage blijft een groot obstakel; en (3) modellen blinken vaak uit in óf denken óf handelen, maar zelden in beide. Beyond One World legt kritieke lacunes bloot in multiversale consistentie en redeneerafstemming, en biedt een uitdagende evaluatie voor rollenspel-LLMs.
Het vermogen van taalmodelen in RAG-systemen om selectief te weigeren te antwoorden op basis van gebrekkige context is cruciaal voor veiligheid, maar blijft een belangrijk falingspunt. Ons grootschalige onderzoek toont aan dat zelfs toonaangevende modellen hier moeite mee hebben, waarbij de nauwkeurigheid van weigering onder de 50% daalt bij taken met meerdere documenten, terwijl ze óf gevaarlijk overmoedig óf overdreven voorzichtig zijn. Statische benchmarks slagen er niet in om deze capaciteit betrouwbaar te evalueren, aangezien modellen datasetspecifieke artefacten uitbuiten en testgevallen uit het hoofd leren. We introduceren RefusalBench, een generatieve methodologie die programmatisch diagnostische testgevallen creëert door middel van gecontroleerde linguïstische perturbatie. Ons framework maakt gebruik van 176 verschillende perturbatiestrategieën, verdeeld over zes categorieën van informatieve onzekerheid en drie intensiteitsniveaus. Evaluatie van meer dan 30 modellen onthult systematische faalpatronen: weigering bestaat uit afzonderlijke detectie- en categorisatievaardigheden, en noch schaal noch uitgebreid redeneren verbetert de prestaties. We ontdekken dat selectieve weigering een trainbare, alignment-gevoelige capaciteit is, wat een duidelijk pad biedt voor verbetering. We brengen twee benchmarks uit -- RefusalBench-NQ (enkel document) en RefusalBench-GaRAGe (meerdere documenten) -- en ons volledige generatieframework om voortdurende, dynamische evaluatie van deze kritieke capaciteit mogelijk te maken.
Retrieval-Augmented Generation (RAG) vermindert belangrijke beperkingen van Large Language Models (LLM's), zoals feitelijke onjuistheden, verouderde kennis en hallucinaties, door dynamisch externe informatie op te halen. Recent onderzoek breidt dit paradigma uit met agentische RAG-systemen, waarbij LLM's als agenten fungeren om iteratief te plannen, informatie op te halen en te redeneren over complexe vragen. Deze systemen hebben echter nog steeds moeite met uitdagende multi-hop vragen, en hun tussenliggende redeneervaardigheden blijven onderbelicht. Om dit aan te pakken, stellen we RAGCap-Bench voor, een capaciteitsgericht benchmark voor gedetailleerde evaluatie van tussenliggende taken in agentische RAG-werkstromen. We analyseren uitvoer van state-of-the-art systemen om veelvoorkomende taken en de kernvaardigheden die nodig zijn voor hun uitvoering te identificeren, en construeren vervolgens een taxonomie van typische LLM-fouten om gerichte evaluatievragen te ontwerpen. Experimenten tonen aan dat "langzaam denkende" modellen met sterkere RAGCap-prestaties betere end-to-end resultaten behalen, wat de validiteit van de benchmark onderstreept en het belang benadrukt van het verbeteren van deze tussenliggende vaardigheden.
Process Reward Models (PRMs) hebben als doel het multi-step redeneren in Large Language Models (LLMs) te verbeteren door tussenliggende stappen te begeleiden en fouten te identificeren. Het bouwen van effectieve PRMs blijft echter een uitdaging vanwege het gebrek aan schaalbare, hoogwaardige annotaties. Bestaande benaderingen vertrouwen op kostbare menselijke labeling, LLM-gebaseerde zelfevaluatie die gevoelig is voor hallucinatie, of Monte Carlo (MC) schatting, die de kwaliteit van stappen alleen afleidt uit rollout-resultaten en vaak ruisvolle, verkeerd uitgelijnde begeleiding introduceert door foutieve toeschrijving van credits. Deze problemen resulteren in drie kernbeperkingen: ruisvolle beloningen, lage feitelijke betrouwbaarheid en verkeerde uitlijning met stapniveau-redeneerdoelen. Om deze uitdagingen aan te pakken, introduceren we GroundedPRM, een boomgeleid en betrouwbaarheidsbewust raamwerk voor automatische procesbegeleiding. Om ruis in beloningen te verminderen en fijnmazige toewijzing van credits mogelijk te maken, construeren we gestructureerde redeneerpaden via Monte Carlo Tree Search (MCTS). Om gehallucineerde begeleiding te elimineren, valideren we elke tussenliggende stap met behulp van een extern hulpmiddel, wat uitvoeringsgebaseerde correctiesignalen oplevert. Om zowel stapniveau-validatie als globale resultaatbeoordeling te combineren, ontwerpen we een hybride beloningsaggregatiemechanisme dat tool-gebaseerde verificatie combineert met MCTS-afgeleide feedback. Ten slotte formatteren we het beloningssignaal in een rationale-versterkte, generatieve structuur om de interpreteerbaarheid en compatibiliteit met instructie-afgestemde LLMs te bevorderen. GroundedPRM wordt getraind op slechts 40K automatisch gelabelde samples, wat slechts 10% is van de data die wordt gebruikt door de best presterende PRM getraind met automatisch gelabelde begeleiding. Desondanks behaalt het tot 26% relatieve verbetering in gemiddelde prestaties op ProcessBench. Wanneer het wordt gebruikt voor beloningsgeleide greedy search, presteert GroundedPRM zelfs beter dan PRMs getraind met menselijk gelabelde begeleiding, en biedt het een schaalbare en verifieerbare route naar hoogwaardig procesniveau-redeneren.
Speculatieve decodering versnelt LLM-inferentie door gebruik te maken van een conceptmodel om vooruit te kijken, maar de winst wordt beperkt door de kosten van autoregressieve conceptgeneratie: het vergroten van de conceptomvang verhoogt de acceptatiegraad maar introduceert extra latentieoverhead, wat de snelheid-nauwkeurigheid trade-off verergert. Eerdere methoden (Medusa, Hydra, EAGLE) verminderen de conceptkosten gedeeltelijk, maar gaan ten koste van de acceptatie of introduceren overhead die schaalbaarheid beperkt. Wij presenteren Mirror Speculative Decoding (Mirror-SD), een inferentiealgoritme dat de latentie-acceptatie trade-off doorbreekt. Mirror-SD lanceert branch-complete rollouts vanaf vroegtijdige exitsignalen parallel aan het suffix van het doelmodel en mapt expliciet berekeningen over heterogene accelerators (GPU en NPU) om cross-device parallelisme te benutten. Het concept speculeert voorwaartse voortzettingen voor het doelmodel om te verifiëren, terwijl het doelmodel gelijktijdig correctiepaden speculeert voor het concept, waardoor speculatie wordt omgezet in twee complementaire uitvoeringspijplijnen. Om de conceptlatentie verder te verlagen zonder de acceptatiesemantiek te verzwakken, voegen we speculatieve streaming toe, zodat het concept meerdere tokens per stap uitstuurt. Deze dubbele strategie van parallelle heterogene uitvoering plus multi-token speculatieve streaming duwt speculatieve decodering richting het ideale regime van hoge acceptatie met lage overhead. Op SpecBench met server-schaalmodellen van 14B tot 66B parameters levert Mirror-SD consistente end-to-end winsten op, met 2,8x-5,8x wall-time versnellingen over diverse taken en een gemiddelde relatieve verbetering van 30% ten opzichte van de sterkste baseline, EAGLE3.