Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Hoewel autonome software engineering (SWE) agents de programmeerparadigma's aan het hervormen zijn, lijden ze momenteel onder een "gesloten-wereld" beperking: ze proberen bugs vanaf nul op te lossen of uitsluitend gebruikmakend van lokale context, waarbij ze de immense historische menselijke ervaring die beschikbaar is op platformen zoals GitHub negeren. Toegang tot deze open-wereld ervaring wordt belemmerd door de ongestructureerde en gefragmenteerde aard van real-world data uit issue-tracking systemen. In dit artikel introduceren we MemGovern, een framework ontworpen om ruwe GitHub-data te besturen en om te zetten in bruikbare ervaringsgeheugens voor agents. MemGovern hanteert ervaringsbestuur om menselijke ervaring om te zetten in agent-vriendelijke ervaringskaarten en introduceert een agent-gerichte ervaringszoekstrategie die logica-gestuurd herstel van menselijke expertise mogelijk maakt. Door het produceren van 135K beheerde ervaringskaarten bereikt MemGovern een significante prestatieverbetering, waarbij de oplossingspercentages op de SWE-bench Verified met 4.65% toenemen. Als een plug-in benadering biedt MemGovern een oplossing voor een agent-vriendelijke geheugeninfrastructuur.
Wij introduceren Solar Open, een tweetalig Mixture-of-Experts taalmodel met 102B parameters voor onderbedeelde talen. Solar Open demonstreert een systematische methodologie voor het bouwen van competitieve grote taalmodellen door drie onderling verbonden uitdagingen aan te pakken. Ten eerste synthetiseren we, om effectief te kunnen trainen ondanks de schaarste aan data voor onderbedeelde talen, 4,5T tokens aan hoogwaardige, domeinspecifieke en op reinforcement learning (RL) gerichte data. Ten tweede coördineren we deze data via een progressief curriculum dat de samenstelling, kwaliteitsdrempels en domeindekking gezamenlijk optimaliseert over 20 biljoen tokens. Ten derde passen we, om redeneervaardigheden mogelijk te maken via schaalbare RL, ons voorgestelde framework SnapPO toe voor efficiënte optimalisatie. In benchmarks in het Engels en Koreaas behaalt Solar Open competitieve prestaties, wat de effectiviteit van deze methodologie voor AI-ontwikkeling voor onderbedeelde talen aantoont.
Bestaande benchmarks voor langetermijngeheugen maken meestal gebruik van meerdere gespreksronden of synthetische gebruikersgeschiedenissen, waardoor retrievaliditeit een onvolmaakte maatstaf is voor persoonlijkheidsbegrip. Wij presenteren \BenchName, een openbaar beschikbare benchmark opgebouwd uit uitgebreide autobiografische verhalen, waarin handelingen, context en innerlijke gedachten rijke aanwijzingen bieden voor het afleiden van stabiele motivaties en beslissingsprincipes. \BenchName~reconstrueert elk verhaal tot een tijdverankerde stroom met flashbackbewustzijn en evalueert modellen met op bewijs gebaseerde vragen die feitelijke herinnering, toeschrijving van subjectieve toestanden en redenering op principe-niveau omvatten. Over diverse verhaalbronnen heen verbeteren retrieval-augmented systemen voornamelijk de feitelijke nauwkeurigheid, terwijl fouten blijven bestaan bij temporeel verankerde verklaringen en hogere inferenties, wat de behoefte aan geheugenmechanismen voorbij retrieval benadrukt. Onze gegevens zijn beschikbaar in KnowMeBench{https://github.com/QuantaAlpha/KnowMeBench}.
De recente paradigmaverschuiving naar grote redeneermodellen (LRM's) als autonome agenten heeft de vraag naar geavanceerde, multi-turn tool-use capaciteiten geïntensiveerd. Bestaande datasets en data-generatiebenaderingen worden echter beperkt door statische, vooraf gedefinieerde toolsets die niet kunnen opschalen naar de complexiteit van open-ended mens-agent samenwerking. Om dit aan te pakken, ontwikkelden wij aanvankelijk een raamwerk voor geautomatiseerde taakgerichte multi-turn dialooggeneratie op grote schaal, waarbij een op LRM's gebaseerde simulator werd gebruikt om dynamisch hoogwaardige, domeinspecifieke tools te genereren om gespecificeerde taken op te lossen. Wij merken echter dat een puur taakgerichte ontwerpaanpak vaak resulteert in "uitsluitend taakoplossende" trajecten, waarbij de agent het doel bereikt met minimale interactie, wat niet leidt tot de conversaties met een hoog aantal beurten zoals gezien in realistische scenario's. Om deze kloof te overbruggen, verschuiven wij naar een gebruikersgericht simulatieparadigma. Door taakgeneratie te ontkoppelen van een toegewijde gebruikerssimulator die menselijk gedrag nabootst - zoals incrementeel verzoeken doen en beurt-voor-beurt feedback geven - faciliteren wij authentiekere, uitgebreidere multi-turn dialogen die de iteratieve aard van real-world probleemoplossing weerspiegelen. Onze generatiepijplijn functioneert als een veelzijdige, plug-and-play module die generatie vanuit elke staat kan starten, wat een hoge schaalbaarheid waarborgt bij het produceren van uitgebreide tool-use data. Bovendien levert het, door het mogelijk maken van meerdere taakvoltooiingen binnen een enkel traject, een dataset met hoge dichtheid op die de veelzijdige eisen van real-world mens-agent interactie weerspiegelt.
Het ontwikkelen van intelligente agenten die behendige manipulatie kunnen uitvoeren, is essentieel om mensachtige automatisering te bereiken in zowel robotica als digitale omgevingen. Bestaande GUI-agenten zijn echter afhankelijk van discrete klikvoorspellingen (x,y), wat vrije, gesloten-lus trajecten (zoals het slepen van een voortgangsbalk) verhindert die continue, real-time waarneming en bijstelling vereisen. In dit werk ontwikkelen we ShowUI-π, het eerste op stromen gebaseerde generatieve model als een behendige GUI-hand, met de volgende ontwerpkenmerken: (i) Verenigde Discrete-Continue Acties, die discrete klikken en continue slepende bewegingen integreren binnen een gedeeld model, waardoor flexibele aanpassing aan diverse interactiemodi mogelijk is; (ii) Op Stromen Gebaseerde Actiegeneratie voor sleepmodellering, die incrementele cursoraanpassingen voorspelt op basis van continue visuele waarnemingen via een lichtgewicht actie-expert, wat soepele en stabiele trajecten garandeert; (iii) Sleeptrainingsdata en Benchmark, waarbij we handmatig 20.000 sleeptrajecten verzamelen en synthetiseren in vijf domeinen (zoals PowerPoint, Adobe Premiere Pro), en ScreenDrag introduceren, een benchmark met uitgebreide online en offline evaluatieprotocollen om de sleepcapaciteiten van GUI-agenten te beoordelen. Onze experimenten tonen aan dat propriëtaire GUI-agenten nog steeds moeite hebben met ScreenDrag (bijvoorbeeld Operator scoort 13,27, en de beste Gemini-2.5-CUA haalt 22,18). ShowUI-π bereikt daarentegen 26,98 met slechts 450M parameters, wat zowel de moeilijkheidsgraad van de taak als de effectiviteit van onze aanpak onderstreept. Wij hopen dat dit werk GUI-agenten verder brengt naar mensachtige behendige controle in de digitale wereld. De code is beschikbaar op https://github.com/showlab/showui-pi.
Complexe redenering in tool-augmenteerde agentframeworks is van nature lang-horizon, waardoor redeneersporen en kortstondige toolartefacten zich ophopen en de beperkte werkcontext van grote taalmodellen onder druk zetten. Zonder expliciete geheugenmechanismen verstoort een dergelijke opeenhoping de logische continuïteit en ondermijnt zij de taakafstemming. Dit positioneert geheugen niet als een bijkomstig efficiëntievraagstuk, maar als een kerncomponent voor het in stand houden van coherente, doelgerichte redenering over lange horizonten. Wij stellen MemoBrain voor, een uitvoerend geheugenmodel voor tool-augmenteerde agenten dat een afhankelijkheidsbewust geheugen opbouwt over redeneerstappen, waarbij belangrijke tussenliggende toestanden en hun logische relaties worden vastgelegd. MemoBrain functioneert als een co-piloot naast de redeneeragent, organiseert de redeneervoortgang zonder de uitvoering te blokkeren en beheert actief de werkcontext. Specifiek snoeit het ongeldige stappen, vouwt het voltooide sub-trajecten samen en behoudt het een compacte, hoog-saliente redeneerruggengraat binnen een vast contextbudget. Gezamenlijk stellen deze mechanismen expliciete cognitieve controle over redeneertrajecten in plaats van passieve contextophoping in staat. Wij evalueren MemoBrain op uitdagende lang-horizon benchmarks, waaronder GAIA, WebWalker en BrowseComp-Plus, en tonen consistente verbeteringen ten opzichte van sterke baseline-methoden aan.
Versterkend leren heeft de prestaties van LLM-agenten aanzienlijk verbeterd bij taken met verifieerbare uitkomsten, maar worstelt nog steeds met open-einde agenttaken met uitgebreide oplossingsruimten (bijvoorbeeld complexe reisplanning). Door het ontbreken van een objectieve grondwaarheid voor deze taken, zijn huidige RL-algoritmen grotendeels afhankelijk van beloningsmodellen die individuele antwoorden voorzien van een scalaire score. Wij beweren dat dergelijke puntsgewijze scoring lijdt onder een inherente discriminatie-implosie: het beloningsmodel heeft moeite met het onderscheiden van subtiele voordelen tussen verschillende trajecten, waardoor scores binnen een groep worden samengedrukt in een nauw bereik. Hierdoor wordt het effectieve beloningssignaal gedomineerd door ruis van het beloningsmodel, wat leidt tot optimalisatiestagnatie. Om dit aan te pakken, stellen wij ArenaRL voor, een versterkend leerparadigma dat verschuift van puntsgewijze scalaire scoring naar relatieve rangschikking binnen groepen. ArenaRL introduceert een procesbewust paarsgewijs evaluatiemechanisme dat meerlagige rubrieken gebruikt om fijnmazige relatieve scores aan trajecten toe te kennen. Daarnaast construeren wij een adversariaal arena-systeem binnen groepen en ontwikkelen wij een op toernooien gebaseerd rangschikkingsschema om stabiele voordelsignalen te verkrijgen. Empirische resultaten bevestigen dat het gebouwde seeded single-elimination-schema een bijna equivalente nauwkeurigheid van voordelschatting bereikt als volledige paarsgewijze vergelijkingen met O(N²)-complexiteit, terwijl het opereert met slechts O(N)-complexiteit, waardoor een optimale balans tussen efficiëntie en precisie wordt bereikt. Verder bouwen wij, om het gebrek aan volledigecyclus benchmarks voor open-einde agenten aan te pakken, Open-Travel en Open-DeepResearch, twee hoogwaardige benchmarks met een uitgebreide pijplijn die SFT, RL-training en multidimensionale evaluatie omvat. Uitgebreide experimenten tonen aan dat ArenaRL standaard RL-baselines aanzienlijk overtreft, waardoor LLM-agenten in staat worden gesteld robuustere oplossingen voor complexe real-world taken te genereren.
Wij introduceren de Ministral 3-serie, een familie van parameter-efficiënte dense taalmodellen die zijn ontworpen voor toepassingen met beperkte reken- en geheugencapaciteit, beschikbaar in drie groottes: 3B, 8B en 14B parameters. Voor elke modelgrootte brengen we drie varianten uit: een vooraf getraind basismodel voor algemeen gebruik, een model dat is afgestemd op instructies, en een redeneermodel voor complexe probleemoplossing. Daarnaast presenteren we onze methode om de Ministral 3-modellen af te leiden via Cascade Distillation, een techniek van iteratief snoeien en voortgezette training met distillatie. Elk model beschikt over beeldbegripcapaciteiten, allemaal vrijgegeven onder de Apache 2.0-licentie.
Autonome agenten gebaseerd op grote taalmmodellen (LLM's) evolueren snel om meerronde taken aan te kunnen, maar het waarborgen van hun betrouwbaarheid blijft een kritieke uitdaging. Een fundamentele pijler van deze betrouwbaarheid is kalibratie, wat verwijst naar het vermogen van een agent om een betrouwbaarheidsniveau uit te drukken dat daadwerkelijk zijn prestaties weerspiegelt. Hoewel kalibratie goed is ingeburgerd voor statische modellen, blijven de dynamiek ervan in op tools gebaseerde, agent-gestuurde workflows onderbelicht. In dit werk onderzoeken we systematisch de verbaal uitgedrukte kalibratie bij toolgebruikende agenten, waarbij een fundamentele vertrouwensdichotomie aan het licht komt die wordt aangedreven door het type tool. Onze pilotstudie identificeert specifiek dat bewijstools (bijv. zoeken op het web) systematisch ernstige overmoed induceren door inherente ruis in opgehaalde informatie, terwijl verificatietools (bijv. code-interpreters) de redenering kunnen grondvesten door deterministische feedback en zo miskalibratie kunnen verminderen. Om de kalibratie robuust te verbeteren voor alle tooltypen, stellen we een reinforcement learning (RL) fine-tuning raamwerk voor dat zowel taaknauwkeurigheid als kalibratie gezamenlijk optimaliseert, ondersteund door een holistische benchmark van beloningsontwerpen. We tonen aan dat onze getrainde agenten niet alleen superieure kalibratie bereiken, maar ook robuuste generalisatie vertonen: van lokale trainingsomgevingen naar rumoerige webomgevingen en naar verschillende domeinen zoals wiskundig redeneren. Onze resultaten benadrukken de noodzaak van domeinspecifieke kalibratiestrategieën voor toolgebruikende agenten. In bredere zin legt dit werk een fundament voor het bouwen van zelfbewuste agenten die onzekerheid op betrouwbare wijze kunnen communiceren in hoog-risico, real-world implementaties.
Video-objectsegmentatiemethoden zoals SAM2 bereiken sterke prestaties via op geheugen gebaseerde architecturen, maar hebben moeite met grote viewpointveranderingen door hun afhankelijkheid van uiterlijkheidskenmerken. Traditionele 3D-instantiesegmentatiemethoden waarborgen viewpointconsistentie, maar vereisen cameraposes, dieptekaarten en dure preprocessing. Wij introduceren 3AM, een trainingstijdverbetering die 3D-bewuste kenmerken van MUSt3R integreert in SAM2. Onze lichtgewicht Feature Merger fuseert multi-level MUSt3R-kenmerken die impliciete geometrische correspondentie coderen. Gecombineerd met SAM2's uiterlijkheidskenmerken bereikt het model geometrie-consistente herkenning gebaseerd op zowel ruimtelijke positie als visuele gelijkenis. Wij stellen een gezichtsveldbewuste bemonsteringsstrategie voor die zorgt dat frames ruimtelijk consistente objectregio's observeren voor betrouwbaar 3D-correspondentieleren. Cruciaal is dat onze methode tijdens inferentie alleen RGB-input vereist, zonder cameraposes of preprocessing. Op uitdagende datasets met wide-baseline beweging (ScanNet++, Replica) presteert 3AM aanzienlijk beter dan SAM2 en extensies, met 90,6% IoU en 71,7% Positive IoU op ScanNet++'s Selected Subset, een verbetering van +15,9 en +30,4 punten ten opzichte van state-of-the-art VOS-methoden. Projectpagina: https://jayisaking.github.io/3AM-Page/
Retrieval Augmented Generation staat voor een dilemma: het aaneenschakelen van documenten in een lange prompt maakt redeneren over meerdere documenten mogelijk, maar creëert prefill-knelpunten, terwijl het apart encoderen van document-KV-caches snelheid biedt maar de interactie tussen documenten verbreekt. Wij stellen Parallel Context-of-Experts Decoding (Pced) voor, een trainingsvrij raamwerk dat de aggregatie van bewijsmateriaal verschuift van het aandachtmechanisme naar het decoderen. Pced behandelt opgehaalde documenten als geïsoleerde "experts" en synchroniseert hun voorspellingen via een nieuwe, retrieval-aware contrastieve decodeerregel die expert-logits afweegt tegen de eerdere kennis van het model. Deze aanpak herstelt de mogelijkheid tot redeneren over meerdere documenten zonder een gedeelde aandacht tussen documenten te construeren.
Retrieval-Augmented Generation (RAG)-pijplijnen moeten uitdagingen aanpakken die verder gaan dan eenvoudige enkelvoudige documentretrieval, zoals het interpreteren van visuele elementen (tabellen, grafieken, afbeeldingen), het synthetiseren van informatie uit meerdere documenten en het bieden van accurate bronverankering. Bestaande benchmarks vangen deze complexiteit niet, omdat ze zich vaak richten op tekstuele gegevens, begrip van enkelvoudige documenten, of retrieval en generatie geïsoleerd evalueren. Wij introduceren ViDoRe v3, een uitgebreide multimodale RAG-benchmark met meerdere type query's over visueel rijke documentencorpora. Deze beslaat 10 datasets uit uiteenlopende professionele domeinen, bestaande uit circa 26.000 documentpagina's gekoppeld aan 3.099 door mensen geverifieerde query's, elk beschikbaar in 6 talen. Via 12.000 uur aan menselijke annotatie-inspanning bieden we hoogwaardige annotaties voor retrievalrelevantie, begrenzingskaderlokalisatie en geverifieerde referentieantwoorden. Onze evaluatie van state-of-the-art RAG-pijplijnen toont aan dat visuele retrievers tekstuele retrievers overtreffen, dat laat-interactiemodellen en tekstuele herrangschikking de prestaties aanzienlijk verbeteren, en dat hybride of puur visuele contexten de kwaliteit van antwoordgeneratie verhogen. Desalniettemin hebben huidige modellen nog steeds moeite met niet-tekstuele elementen, open-einde query's en fijnmazige visuele verankering. Om vooruitgang in het aanpakken van deze uitdagingen aan te moedigen, wordt de benchmark vrijgegeven onder een commercieel toelaatbare licentie op https://hf.co/vidore.
Recente vooruitgang in diffusie-transformers (DiT's) heeft nieuwe standaarden gezet voor beeldgeneratie, maar blijft onpraktisch voor implementatie op apparaten vanwege de hoge computationele en geheugenkosten. In dit werk presenteren we een efficiënt DiT-raamwerk, afgestemd op mobiele en edge-apparaten, dat de generatiekwaliteit van transformers bereikt onder strikte resourcebeperkingen. Ons ontwerp combineert drie kernelementen. Ten eerste stellen we een compacte DiT-architectuur voor met een adaptief globaal-lokaal sparse attention-mechanisme dat globale contextmodellering en lokale detailbewaring in evenwicht brengt. Ten tweede introduceren we een elastisch trainingsraamwerk dat sub-DiT's van uiteenlopende capaciteiten gezamenlijk optimaliseert binnen een uniform supernetwerk, waardoor een enkel model zich dynamisch kan aanpassen voor efficiënte inferentie op verschillende hardware. Tot slot ontwikkelen we Knowledge-Guided Distribution Matching Distillation, een stap-distillatiepijplijn die het DMD-doel integreert met kennistransfer van few-step teacher-modellen, wat resulteert in hoogwaardige en latentiearme generatie (bijvoorbeeld in 4 stappen) die geschikt is voor real-time gebruik op apparaten. Gezamenlijk maken deze bijdragen schaalbare, efficiënte en hoogkwalitatieve diffusiemodellen mogelijk voor implementatie op diverse hardware.
Ondanks de snelle vooruitgang van videogeneratiemodellen, is de rol van data bij het beïnvloeden van beweging nog slecht begrepen. Wij presenteren Motive (MOTIon attribution for Video gEneration), een beweging-gericht, op gradiënten gebaseerd raamwerk voor data-attributie dat schaalbaar is voor moderne, grootschalige, hoogwaardige videodatasets en -modellen. We gebruiken dit om te bestuderen welke fine-tuning clips temporele dynamiek verbeteren of verslechteren. Motive isoleert temporele dynamiek van statisch uiterlijk via beweging-gewogen verliesmaskers, wat efficiënte en schaalbare berekening van beweging-specifieke invloed oplevert. Bij tekst-naar-videomodellen identificeert Motive clips die de beweging sterk beïnvloeden en begeleidt het datacuratie die de temporele consistentie en fysieke geloofwaardigheid verbetert. Met door Motive geselecteerde data met hoge invloed, verbetert onze methode zowel de bewegingsvloeiendheid als de dynamische graad op VBench, met een menselijke voorkeurs-winstpercentage van 74,1% vergeleken met het vooraf getrainde basismodel. Voor zover wij weten, is dit het eerste raamwerk dat beweging in plaats van visueel uiterlijk toeschrijft in videogeneratieve modellen en dit gebruikt om fine-tuning data te cureren.
VLA-modellen hebben veelbelovend potentieel getoond in belichaamde navigatie door perceptie en planning te verenigen, terwijl ze de sterke generalisatievermogens van grote VLM's erven. De meeste bestaande VLA-modellen vertrouwen echter op reactieve mapping direct van observaties naar acties, waarbij ze de expliciete redeneervermogens en persistente geheugen die nodig zijn voor complexe, langetermijnnavigatietaken missen. Om deze uitdagingen aan te pakken, stellen we VLingNav voor, een VLA-model voor belichaamde navigatie gebaseerd op taalkundig-gestuurde cognitie. Ten eerste, geïnspireerd door de dual-process theorie van menselijke cognitie, introduceren we een adaptief chain-of-thought-mechanisme, dat expliciet redeneren dynamisch activeert wanneer nodig, waardoor de agent soepel kan schakelen tussen snelle, intuïtieve uitvoering en langzame, weloverwogen planning. Ten tweede, om langetermijnruimtelijke afhankelijkheden te hanteren, ontwikkelen we een visueel-ondersteunde taalkundige geheugenmodule die een persistent, cross-modale semantisch geheugen opbouwt, waardoor de agent eerdere observaties kan herinneren om repetitieve verkenning te voorkomen en bewegingspatronen kan afleiden voor dynamische omgevingen. Voor het trainingsrecept construeren we Nav-AdaCoT-2.9M, de grootste belichaamde navigatiedataset met redeneerannotaties tot nu toe, verrijkt met adaptieve CoT-annotaties die een redeneerparadigma induceren dat zowel kan aanpassen wannéér als waaráán gedacht moet worden. Bovendien integreren we een online expert-gestuurde reinforcement learning-fase, waardoor het model pure imitatieleren kan overstijgen en robuustere, zelf-verkende navigatiegedragingen kan verwerven. Uitgebreide experimenten tonen aan dat VLingNav state-of-the-art prestaties bereikt op een breed scala aan belichaamde navigatiebenchmarks. Opmerkelijk is dat VLingNav zich op een zero-shot-manier transferreert naar echte robotplatforms, waarbij het diverse navigatietaken uitvoert en sterke cross-domein en cross-taak generalisatie demonstreert.
Beheerbare vervanging van personages in video's met een door de gebruiker geleverde identiteit blijft een uitdagend probleem door het gebrek aan gepaarde videogegevens. Eerdere werken hebben voornamelijk vertrouwd op een op reconstructie gebaseerd paradigma dat per-frame segmentatiemaskers en expliciete structurele begeleiding (bijvoorbeeld skelet, diepte) vereist. Deze afhankelijkheid beperkt echter ernstig hun generaliseerbaarheid in complexe scenario's met occlusies, interacties tussen personages en objecten, ongebruikelijke poses of uitdagende belichting, wat vaak leidt tot visuele artefacten en temporele inconsistenties. In dit artikel stellen we MoCha voor, een baanbrekend framework dat deze beperkingen omzeilt door slechts één willekeurig framemasker te vereisen. Om de multimodale invoervoorwaarde effectief aan te passen en de gezichtsidentiteit te verbeteren, introduceren we een conditiebewuste RoPE en zetten we een RL-gebaseerde post-trainingfase in. Verder, om het tekort aan gekwalificeerde gepaarde trainingsgegevens te overwinnen, stellen we een uitgebreide pijplijn voor dataconstructie voor. Specifiek ontwerpen we drie gespecialiseerde datasets: een hoogwaardige gerenderde dataset gebouwd met Unreal Engine 5 (UE5), een expressiegedreven dataset gesynthetiseerd door huidige portretanimatietechnieken, en een uitgebreide dataset afgeleid van bestaande video-maskerparen. Uitgebreide experimenten tonen aan dat onze methode bestaande state-of-the-art benaderingen aanzienlijk overtreft. We zullen de code vrijgeven om verder onderzoek te vergemakkelijken. Raadpleeg onze projectpagina voor meer details: orange-3dv-team.github.io/MoCha
Het verbeteren van de redeneervermogens van grote taalmodellen (LLM's) is grotendeels gebaseerd op iteratieve zelf-training met door het model gegenereerde data. Hoewel bestaande benaderingen effectief zijn in het verhogen van de nauwkeurigheid, versterken ze voornamelijk succesvolle redeneerpaden, wat een aanzienlijke kalibratiekost met zich meebrengt: modellen worden overmoedig en verliezen het vermogen om onzekerheid te representeren. Dit falen is gekarakteriseerd als een vorm van model-instorting bij alignment, waarbij voorspellende verdelingen degenereren naar puntschattingen met een lage variantie. Wij pakken dit probleem aan door redeneertraining te herformuleren als een epistemisch leerprobleem, waarbij modellen niet alleen moeten leren redeneren, maar ook wanneer ze hun redenering moeten vertrouwen. Wij stellen epistemisch gekalibreerd redeneren (EpiCaR) voor als een trainingsdoelstelling die redeneerprestaties en kalibratie gezamenlijk optimaliseert, en implementeren dit binnen een iteratief supervised fine-tuning raamwerk met expliciete zelfevaluatiesignalen. Experimenten met de Llama-3- en Qwen-3-families tonen aan dat onze benadering Pareto-superioriteit bereikt ten opzichte van standaard-baselines in zowel nauwkeurigheid als kalibratie, vooral bij modellen met voldoende redeneercapaciteit (bijv. 3B+). Dit raamwerk generaliseert effectief naar OOD wiskundig redeneren (GSM8K) en codegeneratie (MBPP). Uiteindelijk stelt onze aanpak een 3X reductie in rekenkracht tijdens inferentie mogelijk, waarbij de K=30 prestatie van STaR wordt geëvenaard met slechts K=10 steekproeven in capabele modellen.
Versterkend Leren met Verifieerbare Beloningen (RLVR) is een standaardparadigma geworden voor redeneren in grote taalmodelen. Optimalisatie uitsluitend voor de juistheid van het eindantwoord drijft modellen echter vaak naar doelloze, breedsprakige verkenning, waarbij ze vertrouwen op uitputtende trial-and-error-tactieken in plaats van gestructureerde planning om oplossingen te bereiken. Hoewel heuristische beperkingen zoals lengtestraffen breedsprakigheid kunnen verminderen, snoeien ze vaak essentiële redeneerstappen af, wat een moeilijke afweging creëert tussen efficiëntie en verifieerbaarheid. In dit artikel beargumenteren we dat onderscheidend vermogen een voorwaarde is voor efficiënte generatie: door te leren valide oplossingen te onderscheiden, kan een model een begeleidingssignaal internaliseren dat de zoekruimte uitdunt. Wij stellen JudgeRLVR voor, een tweefasen paradigma van eerst beoordelen, dan genereren. In de eerste fase trainen we het model om oplossingsreacties met verifieerbare antwoorden te beoordelen. In de tweede fase fine-tunen we hetzelfde model met standaard genererend RLVR, geïnitialiseerd vanuit de beoordelingsfase. Vergeleken met standaard RLVR met dezelfde wiskundige trainingsdata, bereikt JudgeRLVR een betere kwaliteit-efficiëntie-afweging voor Qwen3-30B-A3B: voor domeininterne wiskunde levert het ongeveer +3,7 punten gemiddelde nauwkeurigheidswinst op met -42% gemiddelde generatielengte; voor domeinexterne benchmarks levert het ongeveer +4,5 punten gemiddelde nauwkeurigheidsverbetering, wat een verbeterde generalisatie aantoont.
Met de snelle vooruitgang in beeldgeneratie krijgt visuele tekstbewerking met behulp van natuurlijke taal-instructies steeds meer aandacht. De grootste uitdaging bij deze taak is het volledig begrijpen van de instructie en referentieafbeelding, om zo visuele tekst te genereren die stijlconsistent is met de afbeelding. Eerdere methoden omvatten vaak complexe stappen voor het specificeren van tekstinhoud en attributen zoals lettergrootte, kleur en lay-out, zonder rekening te houden met de stilistische consistentie met de referentieafbeelding. Om dit aan te pakken, stellen we UM-Text voor, een uniform multimodaal model voor contextbegrip en visuele tekstbewerking via natuurlijke taal-instructies. Concreet introduceren we een Visueel Taalmodel (VLM) om de instructie en referentieafbeelding te verwerken, zodat de tekstinhoud en lay-out nauwkeurig kunnen worden ontworpen op basis van de contextinformatie. Om een accurate en harmonieuze visuele tekstafbeelding te genereren, stellen we verder de UM-Encoder voor om de embedding van diverse conditie-informatie te combineren, waarbij de combinatie automatisch door het VLM wordt geconfigureerd op basis van de invoerinstructie. Tijdens de training introduceren we een regional consistency loss voor effectievere supervisie van glyph-generatie in zowel latente als RGB-ruimte, en ontwerpen we een op maat gemaakte driefasen-trainingsstrategie om de modelprestaties verder te verbeteren. Daarnaast dragen we UM-DATA-200K bij, een grootschalige dataset van visuele tekstafbeeldingen in diverse scènes voor modeltraining. Uitgebreide kwalitatieve en kwantitatieve resultaten op meerdere publieke benchmarks tonen aan dat onze methode state-of-the-art prestaties bereikt.
Dit artikel presenteert VideoLoom, een verenigd Video Large Language Model (Video LLM) voor gezamenlijk ruimtelijk-temporeel begrip. Om de ontwikkeling van fijnmazige ruimtelijke en temporele localisatiecapaciteiten te vergemakkelijken, hebben we LoomData-8.7k samengesteld, een mensgerichte videodataset met temporeel verankerde en ruimtelijk gelokaliseerde bijschriften. Hierdoor behaalt VideoLoom state-of-the-art of zeer concurrerende prestaties op diverse ruimtelijke en temporele benchmarks (bijvoorbeeld 63,1 J&F op ReVOS voor *referring video object segmentation* en 48,3 R1@0,7 op Charades-STA voor temporele verankering). Daarnaast introduceren we LoomBench, een nieuwe benchmark bestaande uit temporele, ruimtelijke en compositionele video-vragenparen, die een uitgebreide evaluatie van Video LLM's vanuit diverse aspecten mogelijk maakt. Gezamenlijk bieden deze bijdragen een universele en effectieve suite voor gezamenlijk ruimtelijk-temporeel videobegrip, waarmee een nieuwe standaard wordt gezet in multimodale intelligentie.
Text-to-Visualization (Text2Vis)-systemen vertalen natuurlijke-taaluitdrukkingen over tabelgegevens naar beknopte antwoorden en uitvoerbare visualisaties. Hoewel closed-source LLM's functionele code genereren, ontbreekt het de resulterende grafieken vaak aan semantische afstemming en helderheid – kwaliteiten die pas na uitvoering kunnen worden beoordeeld. Open-source modellen presteren nog zwakker en produceren regelmatig niet-uitvoerbare of visueel ondermaatse resultaten. Hoewel supervised fine-tuning de code-uitvoerbaarheid kan verbeteren, slaagt het er niet in de algehele visualisatiekwaliteit te verhogen, omdat traditionele SFT-verliesfuncties geen post-uitvoeringsfeedback kunnen vastleggen. Om deze kloof te dichten, stellen we RL-Text2Vis voor, het eerste reinforcement learning-framework voor Text2Vis-generatie. Gebaseerd op Group Relative Policy Optimization (GRPO), gebruikt onze methode een nieuwe multi-objectieve beloning die tekstuele nauwkeurigheid, codegeldigheid en visualisatiekwaliteit gezamenlijk optimaliseert met behulp van post-uitvoeringsfeedback. Door training van Qwen2.5-modellen (7B en 14B) behaalt RL-Text2Vis een relatieve verbetering van 22% in grafiekkwaliteit ten opzichte van GPT-4o op de Text2Vis-benchmark en verhoogt het code-uitvoeringssucces van 78% naar 97% ten opzichte van de zero-shot-baseline. Onze modellen overtreffen sterke zero-shot en supervised baselines significant en tonen ook robuuste generalisatie naar out-of-domain-datasets zoals VIS-Eval en NVBench. Deze resultaten vestigen GRPO als een effectieve strategie voor gestructureerde, multimodale redenering in visualisatiegeneratie. Onze code is vrijgegeven op https://github.com/vis-nlp/RL-Text2Vis.
Discrete bewegingstokenisatie heeft recentelijk Large Language Models (LLM's) in staat gesteld om als veelzijdige ruggengraat te dienen voor bewegingbegrip en beweging-taalredenering. Bestaande pijplijnen ontkoppelen echter typisch bewegingkwantisatie van semantische embedding-aanleren, en verbinden deze uitsluitend via token-ID's. Deze aanpak slaagt er niet in om de intrinsieke geometrie van de bewegingruimte effectief uit te lijnen met de embeddingruimte, waardoor het vermogen van de LLM voor genuanceerde bewegingredenering wordt belemmerd. Wij stellen dat uitlijning het meest effectief is wanneer beide modaliteiten een verenigde geometrische basis delen. Daarom presenteren wij, in plaats van de LLM te forceren om de complexe geometrie tussen bewegingstokens vanaf nul te reconstrueren, een nieuw framework dat expliciet orthogonaliteit afdwingt op zowel de bewegingcodeboek als de LLM-embeddingruimte, zodat hun relationele structuren elkaar van nature weerspiegelen. Specifiek gebruiken wij een decoder-only kwantisator met Gumbel-Softmax voor differentieerbare training en gebalanceerd codeboekgebruik. Om de modaliteiten te overbruggen, gebruiken wij een sparse projectie die bewegingcodes afbeeldt naar de LLM-embeddingruimte terwijl orthogonaliteit behouden blijft. Ten slotte handhaaft een tweefasen orthonormale regularisatieschema zachte restricties tijdens tokenisatortraining en LLM-finetuning om geometrische uitlijning te behouden zonder semantische adaptatie te belemmeren. Uitgebreide experimenten op HumanML3D tonen aan dat ons framework een prestatieverbetering van 20% bereikt ten opzichte van huidige state-of-the-art methoden, wat valideert dat een verenigde geometrische basis de LLM effectief in staat stelt voor genuanceerde bewegingredenering.
Grote Taalmodellen (LLM's) worden steeds vaker ingezet in feitencontrolesystemen in de praktijk, maar bestaande evaluaties richten zich voornamelijk op claimverificatie en negeren de bredere workflow van feitencontrole, inclusief claimextractie en evidenceretrieval. Deze beperkte focus voorkomt dat huidige benchmarks systematische redeneerfouten, feitelijke blinde vlekken en robuustheidsbeperkingen van moderne LLM's aan het licht brengen. Om deze kloof te overbruggen, presenteren we FactArena, een volledig geautomatiseerd arena-stijl evaluatiekader dat uitgebreide, fasegewijze benchmarking van LLM's over de volledige feitencontrolepijplijn uitvoert. FactArena integreert drie kerncomponenten: (i) een LLM-gestuurd feitencontroleproces dat claimdecompositie, evidenceretrieval via tool-augmented interacties en rechtvaardigingsgebaseerde uitspraakvoorspelling standaardiseert; (ii) een arena-stijl beoordelingsmechanisme geleid door geconsolideerde referentierichtlijnen om onbevooroordeelde en consistente paarsgewijze vergelijkingen over heterogene beoordelaarsagentschappen te waarborgen; en (iii) een arena-gestuurd claim-evolutiemodule die adaptief meer uitdagende en semantisch gecontroleerde claims genereert om de feitelijke robuustheid van LLM's voorbij vaste seeddata te onderzoeken. Over 16 state-of-the-art LLM's verspreid over zeven modelfamilies produceert FactArena stabiele en interpreteerbare rangschikkingen. Onze analyses onthullen verder significante discrepanties tussen statische claimverificatienauwkeurigheid en end-to-end feitencontrolecompetentie, wat de noodzaak van holistische evaluatie benadrukt. Het voorgestelde kader biedt een schaalbaar en betrouwbaar paradigma voor het diagnosticeren van het feitelijk redeneren van LLM's, het begeleiden van toekomstige modelontwikkeling en het bevorderen van de betrouwbare inzet van LLM's in veiligheidskritische feitencontroletoepassingen.