Dagelijks geselecteerde AI onderzoekspapers met vertalingen
In real-world scenario's voor video question answering bieden video's vaak slechts gelokaliseerde visuele aanwijzingen, terwijl verifieerbare antwoorden verspreid zijn over het open web; modellen moeten daarom gezamenlijk kruis-frame aanwijzingextractie, iteratief retrieval en multi-hop redenering-gebaseerde verificatie uitvoeren. Om deze kloof te overbruggen, construeren we de eerste video deep research benchmark, VideoDR. VideoDR richt zich op video-gestuurde open-domein video question answering, waarvoor kruis-frame visuele anker extractie, interactief web retrieval en multi-hop redenering over gezamenlijke video-web evidence vereist is; via rigoureuze menselijke annotatie en kwaliteitscontrole verkrijgen we hoogwaardige video deep research samples verspreid over zes semantische domeinen. We evalueren meerdere closed-source en open-source multimodale large language modellen volgens zowel de Workflow- als Agentic-paradigma's, en de resultaten tonen aan dat Agentic niet consistent superieur is aan Workflow: de winst hangt af van het vermogen van een model om de initiële video-ankers over lange retrievalketens te behouden. Verdere analyse geeft aan dat goal drift en long-horizon consistentie de kernknelpunten zijn. Samenvattend biedt VideoDR een systematische benchmark voor het bestuderen van video-agents in open-web settings en onthult het de belangrijkste uitdagingen voor next-generation video deep research agents.
Hoewel mensen hun kernvisuele vaardigheden ontwikkelen lang voordat ze taal verwerven, blijven hedendaagse Multimodale LLM's (MLLM's) sterk leunen op taalkundige a priori kennis om hun kwetsbaar visueel begrip te compenseren. Wij ontdekten een cruciaal feit: state-of-the-art MLLM's falen consistent in basale visuele taken die mensen, zelfs 3-jarigen, moeiteloos oplossen. Om deze kloof systematisch te onderzoeken, introduceren we BabyVision, een benchmark ontworpen om de kernvisuele vaardigheden van MLLM's onafhankelijk van taalkundige kennis te beoordelen. BabyVision bestrijkt een breed scala aan taken, met 388 items verdeeld over 22 subklassen in vier hoofdcategorieën. Empirische resultaten en humane evaluatie onthullen dat toonaangevende MLLM's aanzienlijk onder de menselijke basisprestaties scoren. Gemini3-Pro-Preview scoort 49,7, wat achterblijft bij 6-jarige mensen en ver achter de gemiddelde volwassen score van 94,1 blijft. Deze resultaten tonen aan dat, ondats ze uitblinken in kennisintensieve evaluaties, huidige MLLM's nog steeds fundamentele visuele primitieven missen. Vooruitgang in BabyVision vertegenwoordigt een stap in de richting van menselijk niveau van visuele perceptie en redeneervaardigheden. We onderzoeken ook het oplossen van visueel redeneren met generatiemodellen door BabyVision-Gen en een toolkit voor automatische evaluatie voor te stellen. Onze code en benchmarkgegevens zijn vrijgegeven op https://github.com/UniPat-AI/BabyVision voor reproductie.
Wij introduceren Parallel Gecoördineerd Redeneren (PaCoRe), een trainings- en inferentiekader dat is ontworpen om een centrale beperking van hedendaagse taalmodel(len) te overwinnen: hun onvermogen om rekentijd tijdens testen (TTC) significant verder te schalen dan sequentieel redeneren binnen een vaste contextvenstergrootte. PaCoRe wijkt af van het traditionele sequentiële paradigma door TTC te sturen via massale parallelle exploratie, gecoördineerd via een message-passing-architectuur in meerdere rondes. Elke ronde lanceert vele parallelle redeneertrajecten, comprimeert hun bevindingen tot contextgebonden berichten, en synthetiseert deze berichten om de volgende ronde te sturen en uiteindelijk het definitieve antwoord te produceren. Het model, end-to-end getraind met grootschalige, op uitkomsten gebaseerde reinforcement learning, beheerst de synthesevaardigheden die PaCoRe vereist en schaalt naar een effectieve TTC van miljoenen tokens zonder de contextlimieten te overschrijden. Deze aanpak levert sterke verbeteringen op in diverse domeinen, en duwt het redeneren vooral voorbij frontier-systemen in de wiskunde: een 8B-model behaalt 94.5% op HMMT 2025, en overtreft daarmee GPT-5's 93.2% door de effectieve TTC te schalen tot ongeveer twee miljoen tokens. Wij maken modelcheckpoints, trainingsdata en de volledige inferentiepipeline open source om vervolgwerk te versnellen.
Hoewel de Transformer-architectuur veel domeinen domineert, vormt de kwadratische complexiteit van de zelf-attentie een belemmering voor grootschalige toepassingen. Lineaire aandacht biedt een efficiënt alternatief, maar de directe toepassing ervan leidt vaak tot prestatieverlies. Bestaande oplossingen voeren doorgaans opnieuw rekenkosten in via extra modules (zoals depthwise separable convolutie), wat het oorspronkelijke doel tenietdoet. In dit werk identificeren we een cruciaal faalmechanisme in deze methoden: het ineenstorten van de globale context, waarbij het model representatiediversiteit verliest. Om dit aan te pakken, stellen we Multi-Head Lineaire Aandacht (MHLA) voor, die deze diversiteit behoudt door aandacht te berekenen binnen gescheiden 'heads' langs de token-dimensie. Wij bewijzen dat MHLA lineaire complexiteit behoudt en tegelijkertijd een groot deel van het expressieve vermogen van softmax-attentie herstelt. We verifiëren de effectiviteit ervan in meerdere domeinen, met een verbetering van 3,6% op ImageNet-classificatie, een winst van 6,3% op NLP, een verbetering van 12,6% op beeldgeneratie en een verbetering van 41% op videogeneratie bij gelijke tijdcomplexiteit.
Competitive programming stelt Code LLM's voor grote uitdagingen vanwege de hoge eisen aan redeneervermogen en de complexe logica. Huidige Code LLM's zijn echter nog sterk afhankelijk van real-world data, wat hun schaalbaarheid beperkt. In dit artikel onderzoeken we een volledig synthetische aanpak: het trainen van Code LLM's met volledig gegenereerde taken, oplossingen en testgevallen, om modellen voor coderingsredenering te versterken zonder afhankelijkheid van real-world data. Om dit te ondersteunen, gebruiken we feature-gebaseerde synthese om een nieuwe data-synthesepijplijn genaamd SynthSmith voor te stellen. SynthSmith toont een sterk potentieel in het produceren van diverse en uitdagende taken, samen met geverifieerde oplossingen en tests, ter ondersteuning van zowel supervised fine-tuning als reinforcement learning. Gebaseerd op de voorgestelde synthetische SFT- en RL-datasets, introduceren we de X-Coder modelreeks, die een opmerkelijke slagingspercentage behaalt van 62.9 avg@8 op LiveCodeBench v5 en 55.8 op v6, en daarmee DeepCoder-14B-Preview en AReal-boba2-14B overtreft, ondanks het hebben van slechts 7B parameters. Diepgaande analyse toont aan dat schaalwetten gelden voor onze synthetische dataset, en we onderzoeken welke dimensies effectiever zijn om op te schalen. We geven verder inzichten in code-centrische reinforcement learning en belichten de belangrijkste factoren die de prestaties bepalen door gedetailleerde ablatieonderzoeken en analyse. Onze bevindingen tonen aan dat het opschalen van hoogwaardige synthetische data en het toepassen van gefaseerde training de coderingsredenering aanzienlijk kunnen bevorderen, terwijl de afhankelijkheid van real-world coderingsdata wordt verminderd.
Recente vooruitgang in redeneermodellen en agent-gebaseerde AI-systemen heeft geleid tot een grotere afhankelijkheid van diverse externe informatie. Deze verschuiving introduceert echter invoercontexten die inherent ruis bevatten, een realiteit die huidige gesaneerde benchmarks niet weergeven. Wij introduceren NoisyBench, een uitgebreide benchmark die de robuustheid van modellen systematisch evalueert over 11 datasets voor RAG-, redeneer-, alignatie- en tool-use-taken, tegenover diverse soorten ruis, waaronder willekeurige documenten, irrelevante chatgeschiedenissen en harde negatieve afleiders. Onze evaluatie toont een catastrofale prestatievermindering van tot 80% bij state-of-the-art modellen wanneer zij worden geconfronteerd met contextuele afleiders. Cruciaal is dat wij vaststellen dat agent-workflows deze fouten vaak versterken door te veel te vertrouwen op ruisachtige tool-outputs, en dat afleiders emergent misalignment kunnen veroorzaken zelfs zonder kwaadwillige opzet. Wij constateren dat prompting, contextengineering, SFT en outcome-reward RL alleen niet volstaan om robuustheid te garanderen; daarentegen versterkt onze voorgestelde Rationale-Aware Reward (RARE) de veerkracht aanzienlijk door het identificeren van nuttige informatie binnen ruis te stimuleren. Ten slotte onthullen wij een omgekeerde schaalwet waarbij meer rekenkracht tijdens testen leidt tot slechtere prestaties in rumoerige omgevingen en tonen wij via aandachtvisualisatie aan dat modellen onevenredig veel aandacht besteden aan afleidende tokens, wat cruciale inzichten biedt voor de ontwikkeling van de volgende generatie robuuste, redeneercapabele agenten.
Grote Redeneermodellen (LRM's) bereiken opmerkelijke prestaties door expliciet meerstaps ketens van gedachten te genereren, maar deze capaciteit gaat gepaard met aanzienlijke inferentielatentie en rekenkosten. Collaboratieve inferentie biedt een veelbelovende oplossing door werk selectief toe te wijzen tussen lichtgewicht en grote modellen, maar een fundamentele uitdaging blijft bestaan: bepalen wanneer een redeneerstap de capaciteit van een groot model of de efficiëntie van een klein model vereist. Bestaande routeringsstrategieën vertrouwen op lokale tokenwaarschijnlijkheden of post-hoc-verificatie, wat aanzienlijke inferentie-overhead introduceert. In dit werk stellen we een nieuw perspectief voor op stapsgewijze collaboratie: de moeilijkheidsgraad van een redeneerstap kan worden afgeleid uit het allereerste token. Geïnspireerd door het "Aha-moment"-fenomeen in LRM's, tonen we aan dat de entropie van het initiële token een sterke voorspeller is van stapmoeilijkheid. Op basis van dit inzicht introduceren we GlimpRouter, een trainingsvrij kader voor stapsgewijze collaboratie. GlimpRouter gebruikt een lichtgewicht model om slechts het eerste token van elke redeneerstap te genereren en routeert de stap naar een groter model alleen wanneer de initiële tokenentropie een drempel overschrijdt. Experimenten op meerdere benchmarks tonen aan dat onze aanpak de inferentielatentie significant vermindert terwijl de nauwkeurigheid behouden blijft. GlimpRouter behaalt bijvoorbeeld een substantiële verbetering van 10,7% in nauwkeurigheid terwijl de inferentielatentie met 25,9% wordt verminderd vergeleken met een standalone groot model op AIME25. Deze resultaten suggereren een eenvoudig maar effectief mechanisme voor redeneren: rekencapaciteit toewijzen op basis van een glimp van de gedachte in plaats van een volledige stapevaluatie.
Hoewel Vision-Language Models (VLM's) Computer-Using Agents (CUA's) aanzienlijk hebben verbeterd, worstelen huidige raamwerken met robuustheid in langetermijnwerkstromen en generalisatie in nieuwe domeinen. Deze beperkingen ontstaan door een gebrek aan gedetailleerde controle over het beheer van historische visuele context en de afwezigheid van visueel-bewuste tutorialretrieval. Om deze kloof te overbruggen, introduceren we OS-Symphony, een holistisch raamwerk dat een Orchestrator omvat welke twee belangrijke innovaties coördineert voor robuuste automatisering: (1) een Reflection-Memory Agent die gebruikmaakt van mijlpaalgestuurd langetermijngeheugen om trajectniveau zelffcorrectie mogelijk te maken, waardoor visuele contextverlies in langetermijntaken effectief wordt verminderd; (2) Veelzijdige Tool Agents met een Multimodale Zoeker die een SeeAct-paradigma hanteert om in een op een browser gebaseerde sandbox te navigeren om live, visueel afgestemde tutorials te synthetiseren, waardoor betrouwbaarheidsproblemen in onbekende scenario's worden opgelost. Experimentele resultaten tonen aan dat OS-Symphony aanzienlijke prestatieverbeteringen oplevert over verschillende modelschalen, waarbij nieuwe state-of-the-art resultaten worden gevestigd op drie online benchmarks, met name een score van 65,84% op OSWorld.
Diffusie-taalmodellen (DLM's) bieden een veelbelovend alternatief voor taalmodellering door parallelle decodering mogelijk te maken via iteratieve verfijning. De meeste DLM's zijn echter gebaseerd op harde binaire maskering en discrete token-toewijzingen, wat het herzien van vroege beslissingen belemmert en het gebruik van intermediaire probabilistische representaties onderbenut. In dit artikel stellen we EvoToken-DLM voor, een nieuwe op diffusie gebaseerde taalmodelleringsaanpak die harde binaire maskers vervangt door evoluerende zachte token-distributies. EvoToken-DLM maakt een geleidelijke overgang mogelijk van gemaskeerde toestanden naar discrete uitvoeren, waarbij revisie van decodering wordt ondersteund. Om deze evolutie effectief te ondersteunen, introduceren we continue trajectsupervisie, waarbij de trainingsdoelen worden afgestemd op iteratieve probabilistische updates. Uitgebreide experimenten op meerdere benchmarks tonen aan dat EvoToken-DLM consistent superieure prestaties bereikt en sterke op diffusie gebaseerde en gemaskeerde DLM-basislijnen overtreft. Projectwebpagina: https://aim-uofa.github.io/EvoTokenDLM.
Naarmate op LLM gebaseerde agents steeds vaker worden ingezet voor langdurige interacties, is cumulatieve geheugenopslag cruciaal voor personalisatie en het behoud van stilistische consistentie. De meeste bestaande systemen hanteren echter een "alles-of-niets"-benadering voor geheugengebruik: het integreren van alle relevante historische informatie kan leiden tot Geheugenverankering, waarbij de agent vast komt te zitten in eerdere interacties, terwijl het volledig uitsluiten van geheugen resulteert in onderbenutting en het verlies van belangrijke interactiegeschiedenis. Wij tonen aan dat de afhankelijkheid van een agent van geheugen gemodelleerd kan worden als een expliciete en door de gebruiker aanstuurbare dimensie. We introduceren eerst een gedragsmatige metric voor geheugenafhankelijkheid om de invloed van eerdere interacties op huidige outputs te kwantificeren. Vervolgens presenteren we Steerable Memory Agent (SteeM), een framework dat gebruikers in staat stelt om de geheugenafhankelijkheid dynamisch te reguleren, variërend van een frisse-startmodus die innovatie bevordert tot een hoge-fideliteitsmodus die de interactiegeschiedenis nauwgezet volgt. Experimenten in verschillende scenario's tonen aan dat onze aanpak consistent superieure prestaties levert vergeleken met conventionele prompting en rigide geheugenmaskeringsstrategieën, wat resulteert in een meer genuanceerde en effectieve controle voor gepersonaliseerde mens-agent samenwerking.
De snelle ontwikkeling van interactieve en autonome AI-systemen markeert onze intrede in het agent-tijdperk. Het trainen en evalueren van agents voor complexe agent-taken zoals software-engineering en computergebruik vereist niet alleen efficiënte modelberekening, maar ook geavanceerde infrastructuur die in staat is om uitgebreide agent-omgeving-interacties te coördineren. Er bestaat echter geen opensource-infrastructuur die grootschalige training en evaluatie van dergelijke complexe agent-taken effectief kan ondersteunen. Om deze uitdaging aan te pakken, presenteren wij MegaFlow, een grootschalig gedistribueerd orchestratiesysteem dat efficiënte planning, resource-toewijzing en fijnmazig taakbeheer mogelijk maakt voor agent-omgeving-workloads. MegaFlow abstraheert de agent-trainingsinfrastructuur naar drie onafhankelijke diensten (Modeldienst, Agentdienst en Omgevingsdienst) die via gestandaardiseerde interfaces communiceren, waardoor onafhankelijke schaling en flexibele resource-toewijzing over diverse agent-omgeving-configuraties mogelijk wordt. In onze agent-trainingsimplementaties orchestreert MegaFlow met succes tienduizenden gelijktijdige agent-taken, waarbij hoge systeemstabiliteit wordt gehandhaafd en efficiënte resource-benutting wordt bereikt. Door dergelijke grootschalige agent-training mogelijk te maken, voorziet MegaFlow in een kritieke infrastructuurbehoefte binnen het opkomende landschap van agent-gestuurde AI.
Naarmate hoogwaardige data steeds moeilijker verkrijgbaar wordt, is data-vrije zelf-evolutie naar voren gekomen als een veelbelovend paradigma. Deze aanpak stelt grote taalmodellen (LLM's) in staat om autonoom complexe problemen te genereren en op te lossen, waardoor hun redeneervermogen verbetert. Echter, multi-turn zoekagentschappen worstelen binnen data-vrije zelf-evolutie vanwege de beperkte vraagdiversiteit en de aanzienlijke rekenkracht die nodig is voor meerstaps redeneren en toolgebruik. In dit werk introduceren we Dr. Zero, een raamwerk dat zoekagentschappen in staat stelt effectief zelf te evolueren zonder enige trainingsdata. Specifiek ontwerpen we een zelf-evolutie feedbacklus waarin een voorsteller diverse vragen genereert om een oplosser te trainen, geïnitialiseerd vanuit hetzelfde basismodel. Terwijl de oplosser evolueert, stimuleert deze de voorsteller om steeds moeilijkere maar oplosbare taken te produceren, waardoor een geautomatiseerd curriculum ontstaat om beide agentschappen te verfijnen. Om de trainingsefficiëntie te verbeteren, introduceren we ook hop-gesorteelde relatieve beleidsoptimalisatie (HRPO). Deze methode groepeert structureel vergelijkbare vragen om groepsniveau-basislijnen te construeren, waardoor de steekproefoverhead voor het evalueren van de individuele moeilijkheidsgraad en oplosbaarheid van elke query effectief wordt geminimaliseerd. Hierdoor vermindert HRPO de rekenvereisten voor de training van de oplosser aanzienlijk, zonder in te leveren op prestaties of stabiliteit. Uitgebreide experimentele resultaten tonen aan dat de data-vrije Dr. Zero gelijk presteert aan of superieur is aan volledig gesuperviseerde zoekagentschappen, wat aantoont dat complexe redeneer- en zoekcapaciteiten uitsluitend kunnen ontstaan door zelf-evolutie.
Videogeneratiemodellen, als een vorm van wereldmodellen, zijn naar voren gekomen als een van de meest opwindende fronten in AI. Ze beloven agents het vermogen om de toekomst te verbeelden door de temporele evolutie van complexe scènes te modelleren. In autonoom rijden geeft dit visioen aanleiding tot rijsimulatiemodellen: generatieve simulators die de toekomst van het ego-voertuig en andere verkeersdeelnemers imagineren, waardoor schaalbare simulatie, veilige tests van uitzonderlijke situaties en generatie van rijke synthetische data mogelijk worden. Desondanks ontbreekt het, ondanks snelgroeiende onderzoeksactiviteit, aan een rigoureus benchmark om vooruitgang te meten en prioriteiten te sturen. Bestaande evaluaties blijven beperkt: generieke videometrieken negeren veiligheidskritieke beeldaspecten; trajectgeloofwaardigheid wordt zelden gekwantificeerd; temporele en agentniveau-consistentie wordt verwaarloosd; en bestuurbaarheid via ego-conditionering wordt genegeerd. Bovendien slagen huidige datasets er niet in de diversiteit aan condities te dekken die nodig is voor praktijkimplementatie. Om deze lacunes aan te pakken, presenteren wij DrivingGen, de eerste uitgebreide benchmark voor generatieve rijsimulatiemodellen. DrivingGen combineert een diverse evaluatiedataset, samengesteld uit zowel rijdatasets als internetbrede videobronnen, die varieert in weersomstandigheden, tijdstip, geografische regio's en complexe manoeuvres, met een reeks nieuwe metrieken die gezamenlijk visuele realisme, trajectgeloofwaardigheid, temporele coherentie en bestuurbaarheid beoordelen. Evaluatie van 14 state-of-the-art modellen onthult duidelijke afwegingen: algemene modellen zien er beter uit maar schenden natuurkundige wetten, terwijl rij-specifieke modellen beweging realistisch vastleggen maar achterblijven in visuele kwaliteit. DrivingGen biedt een uniform evaluatieraamwerk om betrouwbare, bestuurbare en inzetbare rijsimulatiemodellen te bevorderen, waardoor schaalbare simulatie, planning en data-gedreven besluitvorming mogelijk worden.
Latente Diffusiemodellen (LDM's) genereren hoogwaardige afbeeldingen door te werken in een gecomprimeerde latente ruimte, die doorgaans wordt verkregen via beeldtokenizers zoals Variational Autoencoders (VAE's). In de zoektocht naar een VAE die geschikt is voor generatie, hebben recente onderzoeken het gebruik van Vision Foundation Models (VFM's) als representatie-uitlijningsdoelen voor VAE's verkend, naar analogie van de aanpak die gemeengoed is voor LDM's. Hoewel dit bepaalde prestatieverbeteringen oplevert, houdt het gebruik van hetzelfde uitlijningsdoel voor zowel VAE's als LDM's geen rekening met hun fundamenteel verschillende representatiebehoeften. Wij bepleiten dat LDM's weliswaar baat hebben bij latente ruimtes die hoogwaardige semantische concepten behouden, maar dat VAE's moeten uitblinken in semantische ontvlechting, zodat informatie op attribuutniveau gestructureerd kan worden gecodeerd. Om dit aan te pakken, stellen we de Semantic Disentangled VAE (Send-VAE) voor, die expliciet is geoptimaliseerd voor ontvlochten representatieleren door zijn latente ruimte uit te lijnen met de semantische hiërarchie van voorgetrainde VFM's. Onze aanpak gebruikt een niet-lineair mapper-netwerk om VAE-latente representaties te transformeren en ze uit te lijnen met VFM's, om zo de kloof te overbruggen tussen ontvlechting op attribuutniveau en hoogwaardige semantiek, wat effectieve begeleiding voor het VAE-leren mogelijk maakt. We evalueren semantische ontvlechting via lineaire probing bij attribuutvoorspellingstaken, waarbij een sterke correlatie met verbeterde generatieprestaties wordt aangetoond. Ten slotte trainen we met Send-VAE stroomgebaseerde transformers (SiT's); experimenten tonen aan dat Send-VAE de training aanzienlijk versnelt en een state-of-the-art FID bereikt van respectievelijk 1.21 en 1.75 mét en zónder classifier-free guidance op ImageNet 256x256.
Huidige vision-language benchmarks bestaan voornamelijk uit goed gestructureerde vragen met duidelijke, expliciete prompts. Echter, echte gebruikersvragen zijn vaak informeel en ondergespecificeerd. Gebruikers laten van nature veel onuitgesproken en vertrouwen op afbeeldingen om context over te brengen. Wij introduceren HAERAE-Vision, een benchmark met 653 visuele vragen uit de praktijk, afkomstig uit Koreaanse online gemeenschappen (0.76% overleving van 86K kandidaten), elk gekoppeld aan een expliciete herformulering, wat in totaal 1.306 vraagvarianten oplevert. Na evaluatie van 39 VLMs blijkt dat zelfs state-of-the-art modellen (GPT-5, Gemini 2.5 Pro) minder dan 50% scoren op de originele vragen. Cruciaal is dat enkel het expliciteren van de vraag al verbeteringen van 8 tot 22 procentpunten oplevert, waarbij kleinere modellen het meeste baat hebben. Wij tonen verder aan dat zelfs met zoekopdrachten op het web, ondergespecificeerde vragen slechter presteren dan expliciete vragen zonder zoekfunctie, wat aantoont dat huidige retrievalsystemen niet kunnen compenseren voor wat gebruikers onuitgesproken laten. Onze bevindingen tonen aan dat een aanzienlijk deel van de moeilijkheidsgraad voor VLMs voortkomt uit natuurlijke vraag-onderspecificatie in plaats van modelcapaciteit, wat een kritieke kloof tussen benchmarkevaluatie en inzet in de praktijk blootlegt.
Grote Taalmodellen (LLM's) kunnen hun parametrische kennismogelijkheden uitbreiden door het Tool-Integrated Reasoning (TIR)-paradigma toe te passen. Bestaande op LLM's gebaseerde agent-trainingsframeworks richten zich echter vaak op de nauwkeurigheid van antwoorden, waarbij specifieke afstemming op gedragspatronen wordt verwaarloosd. Hierdoor vertonen agenten vaak inefficiënte acties tijdens TIR-taken, zoals overbodige en ontoereikende toolaanroepen. Het kalibreren van foutieve gedragspatronen bij de uitvoering van TIR-taken, om zo effectieve trajecten te verkennen, blijft een open vraagstuk. In dit artikel stellen we ET-Agent voor, een trainingsframework voor het kalibreren van het toolgebruiksgedrag van agenten via twee synergetische perspectieven: Self-evolving Data Flywheel en Behavior Calibration Training. Concreet introduceren we een zelf-evolutionaire dataflywheel om versterkte data te genereren, die wordt gebruikt om het LLM te finetunen en zo diens verkennend vermogen te verbeteren. Hierop voortbordurend implementeren we een tweefasen trainingsframework voor gedragskalibratie. Dit is ontworpen om foutieve gedragspatronen progressief te kalibreren naar optimale gedragingen. Verdere diepgaande experimenten bevestigen de superioriteit van ons framework op meerdere dimensies, waaronder correctheid, efficiëntie, beknoptheid van redenering en nauwkeurigheid van tooluitvoering. Ons ET-Agent framework biedt praktische inzichten voor onderzoek in het TIR-domein. Code is beschikbaar op https://github.com/asilverlight/ET-Agent.
Hoewel Chain-of-Thought Large Vision-Language Models voorziet van meerstaps redeneervermogen, lijden expliciete tekstuele redeneringen onder een informatiebandbreedteknelpunt, waarbij continue visuele details verloren gaan tijdens discrete tokenisatie. Recente latente redeneermethoden proberen deze uitdaging aan te pakken, maar vallen vaak ten prooi aan voortijdige semantische ineenstorting door rigide autoregressieve doelstellingen. In dit artikel stellen we Laser voor, een nieuw paradigma dat visuele deductie herformuleert via Dynamic Windowed Alignment Learning (DWAL). In plaats van een punt-voor-voorspelling af te dwingen, aligneert Laser de latente toestand met een dynamisch validiteitsvenster van toekomstige semantiek. Dit mechanisme legt een cognitieve hiërarchie van "Eerst het bos, dan de bomen" op, waardoor het model een probabilistische superpositie van globale kenmerken kan behouden alvorens zich te vernauwen tot lokale details. Cruciaal is dat Laser de interpreteerbaarheid behoudt via decodeerbare trajecten, terwijl onbeperkt leren wordt gestabiliseerd via Self-Refined Superposition. Uitgebreide experimenten op 6 benchmarks tonen aan dat Laser state-of-the-art prestaties bereikt onder latente redeneermethoden, waarbij het de sterke baseline Monet met gemiddeld 5,03% overtreft. Opmerkelijk is dat het deze winst behaalt met extreme efficiëntie, door inferentietokens met meer dan 97% te verminderen, terwijl het robuuste generalisatie naar out-of-distribution domeinen demonstreert.
Reisplanning is een geavanceerd besluitvormingsproces dat vereist dat veelzijdige informatie wordt gesynthetiseerd om reisroutes op te stellen. Bestaande benaderingen voor reisplanning kampen echter met verschillende uitdagingen: (1) Het selecteren van kandidaat-bezienswaardigheden (POI's) met behoud van een hoge recall-rate; (2) Een enkele redeneerpad beperkt de verkenning van de oplossingsruimte voor reisplanning; (3) Het gelijktijdig optimaliseren van harde en zachte restricties blijft een aanzienlijke moeilijkheid. Om deze uitdagingen aan te pakken, stellen we TourPlanner voor, een uitgebreid raamwerk met multi-pad redeneren en constraint-gesteunde reinforcement learning. Concreet introduceren we eerst een Personalized Recall and Spatial Optimization (PReSO)-werkstroom om een ruimtelijk bewuste set kandidaat-POI's te construeren. Vervolgens stellen we Competitive Consensus Chain-of-Thought (CCoT) voor, een multi-pad redeneerparadigma dat het vermogen verbetert om de haalbare oplossingsruimte te verkennen. Om het plan verder te verfijnen, integreren we een op sigmoïde gebaseerd gating-mechanisme in de reinforcement learning-fase, dat dynamisch de prioriteit legt bij het voldoen aan zachte restricties nadat aan harde restricties is voldaan. Experimentele resultaten op reisplanningbenchmarks tonen aan dat TourPlanner state-of-the-art prestaties bereikt en bestaande methoden aanzienlijk overtreft op zowel haalbaarheid als afstemming op gebruikersvoorkeuren.
Naarmate grote taalmodelen (LLM's) evolueren van statische dialooginterfaces naar autonome algemene agents, is effectief geheugen van cruciaal belang voor langdurige consistentie. Bestaande benchmarks richten zich echter voornamelijk op informele gesprekken of taakgerichte dialogen, waarbij **"langetermijn projectgerichte"** interacties buiten beschouwing blijven – interacties waarin agents evoluerende doelen moeten bijhouden. Om deze kloof te overbruggen, introduceren wij **RealMem**, de eerste benchmark die is gebaseerd op realistische projectscenario's. RealMem omvat meer dan 2.000 cross-sessie dialogen verspreid over elf scenario's, waarbij natuurlijke gebruikersquery's worden gebruikt voor evaluatie. Wij stellen een synthesepijplijn voor die Projectbasisconstructie, Multi-Agent Dialooggeneratie en Geheugen- en Planningbeheer integreert om de dynamische evolutie van geheugen te simuleren. Experimenten tonen aan dat huidige geheugensystemen aanzienlijke uitdagingen ondervinden bij het beheren van langetermijn projectstatussen en dynamische contextafhankelijkheden die inherent zijn aan real-world projecten. Onze code en datasets zijn beschikbaar op [https://github.com/AvatarMemory/RealMemBench](https://github.com/AvatarMemory/RealMemBench).
Wij introduceren OpenTinker, een infrastructuur voor reinforcement learning (RL) van large language model (LLM)-agenten, gebaseerd op een scheiding der verantwoordelijkheden op het gebied van algoritme-ontwerp, uitvoering en agent-omgeving-interactie. In plaats van te vertrouwen op monolithische, end-to-end RL-pipelines, deconstrueert OpenTinker agent-leersystemen in lichtgewicht, samenstelbare componenten met duidelijk gedefinieerde abstractiegrenzen. Gebruikers specificeren agenten, omgevingen en interactieprotocollen, terwijl inferentie en training worden gedelegeerd aan een beheerde uitvoeringsruntime. OpenTinker introduceert een centrale scheduler voor het beheren van trainings- en inferentiewerkbelastingen, waaronder LoRA-gebaseerde en volledige-parameter RL, supervised fine-tuning en inferentie, over gedeelde bronnen. Wij bespreken verder ontwerp-principes voor het uitbreiden van OpenTinker naar multi-agent training. Ten slotte presenteren wij een reeks RL-use-cases die de effectiviteit van het framework in praktische agent-leerscenario's aantonen.
Mensen begrijpen de wereld voornamelijk via concepten (bijvoorbeeld 'hond'), abstracte mentale representaties die waarneming, redeneren en leren structureren. Hoe grote taalmodellen (LLM's) dergelijke concepten verwerven, behouden en vergeten tijdens continu vooraf trainen, blijft echter grotendeels onduidelijk. In dit werk bestuderen we hoe individuele concepten worden verworven en vergeten, evenals hoe meerdere concepten interacteren via interferentie en synergie. We verbinden deze gedragsdinamiek met de interne Concept Circuits van LLM's, computationele subgrafen geassocieerd met specifieke concepten, en integreren Grafiek Metrieken om de circuitstructuur te karakteriseren. Onze analyse onthult: (1) Concept circuits van LLM's geven een niet-triviaal, statistisch significant signaal van conceptverwerving en -vergeten; (2) Concept circuits vertonen een stapsgewijs temporeel patroon tijdens continu vooraf trainen, met een vroege toename gevolgd door een geleidelijke afname en stabilisatie; (3) Concepten met grotere leerwinst vertonen doorgaans meer vergetelheid bij vervolgtraining; (4) Semantisch vergelijkbare concepten veroorzaken sterkere interferentie dan zwak verwante concepten; (5) Conceptuele kennis verschilt in overdraagbaarheid, waarbij sommige concepten het leren van anderen significant vergemakkelijken. Gezamenlijk bieden onze bevindingen een circuitniveau-perspectief op conceptleerdynamiek en informeren ze het ontwerp van meer interpreteerbare en robuuste conceptbewuste trainingsstrategieën voor LLM's.
Grote Taalmodellen (GTM's) kunnen verrassend genuanceerde inschattingen van hun eigen onzekerheid produceren. Het blijft echter onduidelijk in hoeverre dit uitgesproken vertrouwen verbonden is met de redenering, kennis of besluitvorming van het model. Om dit te testen, introduceren we RiskEval: een raamwerk ontworpen om te evalueren of modellen hun abstentiebeleid aanpassen in reactie op variërende foutkosten. Onze evaluatie van verschillende frontier-modellen onthult een kritieke dissociatie: modellen zijn noch kostbewust bij het verwoorden van hun verbale vertrouwen, noch strategisch responsief bij het beslissen om deel te nemen of zich te onthouden onder omstandigheden met hoge straffen. Zelfs wanneer extreme straffen frequente onthouding tot de wiskundig optimale strategie maken, onthouden modellen zich vrijwel nooit, wat leidt tot een utility-implosie. Dit geeft aan dat gekalibreerde verbale vertrouwensscores mogelijk niet voldoende zijn om betrouwbare en interpreteerbare AI-systemen te creëren, omdat huidige modellen het strategische vermogen missen om onzekerheidssignalen om te zetten in optimale en risicogevoelige beslissingen.
Huidige benaderingen van geheugen in Large Language Models (LLM's) zijn voornamelijk gebaseerd op statische Retrieval-Augmented Generation (RAG), wat vaak leidt tot versnipperde retrieval en de structurele afhankelijkheden die nodig zijn voor complex redeneren niet kan vastleggen. Voor autonome agenten ontbreekt het deze passieve en platte architecturen aan de cognitieve organisatie die nodig is om het dynamische en associatieve karakter van langdurige interactie te modelleren. Om dit aan te pakken, stellen wij Gestructureerd Episodisch Gebeurtenisgeheugen (SEEM) voor, een hiërarchisch raamwerk dat een grafisch geheugenlaag voor relationele feiten combineert met een dynamische episodische geheugenlaag voor narratieve progressie. Geworteld in de cognitieve frame-theorie, transformeert SEEM interactiestromen in gestructureerde Episodische Gebeurtenis Frames (EEF's) verankerd door precieze herkomstpointers. Verder introduceren wij een agent-gebaseerd associatiefusiemechanisme en Reverse Provenance Expansion (RPE) om coherente narratieve contexten te reconstrueren uit gefragmenteerd bewijs. Experimentele resultaten op de LoCoMo- en LongMemEval-benchmarks tonen aan dat SEEM baseline-methoden significant overtreft, waardoor agenten superieure narratieve coherentie en logische consistentie kunnen behouden.
Hoewel AI-innovatie in rap tempo versnelt, blijft het intellectuele proces achter doorbraken – hoe onderzoekers hiaten identificeren, eerder werk synthetiseren en inzichten genereren – nog steeds slecht begrepen. Het gebrek aan gestructureerde gegevens over wetenschappelijke redenering belemmert een systematische analyse en ontwikkeling van AI-onderzoeksagenten. Wij introduceren Sci-Reasoning, de eerste dataset die de intellectuele synthese achter hoogwaardig AI-onderzoek vastlegt. Met behulp van gemeenschapsgevalideerde kwaliteitssignalen en een door LLM-versneld, menselijk geverifieerd proces, traceren we Oral- en Spotlight-papers van NeurIPS, ICML en ICLR (2023-2025) naar hun belangrijkste voorgangers, waarbij we specifieke redeneringsverbanden articuleren in een gestructureerd formaat. Onze analyse identificeert 15 verschillende denkpatronen, waarbij drie dominante strategieën 52,7% voor hun rekening nemen: Hiaatgedreven Herkadering (24,2%), Cross-domein Synthese (18,0%) en Representatieverschuiving (10,5%). De krachtigste innovatierecepten combineren meerdere patronen: Hiaatgedreven Herkadering + Representatieverschuiving, Cross-domein Synthese + Representatieverschuiving, en Hiaatgedreven Herkadering + Cross-domein Synthese. Deze dataset maakt kwantitatieve studies van wetenschappelijke vooruitgang mogelijk en biedt gestructureerde redeneertrajecten voor het trainen van de volgende generatie AI-onderzoeksagenten.
Moderne informatiesystemen omvatten vaak verschillende soorten items, zoals een tekstquery, een afbeelding, een videofragment of een audiosegment. Dit motiveert de ontwikkeling van omnimodale embeddingmodellen die heterogene modaliteiten afbeelden in een gedeelde ruimte voor directe vergelijking. De meeste recente omnimodale embeddings blijven echter sterk leunen op impliciete alignering die is overgenomen van voorgetrainde vision-language model (VLM)-backbones. In de praktijk veroorzaakt dit drie veelvoorkomende problemen: (i) similariteitslogits hebben een modaliteitsafhankelijke scherpte, waardoor scores niet op een consistente schaal staan; (ii) in-batch negatieven worden na verloop van tijd minder effectief omdat gemengde modaliteitsbatches een ongebalanceerde hardheidsverdeling creëren; hierdoor worden veel negatieven snel triviaal en dragen ze weinig gradient bij; en (iii) embeddings tussen modaliteiten vertonen niet-overeenkomende eerste- en tweedegraadsstatistieken, wat rankings minder stabiel maakt. Om deze problemen aan te pakken, stellen we e5-omni voor, een lichtgewicht expliciet aligneringsrecept dat kant-en-klare VLM's aanpast tot robuuste omnimodale embeddingmodellen. e5-omni combineert drie eenvoudige componenten: (1) modaliteitsbewuste temperatuurcalibratie om similariteitsschalen af te stemmen, (2) een controleerbaar negatief curriculum met debiasing om te focussen op verwarrende negatieven en tegelijk de impact van fout-negatieven te verminderen, en (3) batch-whitening met covariantieregularisatie om de cross-modale geometrie in de gedeelde embeddedruimte beter op elkaar af te stemmen. Experimenten op MMEB-V2 en AudioCaps tonen consistente verbeteringen ten opzichte van sterke bimodale en omnimodale baselines, en hetzelfde recept transferert ook goed naar andere VLM-backbones. We geven ons modelcheckpoint vrij op https://huggingface.co/Haon-Chen/e5-omni-7B.
Grote taalmodellen (LLM's) kunnen worden aangepast aan nieuwe taken met behulp van parameter-efficiënte finetuning (PEFT) methoden die slechts een klein aantal trainbare parameters wijzigen, vaak via low-rank updates. In dit werk hanteren we een perspectief geïnspireerd door kwantuminformatie om hun effectiviteit te begrijpen. Vanuit dit perspectief corresponderen low-rank parameterisaties van nature met laagdimensionale Matrix Product States (MPS) representaties, die op verstrengeling gebaseerde karakteriseringen van de parameterstructuur mogelijk maken. Derhalve introduceren en meten wij "Artificiële Verstrengeling", gedefinieerd als de verstrengelingsentropie van de parameters in kunstmatige neurale netwerken (in het bijzonder de LLM's). We bestuderen eerst de representatieve low-rank adaptatie (LoRA) PEFT-methode, naast volledige finetuning (FFT), met LLaMA-modellen op de 1B en 8B schaal, getraind op de Tulu3 en OpenThoughts3 datasets, en ontdekken: (i) Interne artificiële verstrengeling in de updates van de query- en value-projectiematrices in LoRA volgt een volumewet met een centrale suppressie (aangeduid als de "Verstrengelingsvallei"), die gevoelig is voor hyperparameters en verschilt van die in FFT; (ii) Externe artificiële verstrengeling in aandachtmatrices, corresponderend met token-token correlaties in de representatieruimte, volgt een oppervlaktewet met logaritmische correcties en blijft robuust voor LoRA-hyperparameters en trainstappen. In een parallel met de No-Hair Stelling uit de zwarte-gat-fysica, stellen we voor dat hoewel LoRA en FFT distincte interne verstrengelingssignaturen induceren, dergelijke verschillen niet tot uiting komen in de aandachtoutputs, wat wijst op een "no-hair" eigenschap die resulteert in de effectiviteit van low-rank updates. We bieden verder theoretische ondersteuning gebaseerd op random matrix theorie, en breiden onze analyse uit naar een MPS Adaptatie PEFT-methode, die kwalitatief vergelijkbaar gedrag vertoont.
Foreshadowing en payoff zijn alomtegenwoordige narratieve technieken waarbij auteurs aan het begin van een verhaal verwachtingen scheppen en deze later oplossen via concrete, observeerbare uitkomsten. Desondanks falen grote taalmmodellen (LLM's) vaak in het overbruggen van deze langeafstands-narratieve afhankelijkheden, zelfs wanneer de nodige context aanwezig is, waardoor "Tsjechovs geweren" onafgevuurd blijven. Bestaande evaluaties negeren grotendeels dit structurele falen en richten zich op oppervlakkige coherentie in plaats van de logische vervulling van narratieve opzetten. In dit artikel introduceren we Gecodificeerde Foreshadowing-Payoff Generatie (CFPG), een nieuw raamwerk dat narratieve kwaliteit herdefinieert door de lens van payoff-realizatie. Omdat LLM's moeite hebben om het "trigger-mechanisme" van een foreshadowed gebeurtenis intuïtief te begrijpen, transformeert CFPG narratieve continuïteit in een reeks uitvoerbare causale predicaten. Door Foreshadow-Trigger-Payoff triples te extraheren en coderen uit de BookSum-corpus, bieden we gestructureerde supervisie die garandeert dat foreshadowed verwachtingen niet alleen worden genoemd, maar ook temporeel en logisch worden ingelost. Experimenten tonen aan dat CFPG significant beter presteert dan standaard prompting-baselines in payoff-nauwkeurigheid en narratieve afstemming. Onze bevindingen suggereren dat het expliciet codificeren van narratieve mechanica essentieel is om LLM's van oppervlakkige vlotheid naar authentieke narratieve competentie te brengen.
Grafische gebruikersinterfaces (GUI's) vormen de kern van mens-computerinteractie, maar het automatiseren van complexe GUI-taken blijft een grote uitdaging voor autonome agents, voornamelijk door een gebrek aan schaalbare, hoogwaardige trainingsdata. Hoewel opnames van menselijke demonstraties een rijke databron bieden, zijn deze doorgaans lang, ongestructureerd en missen ze annotaties, wat het voor agents moeilijk maakt ervan te leren. Om dit aan te pakken, introduceren we ShowUI-Aloha, een uitgebreide pijplijn die ongestructureerde, 'in-the-wild' schermopnames van menselijke gebruikers op desktopomgevingen omzet in gestructureerde, uitvoerbare taken. Ons raamwerk omvat vier kernelementen: Een recorder die schermvideo vastlegt samen met precieze gebruikersinteracties zoals muisklikken, toetsaanslagen en scrollbewegingen. Een leercomponent die deze ruwe interacties en de visuele context semantisch interpreteert en vertaalt naar beschrijvende natuurlijke-taal-bijschriften. Een planner die de geparseerde demonstraties leest, de taakstatus bijhoudt en dynamisch het volgende hoog-niveau actieplan formuleert op basis van contextuele redenering. Een uitvoerder die deze actieplannen nauwgezet uitvoert op het niveau van het besturingssysteem, waarbij precieze klikken, drags, tekstinvoer en vensterbewerkingen worden uitgevoerd met veiligheidscontroles en realtime feedback. Samen bieden deze componenten een schaalbare oplossing voor het verzamelen en parseren van real-world menselijke data, waarmee een haalbaar pad wordt gedemonstreerd naar het bouwen van algemene GUI-agents die effectief kunnen leren door simpelweg mensen te observeren.
Naarmate grote taalmodellen (LLM's) zoals ChatGPT, Copilot, Claude en Gemini worden geïntegreerd in software-ontwikkelwerkstromen, laten ontwikkelaars steeds vaker sporen van AI-betrokkenheid achter in hun codecommentaren. Onder deze commentaren zijn er sommige die expliciet zowel het gebruik van generatieve AI als de aanwezigheid van technische tekortkomingen erkennen. Op basis van een analyse van 6.540 codecommentaren die verwijzen naar LLM's, afkomstig van openbare Python- en JavaScript-gebaseerde GitHub-repositories (november 2022-juli 2025), identificeerden we 81 commentaren die eveneens zelf toegeven technische schuld (SATD) bevatten. Ontwikkelaars beschrijven meestal uitgestelde tests, onvolledige aanpassing en een beperkt begrip van door AI gegenereerde code, wat suggereert dat AI-ondersteuning zowel beïnvloedt wanneer als waarom technische schuld ontstaat. Wij introduceren de term 'GenAI-geïnduceerde zelf toegeven technische schuld' (GIST) als een voorgesteld conceptueel kader om terugkerende gevallen te beschrijven waarin ontwikkelaars door AI gegenereerde code opnemen, terwijl zij expliciet onzekerheid uiten over het gedrag of de correctheid ervan.
De na-opleiding van grote taalmodellen verweeft routinematig supervised fine-tuning (SFT) met reinforcement learning (RL). Deze twee methoden hebben verschillende doelstellingen: SFT minimaliseert het kruis-entropieverlies tussen modeloutputs en expertantwoorden, terwijl RL beloningssignalen maximaliseert die zijn afgeleid van menselijke voorkeuren of op regels gebaseerde verifiers. Moderne redeneermodellen hebben de praktijk van het afwisselen van SFT- en RL-training wijdverbreid overgenomen. Er bestaat echter geen theoretische verklaring voor of ze kunnen worden ontkoppeld. Wij bewijzen dat ontkoppeling in geen van beide volgordes mogelijk is: (1) SFT-dan-RL-koppeling: RL verhoogt het SFT-verlies onder SFT-optimaliteit en (2) RL-dan-SFT-koppeling: SFT verlaagt de door RL behaalde beloning. Experimenten met Qwen3-0.6B bevestigen de voorspelde prestatievermindering, wat verifieert dat SFT en RL niet kunnen worden gescheiden zonder verlies van eerdere prestaties in de na-opleiding.
Hoewel Multimodale Large Language Models (MLLM's) aanzienlijke vooruitgang hebben geboekt in visueel begrip, hebben ze vaak moeite met de ongestructureerde en ambigue aard van door mensen gemaakte schetsen. Deze beperking is vooral merkbaar bij de onderbelichte taak van visuele beoordeling, waarbij modellen niet alleen een probleem moeten oplossen, maar ook fouten moeten diagnosticeren in handgetekende diagrammen. Dergelijke diagnostische capaciteiten zijn afhankelijk van complexe structurele, semantische en metacognitieve redeneervaardigheden. Om deze kloof te overbruggen, introduceren we SketchJudge, een nieuwe benchmark die is toegesneden op het evalueren van MLLM's als beoordelaars van handgetekende STEM-diagrammen. SketchJudge omvat 1.015 handgetekende studentenantwoorden verspreid over vier domeinen: geometrie, natuurkunde, grafieken en stroomdiagrammen, met diverse stilistische variaties en duidelijke fouttypes. Evaluaties op SketchJudge tonen aan dat zelfs geavanceerde MLLM's aanzienlijk achterblijven bij mensen, wat de effectiviteit van de benchmark bevestigt in het blootleggen van de kwetsbaarheid van de huidige visie-taala
Het ontwerpen van een uniform neuraal netwerk dat sequentiële gegevens met willekeurige lengtes efficiënt en inherent kan verwerken, is een centrale en uitdagende probleemstelling in sequentiemodellering. De ontwerpkeuzes in de Transformer, waaronder kwadratische complexiteit en zwakke lengte-extrapolatie, hebben het vermogen beperkt om op te schalen naar lange sequenties. In dit werk presenteren we Gecko, een neurale architectuur die de ontwerpelementen van Mega en Megalodon (exponentieel voortschrijdend gemiddelde met gated attention) erft en verder meerdere technische componenten introduceert om het vermogen om lange-afstandsafhankelijkheden te vangen te verbeteren, waaronder timestep decay normalisatie, een sliding chunk attention-mechanisme en adaptief werkgeheugen. In een gecontroleerde pretraining-vergelijking met Llama2 en Megalodon op een schaal van 7 miljard parameters en 2 biljoen trainings tokens, behaalt Gecko betere efficiëntie en schaalbaarheid voor lange contexten. Gecko bereikt een trainingsverlies van 1.68, wat significant beter is dan Llama2-7B (1.75) en Megalodon-7B (1.70), en dicht in de buurt komt van Llama2-13B (1.67). Opmerkelijk is dat Gecko, zonder gebruik te maken van enige context-uitbreidingstechnieken, inherente lange-context verwerkings- en retrievalcapaciteiten vertoont, waarbij het stabiel sequenties van tot 4 miljoen tokens verwerkt en informatie kan ophalen uit contexten die tot 4 keer langer zijn dan zijn aandachtvenster. Code: https://github.com/XuezheMax/gecko-llm
Zelfconsistentie is naar voren gekomen als een populaire techniek om de nauwkeurigheid van grote taalmodel(len) bij redeneertaken te verbeteren. De aanpak is eenvoudig: genereer meerdere redeneerpaden en selecteer het meest voorkomende antwoord via meerderheidsstemming. Hoewel dit de nauwkeurigheid betrouwbaar verhoogt, is het onduidelijk of deze winst echte verbeteringen in de redeneerkwaliteit weerspiegelt. Wij onderzoeken een fundamentele vraag die nog niet eerder is bestudeerd: verbetert schaling tijdens de inferentie de betrouwbaarheid van het redeneren? Wij voeren een uitgebreide empirische studie uit met vier vooraanstaande modellen (GPT-5.2, Claude Opus 4.5, Gemini-3-flash-preview en DeepSeek-v3.2) op 100 wiskundige redeneerproblemen van GSM8K. Onze analyse maakt gebruik van bootstrap-betrouwbaarheidsintervallen, McNemar's tests voor gepaarde vergelijkingen en Cohen's d-effectgroottes om de effecten rigoureus te kwantificeren. De resultaten onthullen opvallende verschillen tussen modellen die gangbare veronderstellingen over zelfconsistentie uitdagen. GPT-5.2 vertoont het verwachte patroon: de nauwkeurigheid verbetert van 78% naar 90% bij N=5, terwijl de betrouwbaarheid relatief stabiel blijft (0,540 tot 0,510). Claude Opus 4.5 vertelt een heel ander verhaal. De nauwkeurigheid daalt zelfs van 78% naar 74,3%, terwijl de betrouwbaarheid dramatisch stijgt van 0,270 naar 0,891 bij N=5. DeepSeek-v3.2, dat al op 98% nauwkeurigheid zit, vertoont plafondeffecten met bescheiden winst in betrouwbaarheid (0,440 tot 0,541). Gemini-3-flash verbetert van 81% naar 86% nauwkeurigheid met een lichte daling in betrouwbaarheid (0,260 naar 0,212). Analyse van probleemmoeilijkheid onthult dat GPT-5.2 82% van de moeilijke problemen oplost, terwijl het slechts 13% van de eenvoudige problemen fout behandelt. Claude daarentegen behandelt 23% van de eenvoudige problemen fout, wat de daling in nauwkeurigheid verklaart. Deze bevindingen zijn belangrijk voor praktijkmensen: zelfconsistentie is niet universeel gunstig, en teams moeten hun specifieke modellen testen vóór implementatie. Wij geven onze code vrij en bieden praktische aanbevelingen voor het navigeren door deze afwegingen.
Generatieve gesproken-taalmodellen die zijn voorgetraind op grootschalige ruiste audio, kunnen een spraakprompt voortzetten met passende inhoud, waarbij kenmerken zoals spreker en emotie behouden blijven. Deze modellen fungeren als foundation-modellen voor gesproken dialoog. In eerdere literatuur worden deze modellen vaak geëvalueerd met behulp van "globale tokenperplexiteit", waarbij de formulering voor tekstperplexiteit direct wordt toegepast op spraaktokens. Deze praktijk negeert echter fundamentele verschillen tussen spraak- en tekstmodaliteiten, wat mogelijk leidt tot een onderschatting van de spraakkenmerken. In dit werk stellen we een reeks waarschijnlijkheids- en generatie-gebaseerde evaluatiemethoden voor die dienen als vervanging voor de naïeve globale tokenperplexiteit. We tonen aan dat de voorgestelde evaluaties de waargenomen generatiekwaliteit beter weerspiegelen, wat blijkt uit sterkere correlaties met door mensen beoordeelde mean opinion scores (MOS). Wanneer beoordeeld volgens de nieuwe metrieken, verandert het relatieve prestatielandschap van gesproken-taalmodellen aanzienlijk, waarbij de kloof tussen het best presterende model en de menselijke toplijn aanzienlijk kleiner wordt. Samen suggereren deze resultaten dat een passende evaluatie cruciaal is voor een accurate beoordeling van de vooruitgang in gesproken-taalmodelering.
Systeemlogboeken zijn cruciaal voor het monitoren en diagnosticeren van moderne computerinfrastructuren, maar hun schaal en complexiteit vereisen betrouwbare en efficiënte geautomatiseerde interpretatie. Omdat ernstniveaus vooraf gedefinieerde metadata in systeemlogberichten zijn, biedt een model dat deze slechts classificeert beperkte op zichzelf staande praktische waarde en onthult het weinig over het onderliggende vermogen om systeemlogboeken te interpreteren. Wij stellen dat ernstclassificatie informatiever is wanneer het wordt behandeld als een benchmark voor het onderzoeken van runtime logbegrip, in plaats van als een eindtaak. Met real-world journalctl-gegevens van Linux-productieservers evalueren wij negen small language models (SLM's) en small reasoning language models (SRLM's) onder zero-shot, few-shot en retrieval-augmented generation (RAG) prompting. De resultaten tonen een sterke stratificatie. Qwen3-4B behaalt de hoogste nauwkeurigheid van 95,64% met RAG, terwijl Gemma3-1B verbetert van 20,25% onder few-shot prompting naar 85,28% met RAG. Opmerkelijk is dat de kleine Qwen3-0.6B een nauwkeurigheid van 88,12% bereikt ondanks zwakke prestaties zonder retrieval. Daarentegen verslechteren verschillende SRLM's, waaronder Qwen3-1.7B en DeepSeek-R1-Distill-Qwen-1.5B, aanzienlijk wanneer ze worden gecombineerd met RAG. Efficiëntiemetingen onderscheiden de modellen verder: de meeste Gemma- en Llama-varianten voltooien de inferentie in minder dan 1,2 seconde per log, terwijl Phi-4-Mini-Reasoning meer dan 228 seconden per log overschrijdt bij een nauwkeurigheid van <10%. Deze bevindingen suggereren dat (1) architectonisch ontwerp, (2) trainingsdoelstellingen en (3) het vermogen om opgehaalde context te integreren onder strikte uitvoerbeperkingen gezamenlijk de prestaties bepalen. Door de nadruk te leggen op kleine, inzetbare modellen, sluit deze benchmark aan bij de real-time vereisten van digital twin (DT)-systemen en toont het dat ernstclassificatie dient als een lens voor het evalueren van modelcompetentie en real-time inzetbaarheid, met implicaties voor root cause analysis (RCA) en bredere DT-integratie.
Deterministische inferentie is een geruststellend ideaal in klassieke software: hetzelfde programma met dezelfde invoer zou altijd dezelfde uitvoer moeten produceren. Nu grote taalmodellen in praktijk worden ingezet, is dit ideaal in zijn geheel overgenomen in inferentiestacks. Recent werk van het Thinking Machines Lab presenteert een gedetailleerde analyse van non-determinisme in LLM-inferentie, en toont aan hoe batch-invariante kernels en deterministische aandacht bitwise identieke uitvoer kunnen afdwingen, waarbij deterministische inferentie wordt gepositioneerd als een voorwaarde voor reproduceerbaarheid en betrouwbaarheid in bedrijfsomgevingen. In dit paper nemen we het tegenovergestelde standpunt in. Wij beargumenteren dat voor LLM's deterministische inferentie doodt. Het doodt het vermogen om onzekerheid te modelleren, onderdrukt emergentievermogen, reduceert redeneren tot een enkele broze route en verzwakt veiligheidsafstemming door staartrisico's te verbergen. LLM's implementeren conditionele verdelingen over uitvoeren, geen vaste functies. Het samenpersen van deze verdelingen tot één canonieke voltooiing kan geruststellend lijken, maar het verbergt systematisch eigenschappen die centraal staan in kunstmatige cognitie. Wij pleiten in plaats daarvan voor Stochastic CHAOS, waarbij distributionele variabiliteit wordt behandeld als een signaal dat gemeten en gecontroleerd moet worden. Empirisch tonen we aan dat deterministische inferentie systematisch misleidend is. Evaluatie met een enkel deterministisch monster onderschat zowel capaciteit als kwetsbaarheid, en maskeert faalkans onder parafrases en ruis. Fasovergangen geassocieerd met emergentievermogen verdwijnen bij gretige decodering. Redeneren met meerdere paden degradeert wanneer het wordt geforceerd op deterministische backbones, wat de nauwkeurigheid en diagnostische inzichten vermindert. Ten slotte onderschat deterministische evaluatie veiligheidsrisico's door zeldzame maar gevaarlijke gedragingen te verbergen die alleen verschijnen bij evaluatie met meerdere monsters.
Multimodale grote taalmodellen (MLLM's) vertonen sterke algemene mogelijkheden, maar presteren nog steeds ondermaats bij fijnmazige visuele classificatie (FGVC), een kernperceptietaak die subtiele visuele discriminatie vereist en cruciaal is voor veel real-world toepassingen. Een veelgebruikte strategie om prestaties op uitdagende taken zoals wiskunde en coderen te verbeteren, is Chain-of-Thought (CoT) redenering. Eerdere studies hebben echter gerapporteerd dat CoT de prestaties op visuele perceptietaken juist kan schaden. Deze onderzoeken bekeken het probleem echter vanuit relatief smalle invalshoeken en lieten de vraag waarom CoT perceptie-zware prestaties verslechtert onbeantwoord. Wij onderzoeken de rol van CoT in FGVC systematisch opnieuw, door de lens van zero-shot evaluatie en meerdere trainingsparadigma's. In deze settings leggen we een centrale paradox bloot: de prestatievermindering veroorzaakt door CoT wordt grotendeels gedreven door de redeneerlengte, waarbij langere tekstuele redenering consistent tot lagere classificatienauwkeurigheid leidt. Wij duiden dit fenomeen aan als de "Kost van Denken". Voortbouwend op deze bevinding doen we twee belangrijke bijdragen: (1) \alg, een eenvoudige en algemene plug-and-play normalisatiemethode voor multi-reward optimalisatie die heterogene beloningssignalen in evenwicht brengt, en (2) ReFine-RFT, een raamwerk dat ensemble-beloningen combineert met \alg om de redeneerlengte te beperken en tegelijkertijd dichte, op nauwkeurigheid gerichte feedback te geven. Uitgebreide experimenten demonstreren de effectiviteit van onze bevindingen en het voorgestelde ReFine-RFT, waarbij state-of-the-art prestaties worden behaald op FGVC benchmarks. Code en modellen zijn beschikbaar op https://github.com/jiezhu23/ReFine-RFT{Project Link}.
Onbemande luchtvaartuigen (UAV's) worden steeds vaker ingezet in de directe nabijheid van mensen voor toepassingen zoals pakketbezorging, verkeersmonitoring, rampenbestrijding en inspecties van infrastructuur. Het waarborgen van een veilige en betrouwbare werking in deze door mensen bevolkte omgevingen vereist een accurate perceptie van menselijke houdingen en handelingen vanuit een luchtperspectief. Dit perspectief stelt bestaande methoden voor uitdagingen door lage resolutie, steile kijkhoeken en (zelf-)occlusie, vooral als de toepassing realtime uitvoerbare modellen vereist. Wij trainen en implementeren FlyPose, een lichtgewicht top-down pipeline voor schatting van menselijke houdingen vanuit luchtbeelden. Door training op meerdere datasets behalen we een gemiddelde verbetering van 6.8 mAP in persoonsdetectie op de testsets van Manipal-UAV, VisDrone, HIT-UAV en onze eigen aangepaste dataset. Voor 2D-schatting van menselijke houdingen melden we een verbetering van 16.3 mAP op de uitdagende UAV-Human dataset. FlyPose werkt met een inferentielatentie van ongeveer 20 milliseconden, inclusief preprocessing, op een Jetson Orin AGX Developer Kit en wordt aan boord geïmplementeerd van een quadrotor-UAV tijdens vluchtexperimenten. Wij publiceren tevens FlyPose-104, een kleine maar uitdagende dataset voor schatting van menselijke houdingen vanuit de lucht, die handmatige annotaties bevat vanuit moeilijke luchtperspectieven: https://github.com/farooqhassaan/FlyPose.
Ruimtelijke intelligentie verwijst naar het vermogen om objecten en hun relaties in driedimensionale omgevingen waar te nemen, te begrijpen en te beschrijven, wat een basis vormt voor belichaamde perceptie en scènebegrip. 3D-beschrijving (captioning) beoogt 3D-scènes in natuurlijke taal te beschrijven; dit blijft echter een uitdaging vanwege de schaarste en onregelmatigheid van pointclouds en, cruciaal, de zwakke verankering en beperkte out-of-distribution (OOD)-generalizatie van bestaande beschrijvers over sterk uiteenlopende omgevingen, inclusief binnen- en buitenomgevingen. Om deze uitdaging aan te pakken, stellen we 3D CoCa v2 voor, een generaliseerbaar 3D-beschrijvingsraamwerk dat contrastief visie-taalleren verenigt met 3D-beschrijvingsgeneratie en de robuustheid verder verbetert via test-time search (TTS) zonder de parameters van de beschrijver bij te werken. 3D CoCa v2 bouwt voort op een bevroren CLIP-gebaseerde semantische prior, een ruimtelijk bewuste 3D-scène-encoder voor geometrie, en een multimodale decoder die gezamenlijk wordt geoptimaliseerd met contrastieve en beschrijvingsdoelstellingen, zonder externe detectoren of handmatige voorstellen. Tijdens inferentie produceert TTS diverse beschrijvingskandidaten en voert het een beloningsgeleide selectie uit met behulp van een compacte scènesamenvatting. Experimenten tonen verbeteringen ten opzichte van 3D CoCa van +1.50 CIDEr@0.5IoU op ScanRefer en +1.61 CIDEr@0.5IoU op Nr3D, en +3.8 CIDEr@0.25 in zero-shot OOD-evaluatie op TOD3Cap. Code wordt vrijgegeven op https://github.com/AIGeeksGroup/3DCoCav2.
Direct Preference Optimization (DPO) is een principieel, schaalbaar alternatief voor RLHF (Reinforcement Learning from Human Feedback) voor het afstemmen van grote taalmodel(len) op basis van gepaarde voorkeuren. Desalniettemin blijft de interne geometrische voetafdruk ervan onderbeschreven, wat audits, vergelijkingen tussen checkpoints en voorspelling van falen beperkt. Wij introduceren SPINAL (Scaling-law and Preference Integration in Neural Alignment Layers), een diagnostisch hulpmiddel dat meet hoe afstemming representaties over de diepte heen hervormt door gelokaliseerde structurele verandering laag voor laag te traceren. Over verschillende modelfamilies heen produceert DPO een laaggewijs kalibratie-effect dat geconcentreerd is in de laatste decoderblokken (vaak lagen 21-30), waar voorkeursgradiënten de grootste directe invloed hebben op de next-token-verdeling. SPINAL codeert elk checkpoint als een dieptespoor over (laagindex, contractiescore, transportscore). De contractiescore vat samen hoe snel de staart van het spectrum van een laag vervalt (hoe snel kleine modi verdwijnen); hogere waarden duiden op een sterkere samentrekking in minder effectieve richtingen. De transportscore vat samen hoeveel de tokenverdeling verschuift tussen aangrenzende lagen met behulp van een begrensde overlapmaat; lagere waarden duiden op kortere, vloeiendere stappen door de representatieruimte. Afgestemde checkpoints vertonen een toename in contractie in de late lagen en een soepele afname in transport, consistent met een aangescherpte en gestabiliseerde policy mass, terwijl niet-afgestemde modellen dieptepaden met een hogere kromming, meer entropie en geometrische incoherentie volgen. Over het algemeen is afstemming geometrisch gelokaliseerd: de laatste lagen coderen de dominante, door voorkeur geïnduceerde correcties. SPINAL zet deze lokalisatie om in een praktisch auditsignaal, dat kwantificeert waar de afstemming zich concentreert, hoe sterk deze zich manifesteert en wanneer deze tijdens de training begint te destabiliseren.
Niet-compositionele uitdrukkingen (zoals idioom, spreekwoorden en metaforen) vormen aanzienlijke uitdagingen voor neurale machinevertalingssystemen omdat hun betekenis niet kan worden afgeleid uit afzonderlijke woorden. Deze uitdrukkingen bevatten een rijke, culturele lading en hebben zowel figuurlijke als letterlijke betekenissen, wat een accurate vertaling bemoeilijkt. Aangezien modellen redelijk goed zijn in het vertalen van compositionele tekst, onderzoeken we GRPO-stijl fine-tuning met Machine Translation Quality Estimation (MTQE)-modellen als beloningsfuncties om modellen te trainen idioom beter te vertalen. Met behulp van Chinese en Hindi-idioomdatasets constateren we dat de idioomvertaalvaardigheid met ~14 punten verbetert, de algemene, niet-idiomatische vertaling impliciet met ~8 punten verbetert, en de cross-linguale vertaalvaardigheid (getraind op één taal, geëvalueerd op een andere) met ~6 punten verbetert. Kortom, ons werk kwantificeert de niet-compositionele vertaalkloof en biedt inzichten voor de ontwikkeling van LLM's met een beter intercultureel en figuurlijk taalbegrip.
Het evalueren van taalmodellen (LM's) in gespecialiseerde, hoogrisicodomeinen zoals financiën blijft een grote uitdaging vanwege het gebrek aan open, hoogwaardige en domeinspecifieke datasets. Bestaande algemene benchmarks bieden brede dekking, maar missen de diepgang en domeintrouw die nodig zijn om de capaciteiten van LM's voor real-world financieel redeneren te beoordelen, wat zowel conceptueel begrip als kwantitatieve nauwkeurigheid vereist. Om deze kloof te dichten, introduceren we FinForge, een schaalbare, semi-synthetische pijplijn voor het construeren van financiële evaluatiebenchmarks door een hybride aanpak van expert-gestuurde datacuratie en gecontroleerde, op LM gebaseerde synthese. FinForge combineert manuele en programmatische corpusconstructie vanuit gezaghebbende financiële bronnen met gestructureerde vraaggeneratie en validatie met behulp van Gemini 2.5 Flash. Om de effectiviteit van de pijplijn aan te tonen, produceren we FinForge-5k, een momentopname-benchmark bestaande uit meer dan 5.000 door mensen gevalideerde vraag-antwoordparen verdeeld over 11 financiële subdomeinen, afgeleid van een gecureerd corpus van 100.000 geverifieerde documenten met een totale omvang van 143 miljoen tokens. Evaluatie van state-of-the-art open-source en closed-source modellen op FinForge-5k onthult significante verschillen in financieel redeneervermogen, waarbij toonaangevende modellen nauwkeurigheidsniveaus van bijna 80% bereiken. Deze bevindingen onderstrepen de bruikbaarheid van het framework voor het diagnosticeren van huidige modelbeperkingen en het sturen van toekomstige verbeteringen in financiële domeincompetentie. Alle code en data zijn beschikbaar op https://github.com/gtfintechlab/FinForge.