Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Dit rapport beschrijft ARIS (Auto-Research-in-sleep), een open-source onderzoeksraamwerk voor autonoom onderzoek, inclusief de architectuur, assurance-mechanismen en eerste ervaringen met implementatie. De prestaties van agentsystemen gebouwd op grote taalmmodellen (LLM's) zijn afhankelijk van zowel de modelgewichten als het raamwerk eromheen, dat bepaalt welke informatie wordt opgeslagen, opgehaald en aan het model wordt gepresenteerd. Voor onderzoeksworkflows met een lange tijdshorizon is de belangrijkste faalmodus niet een zichtbare storing, maar een plausibele, niet-onderbouwde succesvolle uitkomst: een langlopende agent kan claims produceren waarvan de ondersteunende bewijzen onvolledig zijn, verkeerd gerapporteerd, of stilletjes overgenomen zijn uit de formulering van de uitvoerder. Daarom presenteren wij ARIS als een onderzoeksraamwerk dat machine learning-onderzoeksworkflows coördineert via cross-model 'adversarial collaboration' als standaardconfiguratie: een uitvoerend model drijft de vooruitgang aan, terwijl een revisor van een ander modelfamilie wordt aanbevolen om tussentijdse resultaten te beoordelen en revisies te verzoeken. ARIS kent drie architectuurlagen. De uitvoeringslaag biedt meer dan 65 herbruikbare, in Markdown gedefinieerde vaardigheden, modelintegraties via MCP, een persistente onderzoekswiki voor iteratief hergebruik van eerdere bevindingen, en deterministische generatie van figuren. De orchestratielaag coördineert vijf end-to-end workflows met instelbare inspanningsniveaus en configureerbare routering naar revisormodellen. De assurance-laag omvat een drietrapsproces voor het controleren of experimentele claims worden ondersteund door bewijs: integriteitsverificatie, koppeling van resultaten aan claims, en claimauditing die uitspraken in het manuscript cross-checkt met het claimregister en ruwe bewijsstukken, alsmede een vijfstappen pijplijn voor wetenschappelijke redactie, controles van wiskundige bewijzen en visuele inspectie van de gerenderde PDF. Een prototype van een zelfverbeteringslus registreert onderzoekssporen en stelt verbeteringen aan het raamwerk voor die pas worden overgenomen na goedkeuring door de revisor.
Diepgaande zoekcapaciteiten zijn een onmisbare competentie geworden voor geavanceerde Large Language Model (LLM)-agenten, maar hun ontwikkeling wordt nog steeds gedomineerd door industriële giganten. Het typische industrierecept omvat een zeer resource-intensieve pijplijn die bestaat uit pre-training, voortgezette pre-training (CPT), supervised fine-tuning (SFT) en reinforcement learning (RL). In dit rapport tonen we aan dat, wanneer gevoed met informatieve en hoogcomplexe trajecten, een eenvoudige SFT-aanpak verrassend krachtig kan zijn voor het trainen van geavanceerde zoekagenten. Door drie eenvoudige datasynthesemodificaties te introduceren - het vergroten van de knowledge graph-grootte voor rijkere exploratie, het uitbreiden van de toolsetgrootte voor bredere functionaliteit en strikte filtering op weinig stappen - vestigen we een sterkere basislijn. Getraind op slechts 10.6k datapunten behaalt onze OpenSeeker-v2 state-of-the-art prestaties op 4 benchmarks (30B-grote agenten met ReAct-paradigma): 46.0% op BrowseComp, 58.1% op BrowseComp-ZH, 34.6% op Humanity's Last Exam en 78.0% op xbench, waarmee het zelfs Tongyi DeepResearch overtreft dat getraind is met de zware CPT+SFT+RL-pijplijn (respectievelijk 43.4%, 46.7%, 32.9% en 75.0%). Opmerkelijk is dat OpenSeeker-v2 de eerste state-of-the-art zoekagent binnen zijn modelschaal en paradigma vertegenwoordigt die door een puur academisch team is ontwikkeld met uitsluitend SFT. We zijn verheugd de OpenSeeker-v2 modelgewichten open source te maken en onze eenvoudige maar effectieve bevindingen te delen om onderzoek naar geavanceerde zoekagenten beter toegankelijk te maken voor de gemeenschap.
Het standaardrecept voor nabehandeling van grote multimodale modellen (LMM's) omvat supervised fine-tuning (SFT) op geselecteerde demonstraties, gevolgd door reinforcement learning met verifieerbare beloningen (RLVR). SFT introduceert echter een distributionele drift die noch de oorspronkelijke capaciteiten van het model behoudt, noch getrouw aansluit bij de supervisiedistributie. Dit probleem wordt verder versterkt bij multimodaal redeneren, waar perceptiefouten en redeneerfouten verschillende driftpatronen volgen die zich opstapelen tijdens daaropvolgende RL. Wij introduceren PRISM, een pijplijn met drie fasen die deze drift vermindert door een expliciete distributie-uitlijningsfase in te voegen tussen SFT en RLVR. Voortbouwend op het principe van on-policy distillation (OPD), benadert PRISM uitlijning als een black-box, response-level adversariaal spel tussen het beleid en een Mixture-of-Experts (MoE) discriminator met toegewijde perceptie- en redeneerexperts. Dit levert ontvlochte correctieve signalen op die het beleid sturen naar de supervisiedistributie zonder toegang tot teacher logits. Terwijl 1,26M openbare demonstraties volstaan voor brede SFT-initialisatie, vereist distributie-uitlijning supervisie van hogere kwaliteit; daarom hebben wij 113K aanvullende demonstraties samengesteld met Gemini 3 Flash, met gedetailleerde visuele verankering en stapsgewijs redeneren over de moeilijkste onopgeloste problemen. Experimenten met Qwen3-VL tonen aan dat PRISM de downstream RLVR-prestaties consistent verbetert bij meerdere RL-algoritmen (GRPO, DAPO, GSPO) en diverse multimodale benchmarks, met een gemiddelde nauwkeurigheidsverbetering van +4,4 en +6,0 punten ten opzichte van de SFT-naar-RLVR-baseline voor respectievelijk 4B en 8B. Onze code, data en modelcheckpoints zijn openbaar beschikbaar op https://github.com/XIAO4579/PRISM.
Multimodale Large Language Models (MLLM's) hebben een sterk visueel begrip en redeneervermogen op beeldniveau aangetoond, maar hun perceptie op pixelniveau voor zowel afbeeldingen als video's blijft beperkt. Foundation-segmentatiemodellen zoals de SAM-reeks produceren hoogwaardige maskers, maar zijn afhankelijk van visuele prompts op laag niveau en kunnen complexe conversatie-instructies niet intrinsiek interpreteren. Bestaande segmentatie-MLLM's verkleinen deze kloof, maar zijn meestal gespecialiseerd voor óf afbeeldingen óf video's en ondersteunen zelden zowel tekstuele als visuele prompts in één interface. Wij introduceren X2SAM, een verenigde segmentatie-MLLM die any-segmentation-mogelijkheden uitbreidt van afbeeldingen naar video's. Gegeven conversatie-instructies en visuele prompts, koppelt X2SAM een LLM aan een Maskergeheugenmodule die geleide visuele kenmerken opslaat voor temporeel consistente videomaskergeneratie. Dezelfde formulering ondersteunt generieke, open-vocabulary, referring, reasoning, grounded conversation generation, interactieve en visueel verankerde segmentatie voor zowel beeld- als video-invoer. Wij introduceren verder de Video Visual Grounded (V-VGD) segmentatiebenchmark, die evalueert of een model objecttracks in video's kan segmenteren op basis van interactieve visuele prompts. Met een verenigde gezamenlijke trainingsstrategie over heterogene beeld- en videodatasets levert X2SAM sterke videosegmentatieprestaties, blijft het concurrerend op beeldsegmentatiebenchmarks en behoudt het het algemene beeld- en video-chatvermogen.
Recente vooruitgang in agentgestuurde systemen met orkestratieframeworks die meerdere agents coördineren met geheugen, vaardigheden en gereedschapsgebruik hebben opmerkelijke successen geboekt in complexe redeneertaken. Het onderliggende mechanisme dat de prestaties werkelijk drijft, blijft echter verborgen achter ingewikkelde systeemontwerpen. In dit artikel stellen we HeavySkill voor, een perspectief dat zwaar denken niet alleen ziet als een minimale uitvoeringseenheid in orkestratiesystemen, maar ook als een innerlijke vaardigheid die geïnternaliseerd is in de parameters van het model en die de orkestrator drijft om complexe taken op te lossen. We identificeren deze vaardigheid als een tweefasenpijplijn, namelijk parallel redeneren gevolgd door samenvatting, die onder elk agentgestuurd systeem kan opereren. We presenteren een systematische empirische studie van HeavySkill in diverse domeinen. Onze resultaten tonen aan dat deze innerlijke vaardigheid consistent traditionele Best-of-N (BoN)-strategieën overtreffen; opmerkelijk genoeg kunnen sterkere LLM's zelfs de prestaties van Pass@N benaderen. Cruciaal is dat we aantonen dat de diepte en breedte van zwaar denken, als een leerbare vaardigheid, verder opgeschaald kunnen worden via reinforcement learning, wat een veelbelovend pad biedt naar zelf-evoluerende LLM's die complex redeneren internaliseren zonder te leunen op broze orkestratielagen.
De Video Variële Auto-encoder (VAE) maakt latent videogeneratief modelleren mogelijk door de visuele wereld af te beelden op compacte spatiotemporele latente ruimtes, wat de trainings efficiëntie en stabiliteit verbetert. Hoewel bestaande video-VAE's een lovenswaardige reconstructiekwaliteit bereiken, leidt voortgezette optimalisatie van reconstructie niet noodzakelijkerwijs tot verbeterde generatieve prestaties. Het verbeteren van de diffundeerbaarheid van videolatenten blijft een kritieke en onopgeloste uitdaging. In dit werk onderzoeken we, geïnspireerd door principes van predictief wereldmodelleren, het potentieel van predictief leren om het videogeneratieve modelleren te verbeteren. Hiertoe introduceren we een eenvoudig en effectief predictief reconstructiedoel dat predictief leren verenigt met videoreconstructie. Specifiek negeren we willekeurig toekomstige frames en encoderen we alleen gedeeltelijke waarnemingen uit het verleden, terwijl we de decoder trainen om zowel de waargenomen frames te reconstrueren als toekomstige frames te voorspellen. Dit ontwerp moedigt de latente ruimte aan om temporeel voorspellende structuren te encoderen en een coherenter begrip van videodynamiek op te bouwen, waardoor de generatiekwaliteit verbetert. Ons model, genaamd Predictieve Video VAE (PV-VAE), behaalt superieure prestaties in videogeneratie, met 52% snellere convergentie en een verbetering van 34.42 FVD ten opzichte van de Wan2.2 VAE op UCF101. Verder tonen uitgebreide analyses aan dat PV-VAE niet alleen gunstige schaalbaarheid vertoont, waarbij de generatieve prestaties verbeteren naarmate de VAE-training vordert, maar ook consistente winsten oplevert in downstream videobegrip, wat wijst op een latente ruimte die temporele coherentie en bewegingspriors effectief vastlegt.
Taalmodelen blinken uit in diagnostische beoordelingen van gecureerde medische casestudies en vignetten, waarbij ze even goed of beter presteren dan klinische professionals. Bestaande studies richten zich echter op complexe scenario's met rijke context, waardoor het moeilijk is conclusies te trekken over hoe deze systemen presteren voor patiënten die symptomen melden in het dagelijks leven. Wij hebben SymptomAI, een reeks conversationele AI-agenten voor end-to-end patiëntinterviewing en differentiële diagnose (DDx), via de Fitbit-app ingezet in een studie waarbij deelnemers (N=13.917) willekeurig werden toegewezen om met vijf AI-agenten te interacteren. Dit corpus legt diverse communicatie en een realistische verdeling van ziekten vast vanuit een populatie in de echte wereld. Een subset van 1.228 deelnemers meldde een door een clinicus gestelde diagnose, en 517 hiervan werden verder geëvalueerd door een panel van clinici tijdens meer dan 250 uur aan annotatiewerk. SymptomAI DDx waren significant nauwkeuriger (OR = 2,47, p < 0,001) dan die van onafhankelijke clinici bij dezelfde dialoog in een geblindeerde, gerandomiseerde vergelijking. Bovendien presteren agentstrategieën die een specifiek symptomeninterview afnemen om aanvullende symptoominformatie te verkrijgen voordat een diagnose wordt gesteld, aanzienlijk beter dan baseline, door de gebruiker geleide gesprekken (p < 0,001). Een aanvullende analyse van 1.509 gesprekken vanuit een panel van de algemene Amerikaanse populatie bevestigde dat deze resultaten generaliseerbaar zijn buiten gebruikers van wearables. Wij gebruikten SymptomAI-diagnoses als labels voor alle 13.917 deelnemers om meer dan 500.000 dagen aan wearable-metrics te analyseren across bijna 400 unieke aandoeningen. Wij identificeerden sterke associaties tussen acute infecties en fysiologische verschuivingen (bijv. OR > 7 voor influenza). Hoewel beperkt door zelfgerapporteerde grondwaarheid, tonen deze resultaten de voordelen aan van een specifiek en volledig symptomeninterview in vergelijking met een door de gebruiker geleide symptomenbespreking, wat de standaardinstelling is voor de meeste consumenten-LLM's.
Gaussiaans Splatten toont indrukwekkende resultaten in multi-viewreconstructie op basis van expliciete Gaussiaanse representaties. De huidige Gaussiaanse primitieven hebben echter slechts een enkele view-afhankelijke kleur en een doorzichtigheid om de verschijning en geometrie van de scène weer te geven, wat resulteert in een niet-compacte representatie. In dit artikel introduceren we een nieuwe methode genaamd SVGS (Spatially Varying Gaussian Splatting) die ruimtelijk variërende kleuren en doorzichtigheid binnen een enkel Gaussiaans primitief gebruikt om de representatiecapaciteit te verbeteren. We hebben bilineaire interpolatie, beweegbare kernels en kleine neurale netwerken geïmplementeerd als ruimtelijk variërende functies. SVGS gebruikt 2D Gaussiaanse surfels als primitieven, wat de synthese van nieuwe viewpoints aanzienlijk verbetert en tegelijkertijd hoogwaardige geometrische reconstructie behoudt. Deze aanpak is bijzonder effectief in praktische toepassingen, aangezien scènes die complexe texturen combineren met relatief eenvoudige geometrie vaak voorkomen in realistische omgevingen. Kwantitatieve en kwalitatieve experimentele resultaten tonen aan dat alle drie de functies de baseline overtreffen, waarbij de beste beweegbare kernels superieure prestaties leveren voor synthese van nieuwe viewpoints op meerdere datasets, wat het sterke potentieel van ruimtelijk variërende functies benadrukt. Projectpagina: https://ruixu.me/html/SuperGaussians/index.html
Octrooibeoordeling is een complex, meerfasig proces dat zowel technische expertise als juridische redeneervaardigheid vereist, en wordt in toenemende mate uitgedaagd door stijgende aanvraagvolumes. Bestaande benchmarks beschouwen octrooibeoordeling voornamelijk als discriminerende classificatie of statische extractie, waardoor de inherent interactieve en iteratieve aard ervan niet wordt vastgelegd, vergelijkbaar met het collegiale toetsings- en weerleggingsproces in academische publicaties. In dit artikel introduceren wij PatRe, de eerste benchmark die de volledige levenscyclus van octrooibeoordeling modelleert, inclusief het genereren van Office Actions en de weerlegging door de aanvrager. PatRe omvat 480 cases uit de praktijk en ondersteunt zowel oracle- als retrieval-gesimuleerde evaluatieopzetten. Onze benchmark herformuleert octrooibeoordeling als een dynamisch, meerledig proces van motivering en reactie. Uitgebreide experimenten met diverse LLM's onthullen cruciale inzichten in modelprestaties, waaronder verschillen tussen propriëtaire en open-source modellen, evenals taakasymmetrieën tussen de analyse door de examinator en de weerlegging door de aanvrager. Deze bevindingen benadrukken zowel het potentieel als de huidige beperkingen van LLM's bij het modelleren van complexe, real-world juridische redenering en technische nieuwheidsbeoordeling in octrooibeoordeling. Wij geven onze code en dataset vrij om toekomstig onderzoek naar modellering van octrooibeoordeling te faciliteren.
Naarmate taalmodelagenten (LLM-agents) evolueren van geïsoleerde toolgebruikers naar gecoördineerde teams, moet reinforcement learning (RL) niet alleen individuele acties optimaliseren, maar ook hoe werk wordt gespawned, gedelegeerd, gecommuniceerd, geaggregeerd en gestopt. Dit artikel bestudeert RL voor LLM-gebaseerde multi-agent systemen via orchestratietraces: temporele interactiegrafieken waarvan de gebeurtenissen sub-agent spawning, delegatie, communicatie, toolgebruik, return, aggregatie en stopbeslissingen omvatten. Door deze lens identificeren we drie technische assen. Ten eerste omvat reward design acht families, inclusief orchestratiebeloningen voor parallelisme-snelheidswinst, splitscorrectheid en aggregatiekwaliteit. Ten tweede hechten reward- en creditsignalen zich aan acht eenheden die credits of signalen dragen, van token tot team; expliciete contrafeitelijke credit op berichtniveau blijft bijzonder schaars in onze gecureerde pool. Ten derde decomposeert orchestratieleren in vijf subbeslissingen: wanneer te spawnen, aan wie te delegeren, hoe te communiceren, hoe te aggregeren en wanneer te stoppen. In onze gecureerde pool per 4 mei 2026 vonden we geen expliciete RL-trainingsmethode voor de stopbeslissing. We verbinden academische methoden met publiek industriëel bewijs van Kimi Agent Swarm, OpenAI Codex en Anthropic Claude Code. De resulterende schaalkloof is een kloof tussen publiek gerapporteerde implementatie-enveloppen en open academische evaluatieregimes, geen onafhankelijke verificatie van industriële trainingssporen. We geven de artefacten vrij op https://github.com/xxzcc/awesome-llm-mas-rl, inclusief een getagde paperpool van 84 entries, een uitsluitingslogboek met 32 records, gescripte corpusstatistieken en een minimaal JSON-schema voor replaybare orchestratietraces.
In de meeste real-world beeld-naar-beeld (I2I) scenario's richten bestaande evaluatiemethoden zich voornamelijk op het opvolgen van instructies en de perceptuele kwaliteit of esthetiek van de gegenereerde beelden. Echter, ze slagen er grotendeels niet in om te beoordelen of de uitvoerafbeelding de semantische correspondentie en ruimtelijke structuur van de invoerafbeelding behoudt. Om deze beperking aan te pakken, stellen wij StableI2I voor, een uniform en dynamisch evaluatieraamwerk dat expliciet de inhoudstrouw en pre-post consistentie meet over een breed scala aan I2I-taken, zonder referentiebeelden nodig te hebben, inclusief beeldbewerking en beeldrestauratie. Daarnaast construeren wij StableI2I-Bench, een benchmark die is ontworpen om de nauwkeurigheid van MLLM's voor dergelijke taken voor het beoordelen van trouw en consistentie systematisch te evalueren. Uitgebreide experimentele resultaten tonen aan dat StableI2I accurate, fijnmazige en interpreteerbare evaluaties van inhoudstrouw en consistentie biedt, met sterke correlaties met subjectieve menselijke beoordelingen. Ons raamwerk dient als een praktisch en betrouwbaar evaluatie-instrument voor het diagnosticeren van inhoudsconsistentie en het benchmarken van modelprestaties in real-world I2I-systemen.
Wij presenteren StateSMix, een volledig zelfstandige verliesloze compressor die een online-getraind State Space Model (SSM) in Mamba-stijl koppelt aan sparse n-gram context mixing en arithmetic coding. Het model wordt vanaf nul geïnitialiseerd en token-voor-token getraind op het bestand dat gecomprimeerd wordt, waarbij het geen vooraf getrainde gewichten, geen GPU en geen externe afhankelijkheden vereist. Het SSM (DM=32, NL=2, ongeveer 120K actieve parameters per bestand) verschaft een continu bijgewerkte kansschatting over BPE-tokens, terwijl negen sparse n-gram hashtabellen (bigram tot 32-gram, elk 16M slots) exacte lokale en lange-afstandspatroonherkenning toevoegen via een softmax-invariant logit-biasmechanisme dat alleen tokens met een niet-nul telling bijwerkt. Een entropie-adaptief schaalmechanisme moduleert de n-gram bijdrage op basis van het voorspellende vertrouwen van het SSM, om overcorrectie te voorkomen wanneer het neurale model reeds goed gekalibreerd is. Op de standaard enwik8 benchmark behaalt StateSMix 2,123 bpb op 1 MB, 2,149 bpb op 3 MB en 2,162 bpb op 10 MB, waarmee het xz -9e (LZMA2) respectievelijk met 8,7%, 5,4% en 0,7% verslaat. Ablatie-experimenten bevestigen het SSM als de dominante compressiemotor: het alleen al zorgt voor een 46,6% kleinere bestandsgrootte vergeleken met een frequentietelling-basislijn en verslaat xz zonder enige n-gram component, terwijl de n-gram tabellen een complementaire winst van 4,1% bieden door exacte contextmemorisatie. OpenMP-parallelisatie van de trainingslus levert een 1,9x snelheidswinst op met 4 kernen. Het systeem is geïmplementeerd in pure C met AVX2 SIMD en verwerkt ongeveer 2.000 tokens per seconde op standaard x86-64 hardware.
Hoewel multimodale leer de puntenwolkcompletie heeft verbeterd, blijven de theoretische mechanismen onduidelijk. Recente werken schrijven het succes toe aan de verbinding tussen modaliteiten, maar wij constateren dat standaard harde projectie deze verbinding verbreekt: het projecteren van een schaarse puntenwolk op het beeldvlak resulteert in een extreem schaarse drager, wat de propagatie van visuele priorissen belemmert – een foutmodus die wij Cross-Modale Entropie-Instorting noemen. Om deze praktische beperking aan te pakken, stellen wij SplAttN voor, dat harde projectie vervangt door Differentieerbaar Gaussisch Uitstrijken om een dichte, continue representatie in het beeldvlak te produceren. Door projectie te herformuleren als continue dichtheidschatting vermijdt SplAttN ingestorte schaarse dragers, vergemakkelijkt het de gradientstroom en verbetert het de leerbaarheid van cross-modale verbindingen. Uitgebreide experimenten tonen aan dat SplAttN state-of-the-art prestaties behaalt op PCN en ShapeNet-55/34. Cruciaal is dat wij de real-world KITTI-benchmark gebruiken als stresstest voor multimodale afhankelijkheid. Tegenfeitelijke evaluatie toont aan dat, terwijl baseline-methoden degenereren tot unimodale sjabloonzoekers die ongevoelig zijn voor visuele verwijdering, SplAttN een robuuste afhankelijkheid van visuele aanwijzingen behoudt. Dit valideert dat onze methode een effectieve cross-modale verbinding tot stand brengt. Code is beschikbaar op https://github.com/zay002/SplAttN.
Workspace learning vereist dat AI-agenten expliciete en impliciete afhankelijkheden tussen heterogene bestanden in de werkruimte van een werker kunnen identificeren, overdenken, benutten en bijwerken, zodat zij zowel routinematige als geavanceerde taken effectief kunnen voltooien. Ondanks het belang ervan, evalueren bestaande benchmarks agenten voornamelijk op vooraf gespecificeerde of gesynthetiseerde bestanden met beperkte real-world afhankelijkheden, waardoor evaluatie op workspace-niveau onderbelicht blijft. Daarom introduceren wij Workspace-Bench, een benchmark voor het evalueren van AI-agenten op Workspace Learning met grootschalige bestandsafhankelijkheden. Wij construeren realistische werkruimten met 5 werkprofielen, 74 bestandstypen, 20.476 bestanden (tot 20 GB) en stellen 388 taken samen, elk met een eigen afhankelijkheidsgraaf van bestanden, geëvalueerd aan de hand van 7.399 beoordelingscriteria die cross-file retrieval, contextueel redeneren en adaptieve besluitvorming vereisen. Verder bieden wij Workspace-Bench-Lite, een subset van 100 taken die de verdeling van de benchmark behoudt, maar de evaluatiekosten met ongeveer 70% verlaagt. Wij evalueren 4 populaire agent-harnesses en 7 foundation-modellen. Experimentele resultaten tonen aan dat huidige agenten nog ver verwijderd zijn van betrouwbaar workspace learning, waarbij de beste slechts 68,7% haalt, aanzienlijk lager dan het menselijke resultaat van 80,7%, en de gemiddelde prestaties van alle agenten slechts 47,4% bedraagt.
Niche-domein Indic ASR — cijferreeksen, valutabedragen, adressen, merknamen, Engels/Indiase codemix — wordt slecht bediend door zowel open-source SOTA- als commerciële systemen. Op een gesynthetiseerde, entiteitsrijke Telugu-testset (afgehouden door het synthesysysteem) behaalt vasista22/whisper-telugu-large-v2 (open SOTA) een Entity-Hit-Rate (EHR) van 0,027 en Deepgram Nova-3 (commercieel) 0,16. Wij dichten dit gat met een zelfvoorzienende TTS<->STT-vliegwiel: een open-source Indic TTS-pipeline synthetiseert ~22.000 entiteitsrijke Indic-Engels code-mix-uitingen tegen <$50 marginale kosten, en een LoRA-finetuning bovenop vasista22 behaalt EHR 0,473 op de afgehouden test (17x boven open SOTA, 3x boven commercieel), met leesproza-regressie begrensd tot +6,6 pp WER op FLEURS-Te. Cross-linguaal: bèta-Hi 0,337 (7x vs vasista22) en bèta-Ta 0,543 (22x vs vasista22, 22x vs Deepgram); op Hindi, waar Deepgram aanzienlijke entiteitendekking heeft, presteert het vliegwiel onder de maat t.o.v. commercieel. Alle drie de bètamodellen blijven onder de vooraf geregistreerde EHR-doelen (0,75 voor Te, 0,65 voor Hi/Ta); wij rapporteren eerlijk. Een native-menselijk-opgenomen sanity check (n=20 Telugu) bevestigt transfer naar echte spraak (bèta-Te EHR 0,516 op native vs 0,473 op synth). Een EDSA-isolatie-ablatie (LoRA enkel op FLEURS-Te) levert EHR 0,020 op op dezelfde afgehouden set, wat ~100% van de winst toeschrijft aan de EDSA-corpus. Wij rapporteren aanvullend een taalconditionele bevinding: vanilla Whisper-large-v3 heeft Telugu-specifiek Script Collapse (SFR 0,46-0,71) dat een per-taal LoRA corrigeert (SFR 0,81-0,97), maar het recept is gecontraïndiceerd voor Hindi en Tamil waar vanilla SFR >= 0,98. Code, afgehouden sets, voorspellingen, EDSA-corpus en entiteitswoordenboeken zijn open-source vrijgegeven.
Wij introduceren Skills-Coach, een nieuw geautomatiseerd raamwerk ontworpen om de zelfontwikkeling van vaardigheden binnen op Large Language Models (LLM) gebaseerde agents aanzienlijk te verbeteren. Skills-Coach pakt de huidige fragmentatie van het vaardigheidsecosysteem aan en verkent de grenzen van vaardigheidsmogelijkheden, waardoor het de uitgebreide competentiedekking mogelijk maakt die essentieel is voor intelligente toepassingen. Het raamwerk bestaat uit vier kernmodules: een Diverse Taakgeneratiemodule die systematisch een uitgebreide testsuite voor diverse vaardigheden creëert; een Lichtgewicht Optimalisatiemodule gericht op het optimaliseren van vaardigheidsprompts en bijbehorende code; een Vergelijkende Uitvoeringsmodule die de uitvoering en evaluatie van zowel originele als geoptimaliseerde vaardigheden vergemakkelijkt; en een Traceerbare Evaluatiemodule die de prestaties rigoureus toetst aan gespecificeerde criteria. Skills-Coach biedt flexibele uitvoeringsopties via zijn virtuele en reële modi. Om de doeltreffendheid te valideren, introduceren wij Skill-X, een uitgebreide benchmarkdataset bestaande uit 48 diverse vaardigheden. Experimentele resultaten tonen aan dat Skills-Coach significante prestatieverbeteringen bereikt in vaardigheidsvermogen over een breed scala aan categorieën, wat het potentieel onderstreept om de ontwikkeling van robuustere en aanpasbaardere LLM-agents te bevorderen.
De snelle vooruitgang van Multimodal Large Language Models (MLLM's) heeft Unmanned Aerial Vehicles (UAV's, drones) uitgerust met uitzonderlijke capaciteiten voor ruimtelijk redeneren, semantisch begrip en complexe besluitvorming, waardoor ze bij uitstek geschikt zijn voor Search and Rescue (SAR)-operaties. Echter wordt bestaand UAV-SAR-onderzoek gedomineerd door traditionele visie- en padplanningsmethoden en ontbreekt een uitgebreide en uniforme benchmark voor embodied agents. Om deze kloof te overbruggen, stellen we allereerst de nieuwe taak van Embodied Search and Rescue (ESAR) voor, waarbij luchtagentschappen autonoom complexe omgevingen moeten verkennen, reddingsaanwijzingen moeten identificeren en de locaties van slachtoffers moeten afleiden om gefundeerde beslissingen te nemen. Daarnaast presenteren we ESARBench, de eerste uitgebreide benchmark die is ontworpen om MLLM-gestuurde UAV-agents te evalueren in zeer realistische SAR-scenario's. Met behulp van Unreal Engine 5 en AirSim construeren we vier hoogwaardige, grootschalige open omgevingen die direct zijn gemodelleerd op basis van real-world Geographic Information System (GIS)-data om fotorealistische landschappen te garanderen. Om daadwerkelijke reddingsoperaties rigoureus te simuleren, integreert onze benchmark dynamische variabelen zoals weersomstandigheden, tijdstip van de dag en stochastische plaatsing van aanwijzingen. Verder creëren we een dataset van 600 taken, gemodelleerd naar echte reddingscasussen, en stellen we een robuuste set evaluatiemetrices voor. We evalueren diverse baselines, variërend van traditionele heuristieken tot geavanceerde op MLLM gebaseerde ObjectNav-agents voor grond en lucht. Experimentele resultaten benadrukken de uitdagingen binnen ESAR en onthullen kritieke knelpunten in ruimtelijk geheugen, aeriale aanpassing en de afweging tussen zoekefficiëntie en vluchtveiligheid. We hopen dat ESARBench zal dienen als een waardevolle bron om onderzoek in het domein van Embodied Search and Rescue vooruit te helpen. Broncode en projectpagina: https://4amgodvzx.github.io/ESAR.github.io.
Het bereiken van Artificiële Algemene Intelligentie (AGI) vereist agents die adaptief leren en interacteren, waarbij interactieve wereldmodellen schaalbare omgevingen bieden voor perceptie, redeneren en handeling. Desalniettemin ontbreekt het huidig onderzoek nog aan grootschalige datasets en gestandaardiseerde benchmarks om hun fysieke interactiecapaciteiten te evalueren. Om dit aan te pakken, stellen we iWorld-Bench voor, een uitgebreide benchmark voor het trainen en testen van wereldmodellen op interactiegerelateerde vaardigheden zoals afstandsperceptie en geheugen. We construeren een diverse dataset met 330k videofragmenten en selecteren 2.1k hoogwaardige samples die diverse perspectieven, weersomstandigheden en scènes omvatten. Aangezien bestaande wereldmodellen verschillen in interactiemodaliteiten, introduceren we een Actiegeneratieraamwerk om evaluatie te standaardiseren en ontwerpen we zes taaktypen, waarmee 4.9k testsamples gegenereerd worden. Deze taken beoordelen gezamenlijk modelprestaties op visuele generatie, trajectvolging en geheugen. Door evaluatie van 14 representatieve wereldmodellen identificeren we cruciale beperkingen en bieden we inzichten voor toekomstig onderzoek. Het iWorld-Bench modelleaderboard is openbaar toegankelijk op iWorld-Bench.com.
Conversationele Aspect-gebaseerde Sentiment Vierluik Analyse (DiaASQ) moet de complexe onderlinge relaties in meerdere dialoogronden vastleggen. Bestaande methoden gebruiken meestal eenvoudige Grafische Convolutionele Netwerken (GCN), die structurele ruis introduceren en de temporele volgorde van de dialogen niet in overweging nemen, of gebruiken standaard RoPE, dat relatieve afstanden impliciet vastlegt in een platte reeks, maar het token-level syntactische ordent niet duidelijk kan scheiden van de utterance-level voortgang, en kan lijden onder het Afstandsverdunningsprobleem. Om deze problemen aan te pakken, stellen we een nieuw raamwerk voor dat Thread-Beperkte Gerichte Acyclische Grafen (TC-DAG) en Discourse-Bewuste Roterende Positie-inbedding (D-RoPE) combineert. Specifiek filtert TC-DAG ruis tussen threads op basis van threadbeperkingen, behoudt globale connectiviteit via root-anchering, en integreert de temporele volgorde van de dialogen. D-RoPE aligneert multi-layer semantiek met dual-stream projectie en multi-schaal frequentiesignalen, legt thread-afhankelijkheden vast met boomachtige afstanden, en verlicht het token-level Afstandsverdunningsprobleem door utterance-level voortgangen te incorporeren. Experimentele resultaten op twee benchmarkdatasets tonen aan dat ons raamwerk state-of-the-art prestaties bereikt.
Klinisch redeneren vereist meerstapsinteracties - het verzamelen van patiëntgeschiedenissen, het aanvragen van tests, het interpreteren van resultaten en het nemen van veilige behandelbeslissingen - maar een geïntegreerde trainingsomgeving die de breedte van klinische domeinen en gespecialiseerde hulpmiddelen biedt om generaliseerbare medische AI-agenten via reinforcement learning te trainen, blijft ongrijpbaar. Wij presenteren een uitgebreide empirische studie naar multi-turn agent-gebaseerd RL voor medische AI, gebouwd op [omgevingsnaam], een gymnasium-compatibele omgeving die 10 klinische domeinen omvat met 3.600+ taken, 135 domeinspecifieke hulpmiddelen en een kennisbank van 828.000 medische passages. Onze analyse toont aan dat de agent-gebaseerde multi-turn structuur degradeert tot breedsprakige single-turn monologen, gekenmerkt door monotone lengte-explosie en een gelijktijdige erosie van hulpmiddelgebruik. Wij karakteriseren hoe deze ineenstorting, samen met distillatie-instabiliteit, voortvloeit uit de misalignering van schaarse terminale beloningen met sequentiële klinische trajecten. Wij constateren dat standaard GRPO een sterke eindnauwkeurigheid bereikt op sommige benchmarks, maar lijdt onder trainingsinstabiliteit, wat blijkt uit significante oscillaties in responslengte en langdurige convergentieperiodes. Om de trainsefficiëntie en stabiliteit te verbeteren, stellen wij Turn-level Truncated On-Policy Distillation (TT-OPD) voor, een zelfdistillatieraamwerk waarbij een gradient-vrije EMA-leraar outcome-geprivilegieerde informatie benut om dichte, outcome-bewuste KL-regularisatie bij elke gespreksronde te bieden. TT-OPD behaalt de beste prestaties op 10 van de 18 benchmarks met een gemiddelde verbetering van +3,9%~p ten opzichte van de niet-RL-baseline, met snellere vroege convergentie, gecontroleerde responslengte en volgehouden multi-turn hulpmiddelgebruik.
Versterkend leren (Reinforcement Learning, RL) is een centraal post-traininginstrument geworden voor het verbeteren van de redeneervermogens van grote taalmmodellen (Large Language Models, LLM's). In deze systemen bepaalt de *rollout* – de trajectorie die wordt bemonsterd vanaf een prompt tot beëindiging, inclusief tussenliggende redeneerstappen en optionele interacties met tools of de omgeving – de data waar de optimalisator van leert. Desalniettemin wordt het ontwerp van rollouts vaak onderbelicht. Dit overzicht biedt een optimalisator-onafhankelijk perspectief op rollout-strategieën voor RL-gebaseerde post-training van redenerende LLM's. We formaliseren rollout-pipelines met uniforme notatie en introduceren *Generate-Filter-Control-Replay* (GFCR), een levenscyceltaxonomie die rollout-pipelines ontleedt in vier modulaire fasen: *Generate* stelt kandidaat-trajectorieën en -topologieën voor; *Filter* construeert tussenliggende signalen via verifiers, judges, critics; *Control* wijst rekenkracht toe en neemt voortzettings-/vertakkings-/stopbeslissingen binnen budgetten; en *Replay* behoudt en hergebruikt artefacten tussen rollouts door, zonder gewichts-updates, inclusief zelf-evoluerende curricula die autonoom nieuwe trainingstaken genereren. We complementeren GFCR met een criteriumtaxonomie van betrouwbaarheid, dekking en kostengevoeligheid die de rollout-afwegingen karakteriseert. Met dit raamwerk synthetiseren we methoden die zich uitstrekken over RL met verifieerbare beloningen, processupervisie, judge-gebaseerde gating, geleide en boom-/segmentrollouts, adaptieve rekenkrachttoewijzing, early-exit en partiële rollouts, doorvoeroptimalisatie, en replay/recompositie voor zelfverbetering. We verankeren het raamwerk met casestudies in wiskunde, code/SQL, multimodaal redeneren, toolgebruikende agents, en agent-vaardigheidsbenchmarks die vaardigheidsinductie, -hergebruik en kruis-taaktransfer evalueren. Ten slotte bieden we een diagnostische index die veelvoorkomende rollout-pathologieën koppelt aan GFCR-modules en mitigatie-hefbomen, naast open uitdagingen voor het bouwen van reproduceerbare, rekenkundig efficiënte en betrouwbare rollout-pipelines.
Iteratieve Retrieval-Augmented Generation (iRAG) is naar voren gekomen als een krachtig paradigma voor het beantwoorden van complexe multi-hop vragen door progressief externe documenten op te halen en deze te gebruiken voor redenering. Huidige systemen opereren echter voornamelijk op geparste tekst, wat twee kritieke knelpunten creëert: (1) Grofkorrelige attributie, waarbij gebruikers de last krijgen om handmatig bewijs te lokaliseren in lange documenten op basis van vage tekstuele citaten; en (2) Verlies van visuele semantiek, waarbij de conversie van visueel rijke documenten (bijvoorbeeld dia's, PDF's met grafieken) naar tekst de ruimtelijke logica en lay-outaanwijzingen wegvaagt die essentieel zijn voor redenering. Om deze kloof te overbruggen, presenteren wij Chain of Evidence (CoE), een retriever-agnostisch visueel attributiekader dat Vision-Language Models benut om direct te redeneren over screenshots van opgehaalde documentkandidaten. CoE elimineert formaatspecifiek parsen en produceert precieze begrenzingskaders, waardoor de volledige redeneerketen binnen de opgehaalde kandidaatset wordt gevisualiseerd. Wij evalueren CoE op twee verschillende benchmarks: Wiki-CoE, een grootschalige dataset van gestructureerde webpagina's afgeleid van 2WikiMultiHopQA, en SlideVQA, een uitdagende dataset van presentatiedia's met complexe diagrammen en vrije lay-outs. Experimenten tonen aan dat een gefinetuned Qwen3-VL-8B-Instruct model robuuste prestaties bereikt, en tekstgebaseerde baseline-modellen significant overtreft in scenario's die begrip van visuele lay-out vereisen, terwijl het een retriever-agnostische oplossing biedt voor interpreteerbare iRAG op pixelniveau. Onze code is beschikbaar op https://github.com/PeiYangLiu/CoE.git.
Het aanpassen van redeneermodellen aan nieuwe taken tijdens post-training met alleen output-level supervisie stokt onder reinforcement learning from verifiable rewards (RLVR) wanneer de initiële succeskans p_0 klein is. Met behulp van de Tsallis q-logaritme definiëren we een verliesfamilie J_Q die interpoleert tussen RLVR (bij q=0, de exploitatiepool) en de log-marginal-likelihood over latente trajecten (bij q=1, de dichtheidsschattingspool). Alle leden delen dezelfde gradientrichting per voorbeeld, en verschillen alleen door een scalaire versterking P_{θ^{-q}} die elke instantie herwicht onafhankelijk van de leerrate. Deze versterking is het mechanisme dat cold-start stalling aanpakt: onder gradient flow vereist de exploitatiepool Ω(1/p_0) tijd om aan de cold start te ontsnappen, terwijl de dichtheidsschattingspool ontsnapt in Θ(log(1/p_0)); tussenliggende q verhandelt ontsnappingssnelheid tegen ruis-memorisatie. Omdat P_θ onberekenbaar is, leiden we twee Monte Carlo-schatters af uit de twee factorisaties van de gradient: Gradient-Amplified RL (GARL) samplet uit de prior en versterkt de RL-gradient, en Posterior-Attenuated Fine-Tuning (PAFT) importance-resamplet uit de posterior en voert standaard SFT uit. Beide hebben een bias van O(q/(M P_θ^{q+1})); GARL heeft een lagere variantie, PAFT heeft semantisch coherente gradienten. Op FinQA, HotPotQA en MuSiQue vermindert GARL bij q=0,75 cold-start stalling aanzienlijk en ontsnapt het aan de cold start waar GRPO volledig faalt. Bij warm start domineert GARL met een lage q op FinQA waar de training stabiel is; op HotPotQA en MuSiQue destabiliseert GARL tijdens de training, en PAFT bij q=0,75 biedt stabiele gradienten (beste overall op HotPotQA met 47,9 maj@16, +14,4 boven GRPO).