Dagelijks geselecteerde AI onderzoekspapers met vertalingen
State-of-the-art videogeneratieve modellen leren typisch de verdeling van videolatenten in de VAE-ruimte en zetten deze om naar pixels met behulp van een VAE-decoder. Hoewel deze aanpak hoogwaardige video's kan genereren, lijdt ze onder trage convergentie en is ze rekenkundig kostbaar bij het genereren van lange video's. In dit artikel introduceren we SemanticGen, een nieuwe oplossing om deze beperkingen aan te pakken door video's in de semantische ruimte te genereren. Onze belangrijkste inzicht is dat, vanwege de inherente redundantie in video's, het generatieproces zou moeten beginnen in een compacte, hoogwaardige semantische ruimte voor globale planning, gevolgd door de toevoeging van hoogfrequente details, in plaats van direct een grote set laagwaardige videotokens te modelleren met behulp van bi-directionele aandacht. SemanticGen hanteert een tweestaps generatieproces. In de eerste fase genereert een diffusiemodel compacte semantische videokenmerken, die de globale lay-out van de video bepalen. In de tweede fase genereert een andere diffusiemodel VAE-latenten, geconditioneerd op deze semantische kenmerken, om de uiteindelijke output te produceren. Wij observeren dat generatie in de semantische ruimte leidt tot snellere convergentie in vergelijking met de VAE-latente ruimte. Onze methode is ook effectief en rekenkundig efficiënt wanneer uitgebreid naar lange videogeneratie. Uitgebreide experimenten tonen aan dat SemanticGen hoogwaardige video's produceert en state-of-the-art benaderingen en sterke baseline-modellen overtreft.
Bestaande reinforcement learning (RL) benaderingen behandelen grote taalmodellen (LLM's) als een enkel verenigd beleid, waarbij hun interne mechanismen over het hoofd worden gezien. Het begrijpen van hoe het beleid evolueert over lagen en modules heen is daarom cruciaal voor het mogelijk maken van gerichtere optimalisatie en het ontrafelen van complexe redeneermechanismen. In dit artikel ontleden we het taalmodelbeleid door gebruik te maken van de intrinsieke splitsing van de Transformer residual stream en de equivalentie tussen de compositie van verborgen toestanden met de unembedding matrix en het resulterende bemonsterbare beleid. Deze decompositie onthult Intern Laagbeleid, corresponderend met bijdragen van individuele lagen, en Intern Modulair Beleid, dat overeenkomt met de self-attention en feed-forward network (FFN) componenten binnen elke laag. Door de entropie van het interne beleid te analyseren, vinden we dat: (a) Vroege lagen een hoge entropie behouden voor exploratie, terwijl toplagen convergeren naar een entropie nabij nul voor verfijning, waarbij convergentiepatronen variëren tussen modelseries. (b) LLama's voorspellingsruimte snel convergeert in de laatste laag, terwijl Qwen-seriële modellen, met name Qwen3, een meer mensachtig, geleidelijk gestructureerd redeneerpatroon vertonen. Gemotiveerd door deze bevindingen stellen we Bottom-up Policy Optimization (BuPO) voor, een nieuwe RL-paradigma dat het interne laagbeleid direct optimaliseert tijdens de vroege training. Door het trainingsdoel af te stemmen op lagere lagen, reconstrueert BuPO fundamentele redeneervermogens en behaalt superieure prestaties. Uitgebreide experimenten op complexe redeneerbenchmarks demonstreren de effectiviteit van onze methode. Onze code is beschikbaar op https://github.com/Trae1ounG/BuPO.
Recente vooruitgang in multimodale LLM's en systemen die gebruikmaken van tools voor lange-video QA wijst op de belofte van redeneren over uur-lange afleveringen. Echter, veel methoden comprimeren inhoud nog steeds in lossy samenvattingen of vertrouwen op beperkte toolsetten, wat de temporele verankering verzwakt en fijnmazige aanwijzingen mist. Wij stellen een multi-agent raamwerk voor waarin een hoofd-LLM een verankeringsagent coördineert om vraagrelevante segmenten te lokaliseren en een visie-agent om gerichte tekstuele observaties te extraheren. De hoofdagent plant met een stapgrens, en wordt getraind met reinforcement learning om beknopte, correcte en efficiënte multi-agent samenwerking aan te moedigen. Dit ontwerp helpt de hoofdagent zich te concentreren op relevante fragmenten via verankering, complementeert ondertitels met visuele details, en levert interpreteerbare trajecten op. Op onze voorgestelde LongTVQA en LongTVQA+, wat afleveringsniveau datasets zijn samengesteld uit TVQA/TVQA+, presteert ons multi-agent systeem aanzienlijk beter dan sterke non-agent baseline methoden. Experimenten tonen ook aan dat reinforcement learning het redeneren en plannen voor de getrainde agent verder versterkt. Code en data worden gedeeld op https://longvideoagent.github.io/.
De cognitieve wetenschap suggereert dat ruimtelijk vermogen zich progressief ontwikkelt – van perceptie naar redeneren en interactie. Toch blijft deze hiërarchie in multimodale taalmodelen (MLLMs) slecht begrepen, aangezien de meeste studies zich richten op een beperkte set taken. Wij introduceren SpatialTree, een op de cognitieve wetenschap geïnspireerde hiërarchie die ruimtelijke vaardigheden organiseert in vier niveaus: laagwaardige perceptie (L1), mentale mapping (L2), simulatie (L3) en agent-gerelateerde competentie (L4). Op basis van deze taxonomie construeren we de eerste capaciteitsgerichte hiërarchische benchmark, die mainstream MLLMs grondig evalueert op 27 subvaardigheden. De evaluatieresultaten onthullen een duidelijke structuur: L1-vaardigheden zijn grotendeels orthogonaal, terwijl vaardigheden op hogere niveaus sterk gecorreleerd zijn, wat wijst op een toenemende onderlinge afhankelijkheid. Via gerichte supervised fine-tuning ontdekken we een verrassende transferdynamiek: negatieve transfer binnen L1, maar sterke cross-level transfer van lage naar hoge vaardigheden met opmerkelijke synergie. Ten slotte onderzoeken we hoe de gehele hiërarchie verbeterd kan worden. We constateren dat naïeve reinforcement learning (RL) die uitgebreid "denken" aanmoedigt onbetrouwbaar is: het helpt bij complex redeneren, maar schaadt intuïtieve perceptie. We stellen een eenvoudige auto-denken-strategie voor die onnodige beraadslaging onderdrukt, waardoor RL consequent de prestaties op alle niveaus kan verbeteren. Door SpatialTree te bouwen, bieden we een proof-of-concept raamwerk voor het begrijpen en systematisch schalen van ruimtelijke vaardigheden in MLLMs.
Zelf-evoluerende geheugensystemen hertekenen op ongekende wijze het evolutionaire paradigma van op grote taalmodel (LLM) gebaseerde agents. Eerdere werkzaamheden vertrouwden voornamelijk op handmatig ontworpen geheugenarchitecturen om trajecten op te slaan, ervaring te destilleren en herbruikbare tools te synthetiseren, waardoor agents tijdens omgevingsinteracties dynamisch kunnen evolueren. Dit paradigma wordt echter fundamenteel beperkt door de staticiteit van het geheugensysteem zelf: hoewel geheugen evolutie op agentniveau faciliteert, kan de onderliggende geheugenarchitectuur niet worden mee-afgestemd op diverse taakcontexten. Om deze kloof te dichten, stellen we MemEvolve voor, een meta-evolutionair raamwerk dat zowel de ervaringskennis van agents als hun geheugenarchitectuur gezamenlijk doet evolueren, zodat agentsystemen niet alleen ervaring accumuleren maar ook geleidelijk verfijnen hoe ze ervan leren. Om MemEvolve in eerder onderzoek te verankeren en openheid in toekomstige zelf-evoluerende systemen te bevorderen, introduceren we EvolveLab, een uniforme codebase voor zelf-evoluerend geheugen die twaalf representatieve geheugensystemen destilleert tot een modulaire ontwerpruimte (coderen, opslaan, ophalen, beheren), en zowel een gestandaardiseerd implementatiesubstraat als een eerlijke experimentele arena biedt. Uitgebreide evaluaties op vier uitdagende agent-gebaseerde benchmarks tonen aan dat MemEvolve (I) substantiële prestatieverbeteringen bereikt, met verbeteringen van frameworks zoals SmolAgent en Flash-Searcher tot 17,06%; en (II) sterke generalisatie over taken en LLM's heen vertoont, door geheugenarchitecturen te ontwerpen die effectief transfereren over diverse benchmarks en backbone-modellen.
Op Large Language Model (LLM) gebaseerde agents hebben opmerkelijke capaciteiten getoond op het gebied van complex redeneren en multi-turn interacties, maar hebben moeite met continu verbeteren en aanpassen wanneer ze in nieuwe omgevingen worden ingezet. Een veelbelovende aanpak is de implementatie van vaardigheidsbibliotheken die agents in staat stellen nieuwe vaardigheden te leren, valideren en toepassen. De huidige benaderingen voor vaardigheidsbibliotheken vertrouwen echter voornamelijk op LLM-aansturing, wat een consistente implementatie van de bibliotheek bemoeilijkt. Om deze uitdagingen te overwinnen, stellen we een op Reinforcement Learning (RL) gebaseerde aanpak voor om het zelfverbeteringsvermogen van agents met een vaardigheidsbibliotheek te vergroten. Concreet introduceren we Skill Augmented GRPO for self-Evolution (SAGE), een nieuw RL-framework dat vaardigheden systematisch in het leerproces integreert. De kerncomponent van het framework, Sequential Rollout, zet agents iteratief in over een keten van gelijkaardige taken voor elke rollout. Terwijl agents door de taakketen navigeren, accumuleren vaardigheden die gegenereerd zijn uit eerdere taken in de bibliotheek en worden ze beschikbaar voor volgende taken. Daarnaast verbetert het framework de vaardigheidsgeneratie en -benutting via een Skill-geïntegreerde Beloning die de oorspronkelijke resultaatgebonden beloningen aanvult. Experimentele resultaten op AppWorld tonen aan dat SAGE, wanneer toegepast op een supervised-finetuned model met expertervaring, een 8,9% hogere Scenario Goal Completion bereikt, terwijl het 26% minder interactiestappen vereist en 59% minder tokens genereert. Dit presteert aanzienlijk beter dan bestaande benaderingen in zowel nauwkeurigheid als efficiëntie.
Naarmate LLM's zich ontwikkelen naar autonome agents, is Deep Research een cruciale maatstaf geworden. Bestaande academische benchmarks zoals BrowseComp voldoen echter vaak niet aan de praktische eisen voor open-ended onderzoek, dat robuuste vaardigheden vereist in intentieherkenning, besluitvorming over lange tijdshorizons en kruisbronverificatie. Om dit aan te pakken, introduceren we Step-DeepResearch, een kosteneffectieve, end-to-end agent. We presenteren een datasynthesestrategie gebaseerd op atomische capaciteiten om planning en rapportschrijven te versterken, gecombineerd met een progressief trainingspad van agentic mid-training naar SFT en RL. Versterkt door een checklist-stijl beoordelaar verbetert deze aanpak de robuustheid aanzienlijk. Verder richten we ADR-Bench op voor realistische deep research-scenario's om de evaluatiekloof in het Chinese taalgebied te overbruggen. Experimentele resultaten tonen aan dat Step-DeepResearch (32B) 61,4% scoort op de Scale AI Research Rubrics. Op ADR-Bench presteert het significant beter dan vergelijkbare modellen en kan het concurreren met state-of-the-art gesloten modellen zoals OpenAI en Gemini DeepResearch. Deze bevindingen bewijzen dat verfijnde training middelgrote modellen in staat stelt expertniveau te bereiken met toonaangevende kostenefficiëntie.
Algemene audiobronscheiding is een essentiële capaciteit voor multimodale AI-systemen die geluid kunnen waarnemen en interpreteren. Ondanks aanzienlijke vooruitgang in recente jaren zijn bestaande scheidingsmodellen ofwel domeinspecifiek, ontworpen voor vaste categorieën zoals spraak of muziek, of beperkt in aanstuurbaarheid, waarbij ze slechts één promptmodaliteit zoals tekst ondersteunen. In dit werk presenteren we SAM Audio, een foundationmodel voor algemene audiobronscheiding dat tekstuele, visuele en temporele prompting verenigt binnen een enkel raamwerk. Gebouwd op een diffusie-transformerarchitectuur wordt SAM Audio getraind met flow matching op grootschalige audiogegevens die spraak, muziek en algemene geluiden omvatten, en kan het flexibel doelbronnen scheiden die worden beschreven door taal, visuele maskers of temporele intervallen. Het model behaalt state-of-the-art prestaties op een diverse reeks benchmarks, waaronder scheiding van algemene geluiden, spraak, muziek en muziekinstrumenten in zowel alledaagse als professioneel geproduceerde audio, en overtreft eerdere algemene en gespecialiseerde systemen aanzienlijk. Verder introduceren we een nieuwe real-world scheidingsbenchmark met door mensen gelabelde multimodale prompts en een referentievrij evaluatiemodel dat sterk correleert met menselijke beoordeling.
Wij presenteren INTELLECT-3, een Mixture-of-Experts-model met 106B parameters (12B actief) dat is getraind met grootschalige reinforcement learning op onze end-to-end RL-infrastructuurstack. INTELLECT-3 behaalt state-of-the-art prestaties voor zijn grootte op benchmarks voor wiskunde, code, wetenschap en redeneren, en presteert beter dan veel grotere frontier-modellen. Wij maken het model open source, samen met de volledige infrastructuurstack die gebruikt is om het te creëren, inclusief RL-frameworks, het volledige recept en een brede collectie omgevingen, gebouwd met de verifiers-bibliotheek, voor training en evaluatie vanuit ons communityplatform Environments Hub. Speciaal voor deze inspanning introduceren we prime-rl, een open framework voor grootschalige asynchrone reinforcement learning, dat naadloos schaalt van een enkele node naar duizenden GPU's, en dat is toegesneden op agent-gebaseerde RL met first-class ondersteuning voor multi-turn interacties en toolgebruik. Met behulp van deze stack voeren we zowel SFT- als RL-training uit op basis van het GLM-4.5-Air-Base-model, waarbij we de RL-training opschalen tot 512 H200's met een hoge trainsefficiëntie.
Code Large Language Models (Code LLM's) zijn krachtig maar kostbaar om te trainen, waarbij schaalwetten de prestaties voorspellen op basis van modelgrootte, data en rekenkracht. Echter, verschillende programmeertalen hebben uiteenlopende impact tijdens de voorafgaande training die de basisprestaties van het model significant beïnvloedt, wat leidt tot onnauwkeurige prestatievoorspelling. Bovendien richten bestaande werken zich op taal-agnostische instellingen, waarbij de inherent meertalige aard van moderne softwareontwikkeling wordt verwaarloosd. Daarom is het eerst nodig om de schaalwetten van verschillende programmeertalen te onderzoeken, en vervolgens hun wederzijdse invloeden in overweging te nemen om tot de uiteindelijke meertalige schaalwet te komen. In dit artikel presenteren we de eerste systematische verkenning van schaalwetten voor meertalige code-voorafgaande-training, waarbij we meer dan 1000 experimenten uitvoeren (gelijk aan meer dan 336.000 H800-uren) over meerdere programmeertalen, modelgroottes (0,2B tot 14B parameters) en datasetgroottes (1T tokens). We stellen uitgebreide schaalwetten vast voor code-LLM's over meerdere programmeertalen, waaruit blijkt dat geïnterpreteerde talen (bijv. Python) meer baat hebben bij een grotere modelgrootte en data dan gecompileerde talen (bijv. Rust). De studie toont aan dat meertalige voorafgaande training synergetische voordelen biedt, vooral tussen syntactisch vergelijkbare programmeertalen. Verder verbetert de voorafgaande trainingsstrategie van parallelle koppeling (het aaneenschakelen van codefragmenten met hun vertalingen) de cross-linguale vaardigheden significant met gunstige schaaleigenschappen. Ten slotte wordt een proportie-afhankelijke meertalige schaalwet voorgesteld om trainings-tokens optimaal toe te wijzen door prioriteit te geven aan programmeertalen met hoge bruikbaarheid (bijv. Python), hoog-synergistische paren in evenwicht te brengen (bijv. JavaScript-TypeScript) en de toewijzing aan snel-verzadigende talen (Rust) te verminderen, wat een superieure gemiddelde prestatie over alle programmeertalen bereikt in vergelijking met uniforme verdeling onder hetzelfde rekenbudget.
Het herkennen of uitvoer van grote taalmodellen (LLM's) getrouwheidshallucinaties bevat, is cruciaal voor praktische toepassingen zoals retrieval-augmented generation en samenvatting. In dit artikel introduceren we FaithLens, een kostenefficiënt en effectief detectiemodel voor getrouwheidshallucinaties dat gezamenlijk binaire voorspellingen en bijbehorende verklaringen kan leveren om de betrouwbaarheid te verbeteren. Om dit te bereiken, synthetiseren we eerst trainingsgegevens met verklaringen via geavanceerde LLM's en passen we een goed gedefinieerde datafilterstrategie toe om de correctheid van labels, de kwaliteit van verklaringen en de diversiteit van gegevens te waarborgen. Vervolgens fine-tunen we het model op deze zorgvuldig samengestelde trainingsgegevens als koude start en optimaliseren we het verder met op regels gebaseerde reinforcement learning, waarbij we beloningen gebruiken voor zowel de correctheid van voorspellingen als de kwaliteit van verklaringen. Resultaten op 12 diverse taken tonen aan dat de 8B-parameter FaithLens geavanceerde modellen zoals GPT-4.1 en o3 overtreft. FaithLens kan ook hoogwaardige verklaringen produceren, wat een onderscheidende balans biedt tussen betrouwbaarheid, efficiëntie en effectiviteit.
Streaming Spraak-naar-Tekst Vertaling (StreamST) vereist dat vertalingen gelijktijdig met de binnenkomende spraak worden geproduceerd, wat strikte latentie-eisen oplegt en modellen vereist die een balans vinden tussen het nemen van beslissingen op basis van gedeeltelijke informatie en hoge vertaalkwaliteit. Onderzoeksinspanningen op dit gebied hebben tot nu toe vertrouwd op de SimulEval-repository, die niet langer wordt onderhouden en systemen die hun uitvoer reviseren niet ondersteunt. Bovendien is deze ontworpen voor het simuleren van de verwerking van korte segmenten, in plaats van langdurige audiostromen, en biedt het geen eenvoudige methode om systemen in een demo te presenteren. Als oplossing introduceren wij SimulStream, het eerste open-source raamwerk dat is toegewijd aan de uniforme evaluatie en demonstratie van StreamST-systemen. Ontworpen voor de verwerking van langdurige spraak, ondersteunt het niet alleen incrementele decodeerbenaderingen, maar ook hervertalingsmethoden, waardoor hun vergelijking binnen hetzelfde raamwerk mogelijk wordt, zowel op het gebied van kwaliteit als latentie. Daarnaast biedt het ook een interactieve webinterface om elk binnen de tool gebouwd systeem te demonstreren.
Tijdredenering over lange, meersessie-dialogen is een cruciale vaardigheid voor conversationele agents. Bestaande werken en onze pilotstudie tonen echter aan dat, naarmate dialooggeschiedenissen langer worden en ruis accumuleren, huidige long-context modellen moeite hebben om temporeel relevante informatie accuraat te identificeren, wat de redeneerprestatie aanzienlijk schaadt. Om dit aan te pakken, introduceren we Memory-T1, een raamwerk dat een tijdbewust geheugenselectiebeleid leert met behulp van reinforcement learning (RL). Het hanteert een coarse-to-fine strategie: eerst wordt de dialooggeschiedenis uitgedund tot een kandidaatset met behulp van temporele en relevantiefilters, gevolgd door een RL-agent die de precieze bewijssessies selecteert. De RL-training wordt geleid door een meerlagige beloningsfunctie die optimaliseert voor (i) antwoordnauwkeurigheid, (ii) onderbouwing met bewijs, en (iii) temporele consistentie. In het bijzonder biedt de beloning voor temporele consistentie een dicht signaal door de afstemming met het temporele bereik van de query te evalueren op zowel sessieniveau (chronologische nabijheid) als op uitingniveau (chronologische trouw), waardoor de agent subtiele chronologische ambiguïteiten kan oplossen. Op de Time-Dialog benchmark tilt Memory-T1 een 7B-model naar een overall score van 67.0%, wat een nieuwe state-of-the-art prestatie voor open-source modellen vestigt en een 14B baseline met 10.2% overtreft. Ablatiestudies tonen aan dat beloningen voor temporele consistentie en onderbouwing gezamenlijk bijdragen aan een prestatieverbetering van 15.0%. Bovendien handhaaft Memory-T1 robuustheid tot 128k tokens, waar baseline-modellen ineenstorten, wat de effectiviteit aantoont tegen ruis in uitgebreide dialooggeschiedenissen. De code en datasets zijn openbaar beschikbaar op https://github.com/Elvin-Yiming-Du/Memory-T1/.
Het begrijpen van de fysieke wereld is essentieel voor algemene AI-agenten. Het blijft echter onduidelijk of state-of-the-art visuele perceptiemodellen (zoals grote VLMs) fysieke eigenschappen kwantitatief kunnen redeneren. Bestaande evaluaties zijn overwegend VQA-gebaseerd en kwalitatief van aard, wat beperkt inzicht biedt in of deze modellen kinematische grootheden van bewegende objecten uit video-observaties kunnen afleiden. Om dit aan te pakken, presenteren we QuantiPhy, de eerste benchmark die ontworpen is om het fysieke redeneervermogen van een VLM kwantitatief te meten. QuantiPhy, bestaande uit meer dan 3.3K video-tekst instanties met numerieke grondwaarden, evalueert de prestaties van een VLM bij het schatten van de grootte, snelheid en versnelling van een object op een bepaald tijdstip, waarbij één van deze eigenschappen als invoerprior wordt gebruikt. De benchmark standaardiseert prompts en scoring om numerieke nauwkeurigheid te beoordelen, waardoor eerlijke vergelijkingen tussen modellen mogelijk zijn. Onze experimenten met state-of-the-art VLMs tonen een consistente kloof aan tussen hun kwalitatieve geloofwaardigheid en daadwerkelijke numerieke correctheid. We bieden verder een diepgaande analyse van belangrijke factoren zoals achtergrondruis, contrafeitelijke priors en strategische prompting, en constateren dat state-of-the-art VLMs sterk leunen op vooraf getrainde wereldkennis in plaats van de verstrekte visuele en tekstuele invoer getrouw als referentie te gebruiken bij het kwantitatief redeneren over kinematische eigenschappen. QuantiPhy biedt de eerste rigoureuze, schaalbare testomgeving om VLMs verder te brengen dan louter verbale geloofwaardigheid, richting een numeriek onderbouwd fysiek begrip.
Huidige methoden voor videogeneratie van avatars blinken uit in identiteitsbehoud en bewegingsalignering, maar missen daadwerkelijk handelingsvermogen; ze kunnen niet autonoom langetermijndoelen nastreven via adaptieve interactie met de omgeving. Wij pakken dit aan door de introductie van L-IVA (Long-horizon Interactive Visual Avatar), een taak en benchmark voor het evalueren van doelgericht plannen in stochastische generatieve omgevingen, en ORCA (Online Reasoning and Cognitive Architecture), het eerste framework dat actieve intelligentie in video-avatars mogelijk maakt. ORCA belichaamt Internal World Model (IWM)-capaciteiten door twee belangrijke innovaties: (1) een gesloten OTAR-cyclus (Observeren-Denken-Handelen-Reflecteren) die robuuste staatstracking onderhoudt onder generatieve onzekerheid door voorspelde uitkomsten continu te verifiëren tegen werkelijke generaties, en (2) een hiërarchische dual-systemarchitectuur waarbij Systeem 2 strategisch redeneert met staatspredictie, terwijl Systeem 1 abstracte plannen vertaalt naar precieze, modelspecifieke actiebeschrijvingen. Door avatarcontrole te formuleren als een POMDP en continue geloofsupdating met uitkomstverificatie te implementeren, stelt ORCA autonome multi-stap taakvoltooiing mogelijk in open-domeinscenario's. Uitgebreide experimenten tonen aan dat ORCA open-loop en niet-reflecterende baseline-methoden significant overtreft in taaksuccespercentage en gedragssamenhang, wat onze IWM-geïnspireerde ontwerpvalideert voor het bevorderen van video-avatarintelligentie van passieve animatie naar actief, doelgericht gedrag.
Kwalitatief onderzoek staat voor een cruciale betrouwbaarheidsuitdaging: traditionele methoden voor beoordelaarsovereenstemming vereisen meerdere menselijke codeurs, zijn tijdrovend en leveren vaak matige consistentie op. Wij presenteren een multi-perspectief validatieraamwerk voor op LLM gebaseerde thematische analyse dat ensemble-validatie combineert met dubbele betrouwbaarheidsmetrieken: Cohens Kappa (κ) voor beoordelaarsovereenstemming en cosinusgelijkenis voor semantische consistentie. Ons raamwerk maakt configureerbare analyseparameters mogelijk (1-6 seeds, temperatuur 0.0-2.0), ondersteunt aangepaste promptstructuren met variabele substitutie en biedt consensus-thema-extractie voor elk JSON-formaat. Als proof-of-concept evalueren we drie toonaangevende LLM's (Gemini 2.5 Pro, GPT-4o, Claude 3.5 Sonnet) op een transcript van een psychedelische kunsttherapie-interview, waarbij we zes onafhanklijke runs per model uitvoeren. Resultaten tonen aan dat Gemini de hoogste betrouwbaarheid bereikt (κ= 0,907, cosinus=95,3%), gevolgd door GPT-4o (κ= 0,853, cosinus=92,6%) en Claude (κ= 0,842, cosinus=92,1%). Alle drie de modellen bereiken een hoge overeenstemming (κ> 0,80), wat de multi-run ensemble-aanpak valideert. Het raamwerk extraheert met succes consensusthema's over de runs heen, waarbij Gemini 6 consensusthema's identificeert (50-83% consistentie), GPT-4o er 5 identificeert en Claude er 4. Onze open-source-implementatie biedt onderzoekers transparante betrouwbaarheidsmetrieken, flexibele configuratie en structuuronafhankelijke consensusextractie, waarmee methodologische fundamenten worden gelegd voor betrouwbaar, door AI ondersteund kwalitatief onderzoek.
Giftige interacties in gemeenschappen van Open Source Software (OSS) verminderen de betrokkenheid van bijdragers en bedreigen de duurzaamheid van projecten. Om dergelijke toxiciteit te voorkomen voordat deze de kop opsteekt, is een duidelijk inzicht nodig in hoe schadelijke gesprekken verlopen. De meeste proactieve moderatiestrategieën zijn echter handmatig en vergen aanzienlijke tijd en inspanning van gemeenschapsbeheerders. Om schaalbare aanpakken te ondersteunen, stellen we een dataset samen van 159 ontspoorde, giftige discussiedraden en 207 niet-giftige draden uit GitHub-discussies. Onze analyse toont aan dat toxiciteit voorspeld kan worden door spanningen, sentimentverschuivingen en specifieke gesprekspatronen. We presenteren een nieuw op Large Language Models (LLM) gebaseerd raamwerk voor het voorspellen van gespreksontsporing op GitHub met behulp van een tweestaps prompting-pijplijn. Eerst genereren we Samenvattingen van Gespreksdynamiek (SCD's) via Least-to-Most (LtM) prompting; vervolgens gebruiken we deze samenvattingen om de waarschijnlijkheid van ontsporing in te schatten. Geëvalueerd op Qwen- en Llama-modellen behaalt onze LtM-strategie F1-scores van respectievelijk 0.901 en 0.852 bij een drempelwaarde van 0.3, wat beter presteert dan gevestigde NLP-baselines voor gespreksontsporing. Externe validatie op een dataset van 308 GitHub-issue-draden (65 giftig, 243 niet-giftig) levert een F1-score op tot 0.797. Onze bevindingen tonen de effectiviteit aan van gestructureerde LLM-prompting voor de vroege detectie van gespreksontsporing in OSS, wat proactieve en uitlegbare moderatie mogelijk maakt.
Scherpstelling is een hoeksteen van de fotografie, maar autofocussystemen slagen er vaak niet in het beoogde onderwerp vast te leggen, en gebruikers willen de scherpte vaak na de opname nog aanpassen. Wij introduceren een nieuwe methode voor realistische nabewerkings-refocussering met behulp van video-diffusiemodellen. Uit één enkel onscherp beeld genereert onze aanpak een perceptueel nauwkeurige focale stapel, weergegeven als een videosequentie, waardoor interactieve refocussering mogelijk wordt en een reeks downstream-toepassingen ontsloten wordt. Ter ondersteuning van dit werk en toekomstig onderzoek publiceren we een grootschalige focale-stapeldataset, verzameld onder diverse real-world smartphone-omstandigheden. Onze methode presteert consistent beter dan bestaande benaderingen, zowel in perceptuele kwaliteit als robuustheid in uitdagende scenario's, en baant zo de weg voor geavanceerdere focusbewerkingsmogelijkheden in de alledaagse fotografie. Code en data zijn beschikbaar op www.learn2refocus.github.io.