Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Recente studies, zoals geëxempleerd door Hyper-Connections (HC), hebben het alomtegenwoordige paradigma van residuele connecties – dat het afgelopen decennium is gevestigd – uitgebreid door de breedte van de residuele stroom te vergroten en de connectiviteitspatronen te diversifiëren. Hoewel dit aanzienlijke prestatieverbeteringen oplevert, tast deze diversificatie fundamenteel de identiteitsafbeeldingseigenschap aan die inherent is aan de residuele verbinding. Dit veroorzaakt ernstige trainingsinstabiliteit en beperkte schaalbaarheid, en brengt bovendien aanzienlijke overhead voor geheugentoegang met zich mee. Om deze uitdagingen aan te pakken, stellen wij Manifold-Constrained Hyper-Connections (mHC) voor, een algemeen kader dat de residuele verbindingsruimte van HC projecteert op een specifieke variëteit om de identiteitsafbeeldingseigenschap te herstellen, terwijl het rigoureuze infrastructuuromptimalisatie incorporeert om de efficiëntie te waarborgen. Empirische experimenten tonen aan dat mHC effectief is voor grootschalige training, met tastbare prestatieverbeteringen en superieure schaalbaarheid. Wij verwachten dat mHC, als een flexibele en praktische uitbreiding van HC, zal bijdragen aan een dieper begrip van topologisch architectuurontwerp en veelbelovende richtingen zal suggereren voor de evolutie van fundamentele modellen.
Wij introduceren Youtu-LLM, een lichtgewicht maar krachtig taalmodel dat hoge computationele efficiëntie harmonieus combineert met native agent-intelligentie. In tegenstelling tot typische kleine modellen die op distillatie vertrouwen, is Youtu-LLM (1,96B) vanaf nul voorgetraind om redeneer- en planningscapaciteiten systematisch te ontwikkelen. De belangrijkste technologische vooruitgangen zijn als volgt: (1) Compacte architectuur met lange-contextondersteuning: Gebouwd op een dense Multi-Latent Attention (MLA)-architectuur met een nieuw STEM-gericht vocabulaire, ondersteunt Youtu-LLM een contextvenster van 128k. Dit ontwerp maakt robuust redeneren over lange contexten en staatstracking mogelijk met een minimale geheugenvoetafdruk, wat het ideaal maakt voor langetermijn-agent- en redeneertaken. (2) Principieel "Common Sense-STEM-Agent"-curriculum: Wij hebben een enorme corpus van ongeveer 11T tokens samengesteld en een meerfasen-trainingsstrategie geïmplementeerd. Door de verdeling van de voor-trainingsdata geleidelijk te verschuiven van algemene common sense naar complexe STEM- en agenttaken, zorgen we ervoor dat het model diepe cognitieve vaardigheden verwerft in plaats van oppervlakkige afstemming. (3) Schaalbare agent-mid-training: Specifiek voor de agent-mid-training gebruiken we diverse dataconstructieschema's om rijke en gevarieerde trajecten te synthetiseren binnen wiskunde, programmeren en toolgebruik. Deze hoogkwalitatieve data stelt het model in staat plannings- en reflectiegedrag effectief te internaliseren. Uitgebreide evaluaties tonen aan dat Youtu-LLM een nieuwe state-of-the-art vestigt voor sub-2B LLM's. Op algemene benchmarks behaalt het competitieve prestaties ten opzichte van grotere modellen, terwijl het op agentspecifieke taken bestaande SOTA-baselines significant overtreft. Dit demonstreert dat lichtgewicht modellen sterke intrinsieke agent-capaciteiten kunnen bezitten.
Agentic crafting vereist dat LLM's in real-world omgevingen opereren over meerdere beurten door acties te ondernemen, uitkomsten waar te nemen en artefacten iteratief te verfijnen. Ondanks het belang ervan, ontbreekt het de open-sourcegemeenschap aan een principieel, end-to-end ecosysteem om agentontwikkeling te stroomlijnen. Wij introduceren het Agentic Learning Ecosystem (ALE), een fundamentele infrastructuur die de productiepijplijn voor agent-LLM's optimaliseert. ALE bestaat uit drie componenten: ROLL, een post-training framework voor gewichtsoptimalisatie; ROCK, een sandbox-omgevingsmanager voor trajectgeneratie; en iFlow CLI, een agentframework voor efficiënte contextengineering. Wij brengen ROME (ROME is Obviously an Agentic Model) uit, een open-source agent gefundeerd op ALE en getraind op meer dan een miljoen trajecten. Onze aanpak omvat datacompositieprotocollen voor het synthetiseren van complex gedrag en een nieuw beleidsoptimalisatiealgoritme, Interaction-based Policy Alignment (IPA), dat credits toekent over semantische interactieblokken in plaats van afzonderlijke tokens om de trainingsstabiliteit op lange termijn te verbeteren. Empirisch evalueren we ROME in een gestructureerde setting en introduceren we Terminal Bench Pro, een benchmark met verbeterde schaal en contaminatiecontrole. ROME toont sterke prestaties op benchmarks zoals SWE-bench Verified en Terminal Bench, wat de effectiviteit van de ALE-infrastructuur aantoont.
Log-anomaliedetectie is cruciaal voor het waarborgen van de beveiliging van besturingssystemen. Afhankelijk van de bron van loggegevensverzameling wordt diverse informatie vastgelegd in logs die kunnen worden beschouwd als logmodaliteiten. Gezien deze intuïtie worstelen unimodale methoden vaak door de verschillende modaliteiten van loggegevens te negeren. Multimodale methoden slagen er ondertussen niet in om de interacties tussen deze modaliteiten te verwerken. Door multimodale sentimentanalyse toe te passen op log-anomaliedetectie, stellen we CoLog voor, een raamwerk dat logs op een collaboratieve manier encodeert door gebruik te maken van verschillende modaliteiten. CoLog gebruikt collaboratieve transformers en multi-head impressed attention om interacties tussen meerdere modaliteiten te leren, wat een uitgebreide anomaliedetectie waarborgt. Om de heterogeniteit veroorzaakt door deze interacties te verwerken, bevat CoLog een modaliteitsaanpassingslaag die de representaties van verschillende logmodaliteiten adapteert. Deze methodologie stelt CoLog in staat om genuanceerde patronen en afhankelijkheden binnen de gegevens te leren, waardoor zijn anomaliedetectiecapaciteiten worden verbeterd. Uitgebreide experimenten tonen de superioriteit van CoLog aan ten opzichte van bestaande state-of-the-art methoden. Bovendien bereikt CoLog bij het detecteren van zowel punt- als collectieve anomalieën een gemiddelde precisie van 99,63%, een gemiddelde recall van 99,59% en een gemiddelde F1-score van 99,61% over zeven benchmarkdatasets voor log-gebaseerde anomaliedetectie. De uitgebreide detectiecapaciteiten van CoLog maken het zeer geschikt voor cybersecurity, systeemmonitoring en operationele efficiëntie. CoLog vertegenwoordigt een significante vooruitgang in log-anomaliedetectie, en biedt een geavanceerde en effectieve oplossing voor punt- en collectieve anomaliedetectie via een uniform raamwerk en een oplossing voor de complexe uitdagingen die automatische loggegevensanalyse met zich meebrengt. Wij bieden ook de implementatie van CoLog aan op https://github.com/NasirzadehMoh/CoLog.
Recente vooruitgang in 3D-reconstructie heeft opmerkelijke vooruitgang geboekt in het vastleggen van hoogwaardige scènes met behulp van dichte multi-view beelden, maar worstelt wanneer de invoerbeelden beperkt zijn. Diverse benaderingen, waaronder regularisatietechnieken, semantische priors en geometrische beperkingen, zijn geïmplementeerd om deze uitdaging aan te pakken. Recente op diffusie gebaseerde methoden hebben aanzienlijke verbeteringen aangetoond door nieuwe aanzichten te genereren vanuit nieuwe cameraposities om de trainingsdata aan te vullen, waardoor eerdere regularisatie- en prior-gebaseerde technieken worden overtroffen. Ondanks deze vooruitgang identificeren we drie kritieke beperkingen in deze state-of-the-art benaderingen: onvoldoende dekking buiten de periferie van bekende aanzichten, geometrische inconsistenties tussen gegenereerde aanzichten en rekenkundig intensieve pijplijnen. Wij introduceren GaMO (Geometry-aware Multi-view Outpainter), een raamwerk dat reconstructie met weinig aanzichten herformuleert via multi-view outpainting. In plaats van nieuwe gezichtspunten te genereren, breidt GaMO het gezichtsveld uit vanaf bestaande cameraposities, wat inherent de geometrische consistentie behoudt en tegelijkertijd een bredere scènedekking biedt. Onze aanpak gebruikt multi-view conditionering en geometrisch-bewuste denoisestrategieën op een zero-shot-manier zonder training. Uitgebreide experimenten op Replica en ScanNet++ tonen state-of-the-art reconstructiekwaliteit aan bij 3, 6 en 9 invoerbeelden, waarbij eerdere methoden worden overtroffen in PSNR en LPIPS, terwijl een 25-voudige snelheidswinst wordt bereikt ten opzichte van SOTA diffusiegebaseerde methoden, met een verwerkingstijd van minder dan 10 minuten. Projectpagina: https://yichuanh.github.io/GaMO/
Geheugen fungeert als het cruciale knooppunt dat verleden en toekomst verbindt, en verschaft zowel mensen als AI-systemen onschatbare concepten en ervaringen om complexe taken te navigeren. Recent onderzoek naar autonome agents richt zich steeds meer op het ontwerpen van efficiënte geheugenwerkstromen door inzichten uit de cognitieve neurowetenschappen te benutten. Echter, gehinderd door interdisciplinaire barrières, worstelen bestaande werken met het assimileren van de essentie van menselijke geheugenmechanismen. Om deze kloof te overbruggen, synthetiseren wij systematisch interdisciplinaire kennis over geheugen door inzichten uit de cognitieve neurowetenschappen te verbinden met LLM-gestuurde agents. Concreet verhelderen we eerst de definitie en functie van geheugen langs een progressief traject – van cognitieve neurowetenschappen via LLMs naar agents. Vervolgens bieden we een vergelijkende analyse van geheugentaxonomie, opslagmechanismen en de volledige managementlevenscyclus vanuit zowel biologisch als kunstmatig perspectief. Daarna bespreken we de gangbare benchmarks voor het evalueren van agentgeheugen. Tevens onderzoeken we geheugenbeveiliging vanuit een dubbel perspectief van aanval en verdediging. Ten slotte schetsen we toekomstige onderzoeksrichtingen, met focus op multimodale geheugensystemen en vaardigheidsverwerving.
Vision-language-action (VLA)-modellen hebben taalgestuurde, langetermijnrobotmanipulatie mogelijk gemaakt, maar de meeste bestaande systemen zijn beperkt tot grijpers. Het schalen van VLA-beleid naar bimanuele robots met hooggedegradeerde (DoF) behendige handen blijft een uitdaging vanwege de uitgebreide actieruimte, frequente hand-objectocclusies en de kosten van het verzamelen van real-robotdata. Wij presenteren GR-Dexter, een holistisch hardware-model-data-framework voor VLA-gebaseerde generalistische manipulatie op een bimanuele robot met behendige handen. Onze aanpak combineert het ontwerp van een compacte 21-DoF robot-hand, een intuïtief bimanueel teleoperatiesysteem voor real-robotdatacollectie en een trainingsmethode die gebruikmaakt van geteleopererde robottrajecten samen met grootschalige vision-language- en zorgvuldig samengestelde cross-embodiment-datasets. In real-world evaluaties, variërend van langetermijndagelijkse manipulatie tot generaliseerbaar pick-and-place, behaalt GR-Dexter sterke in-domeinprestaties en verbeterde robuustheid voor ongeziene objecten en ongeziene instructies. Wij hopen dat GR-Dexter een praktische stap vormt naar generalistische robotmanipulatie met behendige handen.
Recente vooruitgang in tekst-naar-video (T2V) generatie heeft een goede visuele kwaliteit bereikt, maar het synthetiseren van video's die de natuurwetten nauwgezet volgen, blijft een uitdaging. Bestaande methoden, voornamelijk gebaseerd op graphics of promptuitbreiding, hebben moeite om te generaliseren voorbij eenvoudige gesimuleerde omgevingen of om impliciet fysisch redeneren aan te leren. Ook de schaarste aan trainingsdata met rijke fysica-interacties en -fenomenen is een probleem. In dit artikel introduceren we eerst een Physics-Augmented videodata-constructiepijplijn, PhyAugPipe, die gebruikmaakt van een vision-language model (VLM) met chain-of-thought redenering om een grootschalige trainingsdataset, PhyVidGen-135K, te verzamelen. Vervolgens formuleren we een principieel Physics-aware Groupwise Direct Preference Optimization, PhyGDPO, raamwerk dat voortbouwt op het groupwise Plackett-Luce probabilistische model om holistische voorkeuren te vangen die verder gaan dan paarsgewijze vergelijkingen. In PhyGDPO ontwerpen we een Physics-Guided Rewarding (PGR) schema dat VLM-gebaseerde fysica-beloningen inbedt om de optimalisatie naar fysische consistentie te sturen. We stellen ook een LoRA-Switch Reference (LoRA-SR) schema voor dat geheugenintensieve referentieduplicatie elimineert voor efficiënte training. Experimenten tonen aan dat onze methode de state-of-the-art open-source methoden aanzienlijk overtreft op PhyGenBench en VideoPhy2. Ga naar onze projectpagina https://caiyuanhao1998.github.io/project/PhyGDPO voor meer videoresultaten. Onze code, modellen en data worden vrijgegeven op https://github.com/caiyuanhao1998/Open-PhyGDPO.
Dit artikel presenteert JavisGPT, het eerste verenigde multimodale groottaalmodel (MLLM) voor gezamenlijk audio-video (JAV) begrip en generatie. JavisGPT hanteert een beknopte encoder-LLM-decoder architectuur, met een SyncFusion-module voor spatio-temporele audio-video fusie en synchronisatiebewuste leerbare queries om een vooraf getrainde JAV-DiT-generator te verbinden. Dit ontwerp maakt temporeel coherent video-audio begrip en generatie mogelijk vanuit multimodale instructies. We ontwerpen een effectieve drietraps trainingspijplijn bestaande uit multimodale voorpretraining, audio-video finetuning en grootschalige instructie-afstemming, om stapsgewijs multimodaal begrip en generatie vanuit bestaande visie-taalmodellen op te bouwen. Om dit te ondersteunen, construeren we verder JavisInst-Omni, een hoogwaardige instructiedataset met meer dan 200K door GPT-4o samengestelde audio-video-tekst dialogen die diverse en multi-level begrips- en generatiescenario's omvat. Uitgebreide experimenten op JAV-begrips- en generatiebenchmarks tonen aan dat JavisGPT bestaande MLLM's overtreft, vooral in complexe en temporeel gesynchroniseerde settings.
Wij presenteren PFP, een neuraal netwerkstructuur voor het comprimeren van lange video's tot korte contexten, met een expliciet pretrainingsdoel om de hoogfrequente details van individuele frames op willekeurige temporele posities te behouden. Het basismodel kan een video van 20 seconden comprimeren tot een context van ongeveer 5k tokens, waarbij willekeurige frames kunnen worden opgehaald met perceptueel behouden visuele kwaliteit. Dergelijke voorgetrainde modellen kunnen direct worden gefinetuned als geheugencoders voor autoregressieve videomodellen, waardoor langetermijngeheugen mogelijk wordt tegen lage contextkosten en relatief gering kwaliteitsverlies. Wij evalueren het framework met ablatie-instellingen en bespreken de afwegingen bij mogelijke neurale architectuurontwerpen.
Hoog-risicobesluitvorming vereist redeneren onder onzekerheid over de toekomst. In dit werk trainen we taalmodellen om voorspellingen te doen over open voorspellingsvragen. Om trainingsdata op te schalen, synthetiseren we nieuwe voorspellingsvragen uit mondiale gebeurtenissen in dagelijkse nieuwsberichten, met behulp van een volledig geautomatiseerd, zorgvuldig samengesteld recept. We trainen de Qwen3-denkmodellen op onze dataset, OpenForesight. Om lekken van toekomstige informatie tijdens training en evaluatie te voorkomen, gebruiken we een offline nieuwscorpus, zowel voor datageneratie als retrieval in ons voorspellingssysteem. Geleid door een kleine validatieset, tonen we de voordelen van retrieval en een verbeterde beloningsfunctie voor reinforcement learning (RL). Nadat we ons definitieve voorspellingssysteem hebben verkregen, voeren we een afgezonderde test uit tussen mei en augustus 2025. Ons gespecialiseerde model, OpenForecaster 8B, evenaart veel grotere propriëtaire modellen, waarbij onze training de nauwkeurigheid, calibratie en consistentie van voorspellingen verbetert. We constateren dat calibratieverbeteringen door voorspellingstraining generaliseren over populaire benchmarks. We maken al onze modellen, code en data open source om onderzoek naar voorspellingen met taalmodellen breed toegankelijk te maken.
Ondanks de groeiende redeneercapaciteiten van recente grote taalmodellen (LLM's) blijven hun interne mechanismen tijdens het redeneerproces onderbelicht. Eerdere benaderingen baseren zich vaak op door de mens gedefinieerde concepten (zoals overdenken, reflectie) op woordniveau om redeneren op een supervised manier te analyseren. Deze methoden zijn echter beperkt, omdat het onhaalbaar is om het volledige spectrum van potentiële redeneergedragingen vast te leggen, waarvan vele moeilijk te definiëren zijn in de token-ruimte. In dit werk stellen we een unsupervised raamwerk voor (genaamd RISE: Reasoning behavior Interpretability via Sparse auto-Encoder) voor het ontdekken van redeneervectoren, die wij definiëren als richtingen in de activatieruimte die afzonderlijke redeneergedragingen coderen. Door chain-of-thought-sporen op te delen in zin-niveau 'stappen' en sparse auto-encoders (SAE's) te trainen op stap-niveau activaties, onthullen we ontvlochten kenmerken die corresponderen met interpreteerbare gedragingen zoals reflectie en backtracking. Visualisatie- en clusteranalyses tonen aan dat deze gedragingen afzonderlijke regio's innemen in de decoder-kolomruimte. Bovendien kunnen gerichte interventies op SAE-afgeleide vectoren specifieke redeneergedragingen controleerbaar versterken of onderdrukken, waardoor inferentietrajecten veranderen zonder hertraining. Naast gedragsspecifieke ontvlechting vangen SAE's structurele eigenschappen op, zoals responslengte, wat clusters van lange versus korte redeneersporen onthult. Interessanter is dat SAE's de ontdekking van nieuwe gedragingen mogelijk maken, voorbij menselijke supervisie. We demonstreren het vermogen om de responsbetrouwbaarheid te controleren door betrouwbaarheidsgerelateerde vectoren in de SAE-decoderruimte te identificeren. Deze bevindingen onderstrepen het potentieel van unsupervised latente ontdekking voor zowel het interpreteren als het controleerbaar sturen van redeneren in LLM's.
Wij presenteren SpaceTimePilot, een videodiffusiemodel dat ruimte en tijd ontvlecht voor bestuurbaar generatief renderen. Gegeven een monovideo kan SpaceTimePilot onafhankelijk het camerapunt en de bewegingssequentie binnen het generatieve proces aanpassen, waardoor de scène opnieuw wordt gerenderd voor continue en willekeurige verkenning in ruimte en tijd. Om dit te bereiken introduceren we een effectief animatie-tijdinbeddingsmechanisme in het diffusieproces, waarmee de bewegingssequentie van de uitvoervideo expliciet kan worden bestuurd ten opzichte van die van de bronvideo. Aangezien geen enkele dataset gepaarde video's van dezelfde dynamische scène met continue temporele variaties biedt, stellen we een eenvoudig maar effectief trainingsschema voor temporele vervorming voor dat bestaande multi-view datasets hergebruikt om temporele verschillen na te bootsen. Deze strategie begeleidt het model effectief bij het aanleren van temporele controle en het bereiken van robuuste ruimte-tijd-ontvlechting. Om de precisie van dubbele controle verder te verbeteren, introduceren we twee aanvullende componenten: een verbeterd cameraconditioneringsmechanisme dat het wijzigen van de camera vanaf het eerste frame mogelijk maakt, en CamxTime, de eerste synthetische ruimte-tijd-renderdataset met volledige dekking die volledig vrije ruimte-tijd-videotrajecten binnen een scène biedt. Gezamenlijke training op het temporele-vervormingsschema en de CamxTime-dataset resulteert in nauwkeurigere temporele controle. We evalueren SpaceTimePilot op zowel real-world als synthetische data, waarbij duidelijke ruimte-tijd-ontvlechting en sterke resultaten worden aangetoond in vergelijking met eerder werk. Projectpagina: https://zheninghuang.github.io/Space-Time-Pilot/ Code: https://github.com/ZheningHuang/spacetimepilot
Het diffusiemodel vertoont een krachtig vermogen om de volledige (conditionele) gegevensverdeling vast te leggen. Vanwege onvoldoende training en data om de lage-waarschijnlijkheidsgebieden te leren dekken, wordt het model echter afgestraft wanneer het er niet in slaagt hoogwaardige afbeeldingen te genereren die met deze gebieden overeenkomen. Om een betere generatiekwaliteit te bereiken, kunnen begeleidingsstrategieën zoals classifier-free guidance (CFG) de steekproeven tijdens de samplingfase naar de hoge-waarschijnlijkheidsgebieden sturen. De standaard CFG leidt echter vaak tot overgesimplificeerde of vervormde resultaten. Anderzijds wordt de alternatieve aanpak om diffusiemodellen met hun slechte versie te begeleiden, beperkt door zorgvuldig ontworpen degradatiestrategieën, extra training en bijkomende samplingstappen. In dit artikel stellen we een eenvoudige maar effectieve strategie voor, Internal Guidance (IG), die tijdens het trainingsproces een aanvullende supervisie op de tussenlaag introduceert en tijdens het samplingproces de uitvoeren van de tussen- en diepe lagen extrapoleert om generatieve resultaten te verkrijgen. Deze eenvoudige strategie levert aanzienlijke verbeteringen op in zowel trainings efficiëntie als generatiekwaliteit op verschillende basislijnen. Op ImageNet 256x256 behaalt SiT-XL/2+IG een FID=5,31 en FID=1,75 na respectievelijk 80 en 800 epochs. Indrukwekkender is dat LightningDiT-XL/1+IG een FID=1,34 bereikt, wat een aanzienlijke marge vertegenwoordigt ten opzichte van alle andere methoden. In combinatie met CFG behaalt LightningDiT-XL/1+IG de huidige state-of-the-art FID van 1,19.
De snelle ontwikkeling van autonome systemen, zoals zelfrijdende voertuigen en drones, heeft de behoefte aan het ontwikkelen van echte ruimtelijke intelligentie uit multimodale sensordata aan boord vergroot. Hoewel foundation-modellen uitblinken in unimodale contexten, blijft het integreren van hun capaciteiten over diverse sensoren zoals camera's en LiDAR om een uniform begrip te creëren een formidabele uitdaging. Dit artikel presenteert een uitgebreid raamwerk voor multimodale voorafgaande training (pre-training) en identificeert de kerenset van technieken die de vooruitgang richting dit doel aandrijven. We ontleden de wisselwerking tussen fundamentele sensor-eigenschappen en leerstrategieën, en evalueren de rol van platformspecifieke datasets in het mogelijk maken van deze vooruitgang. Onze centrale bijdrage is de formulering van een uniforme taxonomie voor pre-training paradigma's: variërend van unimodale basislijnen tot geavanceerde uniforme raamwerken die holistische representaties leren voor geavanceerde taken zoals 3D-objectdetectie en semantische occupancy-predictie. Verder onderzoeken we de integratie van tekstuele invoer en occupancy-representaties om open-wereld-perceptie en -planning te vergemakkelijken. Ten slotte identificeren we kritieke knelpunten, zoals computationele efficiëntie en modelschaalbaarheid, en stellen we een routekaart voor naar algemene multimodale foundation-modellen die in staat zijn tot robuuste ruimtelijke intelligentie voor inzet in de echte wereld.
De classificatie van respiratoire geluiden wordt bemoeilijkt door de beperkte omvang, het hoge ruisniveau en de ernstige klasse-onbalans van benchmarkdatasets zoals ICBHI 2017. Hoewel op Transformers gebaseerde modellen krachtige mogelijkheden voor kenmerkextractie bieden, zijn ze gevoelig voor overfitting en convergeren ze vaak naar scherpe minima in het verlieslandschap wanneer ze worden getraind op dergelijke beperkte medische gegevens. Om dit aan te pakken, introduceren we een raamwerk dat de Audio Spectrogram Transformer (AST) verbetert met behulp van Sharpness-Aware Minimization (SAM). In plaats van alleen de trainingsverlies te minimaliseren, optimaliseert onze aanpak de geometrie van het verliesoppervlak, waardoor het model naar vlakkere minima wordt geleid die beter generaliseren naar onzichtbare patiënten. We implementeren ook een gewogen steekproefstrategie om klasse-onbalans effectief aan te pakken. Onze methode behaalt een state-of-the-art score van 68,10% op de ICBHI 2017-dataset, waarmee bestaande CNN- en hybride baseline-modellen worden overtroffen. Belangrijker nog, het bereikt een sensitiviteit van 68,31%, een cruciale verbetering voor betrouwbare klinische screening. Verdere analyse met behulp van t-SNE en aandachtsoverzichten bevestigt dat het model robuuste, onderscheidende kenmerken leert in plaats van achtergrondruis te memoriseren.
Complexe redeneerproblemen omvatten vaak impliciete ruimtelijke, geometrische en structurele relaties die niet expliciet in tekst zijn gecodeerd. Hoewel recente redeneermodellen sterke prestaties hebben behaald in vele domeinen, worstelt puur tekstgebaseerd redeneren met het weergeven van globale structurele beperkingen in complexe situaties. In dit artikel introduceren we FIGR, dat actief visueel denken integreert in meer-staps redeneren via end-to-end reinforcement learning. FIGR externaliseert tussenliggende structurele hypothesen door tijdens het probleemoplossen visuele representaties te construeren. Door adaptief te reguleren wanneer en hoe visueel redeneren moet worden ingezet, stelt FIGR stabieler en samenhangender redeneren over globale structurele eigenschappen mogelijk, die moeilijk alleen uit tekst zijn af te leiden. Experimenten op uitdagende wiskundige redeneerbenchmarks tonen aan dat FIGR sterke tekstuele chain-of-thought-baselines overtreft. In het bijzonder verbetert FIGR het basismodel met 13,12% op AIME 2025 en 11,00% op BeyondAIME, wat de effectiviteit aantoont van figuur-gestuurd multimodaal redeneren bij het verbeteren van de stabiliteit en betrouwbaarheid van complex redeneren.
Recente video-taalmodelen hebben groot potentieel getoond voor videobegrip, maar worstelen nog steeds met nauwkeurige temporele verankering voor gebeurtenisniveau-perceptie. Wij observeren dat twee hoofdfactoren in videobegrip (namelijk temporele verankering en tekstueel antwoord) een logische hiërarchie vormen: nauwkeurige verankering van temporele bewijsstukken legt de basis voor een betrouwbaar tekstueel antwoord. Bestaande werkwijzen behandelen deze twee taken echter typisch op een gekoppelde manier zonder duidelijke logische structuur, wat leidt tot suboptimale doelstellingen. Wij benaderen dit vanuit een gefactoriseerd leerperspectief. Wij stellen eerst D²VLM voor, een raamwerk dat het leren van deze twee taken ontkoppelt terwijl het ook hun inherente afhankelijkheid benadrukt. Wij hanteren een paradigma van "eerst verankeren, dan antwoorden met verwijzing naar bewijsstukken" en introduceren bewijstokens voor verankering, waarbij de nadruk ligt op het vastleggen van visuele semantiek op gebeurtenisniveau, verdergaand dan de focus op tijdsrepresentatie in bestaande werken. Om het leren van deze twee taken verder te faciliteren, introduceren wij een nieuw gefactoriseerd voorkeursoptimalisatie (FPO) algoritme. In tegenstelling tot standaard voorkeursoptimalisatie, integreert FPO expliciet probabilistische temporele verankeringsmodellering in het optimalisatiedoel, waardoor voorkeursleren voor zowel temporele verankering als tekstueel antwoord mogelijk wordt. Wij construeren ook een synthetische dataset om het gebrek aan geschikte datasets voor gefactoriseerd voorkeursleren met expliciete temporele verankering aan te pakken. Experimenten op diverse taken tonen het duidelijke voordeel van onze aanpak aan. Onze broncode is beschikbaar op https://github.com/nusnlp/d2vlm.
Strategische dialoog vereist dat agenten verschillende dialooghandelingen uitvoeren, waarvoor geloofsschatting essentieel is. Hoewel eerder werk vaak geloofsschattingen accuraat uitvoert, ontbreekt een principieel mechanisme om deze geloofsschattingen tijdens generatie te gebruiken. Wij overbruggen deze kloof door eerst twee kernhandelingen te formaliseren – Adversarial en Alignment – en deze te operationaliseren via probabilistische constraints op wat een agent mag genereren. Wij concretiseren dit idee in BEDA, een raamwerk dat bestaat uit de wereldset, de geloofsschatter voor geloofsschatting, en de conditionele generator die handelingen selecteert en uitingen realiseert die consistent zijn met de afgeleide geloofsschattingen. Over drie settings heen – Conditional Keeper Burglar (CKBG, adversarieel), Mutual Friends (MF, coöperatief) en CaSiNo (onderhandeling) – presteert BEDA consistent beter dan sterke baseline-modellen: op CKBG verbetert het het slagingspercentage met minimaal 5,0 punten over verschillende backbones heen en met 20,6 punten bij gebruik van GPT-4.1-nano; op Mutual Friends behaalt het een gemiddelde verbetering van 9,3 punten; en op CaSiNo bereikt het de optimale deal ten opzichte van alle baseline-modellen. Deze resultaten geven aan dat het modelleren van geloofsschatting als constraints een eenvoudig, algemeen mechanisme biedt voor betrouwbare strategische dialoog.
Moderne AI-systemen vertrouwen op vector-embeddings die worden opgeslagen en doorzocht met behulp van floating-point rekenkunde. Hoewel effectief voor benaderende gelijkeniszoekopdrachten, introduceert dit ontwerp een fundamentele non-determinisme: identieke modellen, invoer en code kunnen verschillende geheugentoestanden en zoekresultaten opleveren op verschillende hardware-architecturen (bijv. x86 vs. ARM). Dit verhindert reproduceerbaarheid en veilige implementatie, wat leidt tot stille datadivergentie die latere verificatie onmogelijk maakt en audit trails in gereguleerde sectoren compromitteert. Wij presenteren Valori, een deterministisch AI-geheugensubstraat dat floating-pointgeheugenoperaties vervangt door fixed-point rekenkunde (Q16.16) en geheugen modelleert als een reproduceerbare toestandsautomaat. Valori garandeert bit-identieke geheugentoestanden, snapshots en zoekresultaten op verschillende platformen. Wij tonen aan dat non-determinisme al vóór indexering of retrievable optreedt en laten zien hoe Valori determinisme afdwingt bij de geheugengrens. Onze resultaten suggereren dat deterministisch geheugen een noodzakelijke bouwsteen is voor betrouwbare AI-systemen. De referentie-implementatie is open-source en beschikbaar op https://github.com/varshith-Git/Valori-Kernel (gearchiveerd op https://zenodo.org/records/18022660).