Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We presenteren Apriel-1.5-15B-Thinker, een open-gewichten multimodaal redeneermodel met 15 miljard parameters dat grensverleggende prestaties bereikt door een doordacht trainingsontwerp in plaats van pure schaal. Uitgaande van Pixtral-12B, passen we een progressieve driestapsmethodologie toe: (1) diepteschaalvergroting om de redeneercapaciteit uit te breiden zonder vanaf nul te pretrainen, (2) gefaseerde voortgezette pretraining die eerst een fundamenteel begrip van tekst en visie ontwikkelt, en vervolgens het visuele redeneren versterkt door gerichte synthetische datageneratie die zich richt op ruimtelijke structuur, compositioneel begrip en fijnmazige perceptie, en (3) hoogwaardige tekstgebaseerde supervised fine-tuning op gecureerde instructie-responsparen met expliciete redeneersporen die wiskunde, programmeren, wetenschap en toolgebruik omvatten. Opmerkelijk is dat ons model competitieve resultaten behaalt zonder reinforcement learning of voorkeursoptimalisatie, waardoor de bijdrage van onze data-gerichte voortgezette pretrainingbenadering geïsoleerd wordt. Op de Artificial Analysis Intelligence Index behaalt Apriel-1.5-15B-Thinker een score van 52, wat overeenkomt met DeepSeek-R1-0528 ondanks dat het aanzienlijk minder rekenbronnen vereist. Over tien beeldbenchmarks presteert het gemiddeld binnen vijf punten van Gemini-2.5-Flash en Claude Sonnet-3.7, een belangrijke prestatie voor een model dat binnen de beperkingen van single-GPU-implementatie opereert. Onze resultaten tonen aan dat een doordacht mid-training ontwerp aanzienlijke capaciteitskloofjes kan dichten zonder enorme schaal, waardoor grensverleggend multimodaal redeneren toegankelijk wordt voor organisaties met beperkte infrastructuur. We geven het modelcheckpoint, alle trainingsrecepten en evaluatieprotocollen vrij onder de MIT-licentie om open-source onderzoek te bevorderen.
Grote redeneermodellen (LRMs) "denken" door gestructureerde ketens van gedachten (CoT) te genereren voordat ze een definitief antwoord produceren, maar ze missen nog steeds het vermogen om kritisch na te denken over veiligheidsafstemming en zijn gemakkelijk bevooroordeeld wanneer een gebrekkige premisse in hun denkproces wordt geïnjecteerd. Wij stellen RECAP voor (Robust Safety Alignment via Counter-Aligned Prefilling), een principiële reinforcement learning (RL)-methode voor na-training die modellen expliciet leert om gebrekkige redeneertrajecten te overschrijven en om te leiden naar veilige en behulpzame reacties. RECAP traint op een mix van synthetisch gegenereerde tegen-afgestemde CoT-prefills en standaard prompts, vereist geen extra trainingskosten of aanpassingen buiten de standaard reinforcement learning from human feedback (RLHF), en verbetert aanzienlijk de veiligheid en robuustheid tegen jailbreaks, vermindert overmatige weigering, en behoudt de kernredeneercapaciteit — allemaal binnen hetzelfde inferentietokenbudget. Uitgebreide analyse toont aan dat met RECAP getrainde modellen vaker zelfreflectie toepassen en robuust blijven onder adaptieve aanvallen, waarbij de veiligheid behouden blijft zelfs na herhaalde pogingen om hun redenering te overschrijven.
Visuele tokens verbruiken aanzienlijke rekenbronnen in multi-modale grote modellen (MLLMs), wat hun efficiëntie aanzienlijk aantast. Recente werken hebben geprobeerd de efficiëntie te verbeteren door visuele tokens tijdens de training te comprimeren, hetzij door aanpassingen aan modelcomponenten of door het introduceren van extra parameters. Ze negeren echter vaak de toegenomen leercomplexiteit die door dergelijke compressie wordt veroorzaakt, aangezien de parameterruimte van het model moeite heeft zich snel aan te passen aan de aanzienlijke verstoringen in de kenmerkruimte die worden veroorzaakt door tokencompressie. In dit werk stellen we voor om Efficiënte MLLMs te ontwikkelen via Progressieve Consistentie Distillatie (EPIC), een progressief leerframework. Specifiek, door de verstoringen in de kenmerkruimte die door tokencompressie worden geïntroduceerd te ontbinden langs de token- en laaggewijze dimensies, introduceren we respectievelijk token consistentie distillatie en laag consistentie distillatie, met als doel de trainingscomplexiteit te verminderen door gebruik te maken van begeleiding van een leraarmodel en een progressief leertraject te volgen. Uitgebreide experimenten tonen de superieure effectiviteit, robuustheid en generalisatiecapaciteiten van ons voorgestelde framework aan.
Diepgaand onderzoek heeft een revolutie teweeggebracht in data-analyse, maar datawetenschappers besteden nog steeds aanzienlijke tijd aan het handmatig maken van visualisaties, wat de noodzaak benadrukt van robuuste automatisering vanuit natuurlijke taalvragen. Huidige systemen hebben echter moeite met complexe datasets die meerdere bestanden en iteratieve verfijning bevatten. Bestaande benaderingen, waaronder eenvoudige single- of multi-agent systemen, vereenvoudigen de taak vaak te veel, waarbij ze zich richten op het initieel parsen van queries, maar falen in het robuust omgaan met data-complexiteit, codefouten of de uiteindelijke kwaliteit van visualisaties. In dit artikel herformuleren we deze uitdaging als een collaboratief multi-agent probleem. We introduceren CoDA, een multi-agent systeem dat gespecialiseerde LLM-agenten inzet voor metadata-analyse, taakplanning, codegeneratie en zelfreflectie. We formaliseren deze pipeline en demonstreren hoe metadata-gerichte analyse tokenlimieten omzeilt en kwaliteitsgedreven verfijning robuustheid waarborgt. Uitgebreide evaluaties tonen aan dat CoDA aanzienlijke verbeteringen behaalt in de algehele score, waarbij het competitieve baseline-systemen met tot wel 41,5% overtreft. Dit werk toont aan dat de toekomst van visualisatie-automatisering niet ligt in geïsoleerde codegeneratie, maar in geïntegreerde, collaboratieve agent-gebaseerde workflows.
Conversationale gesproken taalmodellen (SLMs) komen naar voren als een veelbelovend paradigma voor real-time spraakinteractie. Hun vermogen om temporele dynamiek te beheersen, inclusief het beheren van timing, tempo en gelijktijdig spreken, blijft echter een kritieke en nog niet geëvalueerde uitdaging voor conversatievloeiendheid. Om deze kloof te overbruggen, introduceren we de Game-Time Benchmark, een raamwerk om deze temporele capaciteiten systematisch te beoordelen. Geïnspireerd door hoe mensen een taal leren door middel van taalactiviteiten, bestaat Game-Time uit basistaken voor het opvolgen van instructies en geavanceerde taken met temporele beperkingen, zoals tempovolging en gesynchroniseerde reacties. Onze evaluatie van diverse SLM-architecturen toont een duidelijk prestatieverschil: terwijl state-of-the-art modellen basistaken goed aankunnen, worstelen veel hedendaagse systemen nog steeds met fundamentele instructieopvolging. Nog kritischer is dat bijna alle modellen aanzienlijk verslechteren onder temporele beperkingen, wat hardnekkige zwaktes in tijdbewustzijn en full-duplex interactie blootlegt. De Game-Time Benchmark biedt een basis om toekomstig onderzoek te sturen naar meer temporeel bewuste conversatie-AI. Demo's en datasets zijn beschikbaar op onze projectwebsite https://ga642381.github.io/Game-Time.
De recente hardware-versnelde microscaling 4-bit floating-point formaten zoals MXFP4 en NVFP4, ondersteund op NVIDIA en AMD GPU's, beloven een revolutie teweeg te brengen in de inferentie van grote taalmodellen (LLM's). Toch blijven hun praktische voordelen onbewezen. Wij presenteren de eerste uitgebreide studie van MXFP4 en NVFP4 voor post-training kwantisatie, waarbij we de kloof tussen hun belofte en de prestaties in de praktijk blootleggen. Onze analyse toont aan dat state-of-the-art methoden moeite hebben met FP4, vanwege twee belangrijke problemen: (1) de kleine groepgrootte van NVFP4 maakt traditionele technieken voor het mitigeren van uitschieters bewezen ondoeltreffend; (2) de machten-van-twee schaalkwantisatie van MXFP4 leidt tot een ernstige verslechtering van de nauwkeurigheid door een hoog geïnduceerd foutenpercentage. Om deze kloof te overbruggen, introduceren we Micro-Rotated-GPTQ (MR-GPTQ), een variant van het klassieke GPTQ-kwantisatiealgoritme dat het kwantisatieproces afstemt op de unieke eigenschappen van FP4, door gebruik te maken van bloksgewijze Hadamard-transformaties en format-specifieke optimalisaties. Wij ondersteunen ons voorstel met een set hoogwaardige GPU-kernels die het MR-GPTQ-formaat mogelijk maken met verwaarloosbare overhead, door rotatiefusie in de gewichten en snelle online berekening van de activaties. Dit resulteert in snelheidswinsten ten opzichte van FP16 van tot 3,6x laaggewijs en 2,2x end-to-end op de NVIDIA B200, en van 6x laaggewijs en 4x end-to-end op de RTX5090. Onze uitgebreide empirische evaluatie toont aan dat MR-GPTQ de state-of-the-art nauwkeurigheid evenaart of overtreft, waarbij MXFP4 aanzienlijk wordt verbeterd, tot het punt waar het bijna die van NVFP4 benadert. Wij concluderen dat, hoewel FP4 geen automatische upgrade is ten opzichte van INT4, format-specifieke methoden zoals MR-GPTQ een nieuw front kunnen openen in de afweging tussen nauwkeurigheid en prestaties.
Diffusiegebaseerde modellen voor robotbesturing, waaronder visie-taal-actie (VLA) en visie-actie (VA) beleidsregels, hebben aanzienlijke capaciteiten getoond. Toch wordt hun vooruitgang beperkt door de hoge kosten van het verkrijgen van grootschalige interactiedatasets. Dit werk introduceert een alternatief paradigma voor het verbeteren van beleidsprestaties zonder aanvullende modeltraining. Misschien verrassend, tonen we aan dat de samengestelde beleidsregels de prestaties van elk ouderbeleid kunnen overtreffen. Onze bijdrage is drievoudig. Ten eerste leggen we een theoretische basis waaruit blijkt dat de convexe samenstelling van distributiescores van meerdere diffusiemodellen een superieur eenstaps functioneel doel kan opleveren in vergelijking met elke individuele score. Een Gr\"onwall-type grens wordt vervolgens gebruikt om aan te tonen dat deze eenstapsverbetering zich voortplant door hele generatietrajecten, wat leidt tot systemische prestatieverbeteringen. Ten tweede, gemotiveerd door deze resultaten, stellen we General Policy Composition (GPC) voor, een trainingsvrije methode die de prestaties verbetert door de distributiescores van meerdere vooraf getrainde beleidsregels te combineren via een convexe combinatie en zoektocht tijdens de testfase. GPC is veelzijdig en maakt de plug-and-play samenstelling van heterogene beleidsregels mogelijk, inclusief VA- en VLA-modellen, evenals die gebaseerd op diffusie of flow-matching, ongeacht hun visuele invoermodaliteiten. Ten derde bieden we uitgebreide empirische validatie. Experimenten op Robomimic, PushT en RoboTwin benchmarks, naast evaluaties in de echte wereld, bevestigen dat GPC consistent prestaties en aanpassingsvermogen verbetert over een diverse set taken. Verdere analyse van alternatieve samenstellingsoperatoren en wegingstrategieën biedt inzicht in de mechanismen die ten grondslag liggen aan het succes van GPC. Deze resultaten vestigen GPC als een eenvoudige maar effectieve methode voor het verbeteren van besturingsprestaties door bestaande beleidsregels te benutten.
Recente ontwikkelingen op het gebied van zelfverbetering voor Large Language Models (LLMs) hebben de mogelijkheden van modellen efficiënt verbeterd zonder de kosten significant te verhogen, met name wat betreft menselijke inspanning. Hoewel dit gebied nog relatief jong is, biedt de uitbreiding naar het multimodale domein enorm veel potentieel voor het benutten van diverse databronnen en het ontwikkelen van meer algemene zelfverbeterende modellen. Dit overzicht is het eerste dat een uitgebreid beeld geeft van zelfverbetering in Multimodal LLMs (MLLMs). We bieden een gestructureerd overzicht van de huidige literatuur en bespreken methoden vanuit drie perspectieven: 1) gegevensverzameling, 2) gegevensorganisatie, en 3) modeloptimalisatie, om de verdere ontwikkeling van zelfverbetering in MLLMs te vergemakkelijken. We nemen ook veelgebruikte evaluaties en downstream-toepassingen op. Tot slot sluiten we af met het schetsen van open uitdagingen en toekomstige onderzoeksrichtingen.
Sparse autoencoders (SAEs) zijn een techniek voor de sparse decompositie van neurale netwerkactivaties in menselijk interpreteerbare kenmerken. Huidige SAEs hebben echter last van kenmerkabsorptie, waarbij gespecialiseerde kenmerken instanties van algemene kenmerken vastleggen, wat leidt tot representatiegaten, en kenmerksamenstelling, waarbij onafhankelijke kenmerken samensmelten tot samengestelde representaties. In dit werk introduceren we Orthogonale SAE (OrtSAE), een nieuwe aanpak die deze problemen probeert te verminderen door orthogonaliteit tussen de geleerde kenmerken af te dwingen. Door een nieuwe trainingsprocedure te implementeren die hoge paarsgewijze cosinusgelijkenis tussen SAE-kenmerken bestraft, bevordert OrtSAE de ontwikkeling van ontwarde kenmerken terwijl het lineair schaalt met de grootte van de SAE, zonder significante rekenkundige overhead. We trainen OrtSAE op verschillende modellen en lagen en vergelijken het met andere methoden. We ontdekken dat OrtSAE 9% meer onderscheidende kenmerken ontdekt, kenmerkabsorptie (met 65%) en samenstelling (met 15%) vermindert, de prestaties verbetert bij het verwijderen van valse correlaties (+6%), en vergelijkbare prestaties behaalt voor andere downstream taken in vergelijking met traditionele SAEs.
LLMs zijn krachtige tools geworden voor het interpreteren van multimodale data. In de geneeskunde bieden ze bijzondere mogelijkheden voor het synthetiseren van grote hoeveelheden klinische informatie in bruikbare inzichten en digitale gezondheidstoepassingen. Een belangrijke beperking blijft echter hun onvermogen om tijdreeksen te verwerken. Om deze kloof te overbruggen, presenteren we OpenTSLM, een familie van Time Series Language Models (TSLMs) die zijn ontwikkeld door tijdreeksen als een native modaliteit te integreren in vooraf getrainde LLMs, waardoor redeneren over meerdere tijdreeksen van elke lengte mogelijk wordt. We onderzoeken twee architecturen voor OpenTSLM. De eerste, OpenTSLM-SoftPrompt, modelleert tijdreeksen impliciet door leerbare tijdreeks-tokens te concateneren met tekst-tokens via soft prompting. Hoewel parameter-efficiënt, veronderstellen we dat expliciete tijdreeksmodellering beter schaalt en beter presteert dan impliciete benaderingen. Daarom introduceren we OpenTSLM-Flamingo, dat tijdreeksen integreert met tekst via cross-attention. We vergelijken beide varianten met baseline-modellen die tijdreeksen behandelen als tekst-tokens of plots, over een reeks tekst-tijdreeks Chain-of-Thought (CoT) redeneertaken. We introduceren drie datasets: HAR-CoT, Sleep-CoT en ECG-QA-CoT. Over de hele linie presteren OpenTSLM-modellen beter dan de baseline-modellen, met een F1-score van 69,9 in slaapstadia en 65,4 in HAR, vergeleken met 9,05 en 52,2 voor fijn afgestemde tekstmodellen. Opmerkelijk is dat zelfs 1B-parameter OpenTSLM-modellen GPT-4o overtreffen (15,47 en 2,95). OpenTSLM-Flamingo evenaart OpenTSLM-SoftPrompt in prestaties en presteert beter op langere sequenties, terwijl het stabiele geheugeneisen behoudt. Daarentegen groeit SoftPrompt exponentieel in geheugen met sequentielengte, wat ongeveer 110 GB vereist in vergelijking met 40 GB VRAM bij het trainen op ECG-QA met LLaMA-3B. Expertbeoordelingen door clinici tonen sterke redeneervaardigheden van OpenTSLMs op ECG-QA. Om verder onderzoek te faciliteren, bieden we alle code, datasets en modellen open-source aan.
Vooruitgang in Large Language Models (LLMs) heeft een nieuwe klasse van zelf-evoluerende agents mogelijk gemaakt die autonoom verbeteren door interactie met de omgeving, waarbij ze sterke capaciteiten demonstreren. Zelf-evolutie introduceert echter ook nieuwe risico's die door het huidige veiligheidsonderzoek over het hoofd worden gezien. In dit werk bestuderen we het geval waarin de zelf-evolutie van een agent op onbedoelde manieren afwijkt, wat leidt tot ongewenste of zelfs schadelijke uitkomsten. We verwijzen hiernaar als Misevolutie. Om een systematisch onderzoek te bieden, evalueren we misevolutie langs vier belangrijke evolutionaire paden: model, geheugen, gereedschap en workflow. Onze empirische bevindingen tonen aan dat misevolutie een wijdverbreid risico is, dat zelfs agents beïnvloedt die zijn gebouwd op top-tier LLMs (bijvoorbeeld Gemini-2.5-Pro). Verschillende opkomende risico's worden waargenomen in het zelf-evolutionaire proces, zoals de degradatie van veiligheidsafstemming na geheugenaccumulatie, of de onbedoelde introductie van kwetsbaarheden bij het creëren en hergebruiken van gereedschappen. Voor zover wij weten, is dit de eerste studie die misevolutie systematisch conceptualiseert en empirisch bewijs levert van het optreden ervan, wat de dringende behoefte aan nieuwe veiligheidsparadigma's voor zelf-evoluerende agents benadrukt. Tot slot bespreken we potentiële mitigatiestrategieën om verder onderzoek te inspireren naar het bouwen van veiligere en betrouwbaardere zelf-evoluerende agents. Onze code en gegevens zijn beschikbaar op https://github.com/ShaoShuai0605/Misevolution. Waarschuwing: dit artikel bevat voorbeelden die aanstootgevend of schadelijk van aard kunnen zijn.
Recente vooruitgang in diffusiegebaseerde tekst-naar-beeld (T2I) modellen heeft geleid tot opmerkelijke successen in het genereren van hoogwaardige afbeeldingen vanuit tekstuele prompts. Het waarborgen van een nauwkeurige afstemming tussen de tekst en de gegenereerde afbeelding blijft echter een aanzienlijke uitdaging voor state-of-the-art diffusiemodellen. Om dit aan te pakken, maken bestaande studies gebruik van reinforcement learning met menselijke feedback (RLHF) om T2I-uitvoer af te stemmen op menselijke voorkeuren. Deze methoden vertrouwen echter direct op gepaarde afbeeldingsvoorkeursdata of vereisen een geleerde beloningsfunctie, die beide sterk afhankelijk zijn van kostbare, hoogwaardige menselijke annotaties en daardoor schaalbaarheidsbeperkingen ondervinden. In dit werk introduceren we Text Preference Optimization (TPO), een raamwerk dat "gratis" afstemming van T2I-modellen mogelijk maakt, waarbij afstemming wordt bereikt zonder de noodzaak van gepaarde afbeeldingsvoorkeursdata. TPO werkt door het model te trainen om overeenkomende prompts te verkiezen boven niet-overeenkomende prompts, die worden geconstrueerd door originele bijschriften te verstoren met behulp van een groot taalmodel. Ons raamwerk is algemeen en compatibel met bestaande voorkeursgebaseerde algoritmen. We breiden zowel DPO als KTO uit naar onze instelling, wat resulteert in TDPO en TKTO. Kwantitatieve en kwalitatieve evaluaties over meerdere benchmarks tonen aan dat onze methoden consistent beter presteren dan hun originele tegenhangers, met betere menselijke voorkeursscores en verbeterde tekst-naar-beeld afstemming. Onze open-source code is beschikbaar op https://github.com/DSL-Lab/T2I-Free-Lunch-Alignment.
Kleine Vision-Language Models (VLMs) bieden een computationeel efficiënt alternatief voor grotere modellen, ten koste van zwakkere generalisatievermogens en prestaties bij downstream taken. Deze tekortkomingen kunnen worden aangepakt met test-time schalingstechnieken, maar bestaande methoden zijn doorgaans computationeel veeleisend, wat in tegenspraak is met de doelstellingen van resource-efficiënt ontwerp van kleine modellen. Om deze beperkingen aan te pakken, stellen we twee nieuwe en efficiënte test-time schalingsstrategieën voor die gebruikmaken van de interne kenmerken van het model in plaats van externe supervisie: (i) Test-Time Augmentation (TTAug), dat meerdere geaugmenteerde inputs genereert en outputs op tokenniveau aggregeert zonder parameterupdates, en (ii) Test-Time Adaptation (TTAdapt), dat modelparameters tijdens inferentie aanpast met behulp van consensusgebaseerde pseudolabels van TTAug. Door uitgebreide experimenten over negen benchmarks tonen we consistente prestatieverbeteringen aan, terwijl de computationele efficiëntie geschikt blijft voor omgevingen met beperkte resources. De algemeenheid van onze aanpak wordt aangetoond zowel binnen modellen van verschillende schalen als over verschillende VLMs heen, zonder aanvullende afstemming.
Het reconstrueren van 3D-scènes en het synthetiseren van nieuwe perspectieven heeft de afgelopen jaren een snelle vooruitgang geboekt. Neural Radiance Fields toonden aan dat continue volumetrische radiance-velden hoogwaardige beeld-synthese kunnen bereiken, maar hun lange training- en renderingtijden beperken de praktische toepasbaarheid. 3D Gaussian Splatting (3DGS) pakte deze problemen aan door scènes te representeren met miljoenen Gaussians, wat real-time rendering en snelle optimalisatie mogelijk maakt. Echter zijn Gaussian-primitieven niet van nature compatibel met de op meshes gebaseerde pipelines die worden gebruikt in VR-headsets en real-time grafische toepassingen. Bestaande oplossingen proberen Gaussians om te zetten in meshes via post-processing of tweestaps pipelines, wat de complexiteit verhoogt en de visuele kwaliteit vermindert. In dit werk introduceren we Triangle Splatting+, dat direct driehoeken, het fundamentele primitief van computergraphics, optimaliseert binnen een differentieerbaar splatting-framework. We formuleren driehoek-parametrisering om connectiviteit mogelijk te maken via gedeelde vertices, en we ontwerpen een trainingsstrategie die ondoorzichtige driehoeken afdwingt. De uiteindelijke output is direct bruikbaar in standaard grafische engines zonder post-processing. Experimenten op de Mip-NeRF360 en Tanks & Temples datasets tonen aan dat Triangle Splatting+ state-of-the-art prestaties bereikt in op meshes gebaseerde nieuwe perspectief-synthese. Onze methode overtreft eerdere splatting-benaderingen in visuele kwaliteit terwijl het efficiënt en snel blijft in training. Bovendien ondersteunen de resulterende semi-verbonden meshes downstream toepassingen zoals physics-based simulaties of interactieve walkthroughs. De projectpagina is https://trianglesplatting2.github.io/trianglesplatting2/.
Post-training voor grote taalmodellen (LLMs) wordt beperkt door de hoge kosten van het verwerven van nieuwe kennis of het corrigeren van fouten en door de onbedoelde bijwerkingen die vaak ontstaan bij hertraining. Om deze problemen aan te pakken, introduceren we REPAIR (Robust Editing via Progressive Adaptive Intervention and Reintegration), een levenslang bewerkingsraamwerk dat is ontworpen om precieze en kosteneffectieve modelupdates te ondersteunen terwijl niet-doelgerichte kennis behouden blijft. REPAIR vermindert de instabiliteit en conflicten van grootschalige sequentiële bewerkingen door middel van een gesloten feedbacklus gekoppeld aan dynamisch geheugenbeheer. Bovendien adresseert REPAIR, door frequente kennisintegratie en het handhaven van sterke localiteitsbeveiligingen, effectief de tekortkomingen van traditionele distributie-agnostische benaderingen die vaak onbedoelde neveneffecten over het hoofd zien. Onze experimenten tonen aan dat REPAIR de bewerkingsnauwkeurigheid met 10%-30% verhoogt over meerdere modelfamilies en kennisvergeten aanzienlijk vermindert. Dit werk introduceert een robuust raamwerk voor het ontwikkelen van betrouwbare, schaalbare en voortdurend evoluerende LLMs.
Webagents aangedreven door grote taalmodellen (LLMs) moeten uitgebreide webpagina-observaties verwerken om gebruikersdoelen te voltooien; deze pagina's overschrijden vaak tienduizenden tokens. Dit overschrijdt de contextlimieten en verhoogt de rekenkosten; bovendien stelt het verwerken van volledige pagina's agents bloot aan beveiligingsrisico's zoals promptinjectie. Bestaande snoeistrategieën verwijderen ofwel relevante inhoud of behouden irrelevante context, wat leidt tot suboptimale actievoorspellingen. Wij introduceren FocusAgent, een eenvoudige maar effectieve aanpak die gebruikmaakt van een lichtgewicht LLM-retriever om de meest relevante regels uit toegankelijkheidsboom (AxTree)-observaties te extraheren, geleid door taakdoelen. Door lawaaierige en irrelevante inhoud te snoeien, stelt FocusAgent efficiënt redeneren mogelijk terwijl de kwetsbaarheid voor injectieaanvallen wordt verminderd. Experimenten op de WorkArena- en WebArena-benchmarks laten zien dat FocusAgent de prestaties van sterke basislijnen evenaart, terwijl de observatiegrootte met meer dan 50% wordt verminderd. Bovendien vermindert een variant van FocusAgent het slagingspercentage van prompt-injectieaanvallen aanzienlijk, inclusief banner- en pop-upaanvallen, terwijl de taakuitvoeringsprestaties in aanvalsvrije omgevingen behouden blijven. Onze resultaten benadrukken dat gerichte LLM-gebaseerde retrieval een praktische en robuuste strategie is voor het bouwen van webagents die efficiënt, effectief en veilig zijn.
Academisch overzichtswerk, dat uitgebreide literatuur destilleert tot een samenhangend en inzichtelijk verhaal, blijft een arbeidsintensieve en intellectueel veeleisende taak. Hoewel recente benaderingen, zoals algemene DeepResearch-agents en gespecialiseerde methoden voor overzichten, automatisch overzichten kunnen genereren (ook wel LLM4Survey genoemd), schieten hun uitvoer vaak tekort in vergelijking met menselijke standaarden en ontbreekt er een rigoureus, op de lezer afgestemd benchmark om hun tekortkomingen grondig aan het licht te brengen. Om deze leemte op te vullen, stellen we een gedetailleerd, quiz-gestuurd evaluatiekader voor, genaamd SurveyBench, dat bestaat uit (1) typische overzichtsthema's afkomstig uit recente 11,343 arXiv-artikelen en bijbehorende 4,947 hoogwaardige overzichten; (2) een veelzijdige metrische hiërarchie die de kwaliteit van de opzet (bijv. dekking, logische samenhang), de inhoudskwaliteit (bijv. synthesegranulariteit, duidelijkheid van inzichten) en de niet-tekstuele rijkdom beoordeelt; en (3) een dual-mode evaluatieprotocol dat inhoudsgerichte en quiz-gebaseerde beantwoordbaarheidstests omvat, expliciet afgestemd op de informatiebehoeften van lezers. De resultaten tonen aan dat SurveyBench bestaande LLM4Survey-benaderingen effectief uitdaagt (bijv. gemiddeld 21% lager dan menselijke prestaties in inhoudsgerichte evaluatie).
De indrukwekkende prestatieverbeteringen van moderne taalmodelle berusten momenteel op het schalen van parameters: grotere modellen slaan meer wereldkennis op en redeneren beter. Het comprimeren van alle wereldkennis in parameters is echter onnodig, aangezien slechts een fractie ervan per prompt wordt gebruikt, en onpraktisch voor edge-apparaten met beperkt geheugen en rekenkracht tijdens inferentie. Wij pakken dit tekort aan met een geheugen-augmented architectuur en een pretrainingsstrategie die aansluit bij bestaande hardwareparadigma's. We introduceren kleine taalmodelle die toegang hebben tot grote hiërarchische parametrische geheugenbanken die wereldkennis coderen. Tijdens pretraining en inferentie halen we een klein, contextafhankelijk geheugenblok op en voegen dit toe aan het model. Onze pretraining leert om langstaart-wereldkennis op te slaan in de geheugenparameters, terwijl het kleine taalmodel fungeert als een anker dat algemene kennis en redeneervaardigheden vastlegt. Door experimenten op schaal van biljoenen tokens tonen we aanzienlijke verbeteringen aan: een model met 160M parameters, versterkt met een 18M-parameters geheugen dat wordt opgehaald uit een 4,6B geheugenbank, behaalt vergelijkbare prestaties als een regulier model met meer dan twee keer zoveel parameters. Door uitgebreide experimenten bestuderen we het optimale type en de grootte van parametrische geheugens in transformers, waarbij we deze opschalen tot meer dan 21B parameters. We ontdekken dat onze voorgestelde hiërarchische feed-forward geheugens robuust werken in verschillende transformer-architecturen, ongeacht of ze tijdens pretraining of achteraf worden toegevoegd.
Standaard discrete diffusiemodellen behandelen alle niet-geobserveerde toestanden identiek door ze af te beelden op een absorberend [MASK]-token. Dit creëert een 'informatieleegte' waarbij semantische informatie die afgeleid zou kunnen worden uit niet-gemaskeerde tokens verloren gaat tussen de denoisingsstappen. Wij introduceren Continuously Augmented Discrete Diffusion (CADD), een raamwerk dat de discrete toestandsruimte verrijkt met een gekoppelde diffusie in een continue latente ruimte. Dit resulteert in gradueel gecorrumpeerde toestanden waarin gemaskeerde tokens worden gerepresenteerd door ruisachtige maar informatieve latente vectoren in plaats van ingestorte 'informatieleegtes'. Bij elke omgekeerde stap kan CADD de continue latente ruimte gebruiken als een semantische hint om het discrete denoising te begeleiden. Het ontwerp is eenvoudig en compatibel met bestaande training van discrete diffusie. Tijdens het samplingproces maakt de sterkte en keuze van de schatter voor de continue latente vector een gecontroleerde afweging mogelijk tussen mode-coverage (het genereren van diverse uitvoer) en mode-seeking (het genereren van contextueel precieze uitvoer) gedrag. Empirisch tonen we aan dat CADD de generatieve kwaliteit verbetert ten opzichte van masker-gebaseerde diffusie bij tekstgeneratie, beeld-synthese en codemodellering, met consistente verbeteringen op zowel kwalitatieve als kwantitatieve metrieken ten opzichte van sterke discrete basislijnen.
We onderzoeken wat daadwerkelijk werkt en wat niet voor het trainen van grote taalmodellen als agents via multi-turn reinforcement learning. Ondanks snelle vooruitgang zijn bestaande frameworks en definities gefragmenteerd, en is er geen systematische formulering of analyse van welke ontwerpkeuzes van belang zijn over taken heen. We pakken deze leemte aan door eerst de ontwerpruimte op te delen in drie onderling verbonden pijlers — omgeving, beloning en beleid — en empirisch een recept af te leiden voor het trainen van LLM-agents in gesitueerde tekstuele domeinen. In het bijzonder testen we TextWorld en ALFWorld, populaire domeinen voor het testen van gesitueerd belichaamd redeneren, evenals SWE-Gym voor meer software engineering-stijl taken. (i) Voor de omgeving analyseren we de impact van taakcomplexiteit in termen van de grootte van de staat- en actieruimtes evenals de optimale oplossingslengte, en vinden dat zelfs eenvoudige omgevingen binnen een domein signalen kunnen geven over hoe goed een agent kan generaliseren naar complexere taken. (ii) Voor de beloning onderzoeken we de relatieve spaarzaamheid van beloningen, en observeren dat hoewel dichte beloningen per beurt de training versnellen, de prestaties en stabiliteit sterk afhankelijk zijn van de keuze van het RL-algoritme. (iii) En voor het beleid van de agent onderzoeken we de wisselwerking tussen beloningsspaarzaamheid en bevooroordeelde (PPO, GRPO) en onbevooroordeelde (RLOO) beleidsgradiëntmethoden, naast het laten zien hoe de optimale verhouding tussen Supervised Fine-tuning (SFT) en RL-training kan worden gevonden bij een vast budget. We destilleren deze bevindingen in een trainingsrecept dat co-ontwerp over de drie pijlers begeleidt, wat onderzoek en praktische inspanningen in multi-turn agentic RL vergemakkelijkt. Code: https://github.com/pearls-lab/meow-tea-taro
Hoewel de recente ontwikkelingen in grote taalmodellen (LLM's) met succes generatieve aanbevelingssystemen met natuurlijke taalinteracties hebben mogelijk gemaakt, is hun aanbevelingsgedrag beperkt, waardoor andere eenvoudigere maar cruciale componenten zoals metadata- of attribuutfiltering onderbenut blijven in het systeem. Wij stellen een LLM-gebaseerd muziekaanbevelingssysteem met tool-aanroeping voor om te dienen als een geïntegreerd retrieval-reranking-pijplijn. Ons systeem positioneert een LLM als een end-to-end aanbevelingssysteem dat gebruikersintentie interpreteert, tool-aanroepingen plant en gespecialiseerde componenten orkestreert: booleaanse filters (SQL), sparse retrieval (BM25), dense retrieval (embedding-similariteit) en generatieve retrieval (semantische ID's). Door tool-planning voorspelt het systeem welke soorten tools moeten worden gebruikt, hun uitvoeringsvolgorde en de benodigde argumenten om muziek te vinden die aansluit bij gebruikersvoorkeuren, waarbij diverse modaliteiten worden ondersteund en meerdere databasefiltermethoden naadloos worden geïntegreerd. We demonstreren dat dit geïntegreerde tool-aanroepingskader competitieve prestaties bereikt in diverse aanbevelingsscenario's door selectief geschikte retrievalmethoden in te zetten op basis van gebruikersvragen, wat een nieuw paradigma voor conversatiegebaseerde muziekaanbevelingssystemen voorstelt.
Wervelkolomaandoeningen treffen wereldwijd 619 miljoen mensen en zijn een belangrijke oorzaak van invaliditeit, toch blijft AI-ondersteunde diagnose beperkt door het gebrek aan niveau-bewuste, multimodale datasets. Klinische besluitvorming voor wervelkolomaandoeningen vereist geavanceerde redenering over röntgenfoto's, CT-scans en MRI's op specifieke wervelniveaus. Echter, de vooruitgang wordt belemmerd door het ontbreken van traceerbare, klinisch onderbouwde instructiedata en gestandaardiseerde, wervelkolomspecifieke benchmarks. Om dit aan te pakken, introduceren we SpineMed, een ecosysteem dat in samenwerking met praktiserende wervelkolomchirurgen is ontworpen. Het omvat SpineMed-450k, de eerste grootschalige dataset die expliciet is ontworpen voor wervelniveau-redenering over beeldvormingsmodaliteiten met meer dan 450.000 instructiegevallen, en SpineBench, een klinisch onderbouwd evaluatiekader. SpineMed-450k is samengesteld uit diverse bronnen, waaronder leerboeken, richtlijnen, open datasets en ~1.000 geanonimiseerde ziekenhuisgevallen, met behulp van een klinisch begeleid proces met een tweestaps LLM-generatiemethode (concept en revisie) om hoogwaardige, traceerbare data te garanderen voor vraag-antwoord, meerzijdige consultaties en rapportgeneratie. SpineBench evalueert modellen op klinisch relevante aspecten, waaronder niveau-identificatie, pathologiebeoordeling en chirurgische planning. Onze uitgebreide evaluatie van verschillende recent geavanceerde grote visie-taalmodellen (LVLMs) op SpineBench onthult systematische zwaktes in fijnmazige, niveauspecifieke redenering. Daarentegen toont ons model, afgestemd op SpineMed-450k, consistente en significante verbeteringen over alle taken. Klinische beoordelingen bevestigen de diagnostische duidelijkheid en praktische bruikbaarheid van de uitvoer van ons model.
De huidige ontwikkeling van grote taalmodellen (LLM's) behandelt probleemoplossing en voorkeursafstemming als afzonderlijke uitdagingen, waarbij eerst geoptimaliseerd wordt voor objectieve correctheid en vervolgens voor afstemming op geaggregeerde menselijke voorkeuren. Dit paradigma faalt in toepassingen die gericht zijn op menselijke interactie, waar het correct oplossen van een probleem onvoldoende is als het antwoord niet aansluit bij de behoeften van de gebruiker. Deze uitdaging wordt nog groter in just-in-time scenario's waar geen eerdere interactiegeschiedenis van de gebruiker bestaat vanwege cold-start condities of privacybeperkingen. LLM's moeten identificeren wat ze niet weten over gebruikersvoorkeuren, strategisch voorkeurswaarden ophalen door middel van vragen, en vervolgens hun redeneerprocessen en antwoorden dienovereenkomstig aanpassen — een complexe keten van cognitieve processen die we gepersonaliseerd redeneren noemen. We introduceren PREFDISCO, een evaluatiemethodologie die statische benchmarks omzet in interactieve personalisatietaken met behulp van psychologisch onderbouwde persona's met beperkte voorkeuren. Ons framework creëert scenario's waarin identieke vragen verschillende redeneerketens vereisen afhankelijk van de gebruikerscontext, aangezien optimale uitlegbenaderingen variëren per individuele expertise en voorkeuren, terwijl feitelijke nauwkeurigheid behouden blijft. Evaluatie van 21 toonaangevende modellen over 10 taken laat zien dat 29,0% van de naïeve personalisatiepogingen slechtere voorkeursafstemming oplevert dan generieke antwoorden, terwijl generieke antwoorden ook niet effectief zijn in het bedienen van individuele gebruikersbehoeften. Deze bevindingen suggereren dat gepersonaliseerd redeneren gerichte ontwikkeling vereist in plaats van vanzelfsprekend te ontstaan. PREFDISCO positioneert gepersonaliseerd redeneren als een meetbaar onderzoeksgebied en onthult fundamentele beperkingen in de interactieve mogelijkheden van huidige LLM's, wat een basis biedt voor het ontwikkelen van systemen die zich kunnen aanpassen aan individuele gebruikers in onderwijs, gezondheidszorg en technische domeinen waar personalisatie cruciaal is.
Sinds de release van Deepseek-R1 is reinforcement learning met verifieerbare beloningen (RLVR) een centrale benadering geworden voor het trainen van grote taalmodelen (LLMs) op redeneertaken. Recent onderzoek heeft zich vooral gericht op het aanpassen van verliesfuncties om RLVR efficiënter en effectiever te maken. In dit artikel, geïnspireerd door studies naar overdenken in LLMs, stellen we Length-aware Sampling for Policy Optimization (LSPO) voor, een nieuw meta-RLVR-algoritme dat dynamisch trainingsgegevens selecteert bij elke stap op basis van de gemiddelde responslengte. We evalueren LSPO over meerdere basismodellen en datasets, waarbij we aantonen dat het consistent de leerprestaties verbetert. Daarnaast voeren we een gedetailleerde ablatiestudie uit om alternatieve manieren te onderzoeken om lengtesignalen in dynamische sampling te integreren, wat verdere inzichten biedt en veelbelovende richtingen voor toekomstig onderzoek benadrukt.
GUI-gronding, de taak om natuurlijke-taal instructies te koppelen aan pixelcoördinaten, is cruciaal voor autonome agents, maar blijft moeilijk voor huidige VLMs. De belangrijkste bottleneck is de betrouwbare mapping van patches naar pixels, die faalt bij extrapolatie naar hoge-resolutie schermen die niet tijdens de training zijn gezien. Huidige benaderingen genereren coördinaten direct als teksttokens vanuit visuele kenmerken, waardoor het model complexe positie-naar-pixel mappings impliciet moet afleiden; als gevolg daarvan neemt de nauwkeurigheid af en nemen fouten toe bij nieuwe resoluties. Wij pakken dit aan met twee complementaire innovaties. Ten eerste dienen RULER-tokens als expliciete coördinaatmarkeringen, waardoor het model posities kan refereren zoals rasterlijnen op een kaart en coördinaten kan aanpassen in plaats van ze vanaf nul te genereren. Ten tweede verbetert Interleaved MRoPE (I-MRoPE) de ruimtelijke codering door ervoor te zorgen dat de breedte- en hoogtedimensies gelijk worden weergegeven, wat de asymmetrie van standaard positionele schema's aanpakt. Experimenten op ScreenSpot, ScreenSpot-V2 en ScreenSpot-Pro laten consistente verbeteringen zien in grondingsnauwkeurigheid, met de grootste vooruitgang op interfaces met hoge resolutie. Door expliciete ruimtelijke begeleiding te bieden in plaats van te vertrouwen op impliciet leren, maakt onze aanpak betrouwbaardere GUI-automatisering mogelijk over diverse resoluties en platforms.
Er zijn meerdere prompt-injectieaanvallen voorgesteld tegen webagents. Tegelijkertijd zijn er verschillende methoden ontwikkeld om algemene prompt-injectieaanvallen te detecteren, maar geen daarvan is systematisch geëvalueerd voor webagents. In dit werk overbruggen we deze kloof door de eerste uitgebreide benchmarkstudie te presenteren over het detecteren van prompt-injectieaanvallen die gericht zijn op webagents. We beginnen met het introduceren van een fijnmazige categorisatie van dergelijke aanvallen op basis van het dreigingsmodel. Vervolgens construeren we datasets die zowel kwaadaardige als goedaardige voorbeelden bevatten: kwaadaardige tekstsegmenten gegenereerd door verschillende aanvallen, goedaardige tekstsegmenten uit vier categorieën, kwaadaardige afbeeldingen geproduceerd door aanvallen, en goedaardige afbeeldingen uit twee categorieën. Daarna systematiseren we zowel tekstgebaseerde als afbeeldingsgebaseerde detectiemethoden. Tot slot evalueren we hun prestaties in meerdere scenario's. Onze belangrijkste bevindingen laten zien dat hoewel sommige detectoren aanvallen die vertrouwen op expliciete tekstuele instructies of zichtbare beeldverstoringen met matige tot hoge nauwkeurigheid kunnen identificeren, ze grotendeels falen tegen aanvallen die expliciete instructies weglaten of onmerkbare verstoringen gebruiken. Onze datasets en code zijn vrijgegeven op: https://github.com/Norrrrrrr-lyn/WAInjectBench.
Met diffusie- en flow matching-modellen die state-of-the-art prestaties behalen op het gebied van generatie, is de aandacht van de gemeenschap nu gericht op het verminderen van de inferentietijd zonder in te leveren op de kwaliteit van de samples. Consistentiemodellen (CMs), die worden getraind om consistent te zijn op diffusie- of waarschijnlijkheidsflow gewone differentiaalvergelijking (PF-ODE) trajecten, maken flow- of diffusie-sampling in één of twee stappen mogelijk. CMs vereisen echter doorgaans een langdurige training met grote batchgroottes om competitieve samplekwaliteit te behalen. In dit artikel onderzoeken we de trainingsdynamiek van CMs nabij convergentie en ontdekken we dat CM-tangenten -- de update-richtingen van de CM-uitvoer -- behoorlijk oscillerend zijn, in die zin dat ze parallel bewegen aan de datamanifold, en niet richting de manifold. Om oscillerende tangenten te verminderen, stellen we een nieuwe verliesfunctie voor, genaamd de manifold feature distance (MFD), die manifold-uitgelijnde tangenten biedt die naar de datamanifold wijzen. Als gevolg hiervan kan onze methode -- genaamd Align Your Tangent (AYT) -- de CM-training met ordes van grootte versnellen en zelfs de learned perceptual image patch similarity metric (LPIPS) overtreffen. Bovendien ontdekken we dat ons verlies het mogelijk maakt om te trainen met extreem kleine batchgroottes zonder in te leveren op de samplekwaliteit. Code: https://github.com/1202kbs/AYT
Bestaande Video-naar-Audio (V2A) generatiemodellen werken offline, waarbij wordt aangenomen dat een volledige videosequentie of chunks van frames van tevoren beschikbaar zijn. Dit beperkt hun gebruik in interactieve toepassingen, zoals live contentcreatie en opkomende generatieve wereldmodellen, aanzienlijk. Om deze kloof te overbruggen, introduceren we de nieuwe taak van frame-level online V2A-generatie, waarbij een model autoregressief audio genereert uit video zonder toegang tot toekomstige videoframes. Bovendien stellen we SoundReactor voor, dat, voor zover wij weten, het eerste eenvoudige maar effectieve framework is dat specifiek is ontworpen voor deze taak. Ons ontwerp handhaaft end-to-end causaliteit en streeft naar lage latentie per frame met audio-visuele synchronisatie. De ruggengraat van ons model is een decoder-only causale transformer over continue audio latenties. Voor visuele conditionering maakt het gebruik van grid (patch) features die zijn geëxtraheerd uit de kleinste variant van de DINOv2 vision encoder, die worden samengevoegd tot een enkele token per frame om end-to-end causaliteit en efficiëntie te behouden. Het model wordt getraind door middel van een diffusie-pre-training gevolgd door consistency fine-tuning om het decoderen van de diffusie head te versnellen. Op een benchmark van diverse gameplay-video's van AAA-titels genereert ons model met succes semantisch en temporeel uitgelijnde, hoogwaardige full-band stereo-audio, gevalideerd door zowel objectieve als menselijke evaluaties. Bovendien bereikt ons model een lage latentie op waveform-niveau per frame (26,3 ms met de head NFE=1, 31,5 ms met NFE=4) op 30FPS, 480p video's met behulp van een enkele H100. Demosamples zijn beschikbaar op https://koichi-saito-sony.github.io/soundreactor/.
Gradient descent heeft zich bewezen als een krachtige en effectieve techniek voor optimalisatie in talloze machine learning-toepassingen. Recente vooruitgang in de computationele neurowetenschappen heeft aangetoond dat leren in de standaard gradient descent-optimalisatieformulering niet consistent is met leren in biologische systemen. Dit heeft interessante mogelijkheden geopend voor het ontwikkelen van biologisch geïnspireerde leertechnieken. Een dergelijke benadering is geïnspireerd op de wet van Dale, die stelt dat remmende en exciterende synapsen niet van rol wisselen tijdens het leerproces. Het resulterende exponentiële gradient descent-optimalisatieschema leidt tot log-normaal verdeelde synaptische gewichten. Interessant genoeg is de dichtheid die voldoet aan de Fokker-Planck-vergelijking die overeenkomt met de stochastische differentiaalvergelijking (SDE) met geometrische Brownse beweging (GBM) de log-normale dichtheid. Door gebruik te maken van deze connectie beginnen we met de SDE die geometrische Brownse beweging beschrijft, en laten we zien dat het discretiseren van de bijbehorende omgekeerde-tijd SDE een multiplicatieve update-regel oplevert, die verrassend genoeg overeenkomt met de steekproefequivalent van de exponentiële gradient descent-update gebaseerd op de wet van Dale. Bovendien stellen we een nieuw formalisme voor voor multiplicatieve denoising score-matching, dat de verliesfunctie die door Hyvaerinen is voorgesteld voor niet-negatieve data omvat. Inderdaad is log-normaal verdeelde data positief en blijkt het voorgestelde score-matching formalisme een natuurlijke passendheid te hebben. Dit maakt het mogelijk om score-gebaseerde modellen te trainen voor beelddata en resulteert in een nieuw multiplicatief updateschema voor het genereren van steekproeven vanuit een log-normale dichtheid. Experimentele resultaten op de MNIST-, Fashion MNIST- en Kuzushiji-datasets demonstreren het generatieve vermogen van het nieuwe schema. Voor zover wij weten, is dit het eerste voorbeeld van een biologisch geïnspireerd generatief model dat multiplicatieve updates gebruikt, gebaseerd op geometrische Brownse beweging.
Het optimaliseren van discrete diffusiemodellen (DDM) met beloningen blijft een uitdaging: het niet-autoregressieve paradigma maakt importance sampling onhanteerbaar en rollouts complex, wat versterkingsleermethoden zoals Group Relative Policy Optimization (GRPO) verwarrend maakt. In deze studie introduceren we MaskGRPO, de eerste haalbare aanpak om schaalbare multimodale versterkingsleren mogelijk te maken in discrete diffusie met effectief importance sampling en modality-specifieke aanpassingen. Hiertoe verduidelijken we eerst de theoretische basis voor DDMs, wat het mogelijk maakt om een importance estimator te bouwen die waardevolle tokenfluctuaties vastlegt voor gradientupdates. Vervolgens hebben we de rolloutmethode verfijnd voor visuele sequenties, wat diverse voltooiingen en betrouwbare optimalisatiegradiënten oplevert. Op basis van wiskundige redenering, codering en visuele generatie benchmarks brengt MaskGRPO stabielere en efficiëntere updates, wat leidt tot sterkere redeneerprestaties en betere generatiekwaliteit. Deze studie vestigt MaskGRPO als een systematische beleidsoptimalisatiebenadering en de eerste praktische manier voor gediscretiseerde visuele diffusie.
Generatieve videomodellen tonen indrukwekkende tekst-naar-video-mogelijkheden, wat leidt tot een brede adoptie in veel real-world toepassingen. Echter, net als grote taalmmodellen (LLM's), hebben videogeneratiemodellen de neiging om te hallucineren, waarbij ze geloofwaardige video's produceren, zelfs als deze feitelijk onjuist zijn. Hoewel onzekerheidskwantificering (UQ) van LLM's uitgebreid is bestudeerd in eerder werk, bestaat er geen UQ-methode voor videomodellen, wat kritieke veiligheidsproblemen oproept. Voor zover wij weten, vertegenwoordigt dit artikel het eerste werk naar het kwantificeren van de onzekerheid van videomodellen. Wij presenteren een raamwerk voor onzekerheidskwantificering van generatieve videomodellen, bestaande uit: (i) een metriek voor het evalueren van de calibratie van videomodellen gebaseerd op robuuste rangcorrelatieschatting zonder strikte modelaannames; (ii) een black-box UQ-methode voor videomodellen (genaamd S-QUBED), die latent modelleren benut om voorspellende onzekerheid rigoureus te ontbinden in zijn aleatorische en epistemische componenten; en (iii) een UQ-dataset om het benchmarken van calibratie in videomodellen te vergemakkelijken. Door de generatietaak te conditioneren in de latente ruimte, ontwarren we onzekerheid die voortkomt uit vage taakspecificaties van onzekerheid die voortkomt uit een gebrek aan kennis. Door uitgebreide experimenten op benchmark-videodatasets tonen we aan dat S-QUBED gekalibreerde totale onzekerheidsschattingen berekent die negatief gecorreleerd zijn met de taaknauwkeurigheid en effectief de aleatorische en epistemische componenten berekent.
Retrieval-Augmented Generation (RAG) combineert documentretrieval met grote taalmmodellen (LLM's). Hoewel het opschalen van generatoren de nauwkeurigheid verbetert, verhoogt het ook de kosten en beperkt het de inzetbaarheid. Wij onderzoeken een orthogonale as: het vergroten van het corpus van de retriever om de afhankelijkheid van grote LLM's te verminderen. Experimentele resultaten tonen aan dat het opschalen van het corpus RAG consistent versterkt en vaak kan dienen als een vervanging voor het vergroten van het model, hoewel met afnemende meeropbrengsten op grotere schaal. Kleine en middelgrote generatoren in combinatie met grotere corpora kunnen vaak concurreren met veel grotere modellen met kleinere corpora; middelgrote modellen profiteren doorgaans het meest, terwijl zeer kleine en grote modellen minder voordeel hebben. Onze analyse toont aan dat de verbeteringen voornamelijk voortkomen uit een grotere dekking van passages die antwoorden bevatten, terwijl de efficiëntie van het gebruik grotendeels onveranderd blijft. Deze bevindingen leggen een principiële afweging tussen corpus en generator vast: investeren in grotere corpora biedt een effectieve weg naar een sterkere RAG, vaak vergelijkbaar met het vergroten van het LLM zelf.
Multimodale Large Language Models (MLLMs) hebben sterke prestaties behaald op algemene visuele benchmarks, maar worstelen met taken buiten de distributie (OOD) in gespecialiseerde domeinen zoals medische beeldvorming, waar gelabelde data beperkt en kostbaar is. Wij introduceren LEAML, een label-efficiënt aanpassingsframework dat zowel schaarse gelabelde VQA-voorbeelden als overvloedige ongelabelde afbeeldingen benut. Onze aanpak genereert domeinrelevante pseudo vraag-antwoordparen voor ongelabelde data met behulp van een QA-generator die geregulariseerd wordt door caption-distillatie. Belangrijk is dat we selectief alleen die neuronen bijwerken die het meest relevant zijn voor vraag-antwoordtaken, waardoor de QA-generator efficiënt domeinspecifieke kennis kan verwerven tijdens de distillatie. Experimenten op het gebied van gastro-intestinale endoscopie en sport-VQA tonen aan dat LEAML consistent beter presteert dan standaard fine-tuning onder minimale supervisie, wat de effectiviteit van ons voorgestelde LEAML-framework onderstreept.
Softwareontwikkeling is sterk afhankelijk van uitgebreide unittests, waardoor de efficiëntie van geautomatiseerde Unit Test Generation (UTG) bijzonder belangrijk is. De meeste bestaande LLM's genereren echter testgevallen token voor token in elke voorwaartse stap, wat leidt tot inefficiënte UTG. Recentelijk zijn diffusion LLM's (dLLM's) opgekomen, die veelbelovende parallelle generatiemogelijkheden bieden en sterk potentieel tonen voor efficiënte UTG. Ondanks dit voordeel wordt hun toepassing op UTG nog steeds beperkt door een duidelijke afweging tussen efficiëntie en testkwaliteit, aangezien het verhogen van het aantal tokens dat in elke stap wordt gegenereerd vaak een scherpe daling in de kwaliteit van testgevallen veroorzaakt. Om deze beperking te overwinnen, presenteren we DiffTester, een versnellingsframework specifiek ontworpen voor dLLM's in UTG. Het kernidee van DiffTester is dat unittests die gericht zijn op dezelfde focale methode vaak repetitieve structurele patronen delen. Door deze gemeenschappelijke patronen dynamisch te identificeren via abstract syntax tree-analyse tijdens de generatie, verhoogt DiffTester adaptief het aantal tokens dat in elke stap wordt geproduceerd zonder de kwaliteit van de output in gevaar te brengen. Om een uitgebreide evaluatie mogelijk te maken, breiden we het originele TestEval-benchmark, dat beperkt was tot Python, uit door aanvullende programmeertalen zoals Java en C++ te introduceren. Uitgebreide experimenten op drie benchmarks met twee representatieve modellen tonen aan dat DiffTester een significante versnelling biedt terwijl de testdekking behouden blijft. Bovendien generaliseert DiffTester goed over verschillende dLLM's en programmeertalen, wat een praktische en schaalbare oplossing biedt voor efficiënte UTG in softwareontwikkeling. Code en data zijn publiek beschikbaar op https://github.com/wellbeingyang/DLM4UTG-open.
Beoordeling van beleidsnaleving is een fundamentele taak waarbij wordt geëvalueerd of een invoercase strikt voldoet aan een reeks door mensen gedefinieerde regels, ook wel bekend als beleidsregels. In de praktijk volgen menselijke experts een systematisch, stapsgewijs proces om overtredingen te identificeren met betrekking tot specifieke bepalingen die in het beleid zijn uiteengezet. Echter, het verkrijgen van dergelijke documentatie van goudstandaard, expertniveau redeneerprocessen is kostbaar. In dit artikel introduceren we Policy Reasoning Traces (PRT), een vorm van gespecialiseerde gegenereerde redeneerketens die dienen als een redeneerbrug om de beleidsnalevingsbeoordelingscapaciteiten van een LLM te verbeteren. Onze empirische evaluaties tonen aan dat het gebruik van PRTs voor zowel inferentie-tijd als trainings-tijd scenario's de prestaties van open-weight en commerciële modellen aanzienlijk verbetert, wat een nieuwe state-of-the-art oplevert voor HIPAA- en GDPR-beleidsregels. Naast nauwkeurigheidswinst benadrukken we ook hoe PRTs het vermogen van een LLM kunnen verbeteren om beleidsclausules nauwkeurig te citeren, evenals nalevingsbeslissingen kunnen beïnvloeden door hun hoge gebruik vanuit de ruwe redeneerketens.
Het begrijpen van risico's in autonoom rijden vereist niet alleen waarneming en voorspelling, maar ook hoogwaardige redenering over agentgedrag en context. Huidige methoden gebaseerd op Vision Language Models (VLMs) plaatsen agenten voornamelijk in statische afbeeldingen en bieden kwalitatieve beoordelingen, maar missen de ruimtelijk-temporele redenering die nodig is om te begrijpen hoe risico's zich in de tijd ontwikkelen. Om deze kloof te overbruggen, stellen we NuRisk voor, een uitgebreide Visual Question Answering (VQA)-dataset bestaande uit 2.900 scenario's en 1,1 miljoen agentniveau-monsters, gebaseerd op real-world data van nuScenes en Waymo, aangevuld met veiligheidskritieke scenario's uit de CommonRoad-simulator. De dataset biedt sequentiële afbeeldingen op basis van Bird-Eye-View (BEV) met kwantitatieve, agentniveau-risicoannotaties, waardoor ruimtelijk-temporele redenering mogelijk wordt. We testen bekende VLMs met verschillende promptingtechnieken en constateren dat ze niet in staat zijn tot expliciete ruimtelijk-temporele redenering, wat resulteert in een piekprecisie van 33% bij hoge latentie. Om deze tekortkomingen aan te pakken, verbetert onze afgestemde 7B VLM-agent de precisie tot 41% en vermindert de latentie met 75%, wat expliciete ruimtelijk-temporele redeneervaardigheden aantoont die propriëtaire modellen misten. Hoewel dit een significante stap vooruit is, benadrukt de bescheiden precisie de diepgaande uitdaging van de taak, waardoor NuRisk een kritieke benchmark wordt voor het bevorderen van ruimtelijk-temporele redenering in autonoom rijden.