Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren MiniMax-M1, 's werelds eerste open-gewicht, grootschalig hybride-attentie redeneermodel. MiniMax-M1 wordt aangedreven door een hybride Mixture-of-Experts (MoE)-architectuur gecombineerd met een bliksemsnel aandachtmechanisme. Het model is ontwikkeld op basis van ons eerdere MiniMax-Text-01 model, dat in totaal 456 miljard parameters bevat, waarvan 45,9 miljard parameters per token geactiveerd worden. Het M1-model ondersteunt standaard een contextlengte van 1 miljoen tokens, 8x de contextgrootte van DeepSeek R1. Bovendien maakt het bliksemsnelle aandachtmechanisme in MiniMax-M1 een efficiënte schaalbaarheid van rekentijd tijdens tests mogelijk. Deze eigenschappen maken M1 bijzonder geschikt voor complexe taken die het verwerken van lange invoeren en uitgebreid nadenken vereisen. MiniMax-M1 is getraind met behulp van grootschalige reinforcement learning (RL) op diverse problemen, waaronder sandbox-gebaseerde, real-world software-engineeringomgevingen. Naast de inherente efficiëntievoordelen van M1 voor RL-training, stellen we CISPO voor, een nieuw RL-algoritme om de RL-efficiëntie verder te verbeteren. CISPO knipt importance sampling-gewichten in plaats van token-updates, wat beter presteert dan andere competitieve RL-varianten. De combinatie van hybride-attentie en CISPO maakt het mogelijk dat de volledige RL-training van MiniMax-M1 op 512 H800 GPU's in slechts drie weken wordt voltooid, met een huurkosten van slechts $534,700. We brengen twee versies van MiniMax-M1-modellen uit met respectievelijk 40K en 80K denkbudgetten, waarbij het 40K-model een tussenfase vertegenwoordigt van de 80K-training. Experimenten op standaard benchmarks tonen aan dat onze modellen vergelijkbaar of superieur zijn aan sterke open-gewichtmodellen zoals het originele DeepSeek-R1 en Qwen3-235B, met bijzondere sterktes in complexe software-engineering, toolgebruik en lange-context taken. We maken MiniMax-M1 publiekelijk beschikbaar op https://github.com/MiniMax-AI/MiniMax-M1.
Wetenschappelijke ontdekkingen zijn in toenemende mate afhankelijk van complexe multimodale redeneringen gebaseerd op informatie-intensieve wetenschappelijke data en domeinspecifieke expertise. Gesterkt door wetenschappelijke benchmarks op expertniveau, hebben Multimodale Large Language Models (MLLMs) het potentieel om dit ontdekkingproces in realistische workflows aanzienlijk te verbeteren. Huidige wetenschappelijke benchmarks richten zich echter voornamelijk op het evalueren van de kennisbegripcapaciteiten van MLLMs, wat leidt tot een ontoereikende beoordeling van hun waarnemings- en redeneervaardigheden. Om deze kloof te overbruggen, presenteren we de Scientists' First Exam (SFE) benchmark, ontworpen om de wetenschappelijke cognitieve capaciteiten van MLLMs te evalueren via drie onderling verbonden niveaus: wetenschappelijke signaalwaarneming, wetenschappelijk attribuutbegrip en wetenschappelijk vergelijkend redeneren. Specifiek bestaat SFE uit 830 expert-geverifieerde VQA-paren over drie vraagtypen, verspreid over 66 multimodale taken in vijf hoogwaardige disciplines. Uitgebreide experimenten tonen aan dat de huidige state-of-the-art GPT-o3 en InternVL-3 slechts 34,08% en 26,52% behalen op SFE, wat een aanzienlijke ruimte voor verbetering van MLLMs in wetenschappelijke domeinen benadrukt. We hopen dat de inzichten verkregen in SFE verdere ontwikkelingen in AI-versterkte wetenschappelijke ontdekkingen zullen bevorderen.
Deep Research Agents vormen een prominente categorie van LLM-gebaseerde agents. Door autonoom multistap webverkenning, gerichte informatie-extractie en hogere-orde synthese te orkestreren, transformeren ze enorme hoeveelheden online informatie in analistwaardige, citatierijke rapporten—waardoor uren handmatig bureauonderzoek worden gecomprimeerd tot minuten. Een uitgebreide benchmark voor het systematisch evalueren van de capaciteiten van deze agents ontbreekt echter nog steeds. Om deze kloof te overbruggen, presenteren we DeepResearch Bench, een benchmark bestaande uit 100 PhD-niveau onderzoektaken, elk zorgvuldig ontworpen door domeinexperts uit 22 verschillende vakgebieden. Het evalueren van DRAs is inherent complex en arbeidsintensief. Daarom stellen we twee nieuwe methodologieën voor die een sterke afstemming met menselijk oordeel bereiken. De eerste is een referentiegebaseerde methode met adaptieve criteria om de kwaliteit van gegenereerde onderzoeksrapporten te beoordelen. Het andere framework wordt geïntroduceerd om de informatie-extractie- en verzamelcapaciteiten van DRA's te evalueren door het effectieve citatieaantal en de algehele citatienauwkeurigheid te beoordelen. We hebben DeepResearch Bench en belangrijke componenten van deze frameworks open-source gemaakt op https://github.com/Ayanami0730/deep_research_bench om de ontwikkeling van praktische LLM-gebaseerde agents te versnellen.
In dit artikel introduceren we DoTA-RAG (Dynamic-of-Thought Aggregation RAG), een retrieval-augmented generation-systeem dat is geoptimaliseerd voor hoge doorvoer en grootschalige webkennisindexen. Traditionele RAG-pijplijnen kampen vaak met hoge latentie en beperkte nauwkeurigheid bij enorme, diverse datasets. DoTA-RAG lost deze problemen op met een pijplijn in drie fasen: queryherformulering, dynamische routering naar gespecialiseerde subindexen, en meerfasige retrieval en ranking. We verbeteren de retrieval verder door een superieur embeddingmodel te evalueren en te selecteren, waarbij we het grote FineWeb-10BT-corpus opnieuw embedden. Bovendien creëren we een diverse Q&A-dataset van 500 vragen die gegenereerd zijn via de DataMorgana-opstelling, verspreid over een breed scala aan WebOrganizer-onderwerpen en -formats. DoTA-RAG verbetert de antwoordcorrectheidsscore van 0.752 (baseline, gebruikmakend van de LiveRAG vooraf gebouwde vectorstore) naar 1.478, terwijl de lage latentie behouden blijft, en behaalt een correctheidsscore van 0.929 op de Live Challenge Day. Deze resultaten onderstrepen het potentieel van DoTA-RAG voor praktische implementatie in domeinen die snelle, betrouwbare toegang tot grote en evoluerende kennisbronnen vereisen.
Recente vooruitgang in grote redeneermodellen heeft complexe, stapsgewijze redenering mogelijk gemaakt, maar introduceert vaak aanzienlijk overdenken, wat resulteert in uitgebreide en redundante uitvoer die de efficiëntie belemmert. In deze studie onderzoeken we of expliciete zelfreflectie, aangegeven door tokens zoals "Wacht" en "Hmm", noodzakelijk is voor geavanceerd redeneren. We stellen NoWait voor, een eenvoudige maar effectieve aanpak die expliciete zelfreflectie uitschakelt door deze tokens tijdens de inferentie te onderdrukken. Uitgebreide experimenten op tien benchmarks voor tekstuele, visuele en videoredeneertaken tonen aan dat NoWait de keten-van-gedachten-trajectlengte met tot wel 27%-51% vermindert in vijf R1-stijl modelreeksen, zonder de bruikbaarheid van het model aan te tasten. NoWait biedt zo een plug-and-play oplossing voor efficiënte en bruikbaarheid-behoudende multimodale redenering.
We introduceren TransDiff, het eerste beeldgeneratiemodel dat Autoregressieve (AR) Transformers combineert met diffusiemodellen. In dit gezamenlijke modelleerkader codeert TransDiff labels en afbeeldingen in hoogwaardige semantische kenmerken en gebruikt het een diffusiemodel om de verdeling van beeldmonsters te schatten. Op de ImageNet 256x256 benchmark presteert TransDiff aanzienlijk beter dan andere beeldgeneratiemodellen die gebaseerd zijn op alleenstaande AR Transformers of diffusiemodellen. Specifiek behaalt TransDiff een Fréchet Inception Distance (FID) van 1.61 en een Inception Score (IS) van 293.4, en biedt het bovendien een x2 snellere inferentielatentie vergeleken met state-of-the-art methoden gebaseerd op AR Transformers en x112 snellere inferentie vergeleken met diffusie-alleen modellen. Verder introduceren we, gebaseerd op het TransDiff-model, een nieuw beeldgeneratieparadigma genaamd Multi-Reference Autoregression (MRAR), dat autoregressieve generatie uitvoert door het volgende beeld te voorspellen. MRAR stelt het model in staat om meerdere eerder gegenereerde beelden te refereren, waardoor het leren van meer diverse representaties wordt gefaciliteerd en de kwaliteit van gegenereerde beelden in volgende iteraties wordt verbeterd. Door MRAR toe te passen, wordt de prestaties van TransDiff verbeterd, waarbij de FID wordt verlaagd van 1.61 naar 1.42. We verwachten dat TransDiff een nieuw tijdperk inluidt op het gebied van beeldgeneratie.
We introduceren Ego-R1, een nieuw raamwerk voor redeneren over ultra-lange (d.w.z. dagen en weken durende) egocentrische video's, dat gebruikmaakt van een gestructureerd Chain-of-Tool-Thought (CoTT) proces, gecoördineerd door een Ego-R1 Agent die is getraind via reinforcement learning (RL). Geïnspireerd door menselijke probleemoplossingsstrategieën, ontleedt CoTT complex redeneren in modulaire stappen, waarbij de RL-agent specifieke tools aanroept, één per stap, om iteratief en collaboratief deelvragen te beantwoorden die taken zoals temporele retrievel en multi-modale interpretatie aanpakken. We ontwerpen een tweefasig trainingsparadigma dat supervised finetuning (SFT) van een voorgetraind taalmodel met CoTT-data en RL omvat, zodat onze agent dynamisch stap-voor-stap tools kan voorstellen voor langetermijnredenering. Om de training te faciliteren, construeren we een dataset genaamd Ego-R1 Data, die bestaat uit Ego-CoTT-25K voor SFT en Ego-QA-4.4K voor RL. Daarnaast wordt onze Ego-R1-agent geëvalueerd op een nieuw samengestelde weeklange video QA-benchmark, Ego-R1 Bench, die menselijk geverifieerde QA-paren bevat uit hybride bronnen. Uitgebreide resultaten tonen aan dat het dynamische, tool-ondersteunde chain-of-thought redeneren door onze Ego-R1 Agent effectief de unieke uitdagingen van het begrijpen van ultra-lange egocentrische video's kan aanpakken, waardoor de tijdsdekking aanzienlijk wordt uitgebreid van enkele uren naar een week.
In dit werk bieden we een systematisch overzicht van Discrete Diffusion Language Models (dLLMs) en Discrete Diffusion Multimodal Language Models (dMLLMs). In tegenstelling tot autoregressieve (AR) modellen, hanteren dLLMs en dMLLMs een multi-token, parallel decodeerparadigma met volledige aandacht en een op ruisreductie gebaseerde generatiestrategie. Dit paradigma maakt van nature parallelle generatie, fijnmazige uitvoercontrole en dynamische, responsbewuste perceptie mogelijk. Deze mogelijkheden waren voorheen moeilijk te realiseren met AR-modellen. Recentelijk hebben een groeiend aantal industriële, propriëtaire d(M)LLMs, evenals een groot aantal open-source academische d(M)LLMs, prestaties laten zien die vergelijkbaar zijn met hun autoregressieve tegenhangers, terwijl ze tot 10x versnelling in inferentiesnelheid bereiken. De vooruitgang van discrete diffusion LLMs en MLLMs is grotendeels gedreven door ontwikkelingen in twee domeinen. Het eerste is de ontwikkeling van autoregressieve LLMs en MLLMs, die enorme hoeveelheden data, benchmarks en fundamentele infrastructuur voor training en inferentie hebben opgeleverd. Het tweede bijdragende domein is de evolutie van de wiskundige modellen die ten grondslag liggen aan discrete diffusie. Samen hebben deze vooruitgangen een golf van onderzoek naar dLLMs en dMLLMs in begin 2025 veroorzaakt. In dit werk presenteren we een uitgebreid overzicht van het onderzoek in de dLLM- en dMLLM-domeinen. We volgen de historische ontwikkeling van dLLMs en dMLLMs, formaliseren de onderliggende wiskundige kaders en categoriseren representatieve modellen. We analyseren verder belangrijke technieken voor training en inferentie en vatten opkomende toepassingen samen op het gebied van taal, visie-taal en biologische domeinen. We sluiten af met een bespreking van toekomstige onderzoeks- en implementatierichtingen. Paperverzameling: https://github.com/LiQiiiii/DLLM-Survey
Data speelt de meest prominente rol in hoe taalmodellen vaardigheden en kennis verwerven. Het ontbreken van enorme, goed georganiseerde pre-trainingsdatasets resulteert in kostbare en ontoegankelijke datapijplijnen. Wij presenteren Essential-Web v1.0, een dataset van 24 biljoen tokens waarin elk document is geannoteerd met een twaalfcategorieën-taxonomie die onderwerp, formaat, inhoudscomplexiteit en kwaliteit dekt. De taxonomielabels worden geproduceerd door EAI-Distill-0.5b, een fijn afgestemd model met 0,5 miljard parameters dat een annotatorovereenkomst bereikt binnen 3% van Qwen2.5-32B-Instruct. Met niet meer dan SQL-stijl filters verkrijgen we concurrerende web-gecurateerde datasets in wiskunde (-8,0% relatief ten opzichte van SOTA), webcode (+14,3%), STEM (+24,5%) en medisch (+8,6%). Essential-Web v1.0 is beschikbaar op HuggingFace: https://huggingface.co/datasets/EssentialAI/essential-web-v1.0
Agentische taken, die multi-staps probleemoplossing vereisen met autonomie, gereedschapsgebruik en adaptief redeneren, worden steeds centraler in de vooruitgang van NLP en AI. Bestaande instructiedata mist echter interactie met gereedschappen, en huidige agentische benchmarks zijn afhankelijk van kostbare menselijke annotatie, wat hun schaalbaarheid beperkt. Wij introduceren TaskCraft, een geautomatiseerde workflow voor het genereren van moeilijkheidschaalbare, multi-gereedschap en verifieerbare agentische taken met uitvoeringstrajecten. TaskCraft breidt atomische taken uit met diepte- en breedtegebaseerde extensies om structureel en hiërarchisch complexe uitdagingen te creëren. Empirische resultaten tonen aan dat deze taken promptoptimalisatie in de generatieworkflow verbeteren en de supervised fine-tuning van agentische basis-modellen versterken. Wij presenteren een grootschalige synthetische dataset van ongeveer 36.000 taken met variërende moeilijkheidsgraad om toekomstig onderzoek naar agentafstemming en -evaluatie te ondersteunen.
We introduceren Autoregressive Retrieval Augmentation (AR-RAG), een nieuw paradigma dat beeldgeneratie verbetert door autoregressief k-nearest neighbor retrievals op patch-niveau te integreren. In tegenstelling tot eerdere methoden die een enkele, statische retrieval uitvoeren vóór de generatie en de volledige generatie conditioneren op vaste referentiebeelden, voert AR-RAG contextbewuste retrievals uit bij elke generatiestap, waarbij eerder gegenereerde patches als queries worden gebruikt om de meest relevante patch-niveau visuele referenties op te halen en te integreren. Hierdoor kan het model inspelen op evoluerende generatiebehoeften, terwijl beperkingen (bijvoorbeeld overmatig kopiëren, stilistische bias, etc.) die veel voorkomen in bestaande methoden worden vermeden. Om AR-RAG te realiseren, stellen we twee parallelle frameworks voor: (1) Distribution-Augmentation in Decoding (DAiD), een trainingsvrije plug-and-use decodeerstrategie die de distributie van model-voorspelde patches direct samenvoegt met de distributie van opgehaalde patches, en (2) Feature-Augmentation in Decoding (FAiD), een parameter-efficiënte fine-tuning methode die de features van opgehaalde patches geleidelijk gladstrijkt via multi-scale convolutie-operaties en deze gebruikt om het beeldgeneratieproces te versterken. We valideren de effectiviteit van AR-RAG op veelgebruikte benchmarks, waaronder Midjourney-30K, GenEval en DPG-Bench, en tonen aanzienlijke prestatieverbeteringen aan ten opzichte van state-of-the-art beeldgeneratiemodellen.
Dichte matchingmethoden zoals DUSt3R regresseren paarsgewijze puntkaarten voor 3D-reconstructie. De afhankelijkheid van paarsgewijze voorspelling en de beperkte generalisatiecapaciteit beperken echter inherent de globale geometrische consistentie. In dit werk introduceren we Test3R, een verrassend eenvoudige test-time leertechniek die de geometrische nauwkeurigheid aanzienlijk verbetert. Met behulp van beeldtripletten (I_1,I_2,I_3) genereert Test3R reconstructies uit paren (I_1,I_2) en (I_1,I_3). De kernidee is om het netwerk tijdens de testfase te optimaliseren via een zelfgesuperviseerd doel: het maximaliseren van de geometrische consistentie tussen deze twee reconstructies ten opzichte van het gemeenschappelijke beeld I_1. Dit zorgt ervoor dat het model kruispaar-consistente uitvoer produceert, ongeacht de invoer. Uitgebreide experimenten tonen aan dat onze techniek aanzienlijk beter presteert dan eerdere state-of-the-art methoden op het gebied van 3D-reconstructie en multi-view diepteschatting. Bovendien is het universeel toepasbaar en vrijwel kosteloos, waardoor het eenvoudig kan worden toegepast op andere modellen en geïmplementeerd kan worden met minimale test-time trainingsoverhead en parameteromvang. Code is beschikbaar op https://github.com/nopQAQ/Test3R.
In dit onderzoek bestuderen we de synergie tussen supervised fine-tuning (SFT) en reinforcement learning (RL) bij het ontwikkelen van krachtige redeneermodellen. We beginnen met het samenstellen van de SFT-trainingsdata via twee schaalstrategieën: het vergroten van het aantal verzamelde prompts en het aantal gegenereerde antwoorden per prompt. Beide benaderingen leiden tot aanzienlijke verbeteringen in de redeneerprestaties, waarbij het schalen van het aantal prompts de grootste winst oplevert. Vervolgens onderzoeken we de volgende vragen over de synergie tussen SFT en RL: (i) Leidt een sterker SFT-model consistent tot betere eindprestaties na grootschalige RL-training? (ii) Hoe kunnen we een geschikte samplingtemperatuur bepalen tijdens RL-training om effectief een balans te vinden tussen exploratie en exploitatie voor een gegeven SFT-initialisatie? Onze bevindingen suggereren dat (i) waar is, mits effectieve RL-training wordt uitgevoerd, vooral wanneer de samplingtemperatuur zorgvuldig wordt gekozen om de temperatuurgecorrigeerde entropie rond 0,3 te houden, een instelling die een goede balans biedt tussen exploratie en exploitatie. Opmerkelijk is dat het prestatieverschil tussen initiële SFT-modellen aanzienlijk kleiner wordt tijdens het RL-proces. Door gebruik te maken van een sterke SFT-basis en inzichten in de synergetische wisselwerking tussen SFT en RL, presteert ons AceReason-Nemotron-1.1 7B-model aanzienlijk beter dan AceReason-Nemotron-1.0 en behaalt het nieuwe state-of-the-art prestaties onder Qwen2.5-7B-gebaseerde redeneermodellen op uitdagende wiskundige en code-benchmarks, wat de effectiviteit van onze post-trainingsmethode aantoont. We maken het model en de data beschikbaar op: https://huggingface.co/nvidia/AceReason-Nemotron-1.1-7B.
Met de snelle verbetering van de algemene capaciteiten van LLM's is LLM-personalisatie, d.w.z. hoe LLM-systemen kunnen worden gebouwd die gepersonaliseerde reacties of diensten kunnen genereren die zijn afgestemd op verschillende gebruikerspersona's, een steeds belangrijker onderzoeks- en technisch probleem geworden. In tegenstelling tot de vele nieuwe uitdagende benchmarks die worden vrijgegeven voor het evalueren van de algemene/redeneercapaciteiten, belemmert het gebrek aan hoogwaardige benchmarks voor het evalueren van LLM-personalisatie de vooruitgang op dit gebied aanzienlijk. Om dit aan te pakken, introduceren we PersonaFeedback, een nieuwe benchmark die direct de mogelijkheid van LLM's evalueert om gepersonaliseerde reacties te geven op basis van vooraf gedefinieerde gebruikerspersona's en vragen. In tegenstelling tot bestaande benchmarks die modellen vereisen om impliciete gebruikerspersona's af te leiden uit historische interacties, ontkoppelt PersonaFeedback persona-inferentie van personalisatie, waarbij de focus ligt op het evalueren van het vermogen van het model om reacties te genereren die zijn afgestemd op expliciete persona's. PersonaFeedback bestaat uit 8298 door mensen geannoteerde testgevallen, die zijn gecategoriseerd in eenvoudige, middelmatige en moeilijke niveaus op basis van de contextuele complexiteit van de gebruikerspersona's en de moeilijkheid om subtiele verschillen tussen twee gepersonaliseerde reacties te onderscheiden. We voeren uitgebreide evaluaties uit over een breed scala aan modellen. De empirische resultaten laten zien dat zelfs state-of-the-art LLM's die complexe real-world redeneertaken kunnen oplossen tekort kunnen schieten op het moeilijke niveau van PersonaFeedback, waar zelfs menselijke beoordelaars de onderscheidingen uitdagend kunnen vinden. Bovendien voeren we een diepgaande analyse uit van faalmodi over verschillende soorten systemen, waarbij wordt aangetoond dat het huidige retrieval-augmented framework niet als een de facto oplossing voor personalisatietaken moet worden gezien. Alle benchmarkgegevens, annotatieprotocollen en de evaluatiepipeline zullen openbaar beschikbaar worden gesteld om toekomstig onderzoek naar LLM-personalisatie te faciliteren.
Op het gebied van multimodale keten-van-gedachten (CoT) redenering zijn bestaande benaderingen voornamelijk gebaseerd op redenering in de zuivere taalruimte, wat inherent lijdt onder taalvooroordelen en grotendeels beperkt is tot wiskundige of wetenschappelijke domeinen. Deze beperkte focus belemmert hun vermogen om complexe visuele redeneertaken aan te pakken die een uitgebreid begrip van beelddetails vereisen. Om deze beperkingen aan te pakken, introduceert dit artikel VGR, een nieuw redeneerend multimodaal groot taalmodel (MLLM) met verbeterde fijnmazige visuele waarnemingscapaciteiten. In tegenstelling tot traditionele MLLM's die vragen beantwoorden of redeneren uitsluitend in de taalruimte, detecteert onze VGR eerst relevante regio's die kunnen helpen bij het oplossen van problemen, en geeft vervolgens nauwkeurige antwoorden op basis van herhaalde beeldregio's. Om dit te bereiken, hebben we een grootschalige SFT-dataset genaamd VGR-SFT samengesteld die redeneergegevens bevat met een mix van visuele verankering en taaldeductie. De inferentiepijplijn van VGR stelt het model in staat om begrenzingsvakken te kiezen voor visuele referentie, en een herhalingsfase wordt geïntroduceerd om de corresponderende regio's te integreren in het redeneerproces, waardoor het multimodale begrip wordt verbeterd. Experimenten op de LLaVA-NeXT-7B-basislijn tonen aan dat VGR superieure prestaties levert op multimodale benchmarks die een uitgebreid begrip van beelddetails vereisen. Vergeleken met de basislijn gebruikt VGR slechts 30\% van het aantal beeldtokens, terwijl het scores behaalt van +4,1 op MMStar, +7,1 op AI2D en een verbetering van +12,9 op ChartQA.
Grote Taalmodellen (LLMs) hebben opmerkelijke generalisatiecapaciteiten getoond over taken en talen heen, wat een revolutie teweeg heeft gebracht in natuurlijke taalverwerking. Dit artikel onderzoekt de van nature ontstane representatie-uitlijning in LLMs, met name in de middelste lagen, en de implicaties ervan voor het ontwarren van taal-specifieke en taal-onafhankelijke informatie. We bevestigen empirisch het bestaan van deze uitlijning, analyseren het gedrag ervan in vergelijking met expliciet ontworpen uitlijningsmodellen, en tonen het potentieel aan voor taal-specifieke manipulatie zonder semantische degradatie. Op basis van deze bevindingen stellen we Inference-Time Language Control (ITLC) voor, een nieuwe methode die gebruikmaakt van latente injectie om precieze cross-linguale taalcontrole mogelijk te maken en taalverwarring in LLMs te verminderen. Onze experimenten benadrukken de sterke cross-linguale controlecapaciteiten van ITLC terwijl de semantische integriteit in doeltalen behouden blijft. Bovendien tonen we de effectiviteit ervan aan bij het verminderen van het probleem van cross-linguale taalverwarring, dat zelfs in huidige grootschalige LLMs blijft bestaan en leidt tot inconsistente taalgeneratie. Dit werk bevordert ons begrip van representatie-uitlijning in LLMs en introduceert een praktische oplossing voor het verbeteren van hun cross-linguale prestaties.
Het nastreven van diverse, complexe en grootschalige instructiedata is cruciaal voor het automatisch afstemmen van grote taalmmodellen (LLM's). Hoewel er methoden bestaan die synthetische instructies op grote schaal kunnen genereren, lijden deze ofwel aan beperkte bronnen voor onderbouwing, wat leidt tot een smalle distributie, of ze vertrouwen op triviale uitbreidingen die geen betekenisvolle trajecten in termen van complexiteit opleveren. Daarentegen worden instructies die een efficiënte afstemming bevorderen, doorgaans vervaardigd met cognitieve inzichten en verankerd in real-world use cases. In dit artikel synthetiseren we dergelijke instructies met behulp van toegeschreven onderbouwing, wat inhoudt: 1) een top-down attributieproces dat een selectieve set van echte instructies verbindt aan gesitueerde gebruikers, en 2) een bottom-up syntheseproces dat webdocumenten benut om eerst een situatie te genereren, en vervolgens een betekenisvolle instructie. Dit raamwerk stelt ons in staat om diverse en complexe instructies op grote schaal te oogsten, waarbij we gebruikmaken van het brede scala aan webdocumenten. Specifiek construeren we een dataset van 1 miljoen instructies, genaamd SynthQuestions, en tonen we aan dat modellen die hierop getraind worden, toonaangevende prestaties behalen op verschillende gangbare benchmarks, waarbij de verbeteringen continu schalen met meer webcorpora. Data, modellen en code zullen beschikbaar zijn op https://github.com/Ignoramus0817/SynthQuestions.
Onlangs is het gebruik van vooraf getrainde visie-taalmodellen (VLMs) voor het bouwen van visie-taal-actiemodellen (VLA) naar voren gekomen als een veelbelovende aanpak voor effectief robotmanipulatie leren. Echter, slechts enkele methoden integreren 3D-signalen in VLMs voor actievoorspelling, en ze benutten niet volledig de ruimtelijke structuur die inherent is aan 3D-data, wat leidt tot een lage steekproefefficiëntie. In dit artikel introduceren we BridgeVLA, een nieuw 3D VLA-model dat (1) 3D-invoer projecteert naar meerdere 2D-afbeeldingen, waardoor de invoer wordt afgestemd op de VLM-backbone, en (2) 2D-warmtekaarten gebruikt voor actievoorspelling, waardoor de invoer- en uitvoerruimten worden verenigd binnen een consistent 2D-beeldruimte. Daarnaast stellen we een schaalbare voorafgaande trainingsmethode voor die de VLM-backbone uitrust met de mogelijkheid om 2D-warmtekaarten te voorspellen voordat het downstream beleidsleren begint. Uitgebreide experimenten tonen aan dat de voorgestelde methode in staat is om 3D-manipulatie efficiënt en effectief te leren. BridgeVLA overtreft state-of-the-art baseline-methoden in drie simulatiebenchmarks. In RLBench verbetert het het gemiddelde slagingspercentage van 81,4% naar 88,2%. In COLOSSEUM laat het aanzienlijk betere prestaties zien in uitdagende generalisatieomstandigheden, waarbij het gemiddelde slagingspercentage stijgt van 56,7% naar 64,0%. In GemBench overtreft het alle vergelijkende baseline-methoden wat betreft gemiddeld slagingspercentage. In echte robotexperimenten overtreft BridgeVLA een state-of-the-art baseline-methode gemiddeld met 32%. Het generaliseert robuust in meerdere out-of-distribution omstandigheden, inclusief visuele verstoringen en ongeziene instructies. Opmerkelijk is dat het in staat is om een slagingspercentage van 96,8% te behalen op 10+ taken met slechts 3 trajecten per taak, wat de buitengewone steekproefefficiëntie benadrukt. Projectwebsite: https://bridgevla.github.io/
Recente vooruitgang in grote taalmodelen (LLMs) heeft de ontwikkeling mogelijk gemaakt van AI-agenten die steeds mensachtiger gedrag vertonen, waaronder planning, aanpassing en sociale dynamiek in diverse, interactieve en open scenario's. Dit gedrag is niet uitsluitend het product van de interne architectuur van de onderliggende modellen, maar ontstaat uit hun integratie in agent-systemen die opereren binnen specifieke contexten, waarbij omgevingsfactoren, sociale signalen en interactiefeedback het gedrag in de loop van tijd vormgeven. Deze evolutie vereist een nieuw wetenschappelijk perspectief: AI Agent Behavioral Science. In plaats van zich alleen te richten op interne mechanismen, benadrukt dit perspectief de systematische observatie van gedrag, het ontwerpen van interventies om hypothesen te testen, en de theoriegestuurde interpretatie van hoe AI-agenten handelen, zich aanpassen en interacteren over tijd. We systematiseren een groeiend onderzoeksveld dat individuele agenten, multi-agenten en mens-agent interacties omvat, en laten verder zien hoe dit perspectief verantwoorde AI bevordert door eerlijkheid, veiligheid, interpreteerbaarheid, verantwoordelijkheid en privacy te behandelen als gedragseigenschappen. Door recente bevindingen te verenigen en toekomstige richtingen uit te stippelen, positioneren we AI Agent Behavioral Science als een noodzakelijke aanvulling op traditionele modelgerichte benaderingen, en bieden we essentiële tools voor het begrijpen, evalueren en besturen van het real-world gedrag van steeds autonomer wordende AI-systemen.
De voortdurende evolutie van taalmodelen heeft geleid tot de ontwikkeling van grootschalige architecturen die uitzonderlijke prestaties leveren op een breed scala aan taken. Deze modellen gaan echter gepaard met aanzienlijke rekenkundige en energiebehoeften, evenals mogelijke privacyimplicaties. In deze context vormen Small Reasoning Language Models (SRLMs) met ongeveer 0,5 miljard parameters een aantrekkelijk alternatief vanwege hun opmerkelijke rekenkundige efficiëntie en kosteneffectiviteit, vooral in omgevingen met beperkte middelen. Ondanks deze voordelen vormt de beperkte capaciteit van modellen met 0,5 miljard parameters een uitdaging bij het uitvoeren van complexe taken zoals wiskundig redeneren en codegeneratie. Dit onderzoek onderzoekt verschillende trainingsstrategieën, waaronder supervised fine-tuning (SFT), knowledge distillation (KD) en reinforcement learning (RL), evenals hun hybride implementaties, om de prestaties van 0,5B SRLMs te verbeteren. We analyseren effectieve methodologieën om de prestatiekloof tussen SRLMs en grotere modellen te overbruggen en presenteren inzichten in optimale trainingspijplijnen die zijn afgestemd op deze kleinere architecturen. Door uitgebreide experimentele validatie en analyse streeft ons werk ernaar actiegerichte aanbevelingen te bieden voor het maximaliseren van de redeneercapaciteiten van 0,5B-modellen.
Interactief leren van observatie en taalfeedback is een steeds meer bestudeerd gebied, aangedreven door de opkomst van grote taalmodel (LLM) agents. Hoewel indrukwekkende empirische demonstraties zijn getoond, ontbreekt tot nu toe een principieel kader voor deze beslissingsproblemen. In dit artikel formaliseren we het Learning from Language Feedback (LLF) probleem, stellen we voldoende aannames vast om leren mogelijk te maken ondanks latente beloningen, en introduceren we de transfer eluder dimensie als een complexiteitsmaat om de moeilijkheidsgraad van LLF-problemen te karakteriseren. We laten zien dat de transfer eluder dimensie de intuïtie vastlegt dat informatie in de feedback de leercomplexiteit van het LLF-probleem verandert. We demonstreren gevallen waarin leren van rijke taalfeedback exponentieel sneller kan zijn dan leren van beloning. We ontwikkelen een no-regret algoritme, genaamd HELiX, dat LLF-problemen bewezen oplost door sequentiële interacties, met prestatiegaranties die schalen met de transfer eluder dimensie van het probleem. Over verschillende empirische domeinen laten we zien dat HELiX goed presteert, zelfs wanneer herhaaldelijk prompten van LLM's niet betrouwbaar werkt. Onze bijdragen markeren een eerste stap naar het ontwerpen van principiële interactieve leeralgoritmen vanuit generieke taalfeedback.
Hoe presteren AI-systemen in algoritme-engineering voor moeilijke optimalisatieproblemen in domeinen zoals pakketbezorgingsrouting, personeelsplanning, fabrieksproductieplanning en netbalancering in elektriciteitsnetwerken? We introduceren ALE-Bench, een nieuwe benchmark voor het evalueren van AI-systemen op score-gebaseerde algoritmische programmeerwedstrijden. Gebaseerd op echte taken uit de AtCoder Heuristic Contests, presenteert ALE-Bench optimalisatieproblemen die computationeel moeilijk zijn en waarvoor geen exacte oplossing bekend is. In tegenstelling tot kortdurende, geslaagd/gezakt programmeerbenchmarks, stimuleert ALE-Bench iteratieve oplossingsverfijning over langere tijdsperioden. Ons softwareframework ondersteunt interactieve agentarchitecturen die gebruikmaken van feedback en visualisaties uit testruns. Onze evaluatie van toonaangevende LLM's toonde aan dat, hoewel ze hoge prestaties laten zien op specifieke problemen, er een opmerkelijk verschil blijft in vergelijking met mensen wat betreft consistentie over verschillende problemen en het vermogen om problemen op lange termijn op te lossen. Dit onderstreept de noodzaak van deze benchmark om toekomstige AI-vooruitgang te bevorderen.
Grote Taalmodellen (LLMs) worden steeds vaker geïntegreerd in alledaagse toepassingen. Naarmate hun invloed groeit, wordt het essentieel om hun besluitvorming en onderliggende persoonlijkheid te begrijpen. In dit werk interpreteren we modelpersoonlijkheid met behulp van onze voorgestelde Supernova Event Dataset, een nieuwe dataset met diverse artikelen die biografieën, historische gebeurtenissen, nieuws en wetenschappelijke ontdekkingen omvatten. We gebruiken deze dataset om LLMs te benchmarken op het extraheren en rangschikken van sleutelgebeurtenissen uit tekst, een subjectieve en complexe uitdaging die redeneren over lange context en het modelleren van causale ketens vereist. We evalueren kleine modellen zoals Phi-4, Orca 2 en Qwen 2.5, en grote, sterkere modellen zoals Claude 3.7, Gemini 2.5 en OpenAI o3, en stellen een framework voor waarin een ander LLM optreedt als rechter om de persoonlijkheid van elk model af te leiden op basis van zijn selectie en classificatie van gebeurtenissen. Onze analyse toont duidelijke persoonlijkheidskenmerken: bijvoorbeeld, Orca 2 toont emotioneel redeneren met focus op interpersoonlijke dynamiek, terwijl Qwen 2.5 een meer strategische, analytische stijl vertoont. Bij het analyseren van wetenschappelijke ontdekkingen legt Claude Sonnet 3.7 de nadruk op conceptuele kaders, prioriteert Gemini 2.5 Pro empirische validatie, en geeft o3 de voorkeur aan stap-voor-stap causaal redeneren. Deze analyse verbetert de interpreteerbaarheid van modellen, waardoor ze gebruiksvriendelijker worden voor een breed scala aan diverse toepassingen.
Aangezien self-attention-lagen in Transformers per ontwerp permutatie-invariant zijn, moeten positionele coderingen expliciet worden geïntegreerd om ruimtelijk begrip mogelijk te maken. Traditionele leerbare positionele embeddings (PE's) gebruiken echter vaste grootte lookup-tabellen, wat de extrapolatiemogelijkheden beperkt voorbij de vooraf getrainde sequentielengtes. Expert-ontworpen methoden zoals ALiBi en RoPE verminderen deze beperking, maar vereisen uitgebreide aanpassingen om zich aan nieuwe modaliteiten aan te passen, wat fundamentele uitdagingen in aanpasbaarheid en schaalbaarheid benadrukt. In dit werk presenteren we SeqPE, een uniform en volledig leerbaar positioneel coderingsframework dat elke n-dimensionale positie-index representeert als een symbolische sequentie en een lichtgewicht sequentiële positie-encoder gebruikt om hun embeddings end-to-end te leren. Om de embeddingruimte van SeqPE te regulariseren, introduceren we twee complementaire doelstellingen: een contrastieve doelstelling die de embeddingafstanden afstemt op een vooraf gedefinieerde positie-afstandsfunctie, en een knowledge distillation-verlies dat out-of-distribution positionele embeddings verankert aan in-distribution leraarrepresentaties, wat de extrapolatieprestaties verder verbetert. Experimenten op het gebied van taalmodellering, lange-context vraag-antwoordtaken en 2D-beeldclassificatie tonen aan dat SeqPE niet alleen sterke baselines overtreft in perplexiteit, exacte overeenkomst (EM) en nauwkeurigheid—met name onder contextlengte-extrapolatie—maar ook naadloze generalisatie naar multidimensionale inputs mogelijk maakt zonder handmatige architectuurherontwerpen te vereisen. We hebben onze code, data en checkpoints vrijgegeven op https://github.com/ghrua/seqpe.
Real-world tijdreeksen worden vaak bepaald door complexe niet-lineaire dynamica. Het begrijpen van deze onderliggende dynamica is cruciaal voor nauwkeurige toekomstige voorspellingen. Hoewel deep learning grote successen heeft geboekt in het voorspellen van tijdreeksen, modelleren veel bestaande benaderingen de dynamica niet expliciet. Om deze kloof te overbruggen, introduceren we DeepEDM, een raamwerk dat niet-lineaire dynamische systeemmodellering integreert met deep neural networks. Geïnspireerd door empirische dynamische modellering (EDM) en geworteld in de stelling van Takens, presenteert DeepEDM een nieuw deep model dat een latente ruimte leert uit tijdvertraagde embeddings, en kernelregressie gebruikt om de onderliggende dynamica te benaderen, terwijl het efficiënte implementaties van softmax-attentie benut en nauwkeurige voorspellingen van toekomstige tijdstappen mogelijk maakt. Om onze methode te evalueren, voeren we uitgebreide experimenten uit op synthetische data van niet-lineaire dynamische systemen en real-world tijdreeksen uit verschillende domeinen. Onze resultaten tonen aan dat DeepEDM robuust is tegen invoerruis, en state-of-the-art methoden overtreft in voorspellingsnauwkeurigheid. Onze code is beschikbaar op: https://abrarmajeedi.github.io/deep_edm.
Recente diepdenkende grote taalmodellen redeneren vaak uitgebreid om de prestaties te verbeteren, maar dergelijk langdurig redeneren is niet altijd wenselijk, omdat het buitensporige inferentiekosten met zich meebrengt die niet in verhouding staan tot de prestatieverbeteringen. Het beheersen van de redeneerlengte zonder in te leveren op prestaties is daarom belangrijk, maar blijft een uitdaging, vooral onder strikte denkbudgetten. Wij stellen budgetbegeleiding voor, een eenvoudige maar effectieve methode om het redeneerproces van grote taalmodellen te sturen naar een doelbudget zonder dat fine-tuning van het model nodig is. Onze aanpak introduceert een lichtgewicht voorspeller die een Gamma-distributie modelleert over de resterende denklengte tijdens de generatie van het volgende token. Dit signaal wordt vervolgens gebruikt om de generatie op een zachte, token-niveau manier te begeleiden, waardoor ervoor wordt gezorgd dat het algehele redeneerspoor voldoet aan het opgegeven denkbudget. Budgetbegeleiding maakt een natuurlijke controle van de denklengte mogelijk, samen met aanzienlijke token-efficiëntieverbeteringen ten opzichte van baseline-methoden op uitdagende wiskundige benchmarks. Zo behaalt het tot 26% nauwkeurigheidswinst op de MATH-500 benchmark onder strikte budgetten in vergelijking met baseline-methoden, terwijl het concurrerende nauwkeurigheid behoudt met slechts 63% van de denktokens die door het volledig redenerende model worden gebruikt. Budgetbegeleiding generaliseert ook naar bredere taakdomeinen en vertoont emergente capaciteiten, zoals het inschatten van de moeilijkheidsgraad van vragen. De broncode is beschikbaar op: https://github.com/UMass-Embodied-AGI/BudgetGuidance.
Zelfgereguleerd leren (SRL) is cruciaal voor studenten die te maken krijgen met toenemende academische eisen en meer zelfstandigheid. Onvoldoende SRL-vaardigheden kunnen leiden tot ongeorganiseerde studiegewoonten, lage motivatie en slecht tijdmanagement, wat het vermogen van studenten om te gedijen in uitdagende omgevingen ondermijnt. Via een formatieve studie met 59 studenten hebben we belangrijke uitdagingen geïdentificeerd die studenten ervaren bij het ontwikkelen van SRL-vaardigheden, waaronder moeilijkheden met doelstellingen formuleren, tijdmanagement en reflectief leren. Om deze uitdagingen aan te pakken, introduceren we SRLAgent, een LLM-ondersteund systeem dat SRL-vaardigheden bevordert door middel van gamificatie en adaptieve ondersteuning van grote taalmodellen (LLMs). Gebaseerd op Zimmermans driefasen SRL-raamwerk, stelt SRLAgent studenten in staat om zich bezig te houden met doelstellingen formuleren, strategieën uitvoeren en zelfreflectie binnen een interactieve, op games gebaseerde omgeving. Het systeem biedt real-time feedback en scaffolding, aangedreven door LLMs, om de onafhankelijke studie-inspanningen van studenten te ondersteunen. We hebben SRLAgent geëvalueerd met een between-subjects ontwerp, waarbij we het vergeleken met een basissysteem (SRL zonder Agent-functies) en een traditionele multimediabegeleidingsconditie. De resultaten toonden significante verbeteringen in SRL-vaardigheden binnen de SRLAgent-groep (p < .001, Cohens d = 0.234) en een hogere betrokkenheid in vergelijking met de baselinecondities. Dit werk benadrukt de waarde van het integreren van SRL-scaffolding en real-time AI-ondersteuning binnen gegamificeerde omgevingen, en biedt ontwerpimplicaties voor educatieve technologieën die gericht zijn op het bevorderen van dieper leren en de ontwikkeling van metacognitieve vaardigheden.
Hoewel taalmodelen steeds vaker worden gebruikt in de materiaalkunde, vertrouwen typische modellen op frequentiegerichte tokenisatiemethoden die oorspronkelijk zijn ontwikkeld voor natuurlijke taalverwerking. Deze methoden leiden echter vaak tot overmatige fragmentatie en semantisch verlies, waardoor de structurele en semantische integriteit van materiaalconcepten niet behouden blijft. Om dit probleem aan te pakken, stellen we MATTER voor, een nieuwe tokenisatiebenadering die materiaalkennis integreert in de tokenisatie. Gebaseerd op MatDetector, getraind op onze materiaalkennisbank, en een herrangschikkingsmethode die materiaalconcepten prioriteert bij het samenvoegen van tokens, behoudt MATTER de structurele integriteit van geïdentificeerde materiaalconcepten en voorkomt het fragmentatie tijdens de tokenisatie, waardoor hun semantische betekenis intact blijft. De experimentele resultaten tonen aan dat MATTER bestaande tokenisatiemethoden overtreft, met een gemiddelde prestatieverbetering van 4% en 2% in respectievelijk de generatie- en classificatietaken. Deze resultaten benadrukken het belang van domeinkennis voor tokenisatiestrategieën bij de verwerking van wetenschappelijke teksten. Onze code is beschikbaar op https://github.com/yerimoh/MATTER.
Het trainen van grote neurale netwerken met end-to-end backpropagatie creëert aanzienlijke geheugenknelpunten, wat de toegankelijkheid tot state-of-the-art AI- onderzoek beperkt. Wij stellen DiffusionBlocks voor, een nieuw trainingsraamwerk dat neurale netwerkblokken interpreteert als het uitvoeren van ruisverwijderingsoperaties in een continue-tijd diffusieproces. Door het netwerk op te delen in onafhankelijk trainbare blokken en de toewijzing van ruisniveaus te optimaliseren op basis van gelijke cumulatieve waarschijnlijkheidsmassa, bereikt onze aanpak een aanzienlijke geheugen- efficiëntie terwijl het competitieve prestaties behoudt in vergelijking met traditionele backpropagatie in generatieve taken. Experimenten op het gebied van beeldgeneratie en taalmodelleertaken tonen een geheugenreductie aan die evenredig is met het aantal blokken, terwijl superieure prestaties worden behaald. DiffusionBlocks biedt een veelbelovende route voor het democratiseren van toegang tot grootschalige neurale netwerk- training met beperkte rekenmiddelen.
Recente ontwikkelingen in Large Language Models (LLMs) hebben nieuwe mogelijkheden getoond voor nauwkeurige en efficiënte tijdreeksanalyse, maar eerder werk vereiste vaak intensieve fine-tuning en/of negeerde de correlaties tussen reeksen. In dit onderzoek verkennen we eenvoudige en flexibele promptgebaseerde strategieën die LLMs in staat stellen om tijdreeksvoorspellingen uit te voeren zonder uitgebreide hertraining of het gebruik van een complexe externe architectuur. Door het onderzoeken van gespecialiseerde promptingmethoden die gebruikmaken van tijdreeksdecompositie, patchgebaseerde tokenisatie en op gelijkenis gebaseerde nabuuraugmentatie, ontdekken we dat het mogelijk is om de voorspellingskwaliteit van LLMs te verbeteren terwijl eenvoud wordt behouden en minimale voorbewerking van gegevens vereist is. Hiertoe stellen we onze eigen methode voor, PatchInstruct, die LLMs in staat stelt om precieze en effectieve voorspellingen te maken.
We bestuderen multi-modale samenvatting voor instructievideo's, met als doel gebruikers een efficiënte manier te bieden om vaardigheden te leren in de vorm van tekstuele instructies en sleutelvideobeelden. We merken op dat bestaande benchmarks zich richten op generieke semantische videobewerkingen en niet geschikt zijn voor het bieden van stap-voor-stap uitvoerbare instructies en illustraties, die beide cruciaal zijn voor instructievideo's. We stellen een nieuwe benchmark voor voor samenvatting van gebruikersinterface (UI) instructievideo's om deze leemte op te vullen. We verzamelden een dataset van 2.413 UI-instructievideo's, die in totaal meer dan 167 uur beslaan. Deze video's zijn handmatig geannoteerd voor videosegmentatie, tekstuele samenvatting en videobewerking, wat uitgebreide evaluaties mogelijk maakt voor beknopte en uitvoerbare videobewerkingen. We voerden uitgebreide experimenten uit op onze verzamelde MS4UI-dataset, die suggereren dat state-of-the-art multi-modale samenvattingsmethoden moeite hebben met UI-videobewerkingen, en benadrukken het belang van nieuwe methoden voor UI-instructievideobewerkingen.
In een tijdperk dat wordt gekenmerkt door de verspreiding van mis- en desinformatie online, is het cruciaal om lezers in staat te stellen de inhoud die ze lezen te begrijpen. Belangrijke inspanningen in deze richting zijn gebaseerd op handmatige of automatische feitencontrole, wat uitdagend kan zijn voor nieuwe claims met beperkte informatie. Dergelijke scenario's kunnen worden aangepakt door de betrouwbaarheid en de politieke bias van de bron van de claim te beoordelen, dat wil zeggen, door hele nieuwsorganisaties te karakteriseren in plaats van individuele claims of artikelen. Dit is een belangrijke maar onderbelichte onderzoeksrichting. Hoewel eerder werk heeft gekeken naar linguïstische en sociale contexten, analyseren wij geen individuele artikelen of informatie op sociale media. In plaats daarvan stellen we een nieuwe methodologie voor die de criteria nabootst die professionele factcheckers gebruiken om de feitelijkheid en politieke bias van een hele nieuwsorganisatie te beoordelen. Specifiek ontwerpen we een verscheidenheid aan prompts op basis van deze criteria en vragen we reacties op van grote taalmodellen (LLM's), die we aggregeren om voorspellingen te doen. Naast het aantonen van aanzienlijke verbeteringen ten opzichte van sterke basislijnen via uitgebreide experimenten met meerdere LLM's, bieden we een diepgaande foutenanalyse van het effect van mediapopulariteit en regio op de modelprestaties. Verder voeren we een ablatiestudie uit om de belangrijkste componenten van onze dataset te benadrukken die bijdragen aan deze verbeteringen. Om toekomstig onderzoek te vergemakkelijken, hebben we onze dataset en code vrijgegeven op https://github.com/mbzuai-nlp/llm-media-profiling.
De recente vooruitgang in Grote Taalmodellen (LLMs) heeft een aanzienlijke impact gehad op een breed scala aan vakgebieden, van algemene domeinen tot gespecialiseerde gebieden. Deze vooruitgang heeft echter ook het potentieel aanzienlijk vergroot voor kwaadwillende gebruikers om schadelijke en jailbreak-prompts te misbruiken voor kwaadaardige aanvallen. Hoewel er veel inspanningen zijn geleverd om schadelijke prompts en jailbreak-prompts te voorkomen, blijft het beschermen van LLMs tegen dergelijke kwaadaardige aanvallen een belangrijke en uitdagende taak. In dit artikel stellen we QGuard voor, een eenvoudige maar effectieve veiligheidsmethode die gebruikmaakt van vraagprompting om schadelijke prompts op een zero-shot-manier te blokkeren. Onze methode kan LLMs niet alleen verdedigen tegen tekstgebaseerde schadelijke prompts, maar ook tegen multi-modale schadelijke promptaanvallen. Bovendien blijft onze aanpak robuust tegen de nieuwste schadelijke prompts zonder fine-tuning door het diversifiëren en aanpassen van beveiligingsvragen. Experimentele resultaten tonen aan dat ons model competitief presteert op zowel tekstuele als multi-modale schadelijke datasets. Daarnaast maken we door een analyse van vraagprompting een white-box-analyse van gebruikersinvoer mogelijk. Wij geloven dat onze methode waardevolle inzichten biedt voor real-world LLM-diensten bij het beperken van beveiligingsrisico's die gepaard gaan met schadelijke prompts.
Terwijl de snelle opkomst van draagbare camera's aanzienlijke zorgen heeft gewekt over de privacy van egocentrische video's, heeft eerder onderzoek grotendeels de unieke privacybedreigingen voor de drager van de camera over het hoofd gezien. Dit onderzoek gaat in op de kernvraag: Hoeveel privacy-informatie over de drager van de camera kan worden afgeleid uit hun first-person view video's? We introduceren EgoPrivacy, de eerste grootschalige benchmark voor de uitgebreide evaluatie van privacyrisico's in egocentrische visie. EgoPrivacy behandelt drie soorten privacy (demografisch, individueel en situationeel), waarbij zeven taken worden gedefinieerd die gericht zijn op het achterhalen van privé-informatie, variërend van fijnmazig (bijv. de identiteit van de drager) tot grofmazig (bijv. leeftijdsgroep). Om de inherente privacybedreigingen van egocentrische visie verder te benadrukken, stellen we Retrieval-Augmented Attack voor, een nieuwe aanvalsstrategie die gebruikmaakt van ego-naar-exo retrieval uit een externe pool van exocentrische video's om de effectiviteit van demografische privacyaanvallen te vergroten. Een uitgebreide vergelijking van de verschillende aanvallen die mogelijk zijn onder alle bedreigingsmodellen wordt gepresenteerd, waaruit blijkt dat de privé-informatie van de drager zeer gevoelig is voor lekken. Onze bevindingen geven bijvoorbeeld aan dat foundation-modellen de privacy van de drager effectief kunnen compromitteren, zelfs in zero-shot settings, door attributen zoals identiteit, scène, geslacht en ras met 70-80% nauwkeurigheid te achterhalen. Onze code en gegevens zijn beschikbaar op https://github.com/williamium3000/ego-privacy.
Taalmodellen worden voornamelijk getraind op enorme hoeveelheden tekstgegevens van het internet, en het wordt steeds belangrijker om deze gegevensbron te begrijpen. Exact-match zoekmachines maken het mogelijk om in grote tekstcorpora te zoeken — het tellen van stringvoorkomens en het ophalen van de bijbehorende documenten — maar de hoge opslagoverhead belemmert hun toepassing op internet-schaal gegevens. Wij presenteren Infini-gram mini, een efficiënt en schaalbaar systeem dat petabyte-niveau tekstcorpora doorzoekbaar kan maken. Gebaseerd op de FM-index datastructuur (Ferragina en Manzini, 2000), die tekst tegelijkertijd indexeert en comprimeert, creëert ons systeem indexen met een grootte van slechts 44% van het corpus. Infini-gram mini verbetert aanzienlijk op de beste bestaande implementatie van FM-index wat betreft indexeringssnelheid (18 keer) en geheugengebruik tijdens zowel indexering (3,2 keer reductie) als querying (tot een verwaarloosbare hoeveelheid). We indexeren 46TB internettekst in 50 dagen met een enkele 128-core CPU-node (of 19 uur als 75 van dergelijke nodes worden gebruikt). We tonen een belangrijk gebruiksvoorbeeld van Infini-gram mini in een grootschalige analyse van benchmarkvervuiling. We ontdekken dat verschillende kern-LM-evaluatiebenchmarks sterk vervuild zijn in internetcrawls (tot 40% in SQuAD), wat kan leiden tot een overschatting van de capaciteiten van taalmodellen als ze op dergelijke gegevens worden getraind. We hosten een bulletin over benchmarkvervuiling om de vervuilingsgraad van veel kern- en door de gemeenschap bijgedragen benchmarks te delen. We geven ook een webinterface en een API-eindpunt vrij om algemene zoekopdrachten op Infini-gram mini-indexen te bedienen.
Grote taalmodellen (LLMs) worden doorgaans getraind via next-word prediction (NWP), wat een sterke oppervlakkige vloeiendheid biedt, maar vaak tekortschiet in het ondersteunen van robuust redeneren. Wij stellen BOttlenecked next Word exploration (BOW) voor, een nieuw RL-raamwerk dat NWP herdenkt door een redeneerknelpunt in te voeren waarbij een beleidsmodel eerst een redeneerpad genereert in plaats van direct de volgende token te voorspellen, waarna een bevroren beoordelingsmodel de volgende tokenverdeling voorspelt uitsluitend op basis van dit redeneerpad. We trainen het beleidsmodel met GRPO en beloningen die kwantificeren hoe effectief het redeneerpad het herstel van het volgende woord vergemakkelijkt. In vergelijking met andere baselines voor voortdurende voortraining, tonen we aan dat BOW zowel de algemene als de next-word redeneervaardigheden van het basismodel verbetert, geëvalueerd op diverse benchmarks. Onze bevindingen laten zien dat BOW een effectief en schaalbaar alternatief kan zijn voor standaard NWP.
Het voorspellen van sterftegerelateerde uitkomsten uit afbeeldingen biedt het vooruitzicht van toegankelijke, niet-invasieve en schaalbare gezondheidsscreening. We presenteren een methode die gebruikmaakt van vooraf getrainde vision transformer foundation modellen om de resterende levensduur te schatten op basis van gezichts- en volledige lichaamsafbeeldingen, samen met robuuste onzekerheidskwantificering. We laten zien dat de voorspellende onzekerheid systematisch varieert met de werkelijke resterende levensduur, en dat deze onzekerheid effectief kan worden gemodelleerd door een Gaussische verdeling voor elk monster te leren. Onze aanpak behaalt een state-of-the-art gemiddelde absolute fout (MAE) van 7,48 jaar op een gevestigde dataset, en verbetert verder tot 4,79 en 5,07 jaar MAE op twee nieuwe, hogere kwaliteit datasets die in dit werk zijn samengesteld en gepubliceerd. Belangrijk is dat onze modellen goed gekalibreerde onzekerheidsschattingen bieden, zoals aangetoond door een gebucketiseerde verwachte kalibratiefout van 0,62 jaar. Hoewel niet bedoeld voor klinische inzet, benadrukken deze resultaten het potentieel van het extraheren van medisch relevante signalen uit afbeeldingen. We maken alle code en datasets beschikbaar om verder onderzoek te faciliteren.
We presenteren en evalueren een reeks proof-of-concept (PoC), gestructureerde workflow-prompts die zijn ontworpen om mensachtige hiërarchische redenering te stimuleren en tegelijkertijd Large Language Models (LLMs) te begeleiden bij hoogwaardige semantische en linguïstische analyse van wetenschappelijke manuscripten. De prompts richten zich op twee niet-triviale analytische taken: het identificeren van ongefundeerde beweringen in samenvattingen (informatie-integriteit) en het markeren van ambigue voornaamwoordverwijzingen (linguïstische duidelijkheid). We hebben een systematische, multi-run evaluatie uitgevoerd op twee voorhoedemodellen (Gemini Pro 2.5 Pro en ChatGPT Plus o3) onder verschillende contextomstandigheden. Onze resultaten voor de taak van informatie-integriteit laten een significante divergentie in modelprestaties zien: terwijl beide modellen succesvol een ongefundeerde kern van een naamwoordgroep identificeerden (95% succes), faalde ChatGPT consistent (0% succes) in het identificeren van een ongefundeerde bijvoeglijke bepaling die Gemini correct markeerde (95% succes), wat een vraag oproept over de mogelijke invloed van de syntactische rol van het doelwit. Voor de linguïstische analyse taak presteerden beide modellen goed (80-90% succes) met volledige manuscriptcontext. In een instelling met alleen samenvattingen behaalde ChatGPT echter een perfect (100%) slagingspercentage, terwijl de prestaties van Gemini aanzienlijk verslechterden. Onze bevindingen suggereren dat gestructureerd prompten een haalbare methodologie is voor complexe tekstuele analyse, maar tonen ook aan dat de promptprestaties sterk afhankelijk kunnen zijn van de interactie tussen het model, taaktype en context, wat de noodzaak benadrukt van rigoureuze, modelspecifieke tests.
Bestaand onderzoek op het gebied van automatische muziekgeneratie heeft zich voornamelijk gericht op end-to-end systemen die complete composities of voortzettingen produceren. Omdat muzikale compositie echter typisch een iteratief proces is, maken dergelijke systemen het moeilijk om de wisselwerking tussen mens en machine te faciliteren, wat essentieel is voor computerondersteunde creativiteit. In deze studie richten we ons op de taak van personaliseerbare, multi-track, lange-context en controleerbare symbolische muzikinvulling om het proces van computerondersteunde compositie te verbeteren. We presenteren MIDI-RWKV, een nieuw model gebaseerd op de RWKV-7 lineaire architectuur, om efficiënte en samenhangende muzikale cocreatie op edge-apparaten mogelijk te maken. We tonen ook aan dat MIDI-RWKV een effectieve methode biedt om de initiële staat af te stemmen voor personalisatie in het zeer-laag-sample regime. We evalueren MIDI-RWKV en de staat-afstemming op verschillende kwantitatieve en kwalitatieve metrieken, en geven modelgewichten en code vrij op https://github.com/christianazinn/MIDI-RWKV.
Taal verandert in de loop van de tijd, ook op het gebied van haatspraak, dat snel evolueert als gevolg van sociale dynamiek en culturele verschuivingen. Hoewel NLP-onderzoek de impact van taalverandering op modeltraining heeft onderzocht en verschillende oplossingen heeft voorgesteld, blijft de impact ervan op modelbenchmarking onderbelicht. Toch spelen haatspraakbenchmarks een cruciale rol om de veiligheid van modellen te waarborgen. In dit artikel evalueren we empirisch de robuustheid van 20 taalmodellen in twee experimenten met evoluerende haatspraak, en tonen we de temporele mismatch tussen statische en tijdsgevoelige evaluaties. Onze bevindingen pleiten voor tijdsgevoelige linguïstische benchmarks om taalmodellen in het domein van haatspraak correct en betrouwbaar te kunnen evalueren.