Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Webnavigatie is een uniek domein dat veel repetitieve taken uit het echte leven kan automatiseren en uitdagend is omdat het langetermijnsequentieel besluitvorming vereist die verder gaat dan typische multimodale grote taalmodellen (MLLM)-taken. Toch zijn er tot nu toe gespecialiseerde beloningsmodellen voor webnavigatie ontbrekend die zowel tijdens de training als tijdens de testfase kunnen worden gebruikt. Ondanks het belang van snelheid en kosteneffectiviteit hebben eerdere werken MLLM's gebruikt als beloningsmodellen, wat aanzienlijke beperkingen oplevert voor implementatie in de praktijk. Om dit aan te pakken, stellen we in dit werk het eerste procesbeloningsmodel (PRM) voor, genaamd Web-Shepherd, dat webnavigatietrajecten op stapniveau kan beoordelen. Om dit te bereiken, construeren we eerst de WebPRM Collection, een grootschalige dataset met 40K stapniveau voorkeursparen en geannoteerde checklists die diverse domeinen en moeilijkheidsgraden omvatten. Vervolgens introduceren we ook de WebRewardBench, de eerste meta-evaluatiebenchmark voor het evalueren van PRM's. In onze experimenten observeren we dat onze Web-Shepherd ongeveer 30 punten betere nauwkeurigheid bereikt in vergelijking met het gebruik van GPT-4o op WebRewardBench. Bovendien behalen we bij het testen op WebArena-lite, waarbij GPT-4o-mini als beleid en Web-Shepherd als verifier wordt gebruikt, 10,9 punten betere prestaties tegen 10 minder kosten in vergelijking met het gebruik van GPT-4o-mini als verifier. Ons model, dataset en code zijn publiekelijk beschikbaar op LINK.
We introduceren MMaDA, een nieuwe klasse van multimodale diffusie-foundationmodellen die ontworpen zijn om superieure prestaties te leveren op diverse domeinen zoals tekstueel redeneren, multimodale interpretatie en tekst-naar-beeldgeneratie. De aanpak onderscheidt zich door drie belangrijke innovaties: (i) MMaDA maakt gebruik van een uniforme diffusie-architectuur met een gedeelde probabilistische formulering en een modaal-agnostisch ontwerp, waardoor de noodzaak voor modaal-specifieke componenten wordt geëlimineerd. Deze architectuur zorgt voor naadloze integratie en verwerking van verschillende datatypes. (ii) We implementeren een gemengde lange keten-van-gedachten (CoT) fine-tuningstrategie die een uniform CoT-formaat over modaliteiten heen samenstelt. Door de redeneerprocessen tussen tekstuele en visuele domeinen af te stemmen, vergemakkelijkt deze strategie de cold-starttraining voor de uiteindelijke reinforcement learning (RL)-fase, waardoor het vermogen van het model om complexe taken vanaf het begin aan te pakken wordt verbeterd. (iii) We stellen UniGRPO voor, een uniform op beleidsgradiënten gebaseerd RL-algoritme dat specifiek is afgestemd op diffusie-foundationmodellen. Door gebruik te maken van gediversifieerde beloningsmodellering, verenigt UniGRPO de post-training over zowel redeneer- als generatietaken, wat zorgt voor consistente prestatieverbeteringen. Experimentele resultaten tonen aan dat MMaDA-8B sterke generalisatiecapaciteiten vertoont als een uniform multimodaal foundationmodel. Het overtreft krachtige modellen zoals LLaMA-3-7B en Qwen2-7B in tekstueel redeneren, presteert beter dan Show-o en SEED-X in multimodale interpretatie, en overtreft SDXL en Janus in tekst-naar-beeldgeneratie. Deze prestaties benadrukken de effectiviteit van MMaDA in het overbruggen van de kloof tussen pretraining en post-training binnen uniforme diffusie-architecturen, en bieden een uitgebreid kader voor toekomstig onderzoek en ontwikkeling. We maken onze code en getrainde modellen openbaar op: https://github.com/Gen-Verse/MMaDA.
Grote taalmodellen (LLM's) vereisen aanzienlijke reken- en geheugenbronnen, wat uitdagingen oplevert bij de implementatie. Quantization-aware training (QAT) gaat deze uitdagingen te lijf door de precisie van het model te verlagen terwijl de prestaties behouden blijven. Het schaalgedrag van QAT, vooral bij 4-bit precisie (W4A4), is echter nog niet goed begrepen. Bestaande schaalwetten voor QAT negeren vaak belangrijke factoren zoals het aantal trainings-tokens en de quantisatiegranulariteit, wat hun toepasbaarheid beperkt. Dit artikel stelt een geünificeerde schaalwet voor QAT voor die de quantisatiefout modelleert als een functie van modelgrootte, trainingsdatavolume en quantisatiegroepsgrootte. Door middel van 268 QAT-experimenten laten we zien dat de quantisatiefout afneemt naarmate de modelgrootte toeneemt, maar stijgt bij meer trainings-tokens en grovere quantisatiegranulariteit. Om de bronnen van W4A4-quantisatiefout te identificeren, ontleden we deze in gewichts- en activatiecomponenten. Beide componenten volgen de algemene trend van W4A4-quantisatiefout, maar met verschillende gevoeligheden. Specifiek neemt de gewichtsquantisatiefout sneller toe bij meer trainings-tokens. Verdere analyse toont aan dat de activatiequantisatiefout in de FC2-laag, veroorzaakt door uitschieters, de primaire bottleneck is van W4A4 QAT-quantisatiefout. Door mixed-precision quantisatie toe te passen om deze bottleneck aan te pakken, laten we zien dat gewichts- en activatiequantisatiefouten naar vergelijkbare niveaus kunnen convergeren. Bovendien overschrijdt de gewichtsquantisatiefout bij meer trainingsdata uiteindelijk de activatiequantisatiefout, wat suggereert dat het verminderen van de gewichtsquantisatiefout ook belangrijk is in dergelijke scenario's. Deze bevindingen bieden belangrijke inzichten voor het verbeteren van QAT-onderzoek en -ontwikkeling.
Grootschalige taalmodel (LLM)-gebaseerde inbeddingsmodellen, die profiteren van grootschalige voorafgaande training en nabehandeling, zijn begonnen BERT- en T5-gebaseerde modellen te overtreffen op algemene tekstinbeddingstaken zoals documentretrieval. Een fundamentele beperking van LLM-inbeddingen ligt echter in de unidirectionele aandacht die wordt gebruikt tijdens autoregressieve voorafgaande training, wat niet overeenkomt met de bidirectionele aard van tekstinbeddingstaken. Daarom stellen we voor om diffusietaalmodellen te gebruiken voor tekstinbeddingen, gemotiveerd door hun inherente bidirectionele architectuur en recente succes in het evenaren of overtreffen van LLM's, vooral op redeneertaken. We presenteren de eerste systematische studie van het diffusietaal-inbeddingsmodel, dat het LLM-gebaseerde inbeddingsmodel overtreft met 20% op lange-documentretrieval, 8% op redeneerintensieve retrieval, 2% op instructievolgende retrieval, en competitieve prestaties behaalt op traditionele tekstinbeddingsbenchmarks. Onze analyse bevestigt dat bidirectionele aandacht cruciaal is voor het coderen van globale context in lange en complexe teksten.
Traditionele methoden voor visuele verankering richten zich voornamelijk op scenario's met één afbeelding en eenvoudige tekstuele verwijzingen. Het uitbreiden van deze methoden naar realistische scenario's die impliciete en complexe instructies omvatten, vooral in combinatie met meerdere afbeeldingen, brengt echter aanzienlijke uitdagingen met zich mee. Dit komt voornamelijk door het ontbreken van geavanceerd redeneervermogen in diverse multimodale contexten. In dit werk streven we ernaar om de meer praktische universele verankerings taak aan te pakken en stellen we UniVG-R1 voor, een redenering-gestuurd multimodaal groot taalmodel (MLLM) voor universele visuele verankering, dat redeneervermogen versterkt door middel van reinforcement learning (RL) in combinatie met cold-start data. Specifiek construeren we eerst een hoogwaardige Chain-of-Thought (CoT) verankeringsdataset, voorzien van gedetailleerde redeneerketens, om het model via supervised fine-tuning te begeleiden naar correcte redeneerpaden. Vervolgens voeren we regelgebaseerd reinforcement learning uit om het model aan te moedigen correcte redeneerketens te identificeren, waardoor het redeneervermogen wordt gestimuleerd. Daarnaast identificeren we een moeilijkheidsbias die ontstaat door de overvloed aan eenvoudige voorbeelden naarmate de RL-training vordert, en stellen we een moeilijkheidsbewuste gewichtsaanpassingsstrategie voor om de prestaties verder te versterken. Experimentele resultaten tonen de effectiviteit van UniVG-R1 aan, dat state-of-the-art prestaties behaalt op MIG-Bench met een verbetering van 9,1% ten opzichte van de vorige methode. Bovendien toont ons model sterke generaliseerbaarheid, met een gemiddelde verbetering van 23,4% in zero-shot prestaties over vier benchmarks voor beeld- en videoredeneringsverankering. De projectpagina is te vinden op https://amap-ml.github.io/UniVG-R1-page/.
Het opschalen van hoogwaardige trajectgegevens is lange tijd een kritieke bottleneck geweest voor de ontwikkeling van mensachtige computergebruiksagenten. Wij introduceren PC Agent-E, een efficiënt trainingsraamwerk voor agenten dat de afhankelijkheid van grootschalige menselijke demonstraties aanzienlijk vermindert. Beginnend met slechts 312 door mensen geannoteerde computergebruikstrajecten, hebben we de kwaliteit van de gegevens verder verbeterd door diverse actiebeslissingen te synthetiseren met Claude 3.7 Sonnet. Getraind op deze verrijkte trajecten, behaalde ons PC Agent-E-model een opmerkelijke relatieve verbetering van 141%, waarmee het de sterke Claude 3.7 Sonnet met uitgebreid denken overtrof op WindowsAgentArena-V2, een verbeterde benchmark die wij ook hebben vrijgegeven. Bovendien toont PC Agent-E een sterke generaliseerbaarheid naar verschillende besturingssystemen op OSWorld. Onze bevindingen suggereren dat sterke computergebruikscapaciteiten kunnen worden gestimuleerd vanuit een kleine hoeveelheid hoogwaardige trajectgegevens.
We introduceren Toto, een foundation model voor tijdreeksvoorspelling met 151 miljoen parameters. Toto maakt gebruik van een moderne decoder-only architectuur, gecombineerd met architectonische innovaties die zijn ontworpen om specifieke uitdagingen in multivariate observability tijdreeksdata aan te pakken. Het pre-trainingscorpus van Toto bestaat uit een mix van observability data, open datasets en synthetische data, en is 4-10 keer groter dan die van toonaangevende tijdreeks foundation modellen. Daarnaast introduceren we BOOM, een grootschalige benchmark bestaande uit 350 miljoen observaties over 2.807 real-world tijdreeksen. Voor zowel Toto als BOOM halen we observability data uitsluitend uit Datadog's eigen telemetrie en interne observability metrieken. Uitgebreide evaluaties tonen aan dat Toto state-of-the-art prestaties behaalt op zowel BOOM als op gevestigde algemene tijdreeksvoorspellingsbenchmarks. De modelgewichten, inferentiecode en evaluatiescripts van Toto, evenals de data en evaluatiecode van BOOM, zijn allemaal beschikbaar als open source onder de Apache 2.0 Licentie, te vinden op https://huggingface.co/Datadog/Toto-Open-Base-1.0 en https://github.com/DataDog/toto.
Large Reasoning Models (LRMs) hebben opmerkelijke capaciteiten getoond bij het oplossen van complexe problemen door middel van reinforcement learning (RL), met name door het genereren van lange redeneersporen. Deze uitgebreide uitvoer vertoont echter vaak aanzienlijke redundantie, wat de efficiëntie van LRMs beperkt. In dit artikel onderzoeken we RL-gebaseerde benaderingen om de redeneerefficiëntie te bevorderen. Specifiek presenteren we eerst een uniform raamwerk dat verschillende efficiënte redeneermethoden formuleert vanuit het perspectief van lengtegebaseerde beloningsvorming. Op basis van dit perspectief stellen we een nieuwe Length-bAsed StEp Reward shaping-methode (LASER) voor, die een stapfunctie gebruikt als beloning, gecontroleerd door een doel-lengte. LASER overtreft eerdere methoden en bereikt een superieur Pareto-optimaal evenwicht tussen prestaties en efficiëntie. Vervolgens breiden we LASER verder uit op basis van twee belangrijke intuïties: (1) Het redeneergedrag van het model evolueert tijdens de training, wat beloningsspecificaties vereist die ook adaptief en dynamisch zijn; (2) In plaats van uniform kortere of langere ketens van gedachten (CoT) aan te moedigen, stellen we dat lengtegebaseerde beloningsvorming moeilijkheidsbewust moet zijn, d.w.z. dat het lange CoTs meer moet bestraffen voor eenvoudige vragen. Deze benadering zou een combinatie van snel en langzaam denken moeten faciliteren, wat leidt tot een betere algehele afweging. De resulterende methode wordt LASER-D (Dynamic and Difficulty-aware) genoemd. Experimenten op DeepSeek-R1-Distill-Qwen-1.5B, DeepSeek-R1-Distill-Qwen-7B en DeepSeek-R1-Distill-Qwen-32B tonen aan dat onze aanpak zowel de redeneerprestaties als de efficiëntie van de responslengte aanzienlijk verbetert. Zo behalen LASER-D en zijn variant bijvoorbeeld een verbetering van +6.1 op AIME2024 terwijl het tokengebruik met 63% wordt verminderd. Verdere analyse toont aan dat onze RL-gebaseerde compressie meer beknopte redeneerpatronen produceert met minder redundante "zelfreflecties". Bronnen zijn beschikbaar op https://github.com/hkust-nlp/Laser.
Wereldmodellen, die overgangen voorspellen op basis van historische observaties en actievolgordes, hebben veelbelovende resultaten getoond in het verbeteren van data-efficiëntie voor sequentiële besluitvorming. Bestaande wereldmodellen vereisen echter vaak uitgebreide domeinspecifieke training en produceren nog steeds voorspellingen met een lage fideliteit en grove details, wat hun toepasbaarheid in complexe omgevingen beperkt. Daarentegen hebben videodiffusiemodellen die getraind zijn op grote, internet-schaal datasets indrukwekkende capaciteiten getoond in het genereren van hoogwaardige video's die diverse real-world dynamiek vastleggen. In dit werk presenteren we Vid2World, een algemene aanpak voor het benutten en overdragen van vooraf getrainde videodiffusiemodellen naar interactieve wereldmodellen. Om de kloof te overbruggen, voert Vid2World causalization uit van een vooraf getraind videodiffusiemodel door de architectuur en het trainingsdoel aan te passen om autoregressieve generatie mogelijk te maken. Bovendien introduceert het een causale actiebegeleidingsmechanisme om de actiebestuurbaarheid in het resulterende interactieve wereldmodel te verbeteren. Uitgebreide experimenten in robotmanipulatie en gamesimulatiedomeinen tonen aan dat onze methode een schaalbare en effectieve aanpak biedt voor het hergebruiken van zeer capabele videodiffusiemodellen als interactieve wereldmodellen.
Het verkrijgen van gedetailleerde 3D-scènes vereist doorgaans kostbare apparatuur, multi-view data of arbeidsintensieve modellering. Daarom speelt een lichtgewicht alternatief, het genereren van complexe 3D-scènes vanuit een enkele bovenaanzichtsfoto, een essentiële rol in praktische toepassingen. Hoewel recente 3D-generatieve modellen opmerkelijke resultaten hebben behaald op objectniveau, leidt hun uitbreiding naar volledige scènegeneratie vaak tot inconsistente geometrie, layouthallucinaties en meshmodellen van lage kwaliteit. In dit werk introduceren we 3DTown, een trainingsvrij raamwerk ontworpen om realistische en samenhangende 3D-scènes te synthetiseren vanuit een enkel bovenaanzicht. Onze methode is gebaseerd op twee principes: regio-gebaseerde generatie om de afstemming en resolutie van beeld-naar-3D te verbeteren, en ruimtelijk bewuste 3D-inpainting om globale scènecoherentie en hoogwaardige geometriegeneratie te waarborgen. Specifiek ontleden we de invoerafbeelding in overlappende regio's en genereren we elk ervan met behulp van een vooraf getrainde 3D-objectgenerator, gevolgd door een gemaskeerd rectified flow-inpaintingproces dat ontbrekende geometrie invult terwijl structurele continuïteit behouden blijft. Dit modulaire ontwerp stelt ons in staat om resolutiebeperkingen te overwinnen en de ruimtelijke structuur te behouden zonder 3D-supervisie of fine-tuning nodig te hebben. Uitgebreide experimenten in diverse scènes tonen aan dat 3DTown state-of-the-art baselines, waaronder Trellis, Hunyuan3D-2 en TripoSG, overtreft op het gebied van geometriekwaliteit, ruimtelijke coherentie en textuurgetrouwheid. Onze resultaten demonstreren dat hoogwaardige 3D-stadsgeneratie haalbaar is vanuit een enkele afbeelding met een principieel, trainingsvrij aanpak.
Grote redeneermodellen (LRMs) behalen opmerkelijke prestaties via lange redeneerketens, maar veroorzaken vaak overmatige rekenkosten door redundante redenering, vooral bij eenvoudige taken. In dit werk kwantificeren we systematisch de bovengrenzen van LRMs onder zowel de Lange-Denken als Geen-Denken modi, en ontdekken we het fenomeen van het "Interne Zelfherstelmechanisme" waarbij modellen impliciet redenering aanvullen tijdens het genereren van antwoorden. Op basis van dit inzicht stellen we Adaptief Zelfherstel Redeneren (ASRR) voor, een raamwerk dat onnodige redenering onderdrukt en impliciet herstel mogelijk maakt. Door het introduceren van nauwkeurigheidsbewuste lengtebeloningsregulatie, wijst ASRR adaptief redeneerinspanning toe volgens de moeilijkheidsgraad van het probleem, waardoor hoge efficiëntie wordt bereikt met verwaarloosbaar prestatieverlies. Experimenten over meerdere benchmarks en modellen tonen aan dat, vergeleken met GRPO, ASRR het redeneerbudget met maximaal 32,5% (1,5B) en 25,7% (7B) reduceert met minimale nauwkeurigheidsverliezen (1,2% en 0,6% pass@1), en de veiligheidspercentages op veiligheidsbenchmarks aanzienlijk verhoogt (tot +21,7%). Onze resultaten benadrukken het potentieel van ASRR voor het mogelijk maken van efficiënte, adaptieve en veiligere redenering in LRMs.
Het spelen van videogames vereist perceptie, geheugen en planning, precies de vaardigheden waarvan wordt verwacht dat moderne grote taalmodellen (LLM) agents deze beheersen. We onderzoeken de belangrijkste uitdagingen bij het gebruik van populaire videogames om moderne LLM's te evalueren en ontdekken dat het direct inzetten van LLM's in games geen effectieve evaluatie oplevert, om drie redenen: kwetsbare visuele perceptie, gevoeligheid voor prompts en mogelijke datacontaminatie. We introduceren lmgame-Bench om games om te zetten in betrouwbare evaluaties. lmgame-Bench biedt een reeks platform-, puzzel- en verhalende games die worden aangeboden via een uniforme Gym-style API en worden gecombineerd met lichtgewicht perceptie- en geheugenscaffolds, en is ontworpen om promptvariaties te stabiliseren en contaminatie te verwijderen. Over 13 toonaangevende modellen laten we zien dat lmgame-Bench uitdagend is, maar toch goed onderscheid maakt tussen modellen. Correlatieanalyse toont aan dat elke game een unieke mix van vaardigheden onderzoekt die vaak elders geïsoleerd worden getest. Interessanter is dat het uitvoeren van reinforcement learning op een enkele game van lmgame-Bench zowel overdraagt naar onbekende games als naar externe plannings taken. Onze evaluatiecode is beschikbaar op https://github.com/lmgame-org/GamingAgent/lmgame-bench.
Mensen maken van nature gebruik van meerdere redeneerwijzen om te leren en logische problemen op te lossen, zoals verschillende representatieformaten zoals natuurlijke taal, code en symbolische logica. In tegenstelling hiermee werken de meeste bestaande LLM-gebaseerde benaderingen tijdens de training met een enkele redeneerwijze, meestal natuurlijke taal. Hoewel sommige methoden de selectie of uitbreiding van modaliteiten tijdens de inferentie hebben onderzocht, blijft het trainingsproces modaliteitsblind, wat de synergie tussen modaliteiten beperkt. Om deze kloof te overbruggen, stellen we Mixture-of-Thought (MoT) voor, een raamwerk dat LLM's in staat stelt te redeneren over drie complementaire modaliteiten: natuurlijke taal, code en een nieuw geïntroduceerde symbolische modaliteit, de waarheidstabel, die logische gevallen systematisch opsomt en belangrijke foutmodi in redeneren met natuurlijke taal gedeeltelijk verhelpt. MoT hanteert een tweefasig ontwerp: (1) zelfontwikkelende MoT-training, die gezamenlijk leert van gefilterde, zelf gegenereerde redeneringen over modaliteiten heen; en (2) MoT-inferentie, die volledig gebruikmaakt van de synergie van drie modaliteiten om betere voorspellingen te produceren. Experimenten op logische redeneerbenchmarks, waaronder FOLIO en ProofWriter, tonen aan dat ons MoT-raamwerk consistent en significant beter presteert dan sterke LLM-baselines met single-modality chain-of-thought benaderingen, met een gemiddelde nauwkeurigheidswinst van tot +11,7 procentpunten. Verdere analyses laten zien dat ons MoT-raamwerk zowel de trainings- als de inferentiefasen ten goede komt; dat het vooral effectief is bij moeilijkere logische redeneerproblemen; en dat verschillende modaliteiten complementaire sterktes bijdragen, waarbij redeneren met waarheidstabellen helpt om belangrijke knelpunten in redeneren met natuurlijke taal te overwinnen.
Menselijke cognitie omvat doorgaans het denken in abstracte, vloeiende concepten in plaats van strikt het gebruik van discrete linguïstische tokens. Huidige redeneermodellen zijn echter beperkt tot redeneren binnen de grenzen van menselijke taal, waarbij ze discrete token-embeddings verwerken die vaste punten in de semantische ruimte vertegenwoordigen. Deze discrete beperking vermindert de expressieve kracht en het maximale potentieel van dergelijke redeneermodellen, wat vaak leidt tot onvolledige verkenning van redeneerpaden, aangezien standaard Chain-of-Thought (CoT)-methoden afhankelijk zijn van het bemonsteren van één token per stap. In dit werk introduceren we Soft Thinking, een trainingsvrije methode die menselijk "zacht" redeneren nabootst door zachte, abstracte concepttokens te genereren in een continue conceptruimte. Deze concepttokens worden gecreëerd door de waarschijnlijkheidsgewogen mengeling van token-embeddings, die de continue conceptruimte vormen, waardoor soepele overgangen en rijkere representaties mogelijk worden die traditionele discrete grenzen overstijgen. In essentie omvat elk gegenereerd concepttoken meerdere betekenissen van gerelateerde discrete tokens, waarbij impliciet verschillende redeneerpaden worden verkend om effectief naar het juiste antwoord te convergeren. Empirische evaluaties op diverse wiskundige en programmeerbenchmarks tonen consistent de effectiviteit en efficiëntie van Soft Thinking aan, waarbij de pass@1-nauwkeurigheid met maximaal 2,48 punten wordt verbeterd en tegelijkertijd het tokengebruik met maximaal 22,4% wordt verminderd in vergelijking met standaard CoT. Kwalitatieve analyse laat verder zien dat de uitvoer van Soft Thinking zeer interpreteerbaar en leesbaar blijft, wat het potentieel van Soft Thinking benadrukt om de inherente bottleneck van discreet taalgebaseerd redeneren te doorbreken. Code is beschikbaar op https://github.com/eric-ai-lab/Soft-Thinking.
Grote redeneermodellen zoals OpenAI o1 en DeepSeek-R1 hebben opmerkelijke prestaties geleverd op het gebied van redeneren. Een belangrijk onderdeel van hun training is de integratie van verifieerbare beloningen binnen reinforcement learning (RL). Bestaande beloningsbenchmarks evalueren echter geen referentiegebaseerde beloningssystemen, waardoor onderzoekers beperkt inzicht hebben in de nauwkeurigheid van verificatoren die in RL worden gebruikt. In dit artikel introduceren we twee benchmarks, VerifyBench en VerifyBench-Hard, die zijn ontworpen om de prestaties van referentiegebaseerde beloningssystemen te beoordelen. Deze benchmarks zijn opgebouwd door zorgvuldige gegevensverzameling en -curatie, gevolgd door nauwkeurige menselijke annotatie om een hoge kwaliteit te waarborgen. Huidige modellen laten nog aanzienlijke ruimte voor verbetering zien op zowel VerifyBench als VerifyBench-Hard, met name kleinere modellen. Daarnaast voeren we een grondige en uitgebreide analyse uit van de evaluatieresultaten, wat inzichten biedt voor het begrijpen en ontwikkelen van referentiegebaseerde beloningssystemen. Onze voorgestelde benchmarks dienen als effectieve hulpmiddelen om de ontwikkeling van de nauwkeurigheid van verificatoren en de redeneervaardigheden van via RL getrainde modellen in redeneertaken te begeleiden.
Diffusie Taalmodellen (DLMs) worden gezien als een veelbelovende concurrent voor autoregressieve taalmodellen. Echter, diffusie taalmodellen zijn lange tijd beperkt geweest door trage inferentie. Een kernuitdaging is dat hun niet-autoregressieve architectuur en bidirectionele aandacht het key-value cache mechanisme uitsluiten dat decodering versnelt. Wij pakken dit knelpunt aan door een KV-cache-achtig mechanisme, de vertraagde KV-Cache, voor te stellen voor het denoisingsproces van DLMs. Onze aanpak is gemotiveerd door de observatie dat verschillende tokens verschillende representatiedynamieken hebben gedurende het diffusieproces. Dienovereenkomstig stellen wij een vertraagde en geconditioneerde cachingstrategie voor voor key- en value-states. We ontwerpen twee complementaire varianten om key en value stap-voor-stap te cachen: (1) dKV-Cache-Decode, dat een bijna verliesloze versnelling biedt, en zelfs de prestaties op lange sequenties verbetert, wat suggereert dat bestaande DLMs contextuele informatie tijdens inferentie mogelijk onderbenutten. (2) dKV-Cache-Greedy, dat een agressieve caching heeft met een verkorte levensduur, waardoor hogere snelheidsverbeteringen worden bereikt met kwadratische tijdcomplexiteit ten koste van enige prestatievermindering. dKV-Cache bereikt uiteindelijk een versnelling van 2-10x in inferentie, waardoor de kloof tussen ARs en DLMs aanzienlijk wordt verkleind. We evalueren onze dKV-Cache op verschillende benchmarks, waarbij versnelling wordt geleverd over benchmarks voor algemeen taalbegrip, wiskunde en codegeneratie. Experimenten tonen aan dat cache ook kan worden gebruikt in DLMs, zelfs op een trainingsvrije manier vanuit huidige DLMs.
Wereldmodellen voorspellen staatsovergangen als reactie op acties en worden steeds vaker ontwikkeld voor diverse modaliteiten. Echter, standaard trainingsdoelstellingen zoals maximum likelihood estimation (MLE) komen vaak niet overeen met de taakspecifieke doelen van wereldmodellen, zoals voorspellingsmetrieken voor overgangen zoals nauwkeurigheid of perceptuele kwaliteit. In dit artikel presenteren we RLVR-World, een geïntegreerd framework dat reinforcement learning met verifieerbare beloningen (RLVR) benut om wereldmodellen direct te optimaliseren voor dergelijke metrieken. Ondanks het formuleren van wereldmodellering als autoregressieve voorspelling van getokeniseerde sequenties, evalueert RLVR-World metrieken van gedecodeerde voorspellingen als verifieerbare beloningen. We demonstreren aanzienlijke prestatieverbeteringen voor zowel taal- als videogebaseerde wereldmodellen in verschillende domeinen, waaronder tekstspellen, webnavigatie en robotmanipulatie. Ons werk toont aan dat RLVR, naast recente vooruitgang in redenerende taalmmodellen, een veelbelovend post-trainingsparadigma biedt voor het verbeteren van de bruikbaarheid van generatieve modellen in bredere zin.
Knowledge graph-gebaseerde retrieval-augmented generation streeft ernaar hallucinaties in Large Language Models (LLMs) te verminderen die worden veroorzaakt door onvoldoende of verouderde kennis. Bestaande methoden slagen er echter vaak niet in om de voorkennis die is ingebed in knowledge graphs (KGs) volledig te benutten, met name hun structurele informatie en expliciete of impliciete beperkingen. De eerste kan de betrouwbaarheid van de redenering van LLMs verbeteren, terwijl de laatste de betrouwbaarheid van responsgeneratie kan vergroten. Gemotiveerd door deze inzichten stellen we een betrouwbaar redeneerkader voor, genaamd Deliberation over Priors (DP), dat de voorkennis in KGs optimaal benut. Specifiek hanteert DP een progressieve kennisdistillatiestrategie die structurele voorkennis integreert in LLMs via een combinatie van supervised fine-tuning en Kahneman-Tversky optimalisatie, waardoor de betrouwbaarheid van relatiepadgeneratie wordt verbeterd. Bovendien maakt ons framework gebruik van een redeneer-introspectiestrategie, die LLMs begeleidt bij het uitvoeren van verfijnde redeneerverificatie op basis van geëxtraheerde beperkingskennis, wat de betrouwbaarheid van responsgeneratie waarborgt. Uitgebreide experimenten op drie benchmarkdatasets tonen aan dat DP nieuwe state-of-the-art prestaties bereikt, met name een Hit@1-verbetering van 13% op de ComplexWebQuestions-dataset, en zeer betrouwbare responsen genereert. We voeren ook diverse analyses uit om de flexibiliteit en praktische bruikbaarheid ervan te verifiëren. De code is beschikbaar op https://github.com/reml-group/Deliberation-on-Priors.
Het finetunen van open-source Large Language Models (LLMs) met propriëtaire gegevens is inmiddels een standaardpraktijk voor downstream-ontwikkelaars om taakspecifieke LLMs te verkrijgen. Verrassend genoeg onthullen we een nieuw en zorgwekkend risico dat samenhangt met deze praktijk: de maker van de open-source LLMs kan later de private downstream finetuning-gegevens extraheren door middel van eenvoudige backdoor-training, waarbij alleen black-box toegang tot het gefinetunde downstream-model vereist is. Onze uitgebreide experimenten, uitgevoerd op 4 veelgebruikte open-source modellen met 3B tot 32B parameters en 2 downstream-datasets, suggereren dat de extractieprestaties opvallend hoog kunnen zijn: in praktische omstandigheden kan tot 76,3% van de downstream finetuning-gegevens (queries) uit een totaal van 5.000 monsters perfect worden geëxtraheerd, en het slagingspercentage kan oplopen tot 94,9% in meer ideale omstandigheden. We onderzoeken ook een detectiegebaseerde verdedigingsstrategie, maar ontdekken dat deze kan worden omzeild met een verbeterde aanval. Over het geheel genomen benadrukken we de urgentie van dit nieuw geïdentificeerde risico op datalekken bij finetuning, en we hopen dat vervolgonderzoek de voortgang kan bevorderen bij het aanpakken van dit zorgwekkende risico. De code en gegevens die in onze experimenten zijn gebruikt, zijn vrijgegeven op https://github.com/thu-coai/Backdoor-Data-Extraction.
Diffusion Transformer (DiT), een veelbelovend diffusiemodel voor visuele generatie, toont indrukwekkende prestaties maar gaat gepaard met aanzienlijke rekenkosten. Interessant genoeg blijkt uit analyses van vooraf getrainde DiT-modellen dat globale zelf-attentie vaak overbodig is, waarbij voornamelijk lokale patronen worden vastgelegd—wat het potentieel voor efficiëntere alternatieven benadrukt. In dit artikel herontdekken we convolutie als een alternatief bouwblok voor het construeren van efficiënte en expressieve diffusiemodellen. Echter, het naïef vervangen van zelf-attentie door convolutie resulteert doorgaans in verminderde prestaties. Onze onderzoeken schrijven dit prestatieverschil toe aan de hogere kanaalredundantie in ConvNets in vergelijking met Transformers. Om dit op te lossen, introduceren we een compact kanaal-attentiemechanisme dat de activering van meer diverse kanalen bevordert, waardoor de kenmerkdiversiteit wordt verbeterd. Dit leidt tot Diffusion ConvNet (DiCo), een familie van diffusiemodellen die volledig zijn opgebouwd uit standaard ConvNet-modules, die sterke generatieve prestaties bieden met aanzienlijke efficiëntiewinsten. Op klasse-conditionele ImageNet-benchmarks overtreft DiCo eerdere diffusiemodellen in zowel beeldkwaliteit als generatiesnelheid. Opmerkelijk is dat DiCo-XL een FID van 2,05 behaalt bij 256x256 resolutie en 2,53 bij 512x512, met een snelheidsverbetering van respectievelijk 2,7x en 3,1x ten opzichte van DiT-XL/2. Bovendien bereikt ons grootste model, DiCo-H, geschaald naar 1B parameters, een FID van 1,90 op ImageNet 256x256—zonder enige aanvullende supervisie tijdens de training. Code: https://github.com/shallowdream204/DiCo.
Huidige tekst-naar-beeld (T2I) generatiemodellen behalen veelbelovende resultaten, maar falen in scenario's waarin de kennis die in de tekstprompt wordt geïmpliceerd onzeker is. Een T2I-model dat in februari is vrijgegeven, zou bijvoorbeeld moeite hebben om een geschikte poster te genereren voor een film die in april in première gaat, omdat de karakterontwerpen en stijlen onzeker zijn voor het model. Om dit probleem op te lossen, stellen we een internet-augmented tekst-naar-beeld generatie (IA-T2I) framework voor om T2I-modellen duidelijkheid te geven over dergelijke onzekere kennis door hen referentiebeelden aan te bieden. Specifiek is een actieve retrievemodule ontworpen om te bepalen of een referentiebeeld nodig is op basis van de gegeven tekstprompt; een hiërarchische beeldselectiemodule is geïntroduceerd om het meest geschikte beeld te vinden dat door een beeldzoekmachine wordt geretourneerd om het T2I-model te versterken; een zelfreflectiemechanisme wordt gepresenteerd om continu het gegenereerde beeld te evalueren en te verfijnen om een getrouwe afstemming met de tekstprompt te garanderen. Om de prestaties van het voorgestelde framework te evalueren, hebben we een dataset genaamd Img-Ref-T2I verzameld, waarin tekstprompts drie soorten onzekere kennis bevatten: (1) bekend maar zeldzaam. (2) onbekend. (3) dubbelzinnig. Bovendien hebben we zorgvuldig een complexe prompt samengesteld om GPT-4o te begeleiden bij het maken van een voorkeursevaluatie, waarvan is aangetoond dat deze een evaluatienauwkeurigheid heeft die vergelijkbaar is met die van menselijke voorkeursevaluatie. Experimentele resultaten tonen de effectiviteit van ons framework aan, dat GPT-4o met ongeveer 30% overtreft in menselijke evaluatie.
Grote Redeneermodellen (LRMs) hebben opmerkelijke successen behaald op taken die intensief redeneren vereisen, zoals wiskunde en programmeren. Hun verbeterde redeneervaardigheden leiden echter niet noodzakelijk tot betere veiligheidsprestaties – en kunnen deze in sommige gevallen zelfs verslechteren. Dit roept een belangrijke onderzoeksvraag op: hoe kunnen we de veiligheid van LRMs verbeteren? In dit artikel presenteren we een uitgebreide empirische studie over het verbeteren van de veiligheid van LRMs door middel van Supervised Fine-Tuning (SFT). Ons onderzoek begint met een onverwachte observatie: het direct destilleren van veilige reacties uit DeepSeek-R1 leidt niet tot een significante verbetering van de veiligheid. We analyseren dit fenomeen en identificeren drie belangrijke faalpatronen die hieraan bijdragen. Vervolgens tonen we aan dat het expliciet aanpakken van deze problemen tijdens het datadestillatieproces tot aanzienlijke veiligheidsverbeteringen kan leiden. Daarna onderzoeken we of een lang en complex redeneerproces noodzakelijk is om veiligheid te bereiken. Interessant genoeg ontdekken we dat het gebruik van korte of op sjablonen gebaseerde redeneerprocessen vergelijkbare veiligheidsprestaties kan opleveren – en dat deze aanzienlijk eenvoudiger zijn voor modellen om te leren dan ingewikkeldere redeneerketens. Deze bevindingen leiden tot een diepere reflectie op de rol van redeneren bij het waarborgen van veiligheid. Tot slot ontdekken we dat het mengen van wiskundige redeneergegevens tijdens het finetunen voor veiligheid helpt om een balans te vinden tussen veiligheid en overmatige weigering. Al met al hopen we dat onze empirische studie een meer holistisch beeld kan bieden van het verbeteren van de veiligheid van LRMs. De code en gegevens die in onze experimenten zijn gebruikt, zijn vrijgegeven op https://github.com/thu-coai/LRM-Safety-Study.
Recente ontwikkelingen in Large Reasoning Models (LRMs) hebben indrukwekkende mogelijkheden getoond op het gebied van wiskundig en logisch redeneren. Huidige LRMs geven echter zelden toe dat ze iets niet weten of reageren met "Ik weet het niet". In plaats daarvan produceren ze vaak incorrecte antwoorden terwijl ze onterecht veel vertrouwen uitstralen, wat zorgen oproept over hun feitelijke betrouwbaarheid. In dit werk identificeren we twee pathologische redeneerpatronen die worden gekenmerkt door overdenken en die bijdragen aan overmoedige en incorrecte antwoorden: last-minute gissen en second-thought spiraling. Om deze problemen aan te pakken, stellen we BARREL voor—een nieuw raamwerk dat beknopt en grenzenbewust feitelijk redeneren bevordert. Onze experimenten tonen aan dat BARREL-training de betrouwbaarheid van DeepSeek-R1-Distill-Llama-8B verhoogt van 39,33% naar 61,48%, terwijl nog steeds een nauwkeurigheid wordt bereikt die vergelijkbaar is met modellen die zijn afgestemd op redeneergegevens gegenereerd door R1. Deze resultaten laten zien dat onze pilotstudie inspirerend is voor het bouwen van betrouwbaardere en feitelijkere System 2 LRMs.
Conversationale zoeksystemen vereisen een effectieve verwerking van contextafhankelijke zoekopdrachten die vaak ambiguïteit, weglatingen en coreferentie bevatten. Conversational Query Reformulation (CQR) lost deze uitdaging op door deze zoekopdrachten om te zetten in zelfstandige vormen die geschikt zijn voor standaard retrievers. Bestaande CQR-benaderingen kampen echter met twee kritieke beperkingen: een hoge afhankelijkheid van kostbare externe begeleiding door menselijke annotaties of grote taalmodelen, en onvoldoende afstemming tussen het herschrijvingsmodel en downstream retrievers. Wij presenteren ConvSearch-R1, het eerste zelfgestuurde framework dat de afhankelijkheid van externe herschrijfsupervisie volledig elimineert door reinforcement learning te gebruiken om de herformulering direct te optimaliseren via retrievalsignalen. Onze innovatieve tweefasenbenadering combineert Self-Driven Policy Warm-Up om het cold-start-probleem aan te pakken via retrieval-gestuurde zelfdistillatie, gevolgd door Retrieval-Guided Reinforcement Learning met een speciaal ontworpen rank-incentive beloningsmechanisme dat de spaarzaamheid in conventionele retrievalmetrieken aanpakt. Uitgebreide experimenten op de TopiOCQA- en QReCC-datasets tonen aan dat ConvSearch-R1 aanzienlijk beter presteert dan eerdere state-of-the-art methoden, met een verbetering van meer dan 10% op de uitdagende TopiOCQA-dataset, terwijl kleinere modellen met 3B parameters worden gebruikt zonder enige externe supervisie.
In standaard autoregressieve generatie voorspelt een LLM de volgende-tokenverdeling, samplet een discreet token, en verwijdert vervolgens de verdeling, waarbij alleen het gesampelde token als nieuwe invoer wordt doorgegeven. Om de rijke informatie van deze verdeling te behouden, stellen we Mixture of Inputs (MoI) voor, een trainingsvrije methode voor autoregressieve generatie. Na het genereren van een token volgens het standaardparadigma, construeren we een nieuwe invoer die het gegenereerde discrete token combineert met de eerder verwijderde tokenverdeling. Specifiek gebruiken we een Bayesiaanse schattingsmethode die de tokenverdeling behandelt als de prior, het gesampelde token als de observatie, en de conventionele one-hot vector vervangt door de continue posterior verwachting als de nieuwe modelinvoer. MoI stelt het model in staat om een rijkere interne representatie te behouden gedurende het generatieproces, wat resulteert in verbeterde tekstkwaliteit en redeneervaardigheden. Op het gebied van wiskundig redeneren, codegeneratie en PhD-niveau QA-taken verbetert MoI consistent de prestaties van meerdere modellen, waaronder QwQ-32B, Nemotron-Super-49B, Gemma-3-27B en DAPO-Qwen-32B, zonder extra training en met verwaarloosbare rekenkundige overhead.
Machine learning-gebaseerde interatomaire potentialen en krachtvelden zijn kritisch afhankelijk van nauwkeurige atomaire structuren, maar dergelijke data zijn schaars vanwege de beperkte beschikbaarheid van experimenteel opgeloste kristallen. Hoewel atomaire resolutie-elektronenmicroscopie een potentiële bron van structurele data biedt, blijft het omzetten van deze afbeeldingen naar simulatieklare formaten arbeidsintensief en foutgevoelig, wat een knelpunt vormt voor modeltraining en -validatie. Wij introduceren AutoMat, een end-to-end, agent-ondersteunde pijplijn die automatisch scanning transmission electron microscopy (STEM)-afbeeldingen omzet in atomaire kristalstructuren en hun fysische eigenschappen voorspelt. AutoMat combineert patroonadaptieve ruisonderdrukking, fysica-gestuurde sjabloonretrieval, symmetriebewuste atomaire reconstructie, snelle relaxatie en eigenschapvoorspelling via MatterSim, en gecoördineerde orkestratie over alle fasen. Wij stellen de eerste toegewijde STEM2Mat-Bench voor deze taak voor en evalueren de prestaties met behulp van rooster-RMSD, vormingsenergie-MAE en structuurmatchensuccesratio. Door externe toolaanroepen te orkestreren, stelt AutoMat een tekstgebaseerd LLM in staat vision-language-modellen in dit domein te overtreffen, waarbij gesloten-lus redenering door de hele pijplijn wordt bereikt. In grootschalige experimenten over 450 structuurmonsters presteert AutoMat aanzienlijk beter dan bestaande multimodale grote taalmodellen en tools. Deze resultaten valideren zowel AutoMat als STEM2Mat-Bench, wat een belangrijke stap markeert in het overbruggen van microscopie en atomistische simulatie in de materiaalkunde. De code en dataset zijn publiekelijk beschikbaar op https://github.com/yyt-2378/AutoMat en https://huggingface.co/datasets/yaotianvector/STEM2Mat.
Dit artikel onderzoekt prior prompt engineering (pPE) in de context van reinforcement fine-tuning (RFT), waarbij taalmodelen (LMs) worden gestimuleerd om gedrag te vertonen dat de prestaties maximaliseert door middel van beloningssignalen. Hoewel bestaand RFT-onderzoek zich voornamelijk heeft gericht op algoritmen, beloningsvormgeving en datacuratie, blijft het ontwerp van de prior prompt—de instructies die tijdens de training aan queries worden toegevoegd om gedrag zoals stap-voor-stap redeneren te stimuleren—onderbelicht. Wij onderzoeken of verschillende pPE-benaderingen LMs kunnen begeleiden om specifieke gedragingen te internaliseren na RFT. Geïnspireerd door inference-time prompt engineering (iPE), vertalen we vijf representatieve iPE-strategieën—redeneren, plannen, code-gebaseerd redeneren, kennisrecall en null-voorbeeldgebruik—naar corresponderende pPE-benaderingen. We experimenteren met Qwen2.5-7B met elk van de pPE-benaderingen en evalueren vervolgens de prestaties op in-domein en out-of-domein benchmarks (bijv. AIME2024, HumanEval+ en GPQA-Diamond). Onze resultaten laten zien dat alle pPE-getrainde modellen hun iPE-geprompte tegenhangers overtreffen, waarbij de null-voorbeeld pPE-benadering de grootste gemiddelde prestatieverbetering behaalt en de hoogste verbetering op AIME2024 en GPQA-Diamond, wat de veelgebruikte redeneerbenadering overtreft. Bovendien tonen we, door een gedragsklassificatieraamwerk aan te passen, aan dat verschillende pPE-strategieën verschillende gedragsstijlen in de resulterende modellen inboezemen. Deze bevindingen positioneren pPE als een krachtige maar onderbelichte as voor RFT.
Bias in grote taalmodellen (LLMs) ondermijnt hun betrouwbaarheid en eerlijkheid aanzienlijk. We richten ons op een veelvoorkomende vorm van bias: wanneer twee referentieconcepten in de conceptruimte van het model, zoals sentimentpolariteiten (bijv. "positief" en "negatief"), asymmetrisch gecorreleerd zijn met een derde, doelconcept, zoals een beoordelingsaspect, vertoont het model onbedoelde bias. Bijvoorbeeld, het begrip van "voedsel" zou niet naar een specifiek sentiment moeten neigen. Bestaande methoden voor bias-evaluatie beoordelen gedragsverschillen van LLMs door gelabelde data te construeren voor verschillende sociale groepen en modelreacties daartussen te meten, een proces dat aanzienlijke menselijke inspanning vereist en slechts een beperkte set sociale concepten vastlegt. Om deze beperkingen te overwinnen, stellen we BiasLens voor, een testset-vrij bias-analyseframework gebaseerd op de structuur van de vectorruimte van het model. BiasLens combineert Concept Activatie Vectoren (CAVs) met Sparse Autoencoders (SAEs) om interpreteerbare conceptrepresentaties te extraheren, en kwantificeert bias door de variatie in representatiegelijkenis tussen het doelconcept en elk van de referentieconcepten te meten. Zelfs zonder gelabelde data toont BiasLens een sterke overeenstemming met traditionele bias-evaluatiemetrics (Spearman-correlatie r > 0,85). Bovendien onthult BiasLens vormen van bias die moeilijk te detecteren zijn met bestaande methoden. Bijvoorbeeld, in gesimuleerde klinische scenario's kan de verzekeringsstatus van een patiënt ervoor zorgen dat het LLM bevooroordeelde diagnostische beoordelingen produceert. Over het algemeen biedt BiasLens een schaalbaar, interpreteerbaar en efficiënt paradigma voor biasdetectie, wat de weg vrijmaakt voor het verbeteren van eerlijkheid en transparantie in LLMs.
Entropie-minimalisatie (EM) traint het model om nog meer waarschijnlijkheidsmassa te concentreren op zijn meest zelfverzekerde uitvoer. We laten zien dat dit eenvoudige doel alleen, zonder gelabelde data, de prestaties van grote taalmmodellen (LLMs) aanzienlijk kan verbeteren op uitdagende taken op het gebied van wiskunde, natuurkunde en programmeren. We onderzoeken drie benaderingen: (1) EM-FT minimaliseert entropie op tokenniveau, vergelijkbaar met instructie-finetuning, maar op niet-gelabelde uitvoer gegenereerd door het model; (2) EM-RL: reinforcement learning met negatieve entropie als enige te maximaliseren beloning; (3) EM-INF: aanpassing van logits tijdens inferentie om entropie te verminderen zonder trainingsdata of parameterupdates. Op Qwen-7B bereikt EM-RL, zonder gelabelde data, vergelijkbare of betere prestaties dan sterke RL-baselines zoals GRPO en RLOO die getraind zijn op 60K gelabelde voorbeelden. Bovendien stelt EM-INF Qwen-32B in staat om de prestaties van propriëtaire modellen zoals GPT-4o, Claude 3 Opus en Gemini 1.5 Pro te evenaren of te overtreffen op de uitdagende SciCode-benchmark, terwijl het 3x efficiënter is dan zelfconsistentie en sequentiële verfijning. Onze bevindingen onthullen dat veel voorgetrainde LLMs eerder onderschatte redeneervaardigheden bezitten die effectief kunnen worden aangesproken door entropie-minimalisatie alleen, zonder gelabelde data of zelfs parameterupdates.
Beloningsmodellen zijn cruciaal voor het afstemmen van grote taalmodellen (LLMs) op menselijke voorkeuren, maar ze zijn kostbaar om te trainen, omdat ze grootschalige, door mensen gelabelde voorkeursdata en krachtige, vooraf getrainde LLM-backbones vereisen. Tegelijkertijd roept de toenemende beschikbaarheid van hoogwaardige synthetische datasets voor instructievolging de vraag op: kunnen eenvoudigere, referentiegebaseerde metrieken dienen als haalbare alternatieven voor beloningsmodellen tijdens op reinforcement learning (RL) gebaseerde afstemming? In dit artikel tonen we eerst aan dat BLEU, een eenvoudige string-matchingmetriek, verrassend genoeg sterke beloningsmodellen evenaart in overeenstemming met menselijke voorkeuren op algemene datasets voor instructievolging. Gebaseerd op dit inzicht ontwikkelen we BLEUBERI, een methode die eerst uitdagende instructies identificeert en vervolgens Group Relative Policy Optimization (GRPO) toepast met BLEU direct als beloningsfunctie. We demonstreren dat modellen getraind met BLEUBERI concurrerend zijn met modellen die zijn getraind via RL geleid door beloningsmodellen, over vier uitdagende benchmarks voor instructievolging en drie verschillende basis-taalmodellen. Een menselijke evaluatie ondersteunt verder dat de kwaliteit van de uitvoer van BLEUBERI-modellen op hetzelfde niveau ligt als die van modellen die zijn afgestemd met beloningsmodellen. Bovendien genereren BLEUBERI-modellen uitvoer die feitelijk beter onderbouwd is dan die van concurrerende methoden. Over het geheel genomen tonen we aan dat, gegeven toegang tot hoogwaardige referentie-uitvoer (eenvoudig te verkrijgen via bestaande datasets voor instructievolging of synthetische datageneratie), string-matchinggebaseerde metrieken goedkope maar effectieve proxies zijn voor beloningsmodellen tijdens afstemming. We maken onze code en data beschikbaar op https://github.com/lilakk/BLEUBERI.
Grote multimodale modellen (LMMs) presteren nu uitstekend op veel visuele taalbenchmarks, maar ze hebben nog steeds moeite met mensgerichte criteria zoals eerlijkheid, ethiek, empathie en inclusiviteit, die essentieel zijn voor afstemming op menselijke waarden. Wij introduceren HumaniBench, een holistische benchmark van 32K real-world beeld-vraagparen, geannoteerd via een schaalbare GPT4o-ondersteunde pijplijn en uitgebreid geverifieerd door domeinexperts. HumaniBench evalueert zeven mensgerichte AI-principes (HCAI): eerlijkheid, ethiek, begrip, redeneren, taal-inclusiviteit, empathie en robuustheid, over zeven diverse taken, waaronder open en gesloten visuele vraag-antwoordtaken (VQA), meertalige QA, visuele gronding, empathische bijschriften en robuustheidstests. Het benchmarken van 15 state-of-the-art LMMs (open en closed source) laat zien dat propriëtaire modellen over het algemeen de leiding hebben, hoewel robuustheid en visuele gronding zwakke punten blijven. Sommige open-source modellen hebben ook moeite om nauwkeurigheid in balans te brengen met naleving van mensgerichte principes. HumaniBench is de eerste benchmark die specifiek is gebouwd rond HCAI-principes. Het biedt een rigoureus testplatform voor het diagnosticeren van afstemmingsproblemen en het begeleiden van LMMs naar gedrag dat zowel nauwkeurig als sociaal verantwoordelijk is. De dataset, annotatieprompts en evaluatiecode zijn beschikbaar op: https://vectorinstitute.github.io/HumaniBench
De opkomst van Large Audio Language Models (LAMs) brengt zowel mogelijkheden als risico's met zich mee, aangezien hun audio-uitvoer schadelijke of onethische inhoud kan bevatten. Huidig onderzoek mist echter een systematische, kwantitatieve evaluatie van de veiligheid van LAMs, met name tegen jailbreak-aanvallen, die uitdagend zijn vanwege de temporele en semantische aard van spraak. Om deze kloof te overbruggen, introduceren we AJailBench, de eerste benchmark die specifiek is ontworpen om jailbreak-kwetsbaarheden in LAMs te evalueren. We beginnen met het construeren van AJailBench-Base, een dataset van 1.495 adversariële audio-prompten die 10 beleidsschendende categorieën omvatten, geconverteerd van tekstuele jailbreak-aanvallen met behulp van realistische tekst-naar-spraak-synthese. Met behulp van deze dataset evalueren we verschillende state-of-the-art LAMs en tonen aan dat geen van hen consistente robuustheid vertoont tegen aanvallen. Om jailbreak-testen verder te versterken en realistischere aanvalsomstandigheden te simuleren, stellen we een methode voor om dynamische adversariële varianten te genereren. Onze Audio Perturbation Toolkit (APT) past gerichte verstoringen toe in tijd-, frequentie- en amplitudedomeinen. Om de oorspronkelijke jailbreak-intentie te behouden, leggen we een semantische consistentiebeperking op en gebruiken we Bayesiaanse optimalisatie om efficiënt te zoeken naar verstoringen die zowel subtiel als zeer effectief zijn. Dit resulteert in AJailBench-APT, een uitgebreide dataset van geoptimaliseerde adversariële audio-voorbeelden. Onze bevindingen tonen aan dat zelfs kleine, semantisch behouden verstoringen de veiligheidsprestaties van toonaangevende LAMs aanzienlijk kunnen verminderen, wat de noodzaak benadrukt voor robuustere en semantisch bewuste verdedigingsmechanismen.
Reinforcement learning (RL) is recentelijk naar voren gekomen als een overtuigende aanpak om de redeneervaardigheden van grote taalmodelen (LLMs) te verbeteren, waarbij een LLM-generator fungeert als een beleid dat wordt geleid door een verifier (beloningsmodel). Echter, huidige RL-methoden voor post-training van LLMs gebruiken doorgaans verifiers die vaststaan (regelgebaseerd of bevroren voorgetraind) of discriminatief getraind zijn via supervised fine-tuning (SFT). Dergelijke ontwerpen zijn gevoelig voor reward hacking en generaliseren slecht buiten hun trainingsdistributies. Om deze beperkingen te overwinnen, stellen we Tango voor, een nieuw framework dat RL gebruikt om zowel een LLM-generator als een verifier gelijktijdig te trainen op een interleaved manier. Een centrale innovatie van Tango is zijn generatieve, procesniveau LLM-verifier, die via RL wordt getraind en co-evolueert met de generator. Belangrijk is dat de verifier uitsluitend wordt getraind op basis van outcome-level verificatiecorrectheidsbeloningen, zonder expliciete procesniveau annotaties te vereisen. Deze generatieve RL-getrainde verifier toont verbeterde robuustheid en superieure generalisatie in vergelijking met deterministische of SFT-getrainde verifiers, wat effectieve wederzijdse versterking met de generator bevordert. Uitgebreide experimenten tonen aan dat beide componenten van Tango state-of-the-art resultaten behalen onder 7B/8B-schaalmodellen: de generator bereikt de beste prestaties op vijf competitieniveau wiskundige benchmarks en vier uitdagende out-of-domain redeneertaken, terwijl de verifier leidt op de ProcessBench dataset. Opmerkelijk is dat beide componenten vooral aanzienlijke verbeteringen laten zien op de meest moeilijke wiskundige redeneerproblemen. Code is beschikbaar op: https://github.com/kaiwenzha/rl-tango.
Diffusiemodellen zijn krachtige generatieve hulpmiddelen geworden in verschillende domeinen, maar het aanpassen van vooraf getrainde modellen om specifieke gewenste eigenschappen te vertonen blijft een uitdaging. Hoewel reinforcement learning (RL) een veelbelovende oplossing biedt, hebben huidige methoden moeite om tegelijkertijd stabiele, efficiënte fine-tuning te bereiken en niet-differentieerbare beloningen te ondersteunen. Bovendien biedt hun afhankelijkheid van schaarse beloningen onvoldoende begeleiding tijdens tussenstappen, wat vaak resulteert in suboptimale generatiekwaliteit. Om deze beperkingen aan te pakken, zijn dichte en differentieerbare signalen nodig gedurende het hele diffusieproces. Daarom stellen we VAlue-based Reinforced Diffusion (VARD) voor: een nieuwe aanpak die eerst een waardefunctie leert die de verwachting van beloningen uit tussenliggende toestanden voorspelt, en vervolgens deze waardefunctie gebruikt met KL-regularisatie om dichte begeleiding te bieden gedurende het generatieproces. Onze methode blijft dicht bij het vooraf getrainde model terwijl het effectieve en stabiele training via backpropagation mogelijk maakt. Experimentele resultaten tonen aan dat onze aanpak betere trajectbegeleiding faciliteert, de trainings efficiëntie verbetert en de toepasbaarheid van RL uitbreidt naar diffusiemodellen die zijn geoptimaliseerd voor complexe, niet-differentieerbare beloningsfuncties.
Het robuust evalueren van de langetermijnverhalende capaciteiten van Large Language Models (LLM's) blijft een aanzienlijke uitdaging, aangezien bestaande benchmarks vaak de benodigde schaal, diversiteit of objectieve maatstaven missen. Om dit aan te pakken, introduceren we WebNovelBench, een nieuwe benchmark die specifiek is ontworpen voor het evalueren van langetermijnroman-generatie. WebNovelBench maakt gebruik van een grootschalige dataset van meer dan 4.000 Chinese webromans, waarbij de evaluatie wordt geframed als een synopsis-naar-verhaal-generatietaak. We stellen een veelzijdig raamwerk voor dat acht narratieve kwaliteitsdimensies omvat, die automatisch worden beoordeeld via een LLM-as-Judge-benadering. Scores worden geaggregeerd met behulp van Principal Component Analysis en gemapt naar een percentielrang ten opzichte van door mensen geschreven werken. Onze experimenten tonen aan dat WebNovelBench effectief onderscheid maakt tussen door mensen geschreven meesterwerken, populaire webromans en door LLM's gegenereerde inhoud. We bieden een uitgebreide analyse van 24 state-of-the-art LLM's, rangschikken hun verhalende vaardigheden en bieden inzichten voor toekomstige ontwikkeling. Deze benchmark biedt een schaalbare, reproduceerbare en data-gedreven methodologie voor het beoordelen en bevorderen van LLM-gedreven narratieve generatie.
Speculatieve decodering is naar voren gekomen als een populaire methode om de inferentie van Large Language Models (LLM's) te versnellen, terwijl hun superieure tekstgeneratieprestaties behouden blijven. Eerdere methoden gebruiken ofwel een vaste configuratie voor speculatieve decodering, ongeacht de prefix-tokens, of trainen draft-modellen offline of online om ze af te stemmen op de context. Dit artikel stelt een trainingsvrij online leerframework voor om de configuratie van de hyperparameters voor speculatieve decodering adaptief te kiezen terwijl de tekst wordt gegenereerd. We formuleren eerst dit hyperparameter-selectieprobleem als een Multi-Armed Bandit-probleem en bieden een algemeen speculatief decoderingsframework genaamd BanditSpec. Verder worden twee bandit-gebaseerde hyperparameter-selectiealgoritmen, UCBSpec en EXP3Spec, ontworpen en geanalyseerd in termen van een nieuwe grootheid, het stoppende tijdspijt. We begrenzen dit spijt zowel onder stochastische als adversariële beloningsinstellingen. Door een informatie-theoretisch onmogelijkheidsresultaat af te leiden, wordt aangetoond dat de spijtprestatie van UCBSpec optimaal is tot universele constanten. Ten slotte tonen uitgebreide empirische experimenten met LLaMA3 en Qwen2 aan dat onze algoritmen effectief zijn in vergelijking met bestaande methoden, en dat de doorvoer dicht bij de orakel beste hyperparameter ligt in gesimuleerde real-life LLM-serverscenario's met diverse invoerprompts.
Multi-agent systemen (MAS) gebaseerd op Large Language Models (LLM) tonen opmerkelijke potentie voor wetenschappelijke ontdekkingen. Bestaande benaderingen automatiseren wetenschappelijke ontdekkingen echter vaak met behulp van vooraf gedefinieerde workflows die gebrek hebben aan rationaliteitsbeperkingen. Dit leidt vaak tot doelloos hypothesen vormen en een gebrek aan consistente koppeling tussen hypothesen en bewijs, wat een systematische onzekerheidsreductie belemmert. Het overwinnen van deze beperkingen vereist fundamenteel een systematische onzekerheidsreductie. Wij introduceren PiFlow, een informatie-theoretisch raamwerk, dat geautomatiseerde wetenschappelijke ontdekking behandelt als een gestructureerd onzekerheidsreductieprobleem, geleid door principes (bijv. wetenschappelijke wetten). In evaluaties over drie verschillende wetenschappelijke domeinen – het ontdekken van nanomateriaalstructuren, biomoleculen en supergeleiderkandidaten met gerichte eigenschappen – verbetert onze methode de ontdekkings efficiëntie aanzienlijk, wat blijkt uit een toename van 73,55% in de Area Under the Curve (AUC) van eigenschapswaarden versus exploratiestappen, en verhoogt de oplossingskwaliteit met 94,06% vergeleken met een standaard agentsysteem. Over het algemeen fungeert PiFlow als een Plug-and-Play methode, waarmee een nieuw paradigma wordt gevestigd in zeer efficiënte geautomatiseerde wetenschappelijke ontdekking, wat de weg vrijmaakt voor robuuster en versneld AI-gedreven onderzoek. De code is publiekelijk beschikbaar op onze {GitHub}(https://github.com/amair-lab/PiFlow).
Grote Taalmodellen (LLM's) hebben inherente beperkingen op het gebied van betrouwbaarheid en feitelijkheid, vaak aangeduid als hallucinaties. Er zijn verschillende benchmarks ontwikkeld die een testomgeving bieden voor de evaluatie van feitelijkheid binnen de context van Engelstalige datasets, waarbij gebruik wordt gemaakt van aanvullende informatieve context zoals weblinks of tekstpassages, maar waarbij de beschikbare gestructureerde feitelijke bronnen worden genegeerd. In dit verband zijn Kennisgrafieken (KG's) geïdentificeerd als een nuttig hulpmiddel voor het verminderen van hallucinaties, omdat ze een gestructureerde manier bieden om feiten over entiteiten en hun relaties weer te geven met minimale linguïstische overhead. Wij overbruggen het gebrek aan KG-paden en meertaligheid voor feitelijke taalmodelering binnen de bestaande hallucinatie-evaluatiebenchmarks en stellen een KG-gebaseerde, meertalige, multihop benchmark voor genaamd MultiHal, ontworpen voor de evaluatie van generatieve tekst. Als onderdeel van onze datacollectiepipeline hebben we 140k KG-paden gedolven uit open-domein KG's, waaruit we ruisachtige KG-paden hebben verwijderd, resulterend in een hoogwaardige subset van 25.9k. Onze baseline-evaluatie toont een absolute schaalstijging van ongeveer 0.12 tot 0.36 punten voor de semantische similariteitsscore in KG-RAG ten opzichte van standaard QA over meerdere talen en meerdere modellen, wat het potentieel van KG-integratie aantoont. Wij verwachten dat MultiHal toekomstig onderzoek zal stimuleren op het gebied van verschillende grafiekgebaseerde taken voor het verminderen van hallucinaties en feitencontrole.
Audio-Visual Speech Recognition (AVSR) verbetert de robuustheid in lawaaierige omgevingen door visuele signalen te integreren. Hoewel recente ontwikkelingen Large Language Models (LLMs) in AVSR integreren, beperken de hoge rekenkosten de inzet in omgevingen met beperkte middelen. Om dit aan te pakken, stellen we Llama-SMoP voor, een efficiënte Multimodale LLM die gebruikmaakt van een Sparse Mixture of Projectors (SMoP)-module om de modelcapaciteit te vergroten zonder de inferentiekosten te verhogen. Door sparsely-gated mixture-of-experts (MoE)-projectors te integreren, maakt Llama-SMoP het mogelijk om kleinere LLMs te gebruiken terwijl sterke prestaties behouden blijven. We onderzoeken drie SMoP-configuraties en tonen aan dat Llama-SMoP DEDR (Disjoint-Experts, Disjoint-Routers), dat gebruikmaakt van modalitiespecifieke routers en experts, superieure prestaties behaalt bij ASR-, VSR- en AVSR-taken. Ablatiestudies bevestigen de effectiviteit op het gebied van expertactivatie, schaalbaarheid en ruisbestendigheid.
Grote multimodale modellen blinken uit in multimodale taken, maar worden geconfronteerd met aanzienlijke computationele uitdagingen vanwege overmatige berekeningen op visuele tokens. In tegenstelling tot tokenreductiemethoden die zich richten op redundantie op tokenniveau, identificeren en bestuderen wij de redundantie op computationeel niveau voor visuele tokens om informatieverlies te voorkomen. Onze belangrijkste inzicht is dat visuele tokens van de vooraf getrainde visuele encoder niet per se alle zware operaties (bijv. self-attention, FFNs) in decoder-only LMM's nodig hebben en met de juiste ontwerpen lichter verwerkt kunnen worden. We hebben een reeks experimenten ontworpen om de visiegerelateerde computationele redundantie te ontdekken en geleidelijk uit te persen. Op basis van onze bevindingen stellen we ProxyV voor, een nieuwe aanpak die proxy-visuele tokens gebruikt om de computationele belasting van de originele visuele tokens te verlichten. ProxyV verbetert de efficiëntie zonder in te leveren op prestaties en kan zelfs aanzienlijke prestatieverbeteringen opleveren in scenario's met meer gematigde efficiëntieverbeteringen. Bovendien wordt de flexibiliteit van ProxyV aangetoond door de combinatie met tokenreductiemethoden om de efficiëntie verder te verhogen. De code zal openbaar gemaakt worden op deze https://github.com/penghao-wu/ProxyV URL.
Menselijke luisteraars passen zich gemakkelijk aan aan onbekende sprekers en taalvariëteiten door blootstelling, maar strekken deze aanpassingsvoordelen zich ook uit naar state-of-the-art gesproken taalmodellen? We introduceren een schaalbaar raamwerk dat in-context learning (ICL) mogelijk maakt in Phi-4 Multimodal door middel van afgewisselde taakprompts en audio-tekstparen, en ontdekken dat slechts 12 voorbeelduitingen (~50 seconden) tijdens inferentie de woordfoutpercentages met een relatief 19,7% (1,2 pp.) verminderen gemiddeld over diverse Engelse corpora. Deze verbeteringen zijn het meest uitgesproken in laag-resource variëteiten, wanneer de context en de doelspreker overeenkomen, en wanneer meer voorbeelden worden gegeven—hoewel het schalen van onze procedure afnemende marginale opbrengsten oplevert voor de contextlengte. Over het algemeen vinden we dat ons nieuwe ICL-aanpassingsschema (1) een vergelijkbaar prestatieprofiel vertoont als menselijke luisteraars, en (2) consistente verbeteringen aantoont in de robuustheid van automatische spraakherkenning (ASR) over diverse sprekers en taalachtergronden. Hoewel de aanpassing breed succesvol is, blijven er aanzienlijke hiaten bestaan voor bepaalde variëteiten, wat onthult waar huidige modellen nog steeds tekortschieten in vergelijking met menselijke flexibiliteit. We publiceren onze prompts en code op GitHub.
Codewisseling is een veelvoorkomend fenomeen waarbij wordt gewisseld tussen verschillende talen binnen dezelfde uiting, gedachte of conversatie. Wij stellen dat mensen codewisselen omdat ze zich comfortabeler voelen om over bepaalde onderwerpen en domeinen in de ene taal te praten dan in de andere. Met de opkomst van kennisintensieve taalmodellen stellen we ons de volgende, natuurlijke vraag: Kunnen modellen meer kennis hebben over sommige onderwerpen in een bepaalde taal X? En nog belangrijker: Kunnen we het redeneren verbeteren door de taal waarin wordt geredeneerd te veranderen? Wij introduceren de term Language Specific Knowledge (LSK) om dit fenomeen te representeren. Omdat etnische culturen zich vaak ontwikkelen naast verschillende talen, maken we gebruik van cultuurspecifieke datasets (die kennis bevatten over culturele en sociale gedragsnormen). We ontdekken dat taalmodellen beter kunnen presteren wanneer ze gebruikmaken van chain-of-thought redenering in sommige andere talen dan Engels, soms zelfs beter in talen met weinig bronnen. In combinatie met eerder onderzoek dat aantoont dat semantische gelijkenis niet gelijkstaat aan representatieve gelijkenis, stellen we de hypothese dat cultuurspecifieke teksten vaker voorkomen in de corresponderende talen, waardoor specifieke kennis alleen aanwezig is in specifieke "expert"-talen. Gemotiveerd door onze initiële resultaten, ontwerpen we een eenvoudige methodologie genaamd LSKExtractor om de taal-specifieke kennis in een taalmodel te benchmarken en deze vervolgens te benutten tijdens inferentie. We presenteren onze resultaten op verschillende modellen en datasets, waarbij we een gemiddelde relatieve verbetering van 10% in nauwkeurigheid laten zien. Ons onderzoek draagt bij aan de open-source ontwikkeling van taalmodellen die inclusief zijn en beter aansluiten bij de culturele en linguïstische contexten waarin ze worden ingezet.