Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Recente ontwikkelingen in grote taalmodellen (LLMs) hebben de vooruitgang in financiële NLP en toepassingen versneld, maar bestaande benchmarks blijven beperkt tot eentalige en unimodale instellingen, waarbij vaak te veel wordt vertrouwd op eenvoudige taken en de complexiteit van echte financiële communicatie niet wordt weerspiegeld. Wij introduceren MultiFinBen, de eerste meertalige en multimodale benchmark die is afgestemd op het mondiale financiële domein, en evalueren LLMs over modaliteiten (tekst, beeld, audio) en taalkundige instellingen (eentalig, tweetalig, meertalig) op domeinspecifieke taken. We introduceren twee nieuwe taken, waaronder PolyFiQA-Easy en PolyFiQA-Expert, de eerste meertalige financiële benchmarks die modellen vereisen om complexe redeneringen uit te voeren over gemengde taalinvoer; en EnglishOCR en SpanishOCR, de eerste OCR-geïntegreerde financiële QA-taken die modellen uitdagen om informatie te extraheren en te redeneren over visueel-tekstuele financiële documenten. Bovendien stellen we een dynamisch, moeilijkheidsgraad-bewust selectiemechanisme voor en stellen we een compacte, gebalanceerde benchmark samen in plaats van een eenvoudige aggregatie van bestaande datasets. Uitgebreide evaluatie van 22 state-of-the-art modellen onthult dat zelfs de sterkste modellen, ondanks hun algemene multimodale en meertalige capaciteiten, dramatisch worstelen wanneer ze worden geconfronteerd met complexe cross-linguale en multimodale taken in het financiële domein. MultiFinBen wordt openbaar vrijgegeven om transparante, reproduceerbare en inclusieve vooruitgang in financiële studies en toepassingen te bevorderen.
Het opschalen van rekentijd tijdens testen heeft opmerkelijke successen laten zien in het verbeteren van de redeneervaardigheden van grote taalmodelen (LLM's). In dit werk voeren we de eerste systematische verkenning uit van het toepassen van testtijd-opschalingsmethoden op taalagentschappen en onderzoeken we in hoeverre dit hun effectiviteit verbetert. Specifiek verkennen we verschillende testtijd-opschalingsstrategieën, waaronder: (1) parallelle sampling-algoritmen; (2) sequentiële revisiestrategieën; (3) verificatiemethoden en samenvoegingsmethoden; (4) strategieën voor het diversifiëren van rollouts. We analyseren en isoleren zorgvuldig de impact van verschillende ontwerpstrategieën op het toepassen van testtijd-opschaling op taalagentschappen en komen tot de volgende bevindingen: 1. Het opschalen van rekentijd tijdens testen kan de prestaties van agentschappen verbeteren. 2. Weten wanneer te reflecteren is belangrijk voor agentschappen. 3. Onder verschillende verificatie- en resultaatsamenvoegingsbenaderingen presteert de lijstgewijze methode het beste. 4. Het vergroten van gediversifieerde rollouts heeft een positief effect op de taakprestaties van het agentschap.
Recente ontwikkelingen in audio-tekst grote taalmodellen (LLMs) hebben nieuwe mogelijkheden geopend voor muziekbegrip en -generatie. Bestaande benchmarks zijn echter beperkt in reikwijdte en vertrouwen vaak op vereenvoudigde taken of meerkeuzeevaluaties die de complexiteit van real-world muziekanalyse niet weerspiegelen. We herinterpreteren een breed scala aan traditionele MIR-annotaties als instructievolgformaten en introduceren CMI-Bench, een uitgebreide muziekinstructievolgbenchmark ontworpen om audio-tekst LLMs te evalueren op een diverse set van muziekinformatie-retrieval (MIR) taken. Deze omvatten genreclassificatie, emotieregressie, emotietagging, instrumentclassificatie, toonhoogteschatting, toonsoortdetectie, lyricstranscriptie, melodie-extractie, vocale techniekherkenning, instrumentuitvoeringstechniekdetectie, muziektagging, muziekbeschrijving en (down)beat tracking: kernuitdagingen in MIR-onderzoek weerspiegelend. In tegenstelling tot eerdere benchmarks, neemt CMI-Bench gestandaardiseerde evaluatiemetrics over die consistent zijn met eerdere state-of-the-art MIR-modellen, waardoor directe vergelijkbaarheid met gesuperviseerde benaderingen wordt gegarandeerd. We bieden een evaluatietoolkit die alle open-source audio-tekstuele LLMs ondersteunt, waaronder LTU, Qwen-audio, SALMONN, MusiLingo, enz. Experimentele resultaten onthullen aanzienlijke prestatiekloof tussen LLMs en gesuperviseerde modellen, evenals hun culturele, chronologische en gendervooroordelen, wat de potentie en beperkingen van huidige modellen in het aanpakken van MIR-taken benadrukt. CMI-Bench legt een uniforme basis voor het evalueren van muziekinstructievolging, wat de vooruitgang in muziekbewuste LLMs bevordert.
Large Language Diffusion Models, ofwel diffusie-LLM's, zijn naar voren gekomen als een belangrijk aandachtspunt in NLP-onderzoek, waarbij aanzienlijke inspanningen zijn gericht op het begrijpen van hun schaalbaarheid en prestaties bij downstream taken. Hun mogelijkheden voor lange contexten blijven echter onontgonnen, met een gebrek aan systematische analyse of methoden voor contextuitbreiding. In dit werk presenteren we het eerste systematische onderzoek dat de prestaties van diffusie-LLM's en traditionele auto-regressieve LLM's op lange contexten vergelijkt. We identificeren eerst een uniek kenmerk van diffusie-LLM's: in tegenstelling tot auto-regressieve LLM's behouden ze opmerkelijk \textit{stabiele perplexiteit} tijdens directe contextextrapolatie. Bovendien, waar auto-regressieve modellen volledig falen tijdens de Needle-In-A-Haystack-taak met contexten die hun voorgetrainde lengte overschrijden, ontdekken we dat diffusie-LLM's een duidelijk \textit{lokaal perceptie}-fenomeen vertonen, waardoor succesvolle retrievals uit recente contextsegmenten mogelijk zijn. We verklaren beide fenomenen vanuit het perspectief van de Rotary Position Embedding (RoPE)-schaaltheorie. Op basis van deze observaties stellen we LongLLaDA voor, een trainingsvrije methode die LLaDA integreert met de NTK-gebaseerde RoPE-extrapolatie. Onze resultaten valideren dat gevestigde extrapolatieschaalwetten effectief blijven voor het uitbreiden van de contextvensters van diffusie-LLM's. Verder identificeren we taken met lange contexten waarin diffusie-LLM's beter presteren dan auto-regressieve LLM's en andere waarin ze tekortschieten. Daarmee stelt deze studie de eerste contextextrapolatiemethode voor diffusie-LLM's vast, terwijl het essentiële theoretische inzichten en empirische benchmarks biedt die cruciaal zijn voor het bevorderen van toekomstig onderzoek naar diffusie-LLM's met lange contexten.
Reinforcement Learning met Verifieerbare Beloningen (RLVR) is naar voren gekomen als een veelbelovend paradigma om de redeneervaardigheden van Large Language Models (LLMs) te verbeteren. Een kritieke paradox belemmerde echter de effectiviteit ervan: RLVR-getrainde modellen presteren vaak slechter dan hun basismodellen op de Pass@K-metric voor het vinden van oplossingen, wat leidde tot de hypothese dat RLVR slechts bestaande redeneerpaden herweegt ten koste van redeneerdiversiteit. In dit werk lossen we deze tegenstrijdigheid op door de bron van het probleem te identificeren: de Pass@K-metric zelf is een gebrekkige maatstaf voor redeneren, omdat het correcte eindantwoorden crediteert die waarschijnlijk voortkomen uit onnauwkeurige of onvolledige gedachtegangen (CoTs). Om dit aan te pakken, introduceren we een nauwkeurigere evaluatiemetric, CoT-Pass@K, die vereist dat zowel het redeneerpad als het eindantwoord correct zijn. We bieden een nieuwe theoretische basis die formaliseert hoe RLVR, in tegenstelling tot traditionele RL, uniek gestructureerd is om logische integriteit te stimuleren. Onze empirische resultaten zijn ondersteunend: met CoT-Pass@K observeren we dat RLVR de generalisatie van correct redeneren kan aanmoedigen voor alle waarden van K. Bovendien vinden we, door de trainingsdynamiek te analyseren, dat deze verbeterde redeneervaardigheid vroeg in het trainingsproces ontstaat en soepel generaliseert. Ons werk biedt een duidelijk perspectief op de rol van RLVR, stelt een betrouwbaardere evaluatiemethode voor en bevestigt het potentieel ervan om machinaal redeneren daadwerkelijk te bevorderen.
Ondanks indrukwekkende vooruitgang op het gebied van complex redeneren, werken huidige grote taalmmodellen (LLMs) doorgaans in isolatie - waarbij elk probleem als een onafhankelijke poging wordt behandeld, zonder het opbouwen of integreren van ervaringskennis. Daarentegen maken expertprobleemoplossers - zoals Olympiade- of programmeerwedstrijdteams - gebruik van een rijk tapijt aan ervaringen: ze absorberen mentorschap van coaches, ontwikkelen intuïtie uit eerdere problemen, benutten kennis van toolgebruik en bibliotheekfunctionaliteit, passen strategieën aan op basis van de expertise en ervaringen van peers, verfijnen hun redenering continu door vallen en opstaan, en leren van andere gerelateerde problemen, zelfs tijdens de competitie. Wij introduceren Xolver, een trainingsvrij multi-agent redeneerframework dat een black-box LLM uitrust met een persistent, evoluerend geheugen van holistische ervaring. Xolver integreert diverse ervaringsmodaliteiten, waaronder externe en zelf-retrieval, toolgebruik, collaboratieve interacties, agent-gestuurde evaluatie en iteratieve verfijning. Door te leren van relevante strategieën, codefragmenten en abstracte redeneerpatronen tijdens inferentie, vermijdt Xolver het genereren van oplossingen vanaf nul - wat een overgang markeert van geïsoleerde inferentie naar ervaringsbewuste taalagents. Gebouwd op zowel open-weight als propriëtaire modellen, presteert Xolver consistent beter dan gespecialiseerde redeneeragents. Zelfs met lichtgewicht backbones (bijv. QWQ-32B), overtreft het vaak geavanceerde modellen, waaronder Qwen3-235B, Gemini 2.5 Pro, o3 en o4-mini-high. Met o3-mini-high behaalt het nieuwe beste resultaten op GSM8K (98,1%), AIME'24 (94,4%), AIME'25 (93,7%), Math-500 (99,8%) en LiveCodeBench-V5 (91,6%) - wat holistische ervaringsleren benadrukt als een cruciale stap naar generalistische agents die in staat zijn tot expertniveau redeneren. Code en data zijn beschikbaar op https://kagnlp.github.io/xolver.github.io/.
Visuele Informatie Extractie (VIE) zet ongestructureerde documentafbeeldingen om in gestructureerde formaten zoals JSON, wat cruciaal is voor medische toepassingen zoals rapportanalyse en online consulten. Traditionele methoden vertrouwen op OCR en taalmodelen, terwijl end-to-end multimodale modellen directe JSON-generatie bieden. Domeinspecifieke schema's en hoge annotatiekosten beperken echter hun effectiviteit in medische VIE. Onze aanpak is gebaseerd op het Reinforcement Learning with Verifiable Rewards (RLVR) framework om deze uitdagingen aan te pakken met slechts 100 geannoteerde samples. Onze aanpak zorgt voor datasetdiversiteit, een gebalanceerd precisie-recall beloningsmechanisme om hallucinaties te verminderen en velddekking te verbeteren, en innovatieve samplingstrategieën om redeneervaardigheden te versterken. Door Qwen2.5-VL-7B te fine-tunen met onze RLVR-methode, behalen we state-of-the-art prestaties op medische VIE-taken, waarbij F1, precisie en recall aanzienlijk verbeteren. Hoewel onze modellen uitblinken in taken die vergelijkbaar zijn met medische datasets, daalt de prestaties bij ongelijke taken, wat de noodzaak van domeinspecifieke optimalisatie benadrukt. Casestudies tonen verder de waarde aan van redeneren tijdens training en inferentie voor VIE.
Het balanceren van exploratie en exploitatie is een centraal doel in reinforcement learning (RL). Ondanks recente vooruitgang in het verbeteren van de redeneervaardigheden van taalmodellen (LMs), neigen de meeste methoden naar exploitatie en stuiten ze steeds vaker op prestatieplateaus. In dit werk herzien we entropie – een signaal van exploratie in RL – en onderzoeken we de relatie ervan met exploratief redeneren in LMs. Door empirische analyse ontdekken we sterke positieve correlaties tussen regio's met hoge entropie en drie soorten exploratieve redeneeracties: (1) cruciale tokens die logische stappen bepalen of verbinden, (2) reflectieve acties zoals zelfverificatie en correctie, en (3) zeldzaam gedrag dat onderbelicht blijft door de basis-LMs. Geïnspireerd door deze bevindingen introduceren we een minimale aanpassing aan standaard RL met slechts één regel code: het verrijken van de voordelenfunctie met een entropie-gebaseerde term. In tegenstelling tot traditionele maximum-entropiemethoden die exploratie aanmoedigen door onzekerheid te bevorderen, stimuleren wij exploratie door langere en diepere redeneerketens te bevorderen. Opmerkelijk is dat onze methode aanzienlijke verbeteringen behaalt op de Pass@K-metric – een bovengrens-schatting van de redeneervaardigheden van LMs – zelfs wanneer geëvalueerd met extreem grote K-waarden, waardoor de grenzen van LM-redenering worden verlegd.
De opkomst van GPT-4o-achtige grote multimodale modellen (LMMs) heeft het onderzoek naar de integratie van tekst-, visuele- en spraakmodaliteiten gestimuleerd om flexibelere multimodale interactie te ondersteunen. Bestaande LMMs concateneren typisch de representaties van modaliteiten langs de sequentiedimensie en voeren deze in een groot taalmodel (LLM) als backbone. Hoewel sequentiedimensie-concatenatie eenvoudig is voor modale integratie, is het vaak sterk afhankelijk van grootschalige data om modale alignments te leren. In dit artikel streven we ernaar om de relaties tussen modaliteiten doelgerichter te modelleren, waardoor efficiëntere en flexibelere modale alignments worden bereikt. Hiertoe stellen we Stream-Omni voor, een groot taal-visie-spraakmodel met efficiënte modale alignments, dat gelijktijdig interacties onder verschillende modale combinaties kan ondersteunen. Stream-Omni gebruikt een LLM als backbone en aligneert visie en spraak aan tekst op basis van hun relaties. Voor visie die semantisch complementair is aan tekst, gebruikt Stream-Omni sequentiedimensie-concatenatie om visie-tekst-alignment te bereiken. Voor spraak die semantisch consistent is met tekst, introduceert Stream-Omni een CTC-gebaseerde laagdimensie-mapping om spraak-tekst-alignment te bereiken. Op deze manier kan Stream-Omni modale alignments bereiken met minder data (met name spraak), waardoor tekstcapaciteiten naar andere modaliteiten kunnen worden overgedragen. Experimenten op diverse benchmarks tonen aan dat Stream-Omni sterke prestaties levert bij visueel begrip, spraakinteractie en visueel-verankerde spraakinteractietaken. Dankzij de laagdimensie-mapping kan Stream-Omni gelijktijdig tussenliggende tekstuitvoeren (zoals ASR-transcripties en modelreacties) bieden tijdens spraakinteractie, wat gebruikers een uitgebreide multimodale ervaring biedt.
Een grote uitdaging voor moderne AI is het leren begrijpen van de wereld en het leren handelen voornamelijk door observatie. Dit artikel onderzoekt een zelfgesuperviseerde aanpak die internet-schaal videogegevens combineert met een kleine hoeveelheid interactiegegevens (robot trajecten), om modellen te ontwikkelen die in staat zijn tot begrip, voorspelling en planning in de fysieke wereld. We pre-trainen eerst een actievrije joint-embedding-predictieve architectuur, V-JEPA 2, op een video- en beelddataset bestaande uit meer dan 1 miljoen uur aan internetvideo. V-JEPA 2 behaalt sterke prestaties op het gebied van bewegingbegrip (77,3 top-1 nauwkeurigheid op Something-Something v2) en state-of-the-art prestaties op het anticiperen van menselijke handelingen (39,7 recall-at-5 op Epic-Kitchens-100), waarmee het eerdere taakspecifieke modellen overtreft. Daarnaast tonen we, na het uitlijnen van V-JEPA 2 met een groot taalmodel, state-of-the-art prestaties op meerdere video-vraag-antwoordtaken op de schaal van 8 miljard parameters (bijv. 84,0 op PerceptionTest, 76,9 op TempCompass). Tot slot laten we zien hoe zelfgesuperviseerd leren kan worden toegepast op robotplanningstaken door een latent actie-geconditioneerd wereldmodel, V-JEPA 2-AC, post-trainen met minder dan 62 uur aan ongelabelde robotvideo's uit de Droid-dataset. We implementeren V-JEPA 2-AC zero-shot op Franka-armen in twee verschillende labs en maken het oppakken en neerzetten van objecten mogelijk met behulp van planning met beelddoelen. Opmerkelijk is dat dit wordt bereikt zonder gegevens te verzamelen van de robots in deze omgevingen, en zonder taakspecifieke training of beloning. Dit werk toont aan hoe zelfgesuperviseerd leren van web-schaal gegevens en een kleine hoeveelheid robotinteractiegegevens een wereldmodel kan opleveren dat in staat is tot planning in de fysieke wereld.
Diffusie- en flow-gebaseerde modellen zijn naar voren gekomen als state-of-the-art benaderingen voor generatieve modellering, maar ze vereisen veel samplingstappen. Consistentiemodellen kunnen deze modellen destilleren tot efficiënte één-staps generatoren; in tegenstelling tot flow- en diffusie-gebaseerde methoden degradeert hun prestaties echter onvermijdelijk wanneer het aantal stappen wordt verhoogd, wat we zowel analytisch als empirisch aantonen. Flow maps generaliseren deze benaderingen door elke twee ruisniveaus in één stap te verbinden en blijven effectief over alle stap aantallen. In dit artikel introduceren we twee nieuwe continue-tijd doelen voor het trainen van flow maps, samen met aanvullende nieuwe trainings technieken, die bestaande consistentie- en flow matching doelen generaliseren. We tonen verder aan dat autoguidance de prestaties kan verbeteren, door een model van lage kwaliteit te gebruiken voor begeleiding tijdens de distillatie, en een extra boost kan worden bereikt door adversarial finetuning, met minimaal verlies in sample diversiteit. We valideren uitgebreid onze flow map modellen, genaamd Align Your Flow, op uitdagende beeldgeneratie benchmarks en behalen state-of-the-art prestaties voor generatie met weinig stappen op zowel ImageNet 64x64 als 512x512, met behulp van kleine en efficiënte neurale netwerken. Tot slot tonen we text-to-image flow map modellen die alle bestaande niet-adversariaal getrainde few-step samplers overtreffen in tekst-geconditioneerde synthese.
Recente vooruitgang in Long Chain-of-Thought (CoT) redeneermodellen heeft de prestaties op complexe taken verbeterd, maar deze modellen lijden aan overdenken, wat overbodige redeneerstappen genereert, vooral bij eenvoudige vragen. Dit artikel heronderzoekt de redeneerpatronen van Long en Short CoT-modellen en constateert dat de Short CoT-patronen efficiënt beknopt redeneren, terwijl de Long CoT-patronen uitblinken in uitdagende scenario's waar de Short CoT-patronen tekortschieten. Om modellen in staat te stellen beide patronen te benutten, stellen we Question-Free Fine-Tuning (QFFT) voor, een fine-tuningbenadering waarbij de invoervraag tijdens de training wordt verwijderd en uitsluitend wordt geleerd van Long CoT-antwoorden. Deze aanpak stelt het model in staat om beide redeneerpatronen adaptief in te zetten: het geeft prioriteit aan de Short CoT-patronen en activeert de Long CoT-patronen alleen wanneer dat nodig is. Experimenten op verschillende wiskundige datasets tonen aan dat QFFT de gemiddelde antwoordlengte met meer dan 50\% vermindert, terwijl het prestaties bereikt die vergelijkbaar zijn met Supervised Fine-Tuning (SFT). Daarnaast presteert QFFT beter dan SFT in scenario's met ruis, buiten het domein en bij beperkte bronnen.
We introduceren TestCase-Eval, een nieuwe benchmark voor de systematische evaluatie van LLMs bij het genereren van testgevallen. TestCase-Eval omvat 500 algoritmeproblemen en 100.000 door mensen gemaakte oplossingen van het Codeforces-platform. Het richt zich op twee cruciale taken: (1) Foutdekking, die meet hoe goed door LLM gegenereerde testsets diverse invoerscenario's onderzoeken en een breed scala aan potentiële faalmodi dekken. (2) Foutblootstelling, die evalueert of LLMs een op maat gemaakt testinvoer kunnen maken dat een specifieke incorrecte code-implementatie onthult. We bieden een uitgebreide beoordeling van 19 state-of-the-art open-source en propriëtaire LLMs op TestCase-Eval, wat inzicht geeft in hun sterke punten en beperkingen bij het genereren van effectieve testgevallen voor algoritmeproblemen.
Tokenisatie legt een vaste granulariteit op aan de invoertekst, waardoor wordt vastgelegd hoe een taalmodel opereert op data en hoe ver in de toekomst het voorspellingen doet. Byte Pair Encoding (BPE) en vergelijkbare schema's splitsen tekst eenmalig, bouwen een statische woordenschat op en laten het model vastzitten aan die keuze. Wij verminderen deze rigiditeit door een autoregressief U-Net te introduceren dat leert om zijn eigen tokens in te bedden tijdens het trainen. Het netwerk leest ruwe bytes, groepeert ze tot woorden, vervolgens tot woordparen en daarna tot maximaal 4 woorden, waardoor het een multi-schaalbeeld van de sequentie krijgt. In diepere fasen moet het model verder in de toekomst voorspellen – het anticipeert op de volgende paar woorden in plaats van de volgende byte – waardoor diepere fasen zich richten op bredere semantische patronen terwijl eerdere fasen zich bezighouden met fijne details. Bij zorgvuldige afstemming en controle van de pretrainingsberekeningen evenaren ondiepe hiërarchieën sterke BPE-baselines, en diepere hiërarchieën vertonen een veelbelovende trend. Omdat tokenisatie nu binnen het model plaatsvindt, kan hetzelfde systeem zowel karakterniveautaken aan als kennis overdragen tussen talen met weinig bronnen.
Large Reasoning Models (LRMs) hebben opmerkelijke successen behaald, maar lijden vaak onder het produceren van onnodige en uitgebreide redeneerketens. Wij identificeren een kernaspect van dit probleem als "ongeldig denken" — modellen hebben de neiging om hun werk herhaaldelijk dubbel te controleren nadat ze het juiste antwoord hebben afgeleid. Om deze specifieke inefficiëntie aan te pakken, gaan we verder dan de algemene principes van Effectiviteit en Efficiëntie en stellen we twee nieuwe, fijnmazige principes voor: Beknoptheid, dat pleit voor het elimineren van redundantie, en Toereikendheid, dat ervoor zorgt dat kritieke redeneerstappen behouden blijven. Geleid door deze principes introduceren we LC-R1, een post-trainingsmethode gebaseerd op Group Relative Policy Optimization (GRPO). LC-R1 maakt gebruik van een nieuwe combinatie van een Lengtebeloning voor algemene beknoptheid en een Compressiebeloning die specifiek is ontworpen om het ongeldige deel van het denkproces te verwijderen. Uitgebreide experimenten op meerdere redeneerbenchmarks tonen aan dat LC-R1 een significante vermindering in sequentielengte (~50%) bereikt met slechts een marginale (~2%) daling in nauwkeurigheid, wat resulteert in een gunstig afwegingpunt op de Pareto-grens dat hoge compressie prioriteert. Onze analyse valideert verder de robuustheid van LC-R1 en biedt waardevolle inzichten voor de ontwikkeling van krachtigere maar toch computationeel efficiënte LRMs. Onze code is vrijgegeven op https://github.com/zxiangx/LC-R1.
Het hardware-ecosysteem evolueert snel, met een groeiende interesse in het vertalen van low-level programma's tussen verschillende instructiesetarchitecturen (ISA's) op een snelle, flexibele en correcte manier om de draagbaarheid en levensduur van bestaande code te verbeteren. Een bijzonder uitdagende klasse van dit transpilatieprobleem is het vertalen tussen complexe (CISC) en gereduceerde (RISC) hardwarearchitecturen, vanwege fundamentele verschillen in instructiecomplexiteit, geheugenmodellen en uitvoeringsparadigma's. In dit werk introduceren we GG (Guaranteed Guess), een ISA-centraal transpilatiepijplijn die de vertaalkracht van vooraf getrainde grote taalmodellen (LLM's) combineert met de strengheid van gevestigde softwaretestconstructies. Onze methode genereert kandidaatvertalingen met behulp van een LLM van de ene naar de andere ISA, en integreert deze vertalingen binnen een softwaretestframework om een kwantificeerbaar vertrouwen in de vertaling op te bouwen. We evalueren onze GG-aanpak over twee diverse datasets, handhaven een hoge code-dekking (>98%) in unit-tests, en behalen een functionele/semantische correctheid van 99% op HumanEval-programma's en 49% op BringupBench-programma's. Verder vergelijken we onze aanpak met het state-of-the-art Rosetta 2-framework op Apple Silicon, waarbij we een 1,73x snellere runtime-prestatie, 1,47x betere energie-efficiëntie en 2,41x beter geheugengebruik voor onze getranspileerde code laten zien, wat de effectiviteit van GG voor real-world CISC-naar-RISC-vertaaltaken aantoont. We zullen onze codes, data, modellen en benchmarks openbaren om een gemeenschappelijke basis te creëren voor onderzoek naar ISA-niveau codevertaling.
Vision-Language-Action (VLA)-modellen, met name diffuusie-gebaseerde architecturen, tonen transformatief potentieel voor belichaamde intelligentie, maar worden ernstig belemmerd door hoge rekenkundige en geheugeneisen die voortkomen uit uitgebreide inherente en inferentie-tijd redundanties. Hoewel bestaande versnellingsinspanningen vaak gericht zijn op geïsoleerde inefficiënties, slagen dergelijke gefragmenteerde oplossingen er meestal niet in om de diverse rekenkundige en geheugenknelpunten in de gehele VLA-pijplijn holistisch aan te pakken, wat de praktische inzetbaarheid beperkt. Wij introduceren EfficientVLA, een gestructureerd en trainingsvrij inferentieversnellingsraamwerk dat deze barrières systematisch elimineert door op samenhangende wijze veelzijdige redundanties te benutten. EfficientVLA integreert synergetisch drie gerichte strategieën: (1) het snoeien van functioneel onbelangrijke lagen uit de taalmodule, geleid door een analyse van inter-layer redundanties; (2) het optimaliseren van het visuele verwerkingspad via een taakbewuste strategie die een compacte, diverse set van visuele tokens selecteert, waarbij taakkritiek wordt afgewogen tegen informatieve dekking; en (3) het verminderen van temporele rekenkundige redundantie binnen de iteratieve diffuusie-gebaseerde actiekop door strategisch sleutelintermediaire kenmerken te cachen en te hergebruiken. We passen onze methode toe op een standaard VLA-model, CogACT, wat resulteert in een 1,93X inferentieversnelling en FLOPs reduceert tot 28,9%, met slechts een daling van 0,6% in het slagingspercentage op de SIMPLER-benchmark.
Het vermogen van grote taalmmodellen (LLMs) om externe tools te gebruiken, heeft hen in staat gesteld om een steeds diverser scala aan taken aan te pakken. Naarmate de taken echter complexer en langduriger worden, kan het ingewikkelde proces van toolgebruik verschillende onverwachte fouten veroorzaken. Daarom is het effectief omgaan met dergelijke fouten, waaronder het identificeren, diagnosticeren en herstellen ervan, een belangrijke onderzoeksrichting geworden voor het bevorderen van tool learning. In dit werk analyseren we eerst uitgebreid de soorten fouten die worden aangetroffen tijdens het functie-aanroep proces op verschillende competitieve tool-evaluatiebenchmarks. Op basis hiervan introduceren we CRITICTOOL, een uitgebreide kritische evaluatiebenchmark die gespecialiseerd is voor tool learning. Gebaseerd op een nieuwe evolutionaire strategie voor datasetconstructie, bevat CRITICTOOL diverse toolgebruiksfouten met variërende complexiteiten, wat beter aansluit bij realistische scenario's. We voeren uitgebreide experimenten uit op CRITICTOOL en valideren de generalisatie en effectiviteit van onze geconstrueerde benchmarkstrategie. We bieden ook een diepgaande analyse van het reflectievermogen van tools op verschillende LLMs, wat een nieuw perspectief biedt op het gebied van tool learning in LLMs. De code is beschikbaar op https://github.com/Shellorley0513/CriticTool{https://github.com/Shellorley0513/CriticTool}.
Spatio-temporele lokalisatie is essentieel voor precieze interacties in diverse domeinen, van biologisch onderzoek tot autonome navigatie en interactieve interfaces. Huidige video-gebaseerde benaderingen, hoewel vaardig in tracking, missen de geavanceerde redeneervaardigheden van grote taalmodellen, wat hun contextueel begrip en generalisatie beperkt. Wij introduceren VideoMolmo, een groot multimodaal model ontworpen voor fijnmazige spatio-temporele aanwijzingen op basis van tekstuele beschrijvingen. Gebaseerd op de Molmo-architectuur, integreert VideoMolmo een temporele module die een aandachtmechanisme gebruikt om elk frame te conditioneren op voorgaande frames, waardoor temporele consistentie wordt gewaarborgd. Daarnaast maakt onze nieuwe temporele maskerfusiepijplijn gebruik van SAM2 voor bidirectionele puntpropagatie, wat de samenhang over videosequenties aanzienlijk verbetert. Deze tweestapsdecompositie, waarbij eerst het LLM wordt gebruikt om precieze aanwijscoördinaten te genereren en vervolgens wordt vertrouwd op een sequentieel maskerfusiemodule om coherente segmentatie te produceren, vereenvoudigt niet alleen de taak voor het taalmodel, maar verbetert ook de interpreteerbaarheid. Vanwege het gebrek aan geschikte datasets, hebben wij een uitgebreide dataset samengesteld bestaande uit 72k video-bijschriftparen geannoteerd met 100k objectpunten. Om de generalisatie van VideoMolmo te evalueren, introduceren wij VPoS-Bench, een uitdagende out-of-distribution benchmark die vijf real-world scenario's omvat: Cel Tracking, Egocentrisch Zicht, Autonoom Rijden, Video-GUI Interactie en Robotica. Wij evalueren ons model ook op Referring Video Object Segmentation (Refer-VOS) en Reasoning VOS taken. In vergelijking met bestaande modellen, verbetert VideoMolmo de spatio-temporele aanwijs nauwkeurigheid en redeneervaardigheid aanzienlijk. Onze code en modellen zijn publiekelijk beschikbaar op https://github.com/mbzuai-oryx/VideoMolmo.
We presenteren Ring-lite, een Mixture-of-Experts (MoE)-gebaseerd groot taalmodel dat is geoptimaliseerd via reinforcement learning (RL) om efficiënte en robuuste redeneervaardigheden te bereiken. Gebouwd op het publiek beschikbare Ling-lite model, een model met 16,8 miljard parameters waarvan 2,75 miljard geactiveerde parameters, evenaart onze aanpak de prestaties van state-of-the-art (SOTA) kleinschalige redeneermodellen op uitdagende benchmarks (bijv. AIME, LiveCodeBench, GPQA-Diamond) terwijl slechts een derde van de parameters wordt geactiveerd die vergelijkbare modellen vereisen. Om dit te bereiken, introduceren we een gezamenlijke trainingspijplijn die distillatie integreert met RL, waarbij ongedocumenteerde uitdagingen in MoE RL-training aan het licht komen. Ten eerste identificeren we optimalisatie-instabiliteit tijdens RL-training, en we stellen Constrained Contextual Computation Policy Optimization (C3PO) voor, een nieuwe aanpak die de trainingsstabiliteit verbetert en de computationele doorvoer verhoogt via een algoritme-systeem co-design methodologie. Ten tweede tonen we empirisch aan dat het selecteren van distillatie-checkpoints op basis van entropieverlies voor RL-training, in plaats van validatiemetrics, superieure prestatie-efficiëntie afwegingen oplevert in latere RL-training. Tot slot ontwikkelen we een tweefasen trainingsparadigma om de integratie van multidomein data te harmoniseren, waarbij domeinconflicten die ontstaan bij training met gemengde datasets worden aangepakt. We zullen het model, de dataset en de code vrijgeven.
We introduceren xbench, een dynamische, op beroepen afgestemde evaluatiesuite die is ontworpen om de kloof tussen de mogelijkheden van AI-agents en de productiviteit in de praktijk te overbruggen. Terwijl bestaande benchmarks zich vaak richten op geïsoleerde technische vaardigheden, weerspiegelen ze mogelijk niet nauwkeurig de economische waarde die agents in professionele omgevingen leveren. Om dit aan te pakken, richt xbench zich op commercieel significante domeinen met evaluatietaken die zijn gedefinieerd door professionals uit de industrie. Ons framework creëert metrieken die sterk correleren met productiviteitswaarde, maakt het mogelijk om Technology-Market Fit (TMF) te voorspellen, en vergemakkelijkt het volgen van productmogelijkheden over tijd. Als onze eerste implementaties presenteren we twee benchmarks: Recruitment en Marketing. Voor Recruitment verzamelen we 50 taken uit real-world headhunting-bedrijfsscenario's om de vaardigheden van agents in bedrijfsmapping, informatie retrieval en talent sourcing te evalueren. Voor Marketing beoordelen we het vermogen van agents om influencers te matchen met de behoeften van adverteerders, waarbij we hun prestaties evalueren over 50 adverteerdervereisten met behulp van een gecureerde pool van 836 kandidaat-influencers. We presenteren initiële evaluatieresultaten voor toonaangevende hedendaagse agents, waarmee we een basislijn voor deze professionele domeinen vaststellen. Onze continu bijgewerkte evalsets en evaluaties zijn beschikbaar op https://xbench.org.
We laten zien hoe laagwaardige, synthetische en buiten-de-distributie afbeeldingen kunnen worden gebruikt om de kwaliteit van een diffusiemodel te verbeteren. Normaal gesproken worden diffusiemodellen getraind op gecureerde datasets die voortkomen uit sterk gefilterde datapools van het web en andere bronnen. We tonen aan dat er enorme waarde schuilt in de lagere kwaliteitsafbeeldingen die vaak worden weggegooid. We presenteren Ambient Diffusion Omni, een eenvoudig, principieel raamwerk om diffusiemodellen te trainen die signaal kunnen extraheren uit alle beschikbare afbeeldingen tijdens de training. Ons raamwerk maakt gebruik van twee eigenschappen van natuurlijke afbeeldingen — spectrale machtswetverval en lokaliteit. We valideren ons raamwerk eerst door succesvol diffusiemodellen te trainen met afbeeldingen die synthetisch zijn aangetast door Gaussische vervaging, JPEG-compressie en bewegingsonscherpte. Vervolgens gebruiken we ons raamwerk om state-of-the-art ImageNet FID te bereiken, en we tonen significante verbeteringen in zowel beeldkwaliteit als diversiteit voor tekst-naar-beeld generatieve modellering. De kerninzicht is dat ruis de initiële scheefheid tussen de gewenste hoogwaardige distributie en de gemengde distributie die we daadwerkelijk waarnemen, dempt. We bieden een rigoureuze theoretische rechtvaardiging voor onze aanpak door de afweging te analyseren tussen leren van bevooroordeelde data versus beperkte onbevooroordeelde data over diffusietijden heen.
De snelle opkomst van diverse grote taalmodellen (LLM's) heeft de ontwikkeling van LLM-routers gestimuleerd die gebruikersvragen toewijzen aan het meest geschikte model. Bestaande LLM-routers voeren echter doorgaans een eenmalige, één-op-één toewijzing uit (d.w.z., elke vraag toewijzen aan één model in isolatie), wat hun vermogen beperkt om complexe taken aan te pakken die de complementaire sterktes van meerdere LLM's vereisen. In dit artikel presenteren we Router-R1, een op reinforcement learning (RL) gebaseerd framework dat multi-LLM-routering en -aggregatie formuleert als een sequentieel beslissingsproces. Router-R1 instantieert de router zelf als een krachtig LLM, waarbij het zijn redeneervermogen benut om "denk"-acties (interne overweging) af te wisselen met "route"-acties (dynamische modelaanroeping), en integreert elk antwoord in zijn evoluerende context. Om het leren te sturen, gebruiken we een lichtgewicht op regels gebaseerde beloning bestaande uit formaatbeloningen, eindresultaatbeloningen en een nieuwe kostenbeloning voor optimalisatie van de prestatie-kostenverhouding, wat een pad opent naar het optimaliseren van prestatie-kostenafwegingen via RL. Router-R1 baseert zich ook alleen op eenvoudige modeldescriptoren zoals prijs, latentie en voorbeeldprestaties, wat een sterke generalisatie naar onbekende modelselectie mogelijk maakt. Experimenten op zeven algemene en multi-hop QA-benchmarks tonen aan dat Router-R1 verschillende sterke baselines overtreft, met superieure prestaties terwijl het robuuste generalisatie en kostenbeheer behoudt. Code is beschikbaar op https://github.com/ulab-uiuc/Router-R1.
We introduceren AgentSynth, een schaalbare en kostenefficiënte pipeline voor het automatisch synthetiseren van hoogwaardige taken en trajectdatasets voor generalistische computergebruik-agents. Door gebruik te maken van informatie-asymmetrie, construeert AgentSynth subtaken die eenvoudig zijn tijdens de generatie, maar aanzienlijk uitdagender worden wanneer ze worden samengesteld tot langetermijntaken, wat de creatie van meer dan 6.000 diverse en realistische taken mogelijk maakt. Onze pipeline begint met een op LLM gebaseerde taakvoorsteller die wordt geleid door een persona, gevolgd door een uitvoeringsagent die de taak voltooit en het traject vastlegt. Dit proces wordt iteratief herhaald om een reeks subtaken te vormen, die vervolgens door een aparte agent worden samengevat tot een samengestelde taak met instelbare moeilijkheidsgraad. Een belangrijk sterk punt van AgentSynth is het vermogen om de taakcomplexiteit precies te moduleren door het aantal subtaken te variëren. Empirische evaluaties tonen aan dat state-of-the-art LLM-agents een sterke prestatievermindering ervaren, van 18% succes bij moeilijkheidsniveau 1 tot slechts 4% bij niveau 6, wat de moeilijkheidsgraad en het onderscheidend vermogen van de benchmark benadrukt. Bovendien bereikt onze pipeline een lage gemiddelde kostprijs van \$0,60 per traject, wat ordes van grootte goedkoper is dan menselijke annotaties. Onze code en gegevens zijn publiekelijk beschikbaar op https://github.com/sunblaze-ucb/AgentSynth.
We bestuderen de uitdaging van het bereiken van theoretisch onderbouwde feature recovery met behulp van Sparse Autoencoders (SAEs) voor de interpretatie van Large Language Models. Bestaande SAE-trainingsalgoritmen missen vaak rigoureuze wiskundige garanties en hebben te kampen met praktische beperkingen zoals hyperparametergevoeligheid en instabiliteit. Om deze problemen aan te pakken, stellen we eerst een nieuw statistisch raamwerk voor voor het feature recovery-probleem, dat een nieuw begrip van feature identificeerbaarheid omvat door polysemantische features te modelleren als sparse mengsels van onderliggende monosemantische concepten. Op basis van dit raamwerk introduceren we een nieuw SAE-trainingsalgoritme gebaseerd op "bias adaptation", een techniek die de biasparameters van neurale netwerken adaptief aanpast om een geschikte activatiesparsheid te garanderen. We bewijzen theoretisch dat dit algoritme alle monosemantische features correct herstelt wanneer invoergegevens worden bemonsterd uit ons voorgestelde statistische model. Bovendien ontwikkelen we een verbeterde empirische variant, Group Bias Adaptation (GBA), en demonstreren we de superieure prestaties ten opzichte van benchmarkmethoden wanneer deze wordt toegepast op LLMs met tot 1,5 miljard parameters. Dit werk vertegenwoordigt een fundamentele stap in het ontrafelen van SAE-training door het eerste SAE-algoritme met theoretische herstelgaranties te bieden, waardoor de ontwikkeling van transparantere en betrouwbaardere AI-systemen wordt bevorderd door verbeterde mechanistische interpreteerbaarheid.
We bestuderen suffix-gebaseerde jailbreaks – een krachtige familie van aanvallen tegen grote taalmodellen (LLMs) die adversariële suffixes optimaliseren om veiligheidsuitlijning te omzeilen. Met focus op de veelgebruikte fundamentele GCG-aanval (Zou et al., 2023), observeren we dat suffixes variëren in effectiviteit: sommige zijn aanzienlijk universeler – generaliserend naar veel ongeziene schadelijke instructies – dan andere. We tonen eerst aan dat de effectiviteit van GCG wordt aangedreven door een oppervlakkig, kritiek mechanisme, gebaseerd op de informatiestroom van het adversariële suffix naar de laatste chat-template tokens vóór generatie. Door de dominantie van dit mechanisme tijdens generatie te kwantificeren, ontdekken we dat GCG onregelmatig en agressief het contextualisatieproces kaapt. Cruciaal koppelen we deze kapingen aan het universaliteitsfenomeen, waarbij meer universele suffixes sterkere kapers zijn. Vervolgens tonen we aan dat deze inzichten praktische implicaties hebben: de universaliteit van GCG kan efficiënt worden verbeterd (tot vijf keer in sommige gevallen) zonder extra rekenkosten, en kan ook chirurgisch worden gemitigeerd, waarbij de aanvalssucces minstens wordt gehalveerd met minimaal nuttigheidsverlies. We geven onze code en data vrij op http://github.com/matanbt/interp-jailbreak.
In-context reinforcement learning (ICRL) is naar voren gekomen als een veelbelovend paradigma voor het aanpassen van RL-agents aan downstream taken door middel van promptconditionering. Er blijven echter twee opmerkelijke uitdagingen bestaan bij het volledig benutten van in-context learning binnen RL-domeinen: de intrinsieke multi-modaliteit van de staat-actie-beloning data en de diverse, heterogene aard van beslissingstaken. Om deze uitdagingen aan te pakken, stellen we T2MIR (Token- en Task-wise MoE voor In-context RL) voor, een innovatief framework dat architectonische vooruitgang van mixture-of-experts (MoE) introduceert in transformer-gebaseerde beslissingsmodellen. T2MIR vervangt de feedforward-laag door twee parallelle lagen: een token-wise MoE die verschillende semantiek van invoertokens over meerdere modaliteiten vastlegt, en een task-wise MoE die diverse taken doorverwijst naar gespecialiseerde experts voor het beheren van een brede taakverdeling met verminderde gradientconflicten. Om de task-wise routing te verbeteren, introduceren we een contrastieve leermethode die de wederzijdse informatie tussen de taak en zijn routerrepresentatie maximaliseert, waardoor een nauwkeurigere vastlegging van taakgerelateerde informatie mogelijk wordt. De uitvoer van de twee MoE-componenten wordt samengevoegd en doorgegeven aan de volgende laag. Uitgebreide experimenten tonen aan dat T2MIR de in-context leercapaciteit aanzienlijk vergemakkelijkt en verschillende soorten baselines overtreft. We brengen het potentieel en de belofte van MoE naar ICRL, en bieden een eenvoudige en schaalbare architectonische verbetering om ICRL een stap dichter bij de prestaties in de taal- en visiegemeenschappen te brengen. Onze code is beschikbaar op https://github.com/NJU-RL/T2MIR.
Simulatie van menselijke mobiliteit speelt een cruciale rol in diverse real-world toepassingen. Recentelijk hebben onderzoekers, om de beperkingen van traditionele data-gedreven benaderingen aan te pakken, verkend hoe ze het gezond verstand en de redeneervaardigheden van grote taalmodellen (LLMs) kunnen benutten om simulaties van menselijke mobiliteit te versnellen. Deze methoden kampen echter met verschillende kritieke tekortkomingen, waaronder onvoldoende modellering van stedelijke ruimtes en slechte integratie met zowel individuele mobiliteitspatronen als collectieve mobiliteitsverdelingen. Om deze uitdagingen aan te pakken, stellen we het CityGPT-Powered Agentic framework for Mobility Simulation (CAMS) voor, een agentisch framework dat gebruikmaakt van het taalgebaseerde stedelijke basis model om menselijke mobiliteit in stedelijke ruimtes te simuleren. CAMS bestaat uit drie kernmodules, waaronder MobExtractor om sjabloonmobiliteitspatronen te extraheren en nieuwe te synthetiseren op basis van gebruikersprofielen, GeoGenerator om ankerpunten te genereren met inachtneming van collectieve kennis en kandidaat-stedelijke georuimtelijke kennis te genereren met behulp van een verbeterde versie van CityGPT, en TrajEnhancer om ruimtelijke kennis op te halen op basis van mobiliteitspatronen en trajecten te genereren met echte trajectvoorkeuren afgestemd via DPO. Experimenten op real-world datasets tonen aan dat CAMS superieure prestaties bereikt zonder te vertrouwen op extern aangeleverde georuimtelijke informatie. Bovendien genereert CAMS, door zowel individuele mobiliteitspatronen als collectieve mobiliteitsbeperkingen holistisch te modelleren, realistischere en plausibelere trajecten. Over het algemeen vestigt CAMS een nieuw paradigma dat het agentische framework integreert met stedelijk-kundige LLMs voor simulatie van menselijke mobiliteit.
Open-source foundation models hebben een snelle adoptie en ontwikkeling doorgemaakt, waardoor krachtige algemene mogelijkheden in diverse domeinen mogelijk zijn geworden. Het finetunen van grote foundation models voor domeinspecifieke of gepersonaliseerde taken blijft echter voor de meeste gebruikers onbetaalbaar vanwege de aanzienlijke geheugenoverhead die verder gaat dan die van inferentie. Wij introduceren EMLoC, een Emulator-gebaseerd geheugenefficiënt finetuning framework met LoRA-correctie, waarmee modelfinetuning mogelijk is binnen hetzelfde geheugenbudget dat nodig is voor inferentie. EMLoC bouwt een taakspecifieke lichtgewicht emulator met behulp van activatiebewuste singular value decomposition (SVD) op een kleine downstream kalibratieset. Het finetunen wordt vervolgens uitgevoerd op deze lichtgewicht emulator via LoRA. Om de uitlijning tussen het oorspronkelijke model en de gecomprimeerde emulator aan te pakken, stellen we een nieuw compensatiealgoritme voor om de gefinetunde LoRA-module te corrigeren, die vervolgens kan worden samengevoegd met het oorspronkelijke model voor inferentie. EMLoC ondersteunt flexibele compressieverhoudingen en standaard trainingspijplijnen, waardoor het aanpasbaar is voor een breed scala aan toepassingen. Uitgebreide experimenten tonen aan dat EMLoC andere baseline-methoden overtreft op meerdere datasets en modaliteiten. Bovendien maakt EMLoC, zonder kwantisatie, het finetunen van een 38B-model mogelijk op een enkele 24GB consumenten-GPU, waardoor efficiënte en praktische modelaanpassing voor individuele gebruikers binnen handbereik komt.
Een van de meest uitdagende aspecten van moderne machine learning is het goed presteren op de lange staart van zeldzame en ondervertegenwoordigde kenmerken. Grote, algemene modellen worden getraind voor veel taken, maar presteren het beste op veelvoorkomende use cases. Na de training is het moeilijk om een model aan te passen om goed te presteren op specifieke use cases die ondervertegenwoordigd zijn in de trainingscorpus. Het vertrouwen op prompt engineering of few-shot voorbeelden om de uitvoerkwaliteit voor een bepaalde testcase te maximaliseren kan frustrerend zijn, omdat modellen zeer gevoelig kunnen zijn voor kleine veranderingen, onverwachte reacties kunnen vertonen of afhankelijk kunnen zijn van een vast systeemprompt om de prestaties te behouden. In dit werk stellen we de vraag: "Kunnen we onze trainingsprotocollen optimaliseren om zowel de beheersbaarheid als de prestaties op ondervertegenwoordigde use cases tijdens inferentie te verbeteren?" We herzien de kloof tussen training en inferentietechnieken om de prestaties op de lange staart te verbeteren, terwijl we gebruikers een set controlemechanismen bieden waarop het model is getraind om te reageren. We creëren een gedetailleerde taxonomie van datakarakteristieken en taakherkomst om generatiekenmerken expliciet te controleren en generaties impliciet te conditioneren tijdens inferentie. We fine-tunen een basismodel om deze markers automatisch af te leiden, waardoor ze optioneel worden tijdens inferentie. Deze principiële en flexibele aanpak leidt tot aanzienlijke verbeteringen in prestaties, vooral op voorbeelden uit de lange staart van de trainingsdistributie. Terwijl we een gemiddelde stijging van 5,7% win rates observeren in de kwaliteit van open-ended generatie met onze markers, zien we meer dan 9,1% winst in ondervertegenwoordigde domeinen. We observeren ook relatieve stijgingen van tot 14,1% op ondervertegenwoordigde taken zoals CodeRepair en absolute verbeteringen van 35,3% op evaluaties voor het volgen van lengte-instructies.
Alignment is geen luxe meer, het is een noodzaak. Naarmate grote taalmodellen (LLM's) worden ingezet in domeinen met grote gevolgen, zoals onderwijs, gezondheidszorg, bestuur en recht, moet hun gedrag betrouwbaar menselijke waarden en veiligheidsbeperkingen weerspiegelen. Toch vertrouwen huidige evaluaties sterk op gedragsproxies zoals weigeringspercentages, G-Eval-scores en toxiciteitsclassificaties, die allemaal kritieke blinde vlekken hebben. Uitgelijnde modellen zijn vaak kwetsbaar voor jailbreaking, stochastische generatie en alignment-nepgedrag. Om dit probleem aan te pakken, introduceren we de Alignment Quality Index (AQI). Deze nieuwe, geometrische en prompt-invariante metriek beoordeelt de alignment van LLM's empirisch door de scheiding van veilige en onveilige activaties in de latente ruimte te analyseren. Door metingen zoals de Davies-Bouldin Score (DBS), Dunn Index (DI), Xie-Beni Index (XBI) en Calinski-Harabasz Index (CHI) te combineren in verschillende formuleringen, vangt AQI de kwaliteit van clustering om verborgen misalignments en jailbreak-risico's te detecteren, zelfs wanneer uitvoeringsgedrag conform lijkt. AQI dient ook als een vroegtijdig waarschuwingssignaal voor alignment-nepgedrag en biedt een robuust, decodeer-invariant hulpmiddel voor gedragsagnostische veiligheidsaudits. Daarnaast stellen we de LITMUS-dataset voor om robuuste evaluatie onder deze uitdagende omstandigheden te vergemakkelijken. Empirische tests op LITMUS over verschillende modellen die zijn getraind onder DPO-, GRPO- en RLHF-omstandigheden, tonen de correlatie van AQI met externe beoordelaars en het vermogen om kwetsbaarheden te onthullen die gemist worden door weigeringsmetrieken. We maken onze implementatie publiekelijk beschikbaar om toekomstig onderzoek op dit gebied te stimuleren.
Dit werk presenteert een generaliseerbaar raamwerk om relatieve diepte over te dragen naar metrische diepte. Huidige methoden voor monoscopische diepteschatting zijn voornamelijk verdeeld in metrische diepteschatting (MMDE) en relatieve diepteschatting (MRDE). MMDEs schatten diepte op metrische schaal maar zijn vaak beperkt tot een specifiek domein. MRDEs generaliseren goed over verschillende domeinen, maar met onzekere schalen wat downstream toepassingen belemmert. Daarom streven we ernaar een raamwerk op te bouwen om schaalonzekerheid op te lossen en relatieve diepte over te dragen naar metrische diepte. Vorige methoden gebruikten taal als invoer en schatten twee factoren voor het uitvoeren van herschaling. Onze aanpak, TR2M, maakt gebruik van zowel tekstbeschrijving als afbeelding als invoer en schat twee herschaalkaarten om relatieve diepte over te dragen naar metrische diepte op pixelniveau. Kenmerken van twee modaliteiten worden samengevoegd met een cross-modaliteit aandachtmodule om schaalinformatie beter vast te leggen. Een strategie is ontworpen om zelfverzekerde pseudo-metrische diepte te construeren en te filteren voor meer uitgebreide supervisie. We ontwikkelen ook schaalgerichte contrastief leren om diepteverdeling te gebruiken als leidraad om het model te dwingen intrinsieke kennis te leren die overeenkomt met de schaalverdeling. TR2M maakt alleen gebruik van een klein aantal trainbare parameters om te trainen op datasets in verschillende domeinen en experimenten tonen niet alleen de uitstekende prestaties van TR2M op geziene datasets, maar onthullen ook superieure zero-shot mogelijkheden op vijf ongeziene datasets. We tonen het enorme potentieel in pixelniveau overdracht van relatieve diepte naar metrische diepte met taalassistentie. (Code is beschikbaar op: https://github.com/BeileiCui/TR2M)
Graph Retrieval Augmented Generation (GraphRAG) verbetert effectief de mogelijkheden voor integratie van externe kennis door expliciet kennisrelaties te modelleren, waardoor de feitelijke nauwkeurigheid en generatiekwaliteit van Large Language Models (LLMs) in gespecialiseerde domeinen worden verbeterd. Bestaande methoden hebben echter twee inherente beperkingen: 1) Inefficiënte Informatieaggregatie: Ze vertrouwen op een enkele agent en vaste iteratieve patronen, waardoor het moeilijk is om adaptief multi-level tekstuele, structurele en graad-informatie binnen grafiekgegevens vast te leggen. 2) Rigide Redeneermechanisme: Ze gebruiken vooraf ingestelde redeneerschema's, die niet dynamisch de redeneerdiepte kunnen aanpassen noch precieze semantische correctie kunnen bereiken. Om deze beperkingen te overwinnen, stellen we Graph Counselor voor, een GraphRAG-methode gebaseerd op multi-agent samenwerking. Deze methode gebruikt de Adaptive Graph Information Extraction Module (AGIEM), waarbij Planning, Thought en Execution Agents samenwerken om complexe grafiekstructuren nauwkeurig te modelleren en informatie-extractiestrategieën dynamisch aan te passen, waardoor de uitdagingen van multi-level afhankelijkheidsmodellering en adaptieve redeneerdiepte worden aangepakt. Daarnaast verbetert de Self-Reflection with Multiple Perspectives (SR) module de nauwkeurigheid en semantische consistentie van redeneerresultaten door zelfreflectie en achterwaartse redeneermechanismen. Experimenten tonen aan dat Graph Counselor bestaande methoden overtreft in meerdere grafiekredeneertaken, met een hogere redeneernauwkeurigheid en generalisatievermogen. Onze code is beschikbaar op https://github.com/gjq100/Graph-Counselor.git.
Door muggen overgedragen ziekten vormen een groot wereldwijd gezondheidsrisico, waarvoor vroegtijdige detectie en proactieve bestrijding van broedplaatsen essentieel zijn om uitbraken te voorkomen. In dit artikel presenteren we VisText-Mosquito, een multimodale dataset die visuele en tekstuele gegevens integreert om geautomatiseerde detectie, segmentatie en redenering voor de analyse van muggenbroedplaatsen te ondersteunen. De dataset omvat 1.828 geannoteerde afbeeldingen voor objectdetectie, 142 afbeeldingen voor segmentatie van wateroppervlakken en natuurlijke taalredeneringsteksten die aan elke afbeelding zijn gekoppeld. Het YOLOv9s-model behaalt de hoogste precisie van 0,92926 en een mAP@50 van 0,92891 voor objectdetectie, terwijl YOLOv11n-Seg een segmentatieprecisie van 0,91587 en een mAP@50 van 0,79795 bereikt. Voor het genereren van redeneringen bereikt ons fijn afgestemde BLIP-model een eindverlies van 0,0028, met een BLEU-score van 54,7, een BERTScore van 0,91 en een ROUGE-L van 0,87. Deze dataset en modelbenadrukken het thema "Voorkomen is beter dan genezen", en laten zien hoe AI-gestuurde detectie proactief kan bijdragen aan het verminderen van risico's op door muggen overgedragen ziekten. De dataset en implementatiecode zijn openbaar beschikbaar op GitHub: https://github.com/adnanul-islam-jisun/VisText-Mosquito.
Het implementeren van grote, complexe beleidsregels in de echte wereld vereist het vermogen om deze te sturen zodat ze aansluiten bij de behoeften van een situatie. De meest gebruikelijke stuurmethoden, zoals doelconditionering, vereisen dat het robotbeleid wordt getraind met een verdeling van testtijddoelen in gedachten. Om deze beperking te overwinnen, presenteren we DynaGuide, een stuurmethode voor diffusiebeleid die gebruikmaakt van begeleiding van een extern dynamisch model tijdens het diffusie-ontruisingsproces. DynaGuide scheidt het dynamische model van het basisbeleid, wat meerdere voordelen biedt, waaronder de mogelijkheid om naar meerdere doelen te sturen, ondervertegenwoordigde basisbeleidsgedragingen te versterken en robuustheid te behouden bij slechte kwaliteit van doelen. Het aparte begeleidingssignaal stelt DynaGuide ook in staat om te werken met kant-en-klare, vooraf getrainde diffusiebeleidsregels. We demonstreren de prestaties en kenmerken van DynaGuide in vergelijking met andere stuurmethoden in een reeks gesimuleerde en echte experimenten, waarbij we een gemiddeld stuursucces van 70% laten zien op een set van gearticuleerde CALVIN-taken en doelconditionering met 5,4x overtreffen wanneer gestuurd wordt met slechte kwaliteit van doelen. We sturen ook succesvol een kant-en-klaar echt robotbeleid aan om voorkeur voor bepaalde objecten uit te drukken en zelfs nieuw gedrag te creëren. Video's en meer zijn te vinden op de projectwebsite: https://dynaguide.github.io