Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Recente ontwikkelingen in redeneringsgerichte taalmodellen hebben versterkend leren (RL) benadrukt als een veelbelovende methode om modellen af te stemmen op verifieerbare beloningen. Het blijft echter betwistbaar of RL daadwerkelijk de redeneervaardigheden van een model uitbreidt of slechts hoogbeloonde uitvoeringen versterkt die al latent aanwezig zijn in de verdeling van het basismodel, en of het voortdurend opschalen van RL-rekenkracht betrouwbaar leidt tot verbeterde redeneerprestaties. In dit werk dagen we heersende aannames uit door aan te tonen dat langdurige RL-training (ProRL) nieuwe redeneerstrategieën kan ontdekken die ontoegankelijk zijn voor basismodellen, zelfs bij uitgebreide steekproefname. We introduceren ProRL, een nieuwe trainingsmethodologie die KL-divergentiecontrole, resetten van referentiebeleid en een diverse reeks taken omvat. Onze empirische analyse laat zien dat RL-getrainde modellen consistent beter presteren dan basismodellen in een breed scala aan pass@k-evaluaties, inclusief scenario's waarin basismodellen volledig falen, ongeacht het aantal pogingen. We tonen verder aan dat verbeteringen in de redeneergrenzen sterk correleren met de taakcompetentie van het basismodel en de trainingsduur, wat suggereert dat RL na verloop van tijd nieuwe regio's van de oplossingsruimte kan verkennen en bevolken. Deze bevindingen bieden nieuwe inzichten in de omstandigheden waaronder RL op zinvolle wijze de redeneergrenzen in taalmodellen uitbreidt en leggen een basis voor toekomstig werk aan langetermijn-RL voor redeneren. We geven modelgewichten vrij ter ondersteuning van verder onderzoek: https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B
Dit artikel introduceert AlphaOne (alpha1), een universeel raamwerk voor het moduleren van redeneervoortgang in grote redeneermodellen (LRMs) tijdens testtijd. alpha1 introduceert eerst het alpha-moment, dat de geschaalde denkfase vertegenwoordigt met een universele parameter alpha. Binnen deze geschaalde pre-alpha-momentfase plant het dynamisch langzaam denken overgangen door het invoegen van redeneerovergangstokens te modelleren als een Bernoulli stochastisch proces. Na het alpha-moment beëindigt alpha1 deterministisch het langzaam denken met het end-of-thinking token, waardoor snel denken en efficiënte antwoordgeneratie worden bevorderd. Deze aanpak verenigt en generaliseert bestaande monotone schalingsmethoden door flexibele en dichte modulatie van langzaam naar snel denken mogelijk te maken. Uitgebreide empirische studies op diverse uitdagende benchmarks in wiskundige, programmeer- en wetenschappelijke domeinen demonstreren de superieure redeneercapaciteit en efficiëntie van alpha1. Projectpagina: https://alphaone-project.github.io/
Recente vooruitgang in visie-taalmodellen (VLMs) heeft indrukwekkende stappen gezet in het begrijpen van ruimtelijk-temporele relaties in video's. Wanneer ruimtelijke informatie echter wordt verhuld, hebben deze modellen moeite om puur temporele patronen te vatten. Wij introduceren SpookyBench, een benchmark waarin informatie uitsluitend is gecodeerd in temporele sequenties van ruisachtige frames, wat natuurlijke fenomenen nabootst, van biologische signalering tot geheime communicatie. Interessant is dat mensen vormen, tekst en patronen in deze sequenties kunnen herkennen met een nauwkeurigheid van meer dan 98%, terwijl state-of-the-art VLMs een nauwkeurigheid van 0% behalen. Deze prestatiekloof benadrukt een kritieke beperking: een overmatige afhankelijkheid van ruimtelijke kenmerken op frameniveau en een onvermogen om betekenis te halen uit temporele signalen. Bovendien, wanneer getraind op datasets met een lage ruimtelijke signaal-ruisverhouding (SNR), verslechtert het temporele begrip van modellen sneller dan de menselijke waarneming, vooral bij taken die fijnmazige temporele redenering vereisen. Het overwinnen van deze beperking vereist nieuwe architecturen of trainingsparadigma's die ruimtelijke afhankelijkheden loskoppelen van temporele verwerking. Onze systematische analyse toont aan dat dit probleem blijft bestaan over verschillende modelschalen en -architecturen. Wij maken SpookyBench beschikbaar om onderzoek naar temporele patroonherkenning te stimuleren en de kloof tussen menselijk en machinaal videobegrip te overbruggen. De dataset en code zijn beschikbaar gesteld op onze projectwebsite: https://timeblindness.github.io/.
Het genereren van synthetische data die de statistische structuur van real-world distributies nauwkeurig weergeeft, is een fundamentele uitdaging in datamodellering. Klassieke benaderingen zijn vaak afhankelijk van sterke parametrische aannames of handmatig ontworpen structuren en komen in de problemen bij hoogdimensionale of heterogene domeinen. Recente vooruitgang in Large Language Models (LLM’s) toont hun potentieel als flexibele, hoogdimensionale prioris over real-world distributies. Wanneer ze echter worden toegepast op datasynthese, is standaard LLM-gebaseerde sampling inefficiënt, beperkt door vaste contextlimieten en slaagt het er niet in statistische uitlijning te garanderen. Gezien dit introduceren we LLMSynthor, een algemeen framework voor datasynthese dat LLM’s transformeert in structuurbewuste simulatoren die worden geleid door distributiegerichte feedback. LLMSynthor behandelt de LLM als een niet-parametrische copula-simulator voor het modelleren van hogere-orde afhankelijkheden en introduceert LLM Proposal Sampling om gegronde voorstel-distributies te genereren die de samplingefficiëntie verbeteren zonder afwijzing te vereisen. Door discrepanties in de samenvattende statistiekenruimte te minimaliseren, zorgt de iteratieve synthese-loop voor uitlijning tussen echte en synthetische data terwijl de latente generatieve structuur geleidelijk wordt blootgelegd en verfijnd. We evalueren LLMSynthor in zowel gecontroleerde als real-world settings met behulp van heterogene datasets in privacygevoelige domeinen (bijv. e-commerce, bevolking en mobiliteit) die zowel gestructureerde als ongestructureerde formaten omvatten. De synthetische data geproduceerd door LLMSynthor toont hoge statistische trouw, praktische bruikbaarheid en aanpassingsvermogen over verschillende datasets, wat het positioneert als een waardevol hulpmiddel in economie, sociale wetenschappen, stadsstudies en daarbuiten.
Verificatoren spelen een cruciale rol in het redeneren van grote taalmodellen (LLM's), wat nodig is voor technieken na de training, zoals reinforcement learning. Betrouwbare verificatoren zijn echter moeilijk te verkrijgen voor complexe programmeerproblemen, omdat een goed vermomde foutieve oplossing mogelijk alleen wordt gedetecteerd door zorgvuldig door mensen geschreven edge cases die moeilijk te synthetiseren zijn. Om dit probleem aan te pakken, stellen we HARDTESTGEN voor, een pijplijn voor het synthetiseren van hoogwaardige tests met behulp van LLM's. Met deze pijplijn hebben we een uitgebreide dataset voor competitief programmeren, HARDTESTS, samengesteld met 47k problemen en synthetische hoogwaardige tests. In vergelijking met bestaande tests tonen HARDTESTGEN-tests een precisie die 11,3 procentpunten hoger is en een recall die 17,5 procentpunten hoger is bij het evalueren van door LLM gegenereerde code. Voor moeilijkere problemen kan de verbetering in precisie oplopen tot 40 punten. HARDTESTS blijkt ook effectiever te zijn voor modeltraining, gemeten aan de hand van de prestaties van downstream codegeneratie. We zullen onze dataset en synthesepijplijn opensource maken op https://leililab.github.io/HardTests/.
We presenteren v1, een lichtgewicht uitbreiding voor Multimodale Grote Taalmodellen (MLLMs) die selectieve visuele herbeoordeling tijdens inferentie mogelijk maakt. Terwijl huidige MLLMs visuele input doorgaans slechts één keer verwerken en uitsluitend redeneren over intern geheugen, introduceert v1 een eenvoudig wijs-en-kopieer-mechanisme dat het model in staat stelt om dynamisch relevante beeldregio's op te halen gedurende het redeneerproces. Dit mechanisme breidt bestaande architecturen uit met minimale aanpassingen, waardoor contextuele toegang tot visuele tokens mogelijk wordt op basis van de evoluerende hypothesen van het model. Om deze capaciteit te trainen, construeren we v1g, een dataset van 300K multimodale redeneersporen met geïnterleefde visuele grondingsannotaties. Experimenten op drie multimodale wiskundige redeneerbenchmarks — MathVista, MathVision en MathVerse — tonen aan dat v1 consistent betere prestaties levert in vergelijking met vergelijkbare baselines, met name bij taken die fijnmazige visuele referentie en meerstapsredenering vereisen. Onze resultaten suggereren dat dynamische visuele toegang een veelbelovende richting is voor het verbeteren van gegronde multimodale redenering. Code, modellen en data zullen worden vrijgegeven om toekomstig onderzoek te ondersteunen.
Story visualization, dat als doel heeft een reeks visueel samenhangende afbeeldingen te genereren die aansluiten bij een gegeven verhaal en referentieafbeeldingen, heeft aanzienlijke vooruitgang geboekt dankzij recente ontwikkelingen in generatieve modellen. Om de prestaties van storyvisualisatie-frameworks in real-world scenario's verder te verbeteren, introduceren we een uitgebreid evaluatiebenchmark, ViStoryBench. We hebben een diverse dataset verzameld die verschillende verhaaltypes en artistieke stijlen omvat, waardoor modellen op meerdere dimensies worden geëvalueerd, zoals verschillende plotlijnen (bijv. komedie, horror) en visuele esthetiek (bijv. anime, 3D-renders). ViStoryBench is zorgvuldig samengesteld om narratieve structuren en visuele elementen in balans te brengen, met verhalen met één of meerdere hoofdpersonen om het vermogen van modellen om karakterconsistentie te behouden te testen. Daarnaast bevat het complexe plotlijnen en uitgebreide wereldbouw om modellen uit te dagen bij het genereren van nauwkeurige visuals. Om uitgebreide vergelijkingen mogelijk te maken, omvat onze benchmark een breed scala aan evaluatiemetrics die kritieke aspecten beoordelen. Dit gestructureerde en veelzijdige framework stelt onderzoekers in staat om grondig zowel de sterke als de zwakke punten van verschillende modellen te identificeren, wat gerichte verbeteringen bevordert.
De recente explosieve belangstelling voor de redeneervaardigheden van grote taalmodelen, zoals DeepSeek-R1, heeft opmerkelijke successen laten zien door middel van fine-tuning frameworks gebaseerd op reinforcement learning, geïllustreerd door methoden zoals Group Relative Policy Optimization (GRPO). Echter, dergelijke redeneervaardigheden blijven onderbelicht en zijn opvallend afwezig in visuele foundationmodellen, waaronder representatiemodellen zoals de DINO-serie. In dit werk stellen we DINO-R1 voor, de eerste poging om visuele in-context redeneervaardigheden van visuele foundationmodellen te stimuleren met behulp van reinforcement learning. Specifiek introduceert DINO-R1 Group Relative Query Optimization (GRQO), een nieuwe reinforcement-style trainingsstrategie die expliciet is ontworpen voor query-gebaseerde representatiemodellen, waarbij query-level beloningen worden berekend op basis van groep-genormaliseerde uitlijningskwaliteit. We passen ook KL-regularisatie toe om de objectnessverdeling te stabiliseren en zo de trainingsinstabiliteit te verminderen. Deze gezamenlijke optimalisatie maakt dichte en expressieve supervisie over queries mogelijk, terwijl overfitting en distributiedrift worden gemitigeerd. Gebaseerd op Grounding-DINO trainen we een reeks DINO-R1 familiemodellen die een visuele promptencoder en een visueel-gestuurd queryselectiemechanisme integreren. Uitgebreide experimenten op COCO, LVIS en ODinW tonen aan dat DINO-R1 aanzienlijk beter presteert dan supervised fine-tuning baselines, met een sterke generalisatie in zowel open-vocabulary als closed-set visuele promptscenario's.
Het automatiseren van AI-onderzoek biedt enorm potentieel om wetenschappelijke vooruitgang te versnellen, maar huidige AI-agenten worstelen met de complexiteiten van rigoureus, end-to-end experimenteren. We introduceren EXP-Bench, een nieuwe benchmark die is ontworpen om AI-agenten systematisch te evalueren op complete onderzoeksexperimenten afkomstig uit invloedrijke AI-publicaties. Gegeven een onderzoeksvraag en onvolledige startcode, daagt EXP-Bench AI-agenten uit om hypothesen te formuleren, experimentele procedures te ontwerpen en te implementeren, deze uit te voeren en resultaten te analyseren. Om het creëren van dergelijke ingewikkelde en authentieke taken met hoge betrouwbaarheid mogelijk te maken, hebben we een semi-autonome pijplijn ontworpen om cruciale experimentele details uit deze onderzoeksartikelen en hun bijbehorende open-source code te extraheren en te structureren. Met deze pijplijn heeft EXP-Bench 461 AI-onderzoekstaken samengesteld uit 51 toonaangevende AI-onderzoeksartikelen. Evaluaties van toonaangevende LLM-gebaseerde agenten, zoals OpenHands en IterativeAgent op EXP-Bench, tonen gedeeltelijke capaciteiten aan: hoewel scores op individuele experimentele aspecten zoals ontwerp of implementatiecorrectheid af en toe 20-35% bereiken, was het slagingspercentage voor complete, uitvoerbare experimenten slechts 0,5%. Door deze knelpunten te identificeren en realistische stapsgewijze experimentprocedures te bieden, dient EXP-Bench als een cruciaal hulpmiddel voor toekomstige AI-agenten om hun vermogen om AI-onderzoeksexperimenten uit te voeren te verbeteren. EXP-Bench is open-source beschikbaar op https://github.com/Just-Curieous/Curie/tree/main/benchmark/exp_bench.
Grote taalmodellen (LLMs) onthouden een enorme hoeveelheid voorkennis van het internet, wat hen helpt bij downstreamtaken, maar hun uitvoer ook berucht kan beïnvloeden richting foutieve of bevooroordeelde antwoorden. In dit werk testen we hoe kennis over populaire onderwerpen de nauwkeurigheid van visuele taalmodellen (VLMs) beïnvloedt bij standaard, objectieve visuele taken zoals tellen en identificeren. We ontdekken dat state-of-the-art VLMs sterk bevooroordeeld zijn (bijvoorbeeld, ze kunnen niet herkennen dat een vierde streep is toegevoegd aan een 3-strepen Adidas-logo) en gemiddeld slechts 17,05% nauwkeurigheid behalen bij het tellen (bijvoorbeeld, strepen tellen in een Adidas-achtig logo) over 7 diverse domeinen, variërend van dieren, logo's, schaken, bordspellen, optische illusies tot gepatroonde rasters. Het invoegen van tekst (bijvoorbeeld, "Adidas") die het onderwerp beschrijft in de tegenfeitelijke afbeelding verlaagt de nauwkeurigheid van VLMs verder. De vooroordelen in VLMs zijn zo sterk dat het hen instrueren om hun resultaten dubbel te controleren of uitsluitend op beelddetails te vertrouwen om te antwoorden, de tel-nauwkeurigheid gemiddeld slechts met +2 punten verbetert. Ons werk presenteert een interessante faalmodus in VLMs en een geautomatiseerd framework om VLM-vooroordelen te testen. Code en data zijn beschikbaar op: vlmsarebiased.github.io.
CAPTCHA's vormen een kritieke bottleneck voor het inzetten van webagents in real-world toepassingen, waarbij ze vaak worden belemmerd bij het voltooien van end-to-end automatiserings taken. Hoewel moderne multimodale LLM-agents indrukwekkende prestaties hebben laten zien in statische perceptietaken, is hun vermogen om interactieve, meerstaps redeneeruitdagingen zoals CAPTCHA's aan te pakken grotendeels ongetest. Om deze kloof te dichten, introduceren we Open CaptchaWorld, de eerste webgebaseerde benchmark en platform die specifiek is ontworpen om de visuele redeneer- en interactiecapaciteiten van MLLM-aangedreven agents te evalueren via diverse en dynamische CAPTCHA-puzzels. Onze benchmark omvat 20 moderne CAPTCHA-typen, in totaal 225 CAPTCHA's, geannoteerd met een nieuwe metriek die we voorstellen: CAPTCHA Reasoning Depth, die het aantal cognitieve en motorische stappen kwantificeert dat nodig is om elke puzzel op te lossen. Experimentele resultaten tonen aan dat mensen consistent bijna perfecte scores behalen, terwijl state-of-the-art MLLM-agents aanzienlijk worstelen, met slagingspercentages van maximaal 40,0% door Browser-Use Openai-o3, ver onder het menselijke prestatieniveau van 93,3%. Dit benadrukt Open CaptchaWorld als een cruciale benchmark voor het diagnosticeren van de grenzen van huidige multimodale agents en het begeleiden van de ontwikkeling van robuustere multimodale redeneersystemen. Code en gegevens zijn beschikbaar op deze https URL.
Reinforcement Learning met Verifieerbare Beloningen (RLVR) is recentelijk naar voren gekomen als een krachtig paradigma voor het na-trainen van grote taalmodellen (LLMs), waarbij state-of-the-art prestaties worden behaald op taken met gestructureerde, verifieerbare antwoorden. Het toepassen van RLVR op Multimodale LLMs (MLLMs) biedt aanzienlijke mogelijkheden, maar wordt bemoeilijkt door de bredere, heterogene aard van visueel-taalkundige taken die een genuanceerd visueel, logisch en ruimtelijk vermogen vereisen. Daarom kan het trainen van MLLMs met RLVR op meerdere datasets voordelig zijn, maar leidt het ook tot uitdagingen met conflicterende doelstellingen door interactie tussen diverse datasets, wat de noodzaak benadrukt van optimale datasetmengstrategieën om generalisatie en redenering te verbeteren. Wij introduceren een systematisch na-trainingsframework voor Multimodale LLM RLVR, met een rigoureuze formulering van het datamengprobleem en een benchmarkimplementatie. Specifiek: (1) We hebben een multimodaal RLVR-framework ontwikkeld voor na-training op meerdere datasets door een dataset samen te stellen die verschillende verifieerbare visueel-taalkundige problemen bevat en door multi-domein online RL-leren mogelijk te maken met verschillende verifieerbare beloningen; (2) We hebben een datamengstrategie voorgesteld die leert om het RL-finetuningresultaat te voorspellen op basis van de datamengverdeling, en vervolgens het beste mengsel optimaliseert. Uitgebreide experimenten tonen aan dat multi-domein RLVR-training, in combinatie met mengvoorspellingsstrategieën, de algemene redeneercapaciteiten van MLLMs aanzienlijk kan verbeteren. Ons beste mengsel verbetert de nauwkeurigheid van het na-getrainde model op out-of-distribution benchmarks met gemiddeld 5,24% vergeleken met hetzelfde model dat is na-getraind met een uniform datamengsel, en met in totaal 20,74% vergeleken met de pre-finetuning baseline.
Het synthetiseren van volledige lichaamsmanipulatie van gearticuleerde objecten, inclusief lichaamsbeweging, handbeweging en objectbeweging, is een cruciale maar uitdagende taak met brede toepassingen in virtuele mensen en robotica. De kernuitdagingen zijn tweeledig. Ten eerste vereist het bereiken van realistische volledige lichaamsbeweging een nauwe coördinatie tussen de handen en de rest van het lichaam, aangezien hun bewegingen tijdens manipulatie onderling afhankelijk zijn. Ten tweede omvat manipulatie van gearticuleerde objecten typisch een hoog aantal vrijheidsgraden en vereist het een hogere precisie, waarbij vaak de vingers op specifieke gebieden moeten worden geplaatst om beweegbare delen te activeren. Om deze uitdagingen aan te pakken, stellen we een nieuw gecoördineerd diffuusruisoptimalisatiekader voor. Specifiek voeren we ruisruimteoptimalisatie uit over drie gespecialiseerde diffusiemodellen voor het lichaam, de linkerhand en de rechterhand, elk getraind op zijn eigen bewegingsdataset om de generalisatie te verbeteren. Coördinatie ontstaat van nature door gradiëntstroming langs de menselijke kinematische keten, waardoor de globale lichaamshouding zich kan aanpassen aan de bewegingsdoelen van de handen met een hoge nauwkeurigheid. Om de precisie in hand-objectinteractie verder te verbeteren, nemen we een uniforme representatie op basis van basispuntsets (BPS), waarbij eindeffectorposities worden gecodeerd als afstanden tot dezelfde BPS die wordt gebruikt voor de objectgeometrie. Deze uniforme representatie vangt fijnmazige ruimtelijke relaties tussen de hand en gearticuleerde objectdelen op, en de resulterende trajecten dienen als doelen om de optimalisatie van diffusieruis te begeleiden, wat zeer nauwkeurige interactiebeweging oplevert. We voeren uitgebreide experimenten uit die aantonen dat onze methode bestaande benaderingen overtreft in bewegingskwaliteit en fysieke geloofwaardigheid, en verschillende mogelijkheden biedt, zoals objectposecontrole, gelijktijdig lopen en manipuleren, en volledige lichaamsgeneratie op basis van alleen handdata.
Een cruciaal onderdeel van de betrouwbaarheid van LLM's is een betrouwbare communicatie van onzekerheid, maar LLM's gebruiken vaak assertieve taal bij het overbrengen van onjuiste beweringen, wat leidt tot overmatig vertrouwen en ondermijning van het vertrouwen. Wij presenteren de eerste systematische studie van getrouwe betrouwbaarheidskalibratie van LLM's, waarbij we het vermogen van modellen benchmarken om taaluitingen van onzekerheid te gebruiken die getrouw hun intrinsieke onzekerheid weerspiegelen, over een breed scala aan modellen, datasets en promptstrategieën. Onze resultaten tonen aan dat LLM's grotendeels falen in deze taak en dat bestaande interventies ontoereikend zijn: standaard promptbenaderingen bieden slechts marginale verbeteringen, en bestaande, op feitelijkheid gebaseerde kalibratietechnieken kunnen zelfs schadelijk zijn voor getrouwe kalibratie. Om dit kritieke gat te dichten, introduceren we MetaFaith, een nieuwe promptgebaseerde kalibratiebenadering geïnspireerd door menselijke metacognitie. We laten zien dat MetaFaith robuust de getrouwe kalibratie verbetert over diverse modellen en taakdomeinen, wat resulteert in een verbetering van de getrouwheid tot 61% en een winstpercentage van 83% ten opzichte van de oorspronkelijke generaties, zoals beoordeeld door mensen.
Text-to-Speech (TTS)-benchmarks slagen er vaak niet in om vast te leggen hoe goed modellen omgaan met genuanceerde en semantisch complexe tekst. Voortbouwend op EmergentTTS introduceren we EmergentTTS-Eval, een uitgebreide benchmark die zes uitdagende TTS-scenario's omvat: emoties, paralinguïstiek, buitenlandse woorden, syntactische complexiteit, complexe uitspraak (bijv. URL's, formules) en vragen. Cruciaal is dat ons framework zowel de generatie van testgevallen als de evaluatie automatiseert, waardoor de benchmark eenvoudig uitbreidbaar is. Uitgaande van een kleine set door mensen geschreven seed-prompts breiden we deze iteratief uit met behulp van LLM's om specifieke structurele, fonetische en prosodische uitdagingen aan te pakken, wat resulteert in 1.645 diverse testgevallen. Bovendien gebruiken we een model-as-a-judge-benadering, waarbij een Large Audio Language Model (LALM) wordt ingezet om de spraak te beoordelen op meerdere dimensies, zoals uitgedrukte emotie, prosodie, intonatie en uitspraaknauwkeurigheid. We evalueren state-of-the-art open-source en propriëtaire TTS-systemen, zoals 11Labs, Deepgram en OpenAI's 4o-mini-TTS, op EmergentTTS-Eval, wat aantoont dat het in staat is om fijnmazige prestatieverschillen te onthullen. De resultaten laten zien dat de model-as-a-judge-benadering een robuuste TTS-evaluatie biedt en een hoge correlatie vertoont met menselijke voorkeuren. We maken de evaluatiecode en de dataset openbaar via https://github.com/boson-ai/EmergentTTS-Eval-public en https://huggingface.co/datasets/bosonai/EmergentTTS-Eval.
Onlangs hebben methoden die gebruikmaken van diffusiemodel-priors om monoculaire geometrische schatting (bijv. diepte en normaal) te ondersteunen, aanzienlijke aandacht gekregen vanwege hun sterke generalisatievermogen. De meeste bestaande werken richten zich echter op het schatten van geometrische eigenschappen binnen het cameracoördinatenstelsel van individuele videobeelden, waarbij de inherente mogelijkheid van diffusiemodellen om inter-frame-correspondentie te bepalen wordt verwaarloosd. In dit werk tonen we aan dat, door een geschikt ontwerp en fine-tuning, de intrinsieke consistentie van videogeneratiemodellen effectief kan worden benut voor consistente geometrische schatting. Specifiek 1) selecteren we geometrische attributen in het globale coördinatenstelsel die dezelfde correspondentie met videobeelden delen als de voorspellingsdoelen, 2) introduceren we een nieuwe en efficiënte conditioneringsmethode door hergebruik van positionele coderingen, en 3) verbeteren we de prestaties door gezamenlijke training op meerdere geometrische attributen die dezelfde correspondentie delen. Onze resultaten behalen superieure prestaties bij het voorspellen van globale geometrische attributen in video's en kunnen direct worden toegepast op reconstructietaken. Zelfs wanneer uitsluitend getraind op statische videogegevens, toont onze aanpak het potentieel om te generaliseren naar dynamische videoscenes.
We tonen aan dat de inferentie-operaties van verschillende open-weight grote taalmodellen (LLMs) kunnen worden gemapt naar een exact equivalent lineair systeem voor een invoerreeks zonder de modelgewichten te wijzigen of de uitvoervoorspellingen te veranderen. Door technieken uit beelddiffusiemodellen die lokale of stuksgewijze lineariteit vertonen uit te breiden, passen we de gradiëntberekening strategisch aan ten opzichte van een gegeven invoerreeks voor een volgende-tokenvoorspelling, zodat de Jacobiaan van het model de voorwaartse voorspelling bijna exact reproduceert met een lineair systeem. We demonstreren deze aanpak over verschillende modellen (Llama 3, Gemma 3, Qwen 3, Phi 4, Mistral Ministral en OLMo 2, tot Llama 3.3 70B Q4) en laten door de singulierewaardedecompositie van de losgekoppelde Jacobiaan zien dat deze LLMs opereren in extreem lagedimensionale deelruimtes waarin veel van de grootste singuliere vectoren decoderen naar concepten die gerelateerd zijn aan het meest waarschijnlijke uitvoertoken. Deze aanpak stelt ons ook in staat om de werking van elke opeenvolgende laag (en zijn aandacht- en MLP-componenten) te onderzoeken als bijna-exacte lineaire systemen en de opkomst van semantische concepten te observeren. Ondanks hun expressieve kracht en globale niet-lineariteit kunnen moderne LLMs worden geïnterpreteerd door bijna-exacte lokaal lineaire decomposities die inzicht bieden in hun interne representaties en interpreteerbare semantische structuren onthullen in het volgende-token voorspellingsproces.
Test-time compute heeft multimodale grote taalmodellen in staat gesteld om uitgebreide redeneerketens te genereren, wat resulteert in sterke prestaties bij taken zoals multimodale wiskundige redenering. Deze verbeterde redeneervaardigheid gaat echter vaak gepaard met meer hallucinatie: naarmate de generaties langer worden, neigen modellen af te drijven van op afbeeldingen gebaseerde inhoud en meer te vertrouwen op taalpriors. Analyse van aandacht laat zien dat langere redeneerketens leiden tot verminderde focus op visuele inputs, wat bijdraagt aan hallucinatie. Om dit fenomeen systematisch te bestuderen, introduceren we RH-AUC, een metriek die kwantificeert hoe de perceptienauwkeurigheid van een model verandert met de redeneerlengte, waardoor we kunnen evalueren of het model visuele verankering behoudt tijdens het redeneren. We brengen ook RH-Bench uit, een diagnostische benchmark die een verscheidenheid aan multimodale taken omvat, ontworpen om de afweging tussen redeneervaardigheid en hallucinatie te beoordelen. Onze analyse onthult dat (i) grotere modellen doorgaans een betere balans bereiken tussen redeneren en perceptie, en (ii) deze balans meer wordt beïnvloed door de soorten en domeinen van trainingsdata dan door het totale volume ervan. Deze bevindingen benadrukken het belang van evaluatieframeworks die zowel de kwaliteit van het redeneren als de perceptuele trouw gezamenlijk in overweging nemen.
Het genereren van nauwkeurige meertalige tekst met diffusiemodellen is al lang gewenst, maar blijft een uitdaging. Recente methoden hebben vooruitgang geboekt in het weergeven van tekst in één taal, maar het weergeven van willekeurige talen is nog steeds een onontgonnen gebied. Dit artikel introduceert EasyText, een tekstweergaveframework gebaseerd op DiT (Diffusion Transformer), dat denoisende latente ruimtes verbindt met meertalige karaktertokens die als karaktertokens zijn gecodeerd. We stellen karakterpositioneringscodering en positiecodering-interpolatietechnieken voor om controleerbare en precieze tekstweergave te bereiken. Daarnaast construeren we een grootschalige synthetische tekstbeelddataset met 1 miljoen meertalige beeld-tekstannotaties, evenals een hoogwaardige dataset van 20K geannoteerde afbeeldingen, die respectievelijk worden gebruikt voor vooraf trainen en finetunen. Uitgebreide experimenten en evaluaties tonen de effectiviteit en vooruitgang van onze aanpak aan op het gebied van meertalige tekstweergave, visuele kwaliteit en lay-outbewuste tekstintegratie.
Speculatieve decodering (SD) is een veelbelovende methode om het decodeerproces van Large Language Models (LLM's) te versnellen. De efficiëntie van SD hangt voornamelijk af van de consistentie tussen het conceptmodel en het verificatiemodel. Bestaande conceptbenaderingen vereisen echter doorgaans dat aanvullende modules worden getraind, wat uitdagend kan zijn om te implementeren en compatibiliteit over verschillende LLM's te garanderen. In dit artikel stellen we CLaSp voor, een in-context layer-skipping strategie voor zelf-speculatieve decodering. In tegenstelling tot eerdere methoden vereist CLaSp geen aanvullende conceptmodules of extra training. In plaats daarvan maakt het gebruik van een plug-and-play mechanisme door tussenliggende lagen van het verificatiemodel over te slaan om een gecomprimeerd conceptmodel te construeren. Specifiek ontwikkelen we een dynamisch programmeeralgoritme dat het layer-skipping proces optimaliseert door gebruik te maken van de volledige verborgen toestanden uit de laatste verificatiefase als doelstelling. Hierdoor kan CLaSp zijn layer-skipping strategie dynamisch aanpassen na elke verificatiefase, zonder te vertrouwen op vooraf geoptimaliseerde sets van overgeslagen lagen. Experimentele resultaten over diverse downstream taken tonen aan dat CLaSp een versnelling van 1,3x tot 1,7x bereikt op LLaMA3-serie modellen zonder de oorspronkelijke verdeling van de gegenereerde tekst te wijzigen.
Hoewel keten-van-gedachte-redenering en reinforcement learning (RL) doorbraken hebben veroorzaakt in NLP, blijft hun integratie in generatieve visuele modellen onderbelicht. Wij introduceren ReasonGen-R1, een tweestaps raamwerk dat eerst een autoregressief beeldgenerator voorziet van expliciete tekstgebaseerde "denkvaardigheden" via supervised fine-tuning op een nieuw gegenereerde redeneerdataset van geschreven rationale, en vervolgens de uitvoer verfijnt met Group Relative Policy Optimization. Om het model in staat te stellen via tekst te redeneren voordat het beelden genereert, genereren en publiceren wij automatisch een corpus van model-geproduceerde rationale gepaard met visuele prompts, waardoor gecontroleerde planning van objectlay-outs, stijlen en scènecomposities mogelijk wordt. Ons GRPO-algoritme gebruikt beloningssignalen van een voorgetraind visueel taalmodel om de algehele visuele kwaliteit te beoordelen, waarbij het beleid bij elke update wordt geoptimaliseerd. Evaluaties op GenEval, DPG en de T2I-benchmark tonen aan dat ReasonGen-R1 consistent sterke basislijnen en eerdere state-of-the-art modellen overtreft. Meer: aka.ms/reasongen.
Het doel van dit werk is het verbeteren van gebalanceerde multimodale begrip in audio-visuele grote taalmodellen (AV-LLMs) door het aanpakken van modaliteitsbias zonder extra training te vereisen. In huidige AV-LLMs worden audio- en videokenmerken doorgaans gezamenlijk verwerkt in de decoder. Hoewel deze strategie een verenigd multimodaal begrip bevordert, kan het modaliteitsbias introduceren, waarbij het model de neiging heeft om te veel te leunen op één modaliteit vanwege onevenwichtige trainingssignalen. Om dit te mitigeren, stellen we Fork-Merge Decoding (FMD) voor, een eenvoudige maar effectieve strategie tijdens de inferentie die geen extra training of architectuurwijzigingen vereist. FMD voert eerst modaliteitsspecifieke redenering uit door alleen audio- en alleen video-inputs te verwerken via de vroege decoderlagen (een fork-fase), en voegt vervolgens de resulterende verborgen toestanden samen voor gezamenlijke redenering in de resterende lagen (een merge-fase). Deze aanpak bevordert gebalanceerde bijdragen van modaliteiten en benut complementaire informatie tussen modaliteiten. We evalueren onze methode op twee representatieve AV-LLMs, VideoLLaMA2 en video-SALMONN, met behulp van drie benchmarkdatasets. Experimentele resultaten tonen consistente prestatieverbeteringen aan bij taken gericht op audio, video en gecombineerde audio-visuele redenering, wat de effectiviteit aantoont van interventies tijdens de inferentie voor robuust multimodaal begrip.
We presenteren DexUMI - een raamwerk voor gegevensverzameling en beleidsleren dat de menselijke hand gebruikt als natuurlijke interface om behendige manipulatietechnieken over te dragen naar verschillende robothanden. DexUMI omvat hardware- en softwareaanpassingen om de embodimentkloof tussen de menselijke hand en diverse robothanden te minimaliseren. De hardwareaanpassing overbrugt de kinematische kloof door middel van een draagbaar handexoskelet. Dit maakt directe haptische feedback mogelijk tijdens het verzamelen van manipulatiedata en past menselijke bewegingen aan naar haalbare robothandbewegingen. De softwareaanpassing overbrugt de visuele kloof door de menselijke hand in videodata te vervangen door hoogwaardige robot-handinpainting. We demonstreren de mogelijkheden van DexUMI door middel van uitgebreide experimenten in de echte wereld op twee verschillende hardwareplatforms voor behendige robothanden, waarbij een gemiddelde taaksuccesratio van 86% wordt behaald.
Multimodale grote taalmodellen (MLLMs) hebben opmerkelijke prestaties geleverd bij complexe taken met multimodale context. Het is echter nog steeds onderbelicht of ze een modaliteitsvoorkeur vertonen bij het verwerken van multimodale contexten. Om deze vraag te bestuderen, hebben we eerst een MC\textsuperscript{2}-benchmark ontwikkeld onder gecontroleerde scenario's met tegenstrijdig bewijs om systematisch modaliteitsvoorkeur te evalueren, wat de neiging is om één modaliteit boven een andere te verkiezen bij het nemen van beslissingen op basis van multimodaal tegenstrijdig bewijs. Onze uitgebreide evaluatie toont aan dat alle 18 geteste MLLMs over het algemeen een duidelijke modaliteitsbias vertonen, en dat modaliteitsvoorkeur kan worden beïnvloed door externe interventies. Een diepgaande analyse onthult dat de voorkeursrichting kan worden vastgelegd binnen de latente representaties van MLLMs. Op basis hiervan stellen we een methode voor op basis van representatie-engineering om expliciet modaliteitsvoorkeur te sturen zonder aanvullende fine-tuning of zorgvuldig ontworpen prompts. Onze methode versterkt effectief de modaliteitsvoorkeur in een gewenste richting en is toepasbaar op downstream taken zoals hallucinatiemitigatie en multimodale machinaalvertaling, wat veelbelovende verbeteringen oplevert.
Recente ontwikkelingen in modeldistillatie tonen aan dat gegevens van geavanceerde redeneermodellen (bijv. DeepSeek-R1, OpenAI's o1) complexe redeneervaardigheden effectief kunnen overdragen naar kleinere, efficiënte studentmodellen. Standaardpraktijken maken echter gebruik van afwijzingssteekproeven, waarbij incorrecte redeneringsvoorbeelden worden weggegooid -- waardevolle, maar vaak onderbenutte gegevens. Dit artikel behandelt de kritieke vraag: Hoe kunnen zowel positieve als negatieve gedistilleerde redeneringssporen effectief worden benut om de redeneerprestaties van LLM's in een offline omgeving te maximaliseren? Hiertoe stellen we Reinforcement Distillation (REDI) voor, een raamwerk in twee fasen. Fase 1 leert van positieve sporen via Supervised Fine-Tuning (SFT). Fase 2 verfijnt het model verder met behulp van zowel positieve als negatieve sporen door middel van ons voorgestelde REDI-doel. Dit nieuwe doel is een eenvoudige, referentievrije verliesfunctie die gevestigde methoden zoals DPO en SimPO in deze distillatiecontext overtreft. Onze empirische evaluaties tonen de superioriteit van REDI aan ten opzichte van baseline Rejection Sampling SFT of SFT gecombineerd met DPO/SimPO bij wiskundige redeneertaken. Opmerkelijk is dat het Qwen-REDI-1.5B-model, na-getraind op slechts 131k positieve en negatieve voorbeelden uit de open Open-R1-dataset, een score van 83,1% behaalt op MATH-500 (pass@1). De prestaties komen overeen met of overtreffen die van DeepSeek-R1-Distill-Qwen-1.5B (een model na-getraind op 800k propriëtaire gegevens) op verschillende wiskundige redeneerbenchmarks, waarmee een nieuwe state-of-the-art wordt gevestigd voor 1.5B-modellen die offline zijn na-getraind met openbaar beschikbare gegevens.
Role-Playing Language Agents (RPLAs) hebben als doel personages te simuleren voor realistische en boeiende mens-computerinteracties. Traditionele beloningsmodellen hebben echter vaak moeite met schaalbaarheid en het aanpassen aan subjectieve gespreksvoorkeuren. Wij stellen ChARM voor, een Character-based Act-adaptive Reward Model, dat deze uitdagingen aanpakt via twee innovaties: (1) een act-adaptieve marge die de leer efficiëntie en generaliseerbaarheid aanzienlijk verbetert, en (2) een zelf-evolutiemechanisme dat gebruikmaakt van grootschalige ongelabelde data om de trainingsdekking te verbeteren. Daarnaast introduceren we RoleplayPref, de eerste grootschalige voorkeursdataset specifiek voor RPLAs, met 1.108 personages, 13 subcategorieën en 16.888 tweetalige dialogen, naast RoleplayEval, een toegewijd evaluatiebenchmark. Experimentele resultaten tonen een verbetering van 13% ten opzichte van het conventionele Bradley-Terry-model in voorkeursrangschikkingen. Bovendien behaalt het toepassen van door ChARM gegenereerde beloningen op voorkeursleertechnieken (bijvoorbeeld direct preference optimization) state-of-the-art resultaten op CharacterEval en RoleplayEval. Code en dataset zijn beschikbaar op https://github.com/calubkk/ChARM.
Grote Taalmodellen (LLM's) tonen een opmerkelijke capaciteit voor het aannemen van persona's en het deelnemen aan rollenspellen. Het evalueren van deze vaardigheid brengt echter aanzienlijke uitdagingen met zich mee, aangezien menselijke beoordelingen arbeidsintensief zijn en geautomatiseerde evaluaties bevooroordeeld kunnen zijn. Om dit aan te pakken, introduceren we Role-Playing Eval (RPEval), een nieuwe benchmark die is ontworpen om de rollenspelvaardigheden van LLM's te beoordelen op vier belangrijke dimensies: emotioneel begrip, besluitvorming, morele afstemming en consistentie in karakter. Dit artikel beschrijft de opbouw van RPEval en presenteert basislijn-evaluaties. Onze code en dataset zijn beschikbaar op https://github.com/yelboudouri/RPEval.
Grote Taalmodellen (LLMs) zoals GPT-4o kunnen een breed scala aan complexe taken aan met de juiste prompt. Naarmate de tokenkosten worden verlaagd, zijn de voordelen van het finetunen van Kleine Taalmodellen (SLMs) voor real-world toepassingen — snellere inferentie, lagere kosten — mogelijk niet langer duidelijk. In dit werk presenteren we bewijs dat, voor domeinspecifieke taken die gestructureerde outputs vereisen, SLMs nog steeds een kwaliteitsvoordeel hebben. We vergelijken het finetunen van een SLM met het prompten van LLMs voor de taak van het genereren van low-code workflows in JSON-formaat. We observeren dat, hoewel een goede prompt redelijke resultaten kan opleveren, finetunen de kwaliteit gemiddeld met 10% verbetert. We voeren ook een systematische foutenanalyse uit om de beperkingen van de modellen te onthullen.
Hoewel schaalwetten een transformatie hebben teweeggebracht in natuurlijke taalverwerking en computervisie, heeft het begrip van 3D-puntenwolken dat stadium nog niet bereikt. Dit kan worden toegeschreven aan zowel de relatief kleinere schaal van 3D-datasets als aan de uiteenlopende bronnen van de data zelf. Puntenwolken worden vastgelegd door diverse sensoren (bijvoorbeeld dieptecamera's, LiDAR) in verschillende domeinen (bijvoorbeeld binnen, buiten), elk met unieke scanpatronen, bemonsteringsdichtheden en semantische vooroordelen. Deze domeinheterogeniteit vormt een grote belemmering voor het trainen van uniforme modellen op grote schaal, vooral onder de realistische beperking dat domeinlabels tijdens de inferentie meestal niet toegankelijk zijn. In dit werk stellen we Point-MoE voor, een Mixture-of-Experts-architectuur die is ontworpen om grootschalige, domeinoverschrijdende generalisatie in 3D-perceptie mogelijk te maken. We laten zien dat standaard backbones voor puntenwolken aanzienlijk in prestaties achteruitgaan wanneer ze worden getraind op gemengde domeindata, terwijl Point-MoE met een eenvoudige top-k-routeringsstrategie experts automatisch kan specialiseren, zelfs zonder toegang tot domeinlabels. Onze experimenten tonen aan dat Point-MoE niet alleen sterke multi-domein-baselines overtreft, maar ook beter generaliseert naar onbekende domeinen. Dit werk belicht een schaalbare weg voorwaarts voor 3D-begrip: het model zelf structuur laten ontdekken in diverse 3D-data, in plaats van deze op te leggen via handmatige curatie of domeinsupervisie.
In een tijdperk van exponentiële wetenschappelijke groei is het identificeren van nieuwe onderzoeksideeën cruciaal maar uitdagend in de academische wereld. Ondanks het potentieel belemmert het ontbreken van een geschikte benchmarkdataset het onderzoek naar nieuwheidsdetectie. Belangrijker nog, het simpelweg toepassen van bestaande NLP-technologieën, zoals het ophalen en vervolgens kruisverifiëren, is geen universele oplossing vanwege de kloof tussen tekstuele gelijkenis en ideeconceptie. In dit artikel stellen we voor om grote taalmmodellen (LLMs) in te zetten voor wetenschappelijke nieuwheidsdetectie (ND), in combinatie met twee nieuwe datasets in de domeinen marketing en NLP. Om zorgvuldige datasets voor ND te construeren, stellen we voor om sluitingssets van artikelen te extraheren op basis van hun relatie, en vervolgens hun belangrijkste ideeën samen te vatten op basis van LLMs. Om ideeconceptie vast te leggen, stellen we voor om een lichtgewicht retriever te trainen door idee-niveau kennis uit LLMs te destilleren, om ideeën met vergelijkbare conceptie uit te lijnen, waardoor efficiënte en accurate idee-retrieval voor LLM-nieuwheidsdetectie mogelijk wordt. Experimenten tonen aan dat onze methode consistent beter presteert dan andere op de voorgestelde benchmarkdatasets voor idee-retrieval en ND-taken. Codes en data zijn beschikbaar op https://anonymous.4open.science/r/NoveltyDetection-10FB/.
Recente vooruitgang in testtijdoptimalisatie heeft geleid tot opmerkelijke redeneervaardigheden in Large Language Models (LLM's), waardoor ze zeer complexe problemen in wiskunde en codering kunnen oplossen. De redeneervaardigheden van multimodale LLM's (MLLM's) blijven echter aanzienlijk achter, vooral voor complexe video-taaltaken. Om dit probleem aan te pakken, presenteren we SiLVR, een eenvoudig taalgebaseerd videoredeneerframework dat complexe videobegrip opsplitst in twee fasen. In de eerste fase transformeert SiLVR ruwe video in taalgebaseerde representaties met behulp van multisensorische inputs, zoals korte clipbeschrijvingen en audio/spraakondertitels. In de tweede fase worden taal beschrijvingen ingevoerd in een krachtige redeneer-LLM om complexe video-taalbegriptaken op te lossen. Om lange-context multisensorische inputs te verwerken, gebruiken we een adaptief tokenreductieschema, dat dynamisch de temporele granulariteit bepaalt waarmee de tokens worden bemonsterd. Ons eenvoudige, modulaire en trainingsvrije videoredeneerframework behaalt de beste gerapporteerde resultaten op Video-MME (lang), Video-MMMU (begrip), Video-MMLU, CGBench en EgoLife. Bovendien toont onze empirische studie gericht op videoredeneervaardigheden aan dat, ondanks dat ze niet expliciet zijn getraind op video, sterke redeneer-LLM's effectief multisensorische inputinformatie uit video, spraak en audio kunnen aggregeren voor complexe temporele, causale, lange-context en kennisverwervingsredeneertaken in video. Code is beschikbaar op https://github.com/CeeZh/SILVR.
Contrastive Language-Image Pre-training (CLIP) is uitgegroeid tot een fundamenteel model en is toegepast op diverse visuele en multimodale taken. Recente studies geven echter aan dat CLIP tekortschiet in het onderscheiden van gedetailleerde verschillen in afbeeldingen en suboptimale prestaties vertoont bij dichtvoorspellende en visueel-centrische multimodale taken. Daarom richt dit werk zich op het verbeteren van bestaande CLIP-modellen, met als doel zoveel mogelijk visuele details in afbeeldingen vast te leggen. We ontdekken dat een specifiek type generatief model, unCLIP, een geschikt raamwerk biedt om ons doel te bereiken. Specifiek traint unCLIP een afbeeldingsgenerator die is geconditioneerd op de CLIP-afbeeldingsembedding. Met andere woorden, het inverteert de CLIP-afbeeldingsencoder. In vergelijking met discriminerende modellen zoals CLIP, zijn generatieve modellen beter in het vastleggen van afbeeldingsdetails omdat ze zijn getraind om de gegevensverdeling van afbeeldingen te leren. Bovendien komt de conditionele invoerruimte van unCLIP overeen met de oorspronkelijke afbeelding-tekst-embeddingruimte van CLIP. Daarom stellen we voor om unCLIP te inverteren (genaamd un^2CLIP) om het CLIP-model te verbeteren. Op deze manier kan de verbeterde afbeeldingsencoder het vermogen van unCLIP om visuele details vast te leggen overnemen, terwijl tegelijkertijd de uitlijning met de oorspronkelijke tekstencoder behouden blijft. We evalueren onze verbeterde CLIP over diverse taken waarop CLIP is toegepast, waaronder de uitdagende MMVP-VLM-benchmark, de dichtvoorspellende open-vocabulary segmentatietaak en multimodale grote-taalmodeltaken. Experimenten tonen aan dat un^2CLIP de oorspronkelijke CLIP en eerdere CLIP-verbeteringsmethoden aanzienlijk verbetert. Code en modellen zullen beschikbaar zijn op https://github.com/LiYinqi/un2CLIP.
De rol van verborgen eenheden in recurrent neural networks wordt doorgaans gezien als het modelleren van geheugen, waarbij onderzoek zich richt op het verbeteren van informatiebehoud via gating-mechanismen. Een minder verkend perspectief beschouwt verborgen eenheden als actieve deelnemers aan de berekeningen die door het netwerk worden uitgevoerd, in plaats van als passieve geheugenopslag. In dit werk herzien we bi-lineaire operaties, waarbij multiplicatieve interacties tussen verborgen eenheden en invoer-embeddings plaatsvinden. We tonen zowel theoretisch als empirisch aan dat deze een natuurlijke inductieve bias vormen voor het representeren van de evolutie van verborgen toestanden in state tracking-taken. Dit zijn de eenvoudigste taken die vereisen dat verborgen eenheden actief bijdragen aan het gedrag van het netwerk. We laten ook zien dat bi-lineaire staat-updates een natuurlijke hiërarchie vormen die overeenkomt met state tracking-taken van toenemende complexiteit, waarbij populaire lineaire recurrent networks zoals Mamba zich bevinden in het laagste-complexiteitscentrum van die hiërarchie.
Grote taalmodellen (LLMs) hebben opmerkelijke beloften getoond, maar het blijft uitdagend om ze voortdurend te verbeteren via traditionele finetuning, vooral bij het integreren van mogelijkheden van andere gespecialiseerde LLMs. Populaire methoden zoals ensemble en gewichtsmerging vereisen aanzienlijk geheugen en hebben moeite om zich aan te passen aan veranderende data-omgevingen. Recente inspanningen hebben kennis overgedragen van meerdere LLMs naar een enkel doelmodel; echter, ze lijden onder interferentie en verminderde prestaties tussen taken, grotendeels vanwege beperkte flexibiliteit in kandidaatselectie en trainingspijplijnen. Om deze problemen aan te pakken, stellen we een raamwerk voor dat adaptief kennis selecteert en aggregeert uit diverse LLMs om een enkel, sterker model te bouwen, waarbij het hoge geheugenoverhead van ensemble en onflexibele gewichtsmerging wordt vermeden. Specifiek ontwerpen we een adaptief selectienetwerk dat de meest relevante bron-LLMs identificeert op basis van hun scores, waardoor kennisinterferentie wordt verminderd. We stellen verder een dynamische gewogen fusiestrategie voor die rekening houdt met de inherente sterktes van kandidaat-LLMs, samen met een feedback-gestuurde verliesfunctie die voorkomt dat de selector convergeert op een enkele subset van bronnen. Experimentele resultaten tonen aan dat onze methode een stabieler en schaalbaarder kennisaggregatieproces kan mogelijk maken, terwijl kennisinterferentie met tot wel 50% wordt verminderd in vergelijking met bestaande benaderingen. Code is beschikbaar op https://github.com/ZLKong/LLM_Integration.
Grote taalmodellen (LLMs) tonen opmerkelijke belofte voor het democratiseren van geautomatiseerd redeneren door het genereren van formele specificaties. Er bestaat echter een fundamentele spanning: LLMs zijn probabilistisch, terwijl formele verificatie deterministische garanties vereist. Dit artikel behandelt deze epistemologische kloof door uitgebreid onderzoek te doen naar faalmodi en kwantificering van onzekerheid (UQ) in door LLM gegenereerde formele artefacten. Onze systematische evaluatie van vijf toonaangevende LLMs onthult de domeinspecifieke impact van Satisfiability Modulo Theories (SMT) gebaseerde autoformalizatie op nauwkeurigheid (van +34,8% op logische taken tot -44,5% op feitelijke), waarbij bekende UQ-technieken zoals de entropie van tokenkansen er niet in slagen deze fouten te identificeren. We introduceren een probabilistisch contextvrij grammatica (PCFG) raamwerk om LLM-outputs te modelleren, wat resulteert in een verfijnde onzekerheidstaxonomie. We constateren dat onzekerheidssignalen taakafhankelijk zijn (bijv. grammatica-entropie voor logica, AUROC>0,93). Ten slotte maakt een lichtgewicht fusie van deze signalen selectieve verificatie mogelijk, waardoor fouten drastisch worden verminderd (14-100%) met minimale onthouding, wat LLM-gestuurde formalisatie transformeert in een betrouwbare engineeringdiscipline.
Grote Taalmodellen (LLMs) blinken uit in diverse natuurlijke taalverwerkingstaken, maar blijven kwetsbaar voor het genereren van schadelijke inhoud of het misbruikt worden voor kwaadaardige doeleinden. Hoewel veiligheidsuitlijningsdatasets zijn geïntroduceerd om dergelijke risico's te mitigeren door middel van supervised fine-tuning (SFT), bieden deze datasets vaak geen uitgebreide risicodekking. De meeste bestaande datasets richten zich voornamelijk op lexicale diversiteit, terwijl andere cruciale dimensies worden verwaarloosd. Om deze beperking aan te pakken, stellen we een nieuw analysekader voor om systematisch de risicodekking van uitlijningsdatasets te meten over drie essentiële dimensies: Lexicale Diversiteit, Kwaadaardige Intentie en Jailbreak-tactieken. We introduceren verder TRIDENT, een geautomatiseerde pijplijn die gebruikmaakt van persona-gebaseerde, zero-shot LLM-generatie om diverse en uitgebreide instructies te produceren die deze dimensies bestrijken. Elke schadelijke instructie wordt gekoppeld aan een ethisch uitgelijnd antwoord, wat resulteert in twee datasets: TRIDENT-Core, bestaande uit 26.311 voorbeelden, en TRIDENT-Edge, met 18.773 voorbeelden. Het fine-tunen van Llama 3.1-8B op TRIDENT-Edge toont aanzienlijke verbeteringen, met een gemiddelde reductie van 14,29% in de Harm Score en een afname van 20% in het aanvalssuccespercentage vergeleken met het best presterende baseline-model dat is gefinetuned op de WildBreak-dataset.
De opkomende mogelijkheden van grote taalmodellen (LLMs) hebben zorgen gewekt over hun directe potentieel voor schadelijk misbruik. De kernaanpak om deze zorgen te verminderen is het detecteren van schadelijke queries aan het model. Huidige detectiebenaderingen zijn feilbaar en zijn bijzonder kwetsbaar voor aanvallen die gebruikmaken van ongeëvenaarde generalisatie van modelmogelijkheden (bijv. prompts in talen met weinig bronnen of prompts aangeboden in niet-tekstuele modaliteiten zoals afbeeldingen en audio). Om deze uitdaging aan te pakken, stellen we OMNIGUARD voor, een benadering voor het detecteren van schadelijke prompts over talen en modaliteiten heen. Onze benadering (i) identificeert interne representaties van een LLM/MLLM die zijn afgestemd over talen of modaliteiten en gebruikt deze vervolgens (ii) om een taal- of modaliteit-onafhankelijke classifier te bouwen voor het detecteren van schadelijke prompts. OMNIGUARD verbetert de nauwkeurigheid van schadelijke promptclassificatie met 11,57\% ten opzichte van de sterkste baseline in een meertalige omgeving, met 20,44\% voor op afbeeldingen gebaseerde prompts, en stelt een nieuwe SOTA voor op audio gebaseerde prompts. Door embeddings die tijdens generatie worden berekend te hergebruiken, is OMNIGUARD ook zeer efficiënt (ongeveer 120 keer sneller dan de op een na snelste baseline). Code en gegevens zijn beschikbaar op: https://github.com/vsahil/OmniGuard.
AI-agenten worden steeds vaker gebruikt in consumentgerichte toepassingen om te assisteren bij taken zoals productzoekopdrachten, onderhandelingen en transactie-uitvoering. In dit artikel verkennen we een toekomstscenario waarin zowel consumenten als verkopers AI-agenten machtigen om onderhandelingen en transacties volledig te automatiseren. We streven ernaar twee belangrijke vragen te beantwoorden: (1) Verschillen verschillende LLM-agenten in hun vermogen om gunstige deals voor gebruikers te verkrijgen? (2) Welke risico's ontstaan er bij het volledig automatiseren van dealmaking met AI-agenten in consumentenmarkten? Om deze vragen te beantwoorden, ontwikkelen we een experimenteel raamwerk dat de prestaties van verschillende LLM-agenten evalueert in realistische onderhandelings- en transactieomgevingen. Onze bevindingen onthullen dat AI-gemedieerde dealmaking een inherent ongelijk spel is – verschillende agenten behalen aanzienlijk verschillende resultaten voor hun gebruikers. Bovendien kunnen gedragsafwijkingen in LLM's leiden tot financiële verliezen voor zowel consumenten als verkopers, zoals overmatige uitgaven of het accepteren van onredelijke deals. Deze resultaten benadrukken dat hoewel automatisering de efficiëntie kan verbeteren, het ook aanzienlijke risico's met zich meebrengt. Gebruikers moeten voorzichtig zijn bij het delegeren van zakelijke beslissingen aan AI-agenten.
Semantische tekstuele gelijkenis (STS) is een cruciale taak binnen natuurlijke taalverwerking (NLP), die toepassingen mogelijk maakt op het gebied van informatiezoektoepassingen, clustering en het begrijpen van semantische relaties tussen teksten. Onderzoek op dit gebied voor de Arabische taal blijft echter beperkt vanwege het gebrek aan hoogwaardige datasets en vooraf getrainde modellen. Deze schaarste aan bronnen heeft een nauwkeurige evaluatie en vooruitgang van semantische gelijkenis in Arabische teksten belemmerd. Dit artikel introduceert General Arabic Text Embedding (GATE) modellen die state-of-the-art prestaties leveren op de taak van Semantische Tekstuele Gelijkenis binnen de MTEB-benchmark. GATE maakt gebruik van Matryoshka Representation Learning en een hybride verlies-trainingsbenadering met Arabische triplet-datasets voor Natural Language Inference, die essentieel zijn voor het verbeteren van modelprestaties bij taken die een fijnmazig semantisch begrip vereisen. GATE overtreft grotere modellen, waaronder OpenAI, met een prestatieverbetering van 20-25% op STS-benchmarks, waarbij het de unieke semantische nuances van het Arabisch effectief vastlegt.
Een beperking van moderne methoden voor het inbedden van documentretrieval is dat ze doorgaans passages (chunks) uit dezelfde documenten onafhankelijk coderen, waarbij vaak cruciale contextuele informatie uit de rest van het document over het hoofd wordt gezien die de representatie van individuele chunks aanzienlijk zou kunnen verbeteren. In dit werk introduceren we ConTEB (Context-aware Text Embedding Benchmark), een benchmark ontworpen om retrievalmodellen te evalueren op hun vermogen om documentbrede context te benutten. Onze resultaten tonen aan dat state-of-the-art inbeddingsmodellen moeite hebben in retrievalscenario's waar context vereist is. Om deze beperking aan te pakken, stellen we InSeNT (In-sequence Negative Training) voor, een nieuwe contrastieve na-trainingsaanpak die, gecombineerd met late chunking pooling, het leren van contextuele representaties verbetert terwijl de computationele efficiëntie behouden blijft. Onze methode verbetert de retrievalkwaliteit op ConTEB aanzienlijk zonder de prestaties van het basismodel op te offeren. We ontdekken verder dat chunks die met onze methode zijn ingebed, robuuster zijn tegen suboptimale chunkingstrategieën en grotere retrievalscorpusgroottes. We maken alle artefacten openbaar op https://github.com/illuin-tech/contextual-embeddings.
Jurisprudentie Retrieval (LCR), waarbij relevante rechtszaken worden opgehaald op basis van een queryzaak, is een fundamentele taak voor juridische professionals bij onderzoek en besluitvorming. Bestaande studies over LCR kampen echter met twee belangrijke beperkingen. Ten eerste worden ze geëvalueerd op relatief kleinschalige retrievalcorpora (bijv. 100-55K zaken) en gebruiken ze een beperkt scala aan strafrechtelijke querytypen, wat onvoldoende de complexiteit van real-world juridische retrievalscenario's weerspiegelt. Ten tweede leidt hun afhankelijkheid van op embeddings gebaseerde of lexicale matchingmethoden vaak tot beperkte representaties en juridisch irrelevante matches. Om deze problemen aan te pakken, presenteren wij: (1) LEGAR BENCH, de eerste grootschalige Koreaanse LCR-benchmark, die 411 diverse misdaadtypen in queries beslaat over 1,2 miljoen juridische zaken; en (2) LegalSearchLM, een retrievalmodel dat juridische elementen redeneert over de queryzaak en direct inhoud genereert die is verankerd in de doelzaken via constrained decoding. Experimentele resultaten tonen aan dat LegalSearchLM de baselines met 6-20% overtreft op LEGAR BENCH, wat resulteert in state-of-the-art prestaties. Het model toont ook een sterke generalisatie naar out-of-domain zaken, waarbij het naive generatieve modellen die op in-domeindata zijn getraind, met 15% overtreft.
Dit artikel presenteert een uitgebreide analyse van de linguïstische diversiteit in onderzoek naar de veiligheid van grote taalmodelen (LLM's), waarbij de Engelstalige dominantie in dit veld wordt benadrukt. Door een systematische review van bijna 300 publicaties uit de periode 2020–2024 van grote NLP-conferenties en -workshops bij *ACL, identificeren we een aanzienlijke en groeiende taalbarrière in onderzoek naar LLM-veiligheid, waarbij zelfs hoog-resource niet-Engelse talen nauwelijks aandacht krijgen. We constateren verder dat niet-Engelse talen zelden als op zichzelf staande taal worden bestudeerd en dat onderzoek naar Engelse veiligheid slechte praktijken heeft op het gebied van taaldocumentatie. Om toekomstig onderzoek naar meertalige veiligheid te stimuleren, doen we verschillende aanbevelingen op basis van ons onderzoek, en stellen we drie concrete toekomstige richtingen voor op het gebied van veiligheidsevaluatie, generatie van trainingsdata en crosslinguale veiligheidsgeneralizatie. Op basis van ons onderzoek en de voorgestelde richtingen kan het veld robuustere en inclusievere AI-veiligheidspraktijken ontwikkelen voor diverse wereldwijde populaties.