Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren Mutarjim, een compact maar krachtig taalmodel voor bidirectionele Arabisch-Engelse vertaling. Hoewel grootschalige LLM's indrukwekkende vooruitgang hebben geboekt in natuurlijke taalverwerkingstaken, waaronder machinaal vertalen, richten wij ons op kleinere modellen. Gebruikmakend van dit inzicht ontwikkelden we Mutarjim op basis van Kuwain-1.5B, een taalmodel dat is afgestemd op zowel Arabisch als Engels. Ondanks zijn bescheiden formaat overtreft Mutarjim veel grotere modellen op verschillende gevestigde benchmarks, wat wordt bereikt door een geoptimaliseerde tweefasige trainingsaanpak en een zorgvuldig samengesteld, hoogwaardig trainingscorpus. Experimentele resultaten tonen aan dat Mutarjim kan concurreren met modellen die tot 20 keer groter zijn, terwijl de rekenkosten en trainingsvereisten aanzienlijk worden verminderd. We introduceren ook Tarjama-25, een nieuwe benchmark die is ontworpen om beperkingen in bestaande Arabisch-Engelse benchmarkdatasets te overwinnen, zoals domeinbeperktheid, korte zinslengtes en een Engelse-bronbias. Tarjama-25 bestaat uit 5.000 door experts beoordeelde zinparen en beslaat een breed scala aan domeinen, waardoor het een uitgebreider en evenwichtiger evaluatiekader biedt. Opmerkelijk is dat Mutarjim state-of-the-art prestaties behaalt voor de Engelse-naar-Arabische taak in Tarjama-25, waarbij het zelfs aanzienlijk grotere en propriëtaire modellen zoals GPT-4o mini overtreft. We maken Tarjama-25 publiekelijk beschikbaar om toekomstig onderzoek te ondersteunen en de evaluatie van Arabisch-Engelse vertaalsystemen te bevorderen.
De snelle vooruitgang van grote taalmodellen (LLMs) en multimodale LLMs (MLLMs) heeft historisch gezien vertrouwd op modelgerichte schaalvergroting door het aantal parameters te verhogen van miljoenen naar honderden miljarden om prestatieverbeteringen te realiseren. Naarmate we echter de hardwarelimieten van modelgrootte naderen, is het dominante computationele knelpunt fundamenteel verschoven naar de kwadratische kosten van zelf-attentie over lange tokenreeksen, nu gedreven door ultra-lange tekstcontexten, hoogresolutiebeelden en uitgebreide video's. In dit position paper betogen we dat de focus van onderzoek naar efficiënte AI verschuift van modelgerichte compressie naar datagerichte compressie. We positioneren tokencompressie als de nieuwe grens, die de AI-efficiëntie verbetert door het aantal tokens tijdens modeltraining of -inferentie te verminderen. Door middel van een uitgebreide analyse onderzoeken we eerst recente ontwikkelingen in lange-context AI over verschillende domeinen en stellen we een uniform wiskundig kader op voor bestaande model efficiëntiestrategieën, waarbij we aantonen waarom tokencompressie een cruciale paradigmaverschuiving vertegenwoordigt in het aanpakken van lange-context overhead. Vervolgens bespreken we systematisch het onderzoekslandschap van tokencompressie, analyseren we de fundamentele voordelen en identificeren we de overtuigende voordelen in diverse scenario's. Bovendien bieden we een diepgaande analyse van de huidige uitdagingen in tokencompressieonderzoek en schetsen we veelbelovende toekomstige richtingen. Uiteindelijk beoogt ons werk een nieuw perspectief te bieden op AI-efficiëntie, bestaand onderzoek te synthetiseren en innovatieve ontwikkelingen te stimuleren om de uitdagingen aan te pakken die toenemende contextlengtes vormen voor de vooruitgang van de AI-gemeenschap.
Pre-training voorziet tekst-naar-beeld (T2I) modellen van brede wereldkennis, maar dit alleen is vaak onvoldoende om hoge esthetische kwaliteit en uitlijning te bereiken. Daarom is supervised fine-tuning (SFT) cruciaal voor verdere verfijning. De effectiviteit ervan hangt echter sterk af van de kwaliteit van de fine-tuning dataset. Bestaande openbare SFT-datasets richten zich vaak op smalle domeinen (bijv. anime of specifieke kunststijlen), en het creëren van hoogwaardige, algemene SFT-datasets blijft een aanzienlijke uitdaging. Huidige curatiemethoden zijn vaak kostbaar en hebben moeite om echt impactvolle samples te identificeren. Deze uitdaging wordt verder bemoeilijkt door de schaarste aan openbare, algemene datasets, aangezien toonaangevende modellen vaak vertrouwen op grote, propriëtaire en slecht gedocumenteerde interne data, wat breder onderzoeksvooruitgang belemmert. Dit artikel introduceert een nieuwe methodologie voor het creëren van algemene SFT-datasets door gebruik te maken van een vooraf getraind generatief model als schatter van hoogwaardige trainingssamples. We passen deze methodologie toe om Alchemist te construeren en vrij te geven, een compacte (3.350 samples) maar zeer effectieve SFT-dataset. Experimenten tonen aan dat Alchemist de generatieve kwaliteit van vijf openbare T2I-modellen aanzienlijk verbetert, terwijl diversiteit en stijl behouden blijven. Daarnaast geven we de gewichten van de fine-tuned modellen vrij aan het publiek.
Grote taalmodellen blinken uit in algemene taken, maar het beoordelen van hun betrouwbaarheid in logica-intensieve, precisie-kritieke domeinen zoals financiën, recht en gezondheidszorg blijft een uitdaging. Om dit aan te pakken, introduceren we BizFinBench, de eerste benchmark die specifiek is ontworpen om taalmodellen te evalueren in real-world financiële toepassingen. BizFinBench bestaat uit 6.781 goed geannoteerde queries in het Chinees, verdeeld over vijf dimensies: numerieke berekening, redenering, informatie-extractie, voorspellingsherkenning en kennisgebaseerde vraagbeantwoording, gegroepeerd in negen fijnmazige categorieën. De benchmark omvat zowel objectieve als subjectieve metrieken. We introduceren ook IteraJudge, een nieuwe evaluatiemethode voor taalmodellen die bias vermindert wanneer taalmodellen als beoordelaars dienen in objectieve metrieken. We evalueren 25 modellen, waaronder zowel propriëtaire als open-source systemen. Uitgebreide experimenten tonen aan dat geen enkel model domineert over alle taken. Onze evaluatie onthult duidelijke capaciteitspatronen: (1) In Numerieke Berekening leiden Claude-3.5-Sonnet (63.18) en DeepSeek-R1 (64.04), terwijl kleinere modellen zoals Qwen2.5-VL-3B (15.92) aanzienlijk achterblijven; (2) In Redenering domineren propriëtaire modellen (ChatGPT-o3: 83.58, Gemini-2.0-Flash: 81.15), met open-source modellen die tot 19.49 punten achterlopen; (3) In Informatie-extractie is de prestatieverspreiding het grootst, met DeepSeek-R1 die 71.46 scoort, terwijl Qwen3-1.7B 11.23 scoort; (4) In Voorspellingsherkenning is de prestatievariatie minimaal, met topmodellen die scoren tussen 39.16 en 50.00. We constateren dat hoewel huidige taalmodellen routinematige financiële queries competent afhandelen, ze moeite hebben met complexe scenario's die kruisconcept-redenering vereisen. BizFinBench biedt een rigoureuze, bedrijfsgerichte benchmark voor toekomstig onderzoek. De code en dataset zijn beschikbaar op https://github.com/HiThink-Research/BizFinBench.
Geïncarneerde agenten, aangedreven door grote taalmodellen (LLMs), hebben sterke prestaties getoond in taken voor het herschikken van huishoudelijke objecten. Deze taken richten zich echter voornamelijk op enkelvoudige interacties met vereenvoudigde instructies, wat niet echt de uitdagingen weerspiegelt van het bieden van zinvolle ondersteuning aan gebruikers. Om gepersonaliseerde ondersteuning te bieden, moeten geïncarneerde agenten de unieke semantiek begrijpen die gebruikers toekennen aan de fysieke wereld (bijv. favoriete mok, ontbijtroutine) door gebruik te maken van eerdere interactiegeschiedenis om dynamische, real-world instructies te interpreteren. Desalniettemin blijft de effectiviteit van geïncarneerde agenten in het benutten van geheugen voor gepersonaliseerde ondersteuning grotendeels onderbelicht. Om deze kloof te dichten, presenteren we MEMENTO, een evaluatieraamwerk voor gepersonaliseerde geïncarneerde agenten dat is ontworpen om het vermogen om geheugen te benutten voor gepersonaliseerde ondersteuning uitgebreid te beoordelen. Ons raamwerk bestaat uit een ontwerp van een tweestaps geheugenevaluatieproces dat het mogelijk maakt om de impact van geheugengebruik op taakprestaties te kwantificeren. Dit proces maakt de evaluatie mogelijk van het begrip van agenten van gepersonaliseerde kennis in taken voor het herschikken van objecten door te focussen op de rol ervan in doelinterpretatie: (1) het vermogen om doelobjecten te identificeren op basis van persoonlijke betekenis (objectsemantiek), en (2) het vermogen om object-locatieconfiguraties af te leiden uit consistente gebruikerspatronen, zoals routines (gebruikerspatronen). Onze experimenten met verschillende LLMs onthullen aanzienlijke beperkingen in het gebruik van geheugen, waarbij zelfs frontier-modellen zoals GPT-4o een prestatieverlies van 30,5% ervaren wanneer ze meerdere herinneringen moeten raadplegen, met name in taken die gebruikerspatronen betreffen. Deze bevindingen, samen met onze gedetailleerde analyses en casestudies, bieden waardevolle inzichten voor toekomstig onderzoek naar de ontwikkeling van effectievere gepersonaliseerde geïncarneerde agenten. Projectwebsite: https://connoriginal.github.io/MEMENTO
Huidige grote-taalmodellen (LLM's) hanteren doorgaans een vaste redeneerstrategie, ofwel eenvoudig of complex, voor alle vragen, ongeacht hun moeilijkheidsgraad. Dit gebrek aan variatie in taak- en redeneerprocescomplexiteit leidt tot een onevenwicht tussen prestaties en efficiëntie. Bestaande methoden proberen een trainingsvrij snel-langzaam denksysteem te implementeren om problemen van verschillende moeilijkheidsgraden aan te pakken, maar worden beperkt door grove, oplossingsniveau strategieaanpassingen. Om dit probleem aan te pakken, stellen we een nieuw redeneerparadigma voor: Procesniveau Adaptieve Denkmoduswisseling (PATS), waarmee LLM's hun redeneerstrategie dynamisch kunnen aanpassen op basis van de moeilijkheidsgraad van elke stap, waardoor de balans tussen nauwkeurigheid en rekenkundige efficiëntie wordt geoptimaliseerd. Onze aanpak integreert Proces Beloningsmodellen (PRM's) met Beam Search, waarbij progressieve moduswisseling en strafmechanismen voor slechte stappen worden opgenomen. Experimenten op diverse wiskundige benchmarks tonen aan dat onze methodologie hoge nauwkeurigheid bereikt terwijl het tokengebruik matig blijft. Deze studie benadrukt het belang van procesniveau, moeilijkheidsgraadbewuste redeneerstrategie-aanpassing, en biedt waardevolle inzichten in efficiënte inferentie voor LLM's.
Hoewel grote redeneermodellen sterke prestaties laten zien bij complexe taken, missen ze het vermogen om het gebruik van redeneertokens aan te passen op basis van de taakmoeilijkheid. Dit leidt vaak tot het "overdenken"-probleem — overmatig en onnodig redeneren — wat, hoewel mogelijk beperkt door menselijk ingrijpen om het tokenbudget te beheersen, nog steeds fundamenteel in tegenspraak is met het doel om volledig autonome AI te bereiken. In dit werk stellen we het Adaptive Reasoning Model (ARM) voor, een redeneermodel dat in staat is om adaptief geschikte redeneerformats te selecteren op basis van de taak. Deze formats omvatten drie efficiënte — Direct Antwoord, Korte CoT en Code — evenals een uitgebreider format, Lange CoT. Om ARM te trainen, introduceren we Ada-GRPO, een aanpassing van Group Relative Policy Optimization (GRPO), die het format-collapse-probleem in traditionele GRPO aanpakt. Ada-GRPO stelt ARM in staat om een hoge tokenefficiëntie te bereiken, waarbij tokens gemiddeld met 30% en tot wel 70% worden verminderd, terwijl de prestaties vergelijkbaar blijven met het model dat uitsluitend op Lange CoT vertrouwt. Bovendien verbetert het niet alleen de inferentie-efficiëntie door verminderde token-generatie, maar brengt het ook een 2x versnelling in de training. Naast de standaard Adaptieve Modus ondersteunt ARM twee aanvullende redeneermodi: 1) Instructie-Gestuurde Modus, waarmee gebruikers expliciet het redeneerformat kunnen specificeren via speciale tokens — ideaal wanneer het geschikte format bekend is voor een batch taken. 2) Consensus-Gestuurde Modus, die de uitvoer van de drie efficiënte formats aggregeert en terugvalt op Lange CoT bij onenigheid, waarbij prestaties worden geprioriteerd met hoger tokengebruik.
Grote Taalmodellen (LLMs), zoals OpenAI's o1 en DeepSeek's R1, blinken uit in geavanceerde redeneertaken zoals wiskunde en coderen via Reinforcement Learning met Verifieerbare Beloningen (RLVR), maar hebben nog steeds moeite met puzzels die mensen zonder domeinkennis kunnen oplossen. We introduceren Enigmata, de eerste uitgebreide suite die speciaal is ontworpen om LLMs te verbeteren met puzzelredeneervaardigheden. Het omvat 36 taken in zeven categorieën, elk met 1) een generator die onbeperkt voorbeelden produceert met instelbare moeilijkheidsgraad en 2) een op regels gebaseerde verifier voor automatische evaluatie. Dit generator-verifier ontwerp ondersteunt schaalbare, multi-task RL-training, gedetailleerde analyse en naadloze RLVR-integratie. We stellen verder Enigmata-Eval voor, een rigoureus benchmark, en ontwikkelen geoptimaliseerde multi-task RLVR-strategieën. Ons getrainde model, Qwen2.5-32B-Enigmata, overtreft consistent o3-mini-high en o1 op de puzzelredeneerbenchmarks zoals Enigmata-Eval, ARC-AGI (32,8%) en ARC-AGI 2 (0,6%). Het generaliseert ook goed naar out-of-domain puzzelbenchmarks en wiskundig redeneren, met weinig multi-task trade-off. Wanneer getraind op grotere modellen zoals Seed1.5-Thinking (20B geactiveerde parameters en 200B totale parameters), versterken puzzelgegevens van Enigmata verder de SoTA-prestaties op geavanceerde wiskunde- en STEM-redeneertaken zoals AIME (2024-2025), BeyondAIME en GPQA (Diamond), wat de mooie generalisatievoordelen van Enigmata laat zien. Dit werk biedt een uniform, controleerbaar raamwerk voor het bevorderen van logisch redeneren in LLMs. Bronnen van dit werk zijn te vinden op https://seed-enigmata.github.io.
Wij stellen een nieuw raamwerk voor om de redeneervaardigheden van grote taalmodelen (LLM's) te begrijpen vanuit het perspectief van meta-leren. Door redeneertrajecten te conceptualiseren als pseudo-gradient descent updates van de parameters van het LLM, identificeren we parallellen tussen LLM-redenering en verschillende meta-leren paradigma's. We formaliseren het trainingsproces voor redeneertaken als een meta-leren opzet, waarbij elke vraag wordt behandeld als een individuele taak en redeneertrajecten dienen als de inner loop optimalisatie voor het aanpassen van modelparameters. Eenmaal getraind op een diverse set vragen, ontwikkelt het LLM fundamentele redeneervaardigheden die kunnen generaliseren naar voorheen onbekende vragen. Uitgebreide empirische evaluaties ondersteunen de sterke verbinding tussen LLM-redenering en meta-leren, waarbij verschillende kwesties van significant belang vanuit een meta-leren perspectief worden onderzocht. Ons werk verbetert niet alleen het begrip van LLM-redenering, maar biedt ook praktische inzichten voor het verbeteren van deze modellen via gevestigde meta-leren technieken.
Grote taalmodellen (LLMs) vertonen vaak sterke vooroordelen, bijvoorbeeld tegen vrouwen of in het voordeel van het getal 7. Wij onderzoeken of LLMs in staat zouden zijn om minder bevooroordeelde antwoorden te geven wanneer ze hun eerdere antwoorden op dezelfde vraag in een meerzijdig gesprek mogen observeren. Om te begrijpen welke soorten vragen meer bevooroordeelde antwoorden uitlokken, testen we LLMs op onze voorgestelde set vragen die 9 onderwerpen beslaan en tot drie typen behoren: (1) Subjectief; (2) Willekeurig; en (3) Objectief. Interessant genoeg zijn LLMs in staat om zichzelf te "ontvooroordelen" in een meerzijdig gesprek als reactie op vragen die een willekeurig, onbevooroordeeld antwoord zoeken. Verder stellen we B-score voor, een nieuwe maatstaf die effectief is in het detecteren van vooroordelen bij Subjectieve, Willekeurige, Makkelijke en Moeilijke vragen. Op MMLU, HLE en CSQA verbetert het gebruik van B-score de verificatienauwkeurigheid van LLM-antwoorden (d.w.z., het accepteren van correcte LLM-antwoorden en het afwijzen van incorrecte) aanzienlijk in vergelijking met het gebruik van verbaal uitgedrukte betrouwbaarheidsscores of de frequentie van eenzijdige antwoorden alleen. Code en gegevens zijn beschikbaar op: https://b-score.github.io.
Grote Taalmodellen hebben opmerkelijke successen behaald in taken voor natuurlijke taalverwerking, waarbij Reinforcement Learning een sleutelrol speelt bij het aanpassen ervan aan specifieke toepassingen. Het verkrijgen van grondwaarheid-antwoorden voor het trainen van LLM's in wiskundig probleemoplossen is echter vaak uitdagend, kostbaar en soms onhaalbaar. Dit onderzoek verdiept zich in het gebruik van formaat en lengte als surrogaatsignalen om LLM's te trainen voor wiskundig probleemoplossen, waarbij de noodzaak voor traditionele grondwaarheid-antwoorden wordt omzeild. Onze studie toont aan dat een beloningsfunctie die alleen gericht is op formaatcorrectheid prestatieverbeteringen kan opleveren die vergelijkbaar zijn met het standaard GRPO-algoritme in de vroege fasen. Erkennend de beperkingen van alleen formaatgerichte beloningen in de latere fasen, nemen we lengtegebaseerde beloningen op. De resulterende GRPO-aanpak, die gebruikmaakt van formaat-lengte surrogaatsignalen, overtreft niet alleen de prestaties van het standaard GRPO-algoritme dat afhankelijk is van grondwaarheid-antwoorden in bepaalde scenario's, maar behaalt ook een nauwkeurigheid van 40,0\% op AIME2024 met een 7B-basismodel. Door systematische verkenning en experimentatie biedt dit onderzoek niet alleen een praktische oplossing voor het trainen van LLM's om wiskundige problemen op te lossen en de afhankelijkheid van uitgebreide grondwaarheid-gegevensverzameling te verminderen, maar onthult het ook de essentie van waarom onze labelvrije aanpak slaagt: het basismodel is als een uitstekende student die al wiskundige en logische redeneervaardigheden heeft beheerst, maar slecht presteert op het proefwerk, het hoeft alleen maar goede antwoordgewoonten te ontwikkelen om uitstekende resultaten te behalen in examens, met andere woorden, om de capaciteiten die het al bezit te ontgrendelen.
Het trainen van grote taalmodellen (LLMs) voor complex redeneren via Reinforcement Learning met Verifieerbare Beloningen (RLVR) is effectief, maar wordt beperkt door de afhankelijkheid van kostbaar, domeinspecifiek toezicht. We onderzoeken Reinforcement Learning vanuit Interne Feedback (RLIF), een raamwerk dat LLMs in staat stelt te leren van intrinsieke signalen zonder externe beloningen of gelabelde data. We introduceren Intuitor, een RLIF-methode die het eigen vertrouwen van een model, aangeduid als zelfzekerheid, als enige beloningssignaal gebruikt. Intuitor vervangt externe beloningen in Groepsrelatief Beleidsoptimalisatie (GRPO) door zelfzekerheidsscores, waardoor volledig onbegeleid leren mogelijk wordt. Experimenten tonen aan dat Intuitor de prestaties van GRPO op wiskundige benchmarks evenaart, terwijl het superieure generalisatie bereikt voor taken buiten het domein, zoals codegeneratie, zonder dat gouden oplossingen of testcases nodig zijn. Onze bevindingen laten zien dat intrinsieke modelsignalen effectief leren kunnen stimuleren over verschillende domeinen, wat een schaalbare alternatieve biedt voor RLVR voor autonome AI-systemen waar verifieerbare beloningen niet beschikbaar zijn. Code is beschikbaar op https://github.com/sunblaze-ucb/Intuitor.
Door mensen gegenereerde beloningssignalen zijn cruciaal voor het afstemmen van generatieve modellen op menselijke voorkeuren, en begeleiden zowel de training als de evaluaties tijdens de inferentie. Hoewel grote taalmmodellen (LLM's) die worden ingezet als proxy-evaluatoren, d.w.z. LLM-as-a-Judge, de kosten die gepaard gaan met handmatige annotaties aanzienlijk verminderen, hebben ze doorgaans uitgebreide modalitiespecifieke trainingsdata nodig en slagen ze er niet goed in om te generaliseren over diverse multimodale taken. In dit artikel stellen we Flex-Judge voor, een redeneringsgestuurd multimodaal beoordelingsmodel dat minimale tekstuele redeneringsdata benut om robuust te generaliseren over meerdere modaliteiten en evaluatieformaten. Onze kernintuïtie is dat gestructureerde tekstuele redeneringsverklaringen inherent generaliseerbare besluitvormingspatronen coderen, waardoor een effectieve overdracht naar multimodale beoordelingen mogelijk wordt, bijvoorbeeld met afbeeldingen of video's. Empirische resultaten tonen aan dat Flex-Judge, ondanks dat het getraind is op aanzienlijk minder tekstdata, competitieve of superieure prestaties bereikt in vergelijking met state-of-the-art commerciële API's en uitgebreid getrainde multimodale evaluatoren. Opmerkelijk is dat Flex-Judge een brede impact heeft in modaliteiten zoals moleculen, waar uitgebreide evaluatiebenchmarks schaars zijn, wat het praktische belang ervan in domeinen met beperkte middelen onderstreept. Ons framework benadrukt redeneringsgebaseerde tekstsupervisie als een krachtig, kosteneffectief alternatief voor traditionele annotatie-intensieve benaderingen, wat een aanzienlijke vooruitgang betekent in schaalbare multimodale model-as-a-judge.
Multimodale grote taalmodellen (MLLMs) hebben recentelijk aanzienlijke vooruitgang geboekt in visuele taken, waaronder semantische scèneinterpretatie en tekst-beeldafstemming, waarbij redeneervarianten de prestaties op complexe taken met betrekking tot wiskunde en logica verbeteren. Hun capaciteit voor redeneertaken die fijnmazig visueel begrip vereisen, is echter nog onvoldoende geëvalueerd. Om deze leemte aan te pakken, introduceren we ReasonMap, een benchmark ontworpen om het fijnmazige visuele begrip en ruimtelijke redeneervermogen van MLLMs te beoordelen. ReasonMap omvat hoogwaardige vervoerskaarten van 30 steden in 13 landen en bevat 1.008 vraag-antwoordparen die twee vraagtypen en drie sjablonen beslaan. Bovendien ontwerpen we een tweeledige evaluatiepijplijn die de juistheid en kwaliteit van antwoorden adequaat beoordeelt. Uitgebreide evaluaties van 15 populaire MLLMs, inclusief zowel basis- als redeneervarianten, onthullen een contra-intuïtief patroon: onder open-source modellen presteren basismodellen beter dan redeneermodellen, terwijl het tegenovergestelde wordt waargenomen bij closed-source modellen. Daarnaast verslechtert de prestaties over het algemeen wanneer visuele invoer wordt gemaskeerd, wat aangeeft dat hoewel MLLMs voorkennis kunnen benutten om sommige vragen te beantwoorden, fijnmazige visuele redeneertaken nog steeds echt visueel waarnemingsvermogen vereisen voor sterke prestaties. Onze benchmarkstudie biedt nieuwe inzichten in visueel redeneren en draagt bij aan het onderzoeken van de kloof tussen open-source en closed-source modellen.
Grote taalmodellen (LLMs) hebben potentie getoond in het automatiseren van wetenschappelijke hypothesegeneratie, maar bestaande benaderingen leveren voornamelijk grofkorrelige hypothesen op die kritieke methodologische en experimentele details missen. We introduceren en definiëren formeel de nieuwe taak van fijnkorrelige wetenschappelijke hypotheseontdekking, die het genereren van gedetailleerde, experimenteel uitvoerbare hypothesen vanuit grove initiële onderzoeksrichtingen omvat. We formuleren dit als een combinatorisch optimalisatieprobleem en onderzoeken de bovengrenzen van de capaciteit van LLMs om dit op te lossen wanneer ze maximaal worden benut. Specifiek exploreren we vier fundamentele vragen: (1) hoe het beste gebruik te maken van de interne heuristieken van een LLM om de fijnkorrelige hypothese te formuleren die het zelf als de meest veelbelovende zou beoordelen onder alle mogelijke hypothesen die het zou kunnen genereren, gebaseerd op zijn eigen interne scoring—waarbij een latent beloningslandschap over de hypothese-ruimte wordt gedefinieerd; (2) of dergelijke door LLM-beoordeelde betere hypothesen een sterkere afstemming vertonen met grondwaarheid-hypothesen; (3) of het vormgeven van het beloningslandschap met een ensemble van diverse LLMs van vergelijkbare capaciteit betere resultaten oplevert dan het definiëren ervan met herhaalde instanties van de sterkste LLM onder hen; en (4) of een ensemble van identieke LLMs een betrouwbaarder beloningslandschap biedt dan een enkele LLM. Om deze vragen te beantwoorden, stellen we een hiërarchische zoekmethode voor die stapsgewijs details in de hypothese voorstelt en integreert, waarbij wordt voortgebouwd van algemene concepten naar specifieke experimentele configuraties. We tonen aan dat dit hiërarchische proces het beloningslandschap gladder maakt en effectievere optimalisatie mogelijk maakt. Empirische evaluaties op een nieuwe benchmark van expert-geannoteerde fijnkorrelige hypothesen uit recente chemieliteratuur laten zien dat onze methode consistent sterke basislijnen overtreft.
LLM's hebben indrukwekkende vooruitgang geboekt, maar hun groeiende mogelijkheden maken ze ook kwetsbaar voor zeer flexibele jailbreaking-aanvallen die zijn ontworpen om veiligheidsafstemming te omzeilen. Hoewel veel bestaande verdedigingsmechanismen zich richten op bekende soorten aanvallen, is het belangrijker om LLM's voor te bereiden op onbekende aanvallen die kunnen ontstaan tijdens implementatie. Om dit aan te pakken, stellen we een raamwerk voor levenslange veiligheidsafstemming voor dat LLM's in staat stelt zich continu aan te passen aan nieuwe en evoluerende jailbreaking-strategieën. Ons raamwerk introduceert een competitieve opzet tussen twee componenten: een Meta-Aanvaller, getraind om actief nieuwe jailbreaking-strategieën te ontdekken, en een Verdediger, getraind om deze te weerstaan. Om de Meta-Aanvaller effectief op te warmen, maken we eerst gebruik van de GPT-4o API om belangrijke inzichten te extraheren uit een grote verzameling onderzoeksartikelen over jailbreaking. Door iteratieve training bereikt de Meta-Aanvaller in de eerste iteratie een aanvalssuccespercentage (ASR) van 73% op RR en een overdraagbaar ASR van 57% op LAT met slechts enkele aanvalsbeurten. Ondertussen verbetert de Verdediger geleidelijk zijn robuustheid en reduceert uiteindelijk het succespercentage van de Meta-Aanvaller tot slechts 7%, waardoor een veiligere en betrouwbaardere implementatie van LLM's in open omgevingen mogelijk wordt. De code is beschikbaar op https://github.com/sail-sg/LifelongSafetyAlignment.
Ondanks de dominantie van decoder-only taalmodellen blijven encoders cruciaal voor toepassingen met beperkte middelen. We introduceren ModernGBERT (134M, 1B), een volledig transparante familie van Duitse encodermodellen die vanaf nul zijn getraind, waarbij architectonische innovaties van ModernBERT zijn geïntegreerd. Om de praktische afwegingen van het trainen van encoders vanaf nul te evalueren, presenteren we ook LL\"aMmlein2Vec (120M, 1B, 7B), een familie van encoders die zijn afgeleid van Duitse decoder-only modellen via LLM2Vec. We testen alle modellen op taken voor natuurlijke taalverwerking, tekstembeddingen en redeneren over lange contexten, wat een gecontroleerde vergelijking mogelijk maakt tussen specifieke encoders en geconverteerde decoders. Onze resultaten laten zien dat ModernGBERT 1B zowel qua prestaties als parameter-efficiëntie beter presteert dan eerdere state-of-the-art Duitse encoders en encoders die zijn aangepast via LLM2Vec. Alle modellen, trainingsdata, checkpoints en code zijn publiekelijk beschikbaar, wat de Duitse NLP-ecosysteem vooruithelpt met transparante, hoogwaardige encodermodellen.
Visuele generatie en begrip zijn twee diep met elkaar verbonden aspecten van menselijke intelligentie, maar ze zijn traditioneel behandeld als afzonderlijke taken in machine learning. In dit artikel stellen we Jodi voor, een diffusiekader dat visuele generatie en begrip verenigt door gezamenlijk het beelddomein en meerdere labeldomeinen te modelleren. Specifiek is Jodi gebouwd op een lineaire diffusie-transformer in combinatie met een rolwisselmechanisme, waardoor het drie specifieke soorten taken kan uitvoeren: (1) gezamenlijke generatie, waarbij het model simultaan beelden en meerdere labels genereert; (2) controleerbare generatie, waarbij beelden worden gegenereerd op basis van elke combinatie van labels; en (3) beeldperceptie, waarbij meerdere labels tegelijk kunnen worden voorspeld vanuit een gegeven beeld. Daarnaast presenteren we de Joint-1.6M dataset, die 200.000 hoogwaardige beelden bevat die zijn verzameld uit openbare bronnen, automatisch gegenereerde labels voor 7 visuele domeinen, en door LLM gegenereerde bijschriften. Uitgebreide experimenten tonen aan dat Jodi uitblinkt in zowel generatie- als begriptaken en sterke uitbreidbaarheid vertoont naar een breder scala aan visuele domeinen. Code is beschikbaar op https://github.com/VIPL-GENUN/Jodi.
Naarmate Large Language Models (LLM's) een integraal onderdeel worden van softwareontwikkelingsworkflows, is hun vermogen om gestructureerde outputs te genereren van cruciaal belang geworden. Wij introduceren StructEval, een uitgebreide benchmark voor het evalueren van de capaciteiten van LLM's in het produceren van zowel niet-renderbare (JSON, YAML, CSV) als renderbare (HTML, React, SVG) gestructureerde formaten. In tegenstelling tot eerdere benchmarks, evalueert StructEval systematisch de structurele betrouwbaarheid over diverse formaten via twee paradigma's: 1) generatietaken, waarbij gestructureerde output wordt geproduceerd vanuit natuurlijke taalprompts, en 2) conversietaken, waarbij tussen gestructureerde formaten wordt vertaald. Onze benchmark omvat 18 formaten en 44 soorten taken, met nieuwe metrieken voor formaatnaleving en structurele correctheid. Resultaten tonen significante prestatiekloofjes, waarbij zelfs state-of-the-art modellen zoals o1-mini slechts een gemiddelde score van 75,58 behalen, met open-source alternatieven die ongeveer 10 punten achterblijven. Wij constateren dat generatietaken uitdagender zijn dan conversietaken, en dat het produceren van correcte visuele inhoud moeilijker is dan het genereren van tekstuele structuren.
Langetermijn video-audio redenering en fijnmazige pixelbegrip stellen tegenstrijdige eisen aan omnimodale modellen: dichte temporele dekking vereist veel frames met lage resolutie, terwijl precieze verankering vraagt om inputs met hoge resolutie. Wij pakken deze afweging aan met een tweesysteem- architectuur: een Global Reasoning System selecteert informatieve keyframes en herschrijft de taak tegen lage ruimtelijke kosten, terwijl een Detail Understanding System pixel-niveau verankering uitvoert op de geselecteerde snippets met hoge resolutie. Omdat ``optimale'' keyframe-selectie en herformulering ambigu en moeilijk te superviseren zijn, formuleren we ze als een reinforcement learning (RL) probleem en presenteren we Omni-R1, een end-to-end RL-framework gebouwd op Group Relative Policy Optimization. Omni-R1 traint het Global Reasoning System via hiërarchische beloningen verkregen door online samenwerking met het Detail Understanding System, waarbij slechts één epoch van RL op kleine taakverdelingen nodig is. Experimenten op twee uitdagende benchmarks, namelijk Referring Audio-Visual Segmentation (RefAVS) en Reasoning Video Object Segmentation (REVOS), tonen aan dat Omni-R1 niet alleen sterke supervised baselines overtreft, maar ook gespecialiseerde state-of-the-art modellen overtreft, terwijl het de generalisatie buiten het domein aanzienlijk verbetert en multimodale hallucinatie vermindert. Onze resultaten demonstreren de eerste succesvolle toepassing van RL op grootschalige omnimodale redenering en belichten een schaalbare weg naar universele foundation modellen.
We presenteren REARANK, een lijstgewijs redeneerend herrangschikkingsagent gebaseerd op een groot taalmodel (LLM). REARANK redeneert expliciet voordat het herrangschikt, wat zowel de prestaties als de interpreteerbaarheid aanzienlijk verbetert. Door gebruik te maken van reinforcement learning en data-augmentatie behaalt REARANK aanzienlijke verbeteringen ten opzichte van baseline-modellen op populaire informatiezoekbenchmarks, waarbij opvallend genoeg slechts 179 geannoteerde voorbeelden nodig zijn. Gebouwd op Qwen2.5-7B, toont onze REARANK-7B prestaties die vergelijkbaar zijn met GPT-4 op zowel domein-specifieke als domein-overstijgende benchmarks en overtreft zelfs GPT-4 op redeneerintensieve BRIGHT-benchmarks. Deze resultaten onderstrepen de effectiviteit van onze aanpak en benadrukken hoe reinforcement learning de redeneervaardigheden van LLM's kan verbeteren bij herrangschikking.
In 2025, op een cruciaal moment in de zoektocht naar Artificial General Intelligence (AGI), heeft reinforcement fine-tuning (RFT) aanzienlijk potentieel getoond in het verbeteren van de redeneervaardigheid van grote taalmodelen (LLMs) en heeft het geleid tot de ontwikkeling van geavanceerde AI-modellen zoals OpenAI-o1 en DeepSeek-R1. Bovendien heeft de efficiënte toepassing van RFT om de redeneervaardigheid van multimodale grote taalmodelen (MLLMs) te verbeteren, brede aandacht van de gemeenschap getrokken. In dit position paper beargumenteren we dat reinforcement fine-tuning de redeneervaardigheid van multimodale grote taalmodelen versterkt. Om te beginnen bieden we een gedetailleerde introductie van de fundamentele achtergrondkennis waar onderzoekers die in dit veld geïnteresseerd zijn, vertrouwd mee zouden moeten zijn. Verder vatten we zorgvuldig de verbeteringen van RFT in het versterken van de redeneervaardigheid van MLLMs samen in vijf belangrijke punten: diverse modaliteiten, diverse taken en domeinen, betere trainingsalgoritmen, overvloedige benchmarks en bloeiende technische frameworks. Tot slot stellen we vijf veelbelovende onderzoeksrichtingen voor die de gemeenschap zou kunnen overwegen. We hopen dat dit position paper waardevolle inzichten zal bieden aan de gemeenschap in dit cruciale stadium van de vooruitgang naar AGI. Een samenvatting van uitgevoerd werk over RFT voor MLLMs is beschikbaar op https://github.com/Sun-Haoyuan23/Awesome-RL-based-Reasoning-MLLMs.
Discrete diffusie is recentelijk naar voren gekomen als een veelbelovend paradigma in het modelleren van discrete data. Bestaande methoden vertrouwen echter meestal op een vaste overgangsmatrix tijdens de training, wat niet alleen de expressiviteit van latente representaties beperkt, een fundamentele kracht van variationale methoden, maar ook de algehele ontwerpruimte beperkt. Om deze beperkingen aan te pakken, stellen we Discrete Markov Bridge voor, een nieuw raamwerk specifiek ontworpen voor het leren van discrete representaties. Onze aanpak is gebouwd op twee belangrijke componenten: Matrix Learning en Score Learning. We voeren een grondige theoretische analyse uit, waarbij we formele prestatiegaranties vaststellen voor Matrix Learning en de convergentie van het algehele raamwerk bewijzen. Daarnaast analyseren we de ruimtecomplexiteit van onze methode, waarbij we praktische beperkingen aanpakken die in eerdere studies zijn geïdentificeerd. Uitgebreide empirische evaluaties valideren de effectiviteit van de voorgestelde Discrete Markov Bridge, die een Evidence Lower Bound (ELBO) van 1,38 behaalt op de Text8-dataset, waarmee gevestigde baselines worden overtroffen. Bovendien toont het voorgestelde model competitieve prestaties op de CIFAR-10-dataset, met resultaten die vergelijkbaar zijn met die behaald door beeld-specifieke generatiebenaderingen.
We stellen een neuraal fysica-systeem voor voor real-time, interactieve vloeistofsimulaties. Traditionele, op fysica gebaseerde methoden zijn weliswaar nauwkeurig, maar rekenintensief en kampen met latentieproblemen. Recente machine-learningmethoden verminderen de rekenkosten terwijl ze de nauwkeurigheid behouden; toch voldoen de meeste nog steeds niet aan de latentie-eisen voor real-time gebruik en ontbreekt het aan ondersteuning voor interactieve toepassingen. Om deze kloof te overbruggen, introduceren we een nieuwe hybride methode die numerieke simulatie, neurale fysica en generatieve controle integreert. Onze neurale fysica streeft tegelijkertijd naar simulaties met lage latentie en hoge fysieke nauwkeurigheid door een terugvalveiligheid in te bouwen naar klassieke numerieke oplossers. Bovendien ontwikkelen we een op diffusie gebaseerde controller die wordt getraind met een omgekeerde modelleerstrategie om externe dynamische krachtvelden te genereren voor vloeistofmanipulatie. Ons systeem toont robuuste prestaties in diverse 2D/3D-scenario's, materiaaltypen en interacties met obstakels, waarbij real-time simulaties worden bereikt met hoge frame rates (11~29% latentie) en tegelijkertijd vloeistofcontrole mogelijk wordt gemaakt die wordt gestuurd door gebruiksvriendelijke vrijehandschetsen. We presenteren een belangrijke stap in de richting van praktische, controleerbare en fysisch plausibele vloeistofsimulaties voor real-time interactieve toepassingen. We beloven zowel de modellen als de data vrij te geven na acceptatie.
Grote taalmodellen (LLMs) hebben opmerkelijke redeneervaardigheden getoond in wiskunde en codering, vaak versterkt door post-training op de ketens van gedachten (CoTs) die door sterkere modellen zijn gegenereerd. Bestaande strategieën voor het samenstellen van dergelijke trainingsgegevens zijn echter voornamelijk gebaseerd op heuristieken, wat de generaliseerbaarheid beperkt en de subtiliteiten in de gegevens niet voldoende vastlegt. Om deze beperkingen aan te pakken, maken we gebruik van invloedsfuncties om de redeneervaardigheid van LLMs op wiskunde en codering systematisch toe te schrijven aan individuele trainingsvoorbeelden, sequenties en tokens, waardoor diepere inzichten worden verkregen in effectieve gegevenskenmerken. Onze Influence-based Reasoning Attribution (Infra) onthult niet-triviale cross-domeineffecten tussen wiskunde- en coderings taken: voorbeelden met een hoge moeilijkheidsgraad in wiskunde verbeteren zowel het wiskundige als het coderingsredeneren, terwijl taken met een lage moeilijkheidsgraad in codering het meest effectief zijn voor het verbeteren van coderingsredeneren. Op basis van deze bevindingen introduceren we een eenvoudige maar effectieve strategie voor het herwegen van datasets door de taakmoeilijkheid om te keren, wat de nauwkeurigheid van AIME24 verdubbelt van 10\% naar 20\% en de nauwkeurigheid van LiveCodeBench verhoogt van 33.8\% naar 35.3\% voor Qwen2.5-7B-Instruct. Bovendien onthult onze fijnmazige attributie dat de sequentie-niveau verkennende gedragingen de redeneerprestaties in zowel wiskunde als codering verbeteren, en dat de token-niveau invloedspatronen verschillend zijn voor wiskundig en coderingsredeneren: het eerste geeft de voorkeur aan logische verbindingswoorden in natuurlijke taal, terwijl het laatste de nadruk legt op structurele syntaxis.
Moderne grote redeneermodellen tonen indrukwekkende probleemoplossende vaardigheden door geavanceerde redeneerstrategieën te gebruiken. Ze hebben echter vaak moeite om efficiëntie en effectiviteit in balans te brengen, waarbij ze onnodig lange redeneerketens genereren voor eenvoudige problemen. In dit werk stellen we AdaCtrl voor, een nieuw framework dat zowel moeilijkheidsbewuste adaptieve toewijzing van redeneerbudgetten ondersteunt als expliciete gebruikerscontrole over de redeneerdiepte. AdaCtrl past dynamisch de redeneerlengte aan op basis van zelfingeschatte probleemmoeilijkheid, terwijl het gebruikers ook in staat stelt handmatig het budget te beheren om prioriteit te geven aan efficiëntie of effectiviteit. Dit wordt bereikt via een tweefasig trainingspijplijn: een initiële cold-start fine-tuningfase om het vermogen tot zelfbewuste moeilijkheidsinschatting en budgetaanpassing aan te leren, gevolgd door een moeilijkheidsbewuste reinforcement learning (RL)-fase die de adaptieve redeneerstrategieën van het model verfijnt en zijn moeilijkheidsbeoordelingen kalibreert op basis van zijn evoluerende mogelijkheden tijdens online training. Om intuïtieve gebruikersinteractie mogelijk te maken, ontwerpen we expliciete lengte-geactiveerde tags die fungeren als een natuurlijke interface voor budgetcontrole. Empirische resultaten tonen aan dat AdaCtrl de redeneerlengte aanpast op basis van geschatte moeilijkheid. Vergeleken met de standaard trainingsbaseline die ook fine-tuning en RL omvat, levert het prestatieverbeteringen op en reduceert het tegelijkertijd de responslengte met 10,06% en 12,14% op de uitdagendere AIME2024- en AIME2025-datasets, die uitgebreid redeneren vereisen, en met 62,05% en 91,04% op de MATH500- en GSM8K-datasets, waar meer beknopte antwoorden voldoende zijn. Bovendien stelt AdaCtrl gebruikers in staat om precieze controle uit te oefenen over het redeneerbudget, waardoor op maat gemaakte antwoorden mogelijk zijn om aan specifieke behoeften te voldoen.
Dit overzicht presenteert een uitgebreide analyse van twee opkomende paradigma's in AI-ondersteunde softwareontwikkeling: vibe coding en agentic coding. Hoewel beide gebruikmaken van grote taalmodellen (LLM's), verschillen ze fundamenteel in autonomie, architectuurontwerp en de rol van de ontwikkelaar. Vibe coding benadrukt intuïtieve, mens-in-de-lus interactie via prompt-gebaseerde, conversatiegerichte workflows die ondersteuning bieden bij ideevorming, experimenteren en creatieve verkenning. Daarentegen maakt agentic coding autonome softwareontwikkeling mogelijk via doelgerichte agents die in staat zijn om taken te plannen, uit te voeren, te testen en te itereren met minimale menselijke tussenkomst. We stellen een gedetailleerde taxonomie voor die conceptuele grondslagen, uitvoeringsmodellen, feedbackloops, veiligheidsmechanismen, debugstrategieën en ecosystemen van real-world tools omvat. Door middel van vergelijkende workflowanalyse en 20 gedetailleerde use cases illustreren we hoe vibe-systemen excelleren in vroegtijdige prototyping en educatie, terwijl agentic-systemen uitblinken in enterprise-grade automatisering, refactoring van codebases en CI/CD-integratie. We onderzoeken verder opkomende trends in hybride architecturen, waarbij natuurlijke taalinterfaces worden gekoppeld aan autonome uitvoeringspijplijnen. Tot slot schetsen we een toekomstig roadmap voor agentic AI, waarin de benodigde infrastructuur wordt uiteengezet voor betrouwbare, verklaarbare en collaboratieve systemen. Onze bevindingen suggereren dat succesvolle AI-softwaretechniek niet afhangt van het kiezen van één paradigma, maar van het harmoniseren van hun sterke punten binnen een uniforme, mensgerichte ontwikkelingslevenscyclus.
Lange ketens van redenering (Chain-of-Thought, CoT) verbeteren de redeneervaardigheden van grote taalmodellen (LLM) aanzienlijk. De uitgebreide redeneersporen leiden echter tot inefficiënties en een verhoogde tijd-tot-eerste-token (TTFT). Wij stellen een nieuw trainingsparadigma voor dat gebruikmaakt van reinforcement learning (RL) om redenerende LLM's te begeleiden bij het afwisselen van denken en antwoorden voor meerstapsvragen. We observeren dat modellen van nature de capaciteit hebben om afwisselend te redeneren, wat verder kan worden verbeterd door RL. We introduceren een eenvoudige maar effectieve op regels gebaseerde beloning om correcte tussenstappen te stimuleren, wat het beleidsmodel naar correcte redeneerpaden leidt door gebruik te maken van tussensignalen die worden gegenereerd tijdens afwisselend redeneren. Uitgebreide experimenten uitgevoerd op vijf diverse datasets en drie RL-algoritmen (PPO, GRPO en REINFORCE++) laten consistente verbeteringen zien ten opzichte van traditioneel denken-antwoorden-redeneren, zonder dat externe tools nodig zijn. Specifiek reduceert onze aanpak de TTFT met gemiddeld meer dan 80% en verbetert de Pass@1-nauwkeurigheid met tot 19,3%. Bovendien toont onze methode, die uitsluitend is getraind op vraag-antwoord- en logische redeneerdatasets, een sterke generalisatiecapaciteit naar complexe redeneerdatasets zoals MATH, GPQA en MMLU. Daarnaast voeren we een diepgaande analyse uit die verschillende waardevolle inzichten onthult over conditionele beloningsmodellering.
Data-centrische distillatie, inclusief data-augmentatie, selectie en menging, biedt een veelbelovende weg om kleinere, efficiëntere student Large Language Models (LLMs) te creëren die sterke redeneervaardigheden behouden. Er ontbreekt echter nog een uitgebreide benchmark om het effect van elke distillatiebenadering systematisch te beoordelen. Dit artikel introduceert DC-CoT, de eerste data-centrische benchmark die data-manipulatie in chain-of-thought (CoT) distillatie onderzoekt vanuit methodologisch, model- en dataperspectief. Door gebruik te maken van verschillende leraarmodellen (bijv. o4-mini, Gemini-Pro, Claude-3.5) en studentarchitecturen (bijv. 3B, 7B parameters), evalueren we rigoureus de impact van deze data-manipulaties op de prestaties van het studentmodel over meerdere redeneerdatasets, met een focus op in-distribution (IID) en out-of-distribution (OOD) generalisatie, en cross-domein transfer. Onze bevindingen hebben als doel om praktische inzichten te bieden en best practices vast te stellen voor het optimaliseren van CoT-distillatie via data-centrische technieken, wat uiteindelijk de ontwikkeling van toegankelijkere en capabelere redeneermodellen vergemakkelijkt. De dataset is te vinden op https://huggingface.co/datasets/rana-shahroz/DC-COT, terwijl onze code gedeeld wordt op https://anonymous.4open.science/r/DC-COT-FF4C/.
Vision-Language Models (VLMs) blinken uit in veel directe multimodale taken, maar hebben moeite om deze vaardigheid om te zetten in effectieve besluitvorming binnen interactieve, visueel rijke omgevingen zoals games. Deze "kennis-handeling"-kloof beperkt hun potentieel als autonome agenten aanzienlijk, aangezien toonaangevende VLMs vaak slecht presteren in eenvoudige games. Om dit aan te pakken, introduceren we VLM-Gym, een zorgvuldig samengestelde reinforcement learning (RL)-omgeving met diverse visuele games met uniforme interfaces en aanpasbare, compositorische moeilijkheidsgraad, specifiek ontworpen voor schaalbare multi-game parallelle training. Met behulp van VLM-Gym trainen we G0-modellen met puur RL-gestuurde zelf-evolutie, die emergente perceptie- en redeneerpatronen demonstreren. Om de uitdagingen die voortkomen uit game-diversiteit verder te mitigeren, ontwikkelen we G1-modellen. G1 integreert een perceptie-verbeterde koude start voorafgaand aan RL-finetuning. Onze resulterende G1-modellen overtreffen consistent hun leermeester in alle games en presteren beter dan toonaangevende propriëtaire modellen zoals Claude-3.7-Sonnet-Thinking. Systematische analyse onthult een intrigerende bevinding: perceptie- en redeneervaardigheden bootsen elkaar wederzijds gedurende het RL-trainingsproces. Broncode inclusief VLM-Gym en RL-training is vrijgegeven op https://github.com/chenllliang/G1 om toekomstig onderzoek te bevorderen in het vooruithelpen van VLMs als capabele interactieve agenten.
Large Reasoning Models (LRMs) worden bekritiseerd vanwege de excessief lange Chain-of-Thought (CoT) die nodig is om het uiteindelijke antwoord af te leiden, wat resulteert in een hoge eerste-token- en algehele latentie. Typisch mengt de CoT van LRMs meerdere denkeenheden; elke eenheid probeert een kandidaat-antwoord op de oorspronkelijke vraag te produceren. Daarom is een natuurlijk idee om de efficiëntie te verbeteren het verminderen van het aantal eenheden. Echter, het feit dat de denkeenheden in de standaard CoT niet expliciet kunnen worden beheerd, maakt dit uitdagend. Dit artikel introduceert Multi-Turn Decomposition (MinD) om de conventionele CoT te decoderen in een reeks expliciete, gestructureerde en beurtgewijze interacties om deze kloof te overbruggen. In MinD geeft het model een meervoudig antwoord op de vraag, waarbij elke beurt een denkeenheid omvat en een corresponderend antwoord oplevert. De daaropvolgende beurten kunnen reflecteren, verifiëren, reviseren of alternatieve benaderingen verkennen voor zowel het denkproces als de antwoorden van eerdere beurten. Dit maakt niet alleen het geleverde antwoord sneller, maar maakt ook expliciete controle mogelijk over het iteratieve redeneerproces (d.w.z., gebruikers kunnen op elk moment stoppen of doorgaan). We volgen een paradigma van supervised fine-tuning (SFT) gevolgd door reinforcement learning (RL) om MinD te realiseren. We herformuleren eerst de uitvoer van een LRM in meervoudige formaten door een andere LLM te prompten, en tunen vervolgens de LRM met dergelijke data. Omdat we opmerken dat het getunede model de neiging heeft nog meer tokens te verbruiken dan het originele model (waarschijnlijk omdat de meervoudige formaten extra antwoordtokens introduceren), pleiten we voor het benutten van RL-algoritmen zoals GRPO om correcte uitvoer met minder beurten te prioriteren. Getraind op de MATH-dataset met behulp van R1-Distill-modellen, kan MinD een reductie van tot ~70% bereiken in zowel het gebruik van uitvoertokens als de tijd tot de eerste token (TTFT), terwijl het competitieve prestaties behoudt op redeneerbenchmarks zoals MATH-500, AIME24, AMC23 en GPQA-Diamond.
Visueel Autoregressief (VAR) modelleren heeft aanzienlijke aandacht gekregen vanwege zijn innovatieve aanpak voor voorspelling op de volgende schaal, wat aanzienlijke verbeteringen oplevert in efficiëntie, schaalbaarheid en zero-shot generalisatie. Desalniettemin resulteert de grof-naar-fijn methodologie die inherent is aan VAR in een exponentiële groei van de KV-cache tijdens inferentie, wat aanzienlijk geheugenverbruik en computationele redundantie veroorzaakt. Om deze knelpunten aan te pakken, introduceren we ScaleKV, een nieuw KV-cachecompressie framework speciaal ontworpen voor VAR-architecturen. ScaleKV maakt gebruik van twee cruciale observaties: variërende cachebehoeften over transformer-lagen en verschillende aandachtspatronen op verschillende schalen. Op basis van deze inzichten categoriseert ScaleKV transformer-lagen in twee functionele groepen: drafters en refiners. Drafters vertonen verspreide aandacht over meerdere schalen, waardoor ze een grotere cachecapaciteit vereisen. Refiners daarentegen richten hun aandacht op de huidige tokenkaart om lokale details te verwerken, waardoor ze aanzienlijk minder cachecapaciteit nodig hebben. ScaleKV optimaliseert de multi-schaal inferentiepijplijn door schaalspecifieke drafters en refiners te identificeren, wat gedifferentieerd cachebeheer mogelijk maakt dat is afgestemd op elke schaal. Evaluatie van de state-of-the-art tekst-naar-beeld VAR-modelfamilie, Infinity, toont aan dat onze aanpak het benodigde KV-cachegeheugen effectief reduceert tot 10% terwijl pixelnauwkeurigheid behouden blijft.
Gesproken taal brengt betekenis over niet alleen door woorden, maar ook door intonatie, emotie en nadruk. Zinsaccent, de nadruk die op specifieke woorden binnen een zin wordt gelegd, is cruciaal voor het overbrengen van de intentie van de spreker en is uitgebreid bestudeerd in de linguïstiek. In dit werk introduceren we WHISTRESS, een aligneringsvrije aanpak om transcriptiesystemen te verbeteren met zinsaccentdetectie. Om deze taak te ondersteunen, stellen we TINYSTRESS-15K voor, een schaalbare, synthetische trainingsdataset voor de taak van zinsaccentdetectie, die het resultaat is van een volledig geautomatiseerd datasetcreatieproces. We trainen WHISTRESS op TINYSTRESS-15K en evalueren het tegen verschillende competitieve baselines. Onze resultaten laten zien dat WHISTRESS bestaande methoden overtreft, terwijl het geen aanvullende invoerprioriteiten vereist tijdens training of inferentie. Opmerkelijk is dat WHISTRESS, ondanks het feit dat het op synthetische data is getraind, sterke zero-shot generalisatie vertoont over diverse benchmarks. Projectpagina: https://pages.cs.huji.ac.il/adiyoss-lab/whistress.
Recente ontwikkelingen in AI-agents hebben hun groeiende potentieel aangetoond om wetenschappelijke ontdekkingen aan te drijven en te ondersteunen. In dit werk introduceren we MLR-Bench, een uitgebreide benchmark voor het evalueren van AI-agents op open-ended machine learning-onderzoek. MLR-Bench omvat drie belangrijke componenten: (1) 201 onderzoeksopdrachten afkomstig van NeurIPS, ICLR en ICML workshops, die diverse ML-onderwerpen bestrijken; (2) MLR-Judge, een geautomatiseerd evaluatieraamwerk dat LLM-gebaseerde reviewers combineert met zorgvuldig ontworpen beoordelingscriteria om de onderzoekskwaliteit te beoordelen; en (3) MLR-Agent, een modulaire agentstructuur die in staat is onderzoeksopdrachten te voltooien via vier fasen: ideeën genereren, voorstel formuleren, experimenteren en paper schrijven. Ons raamwerk ondersteunt zowel stapsgewijze beoordeling over deze verschillende onderzoeksfasen, als end-to-end evaluatie van het uiteindelijke onderzoekspaper. Vervolgens gebruiken we MLR-Bench om zes frontier LLM's en een geavanceerde codeeragent te evalueren, waarbij we vaststellen dat hoewel LLM's effectief zijn in het genereren van samenhangende ideeën en goed gestructureerde papers, huidige codeeragents vaak (bijvoorbeeld in 80% van de gevallen) gefabriceerde of ongeldige experimentele resultaten produceren—wat een grote belemmering vormt voor wetenschappelijke betrouwbaarheid. We valideren MLR-Judge door middel van menselijke evaluatie, waarbij een hoge overeenstemming met expertreviewers wordt aangetoond, wat het potentieel ondersteunt als een schaalbaar hulpmiddel voor onderzoeksevaluatie. We maken MLR-Bench open-source om de gemeenschap te helpen bij het benchmarken, diagnosticeren en verbeteren van AI-onderzoeksagents in de richting van betrouwbare en transparante wetenschappelijke ontdekkingen.
Recente vooruitgang in videogeneratiemodellen heeft interesse gewekt in wereldmodellen die realistische omgevingen kunnen simuleren. Hoewel navigatie uitgebreid is onderzocht, blijven fysiek betekenisvolle interacties die echte wereldkrachten nabootsen grotendeels onderbelicht. In dit werk onderzoeken we het gebruik van fysieke krachten als controlesignaal voor videogeneratie en introduceren we krachtprompts die gebruikers in staat stellen om met afbeeldingen te interacteren via zowel gelokaliseerde puntkrachten, zoals het porren van een plant, als globale windkrachtvelden, zoals wind die op stof blaast. We tonen aan dat deze krachtprompts video's realistisch kunnen laten reageren op fysieke controlesignalen door gebruik te maken van het visuele en bewegingsprior in het oorspronkelijke voorgetrainde model, zonder gebruik te maken van 3D-assets of fysicasimulatoren tijdens de inferentie. De belangrijkste uitdaging van krachtprompting is de moeilijkheid om hoogwaardige gepaarde kracht-video-trainingsdata te verkrijgen, zowel in de echte wereld vanwege de moeilijkheid om krachtsignalen te verkrijgen, als in synthetische data vanwege beperkingen in de visuele kwaliteit en domeindiversiteit van fysicasimulatoren. Onze belangrijkste bevinding is dat videogeneratiemodellen opmerkelijk goed kunnen generaliseren wanneer ze worden aangepast om fysieke krachtconditionering te volgen vanuit video's die zijn gesynthetiseerd door Blender, zelfs met beperkte demonstraties van enkele objecten. Onze methode kan video's genereren die krachten simuleren over diverse geometrieën, omgevingen en materialen. We proberen ook de bron van deze generalisatie te begrijpen en voeren ablatie-onderzoeken uit die twee cruciale elementen onthullen: visuele diversiteit en het gebruik van specifieke tekstzoekwoorden tijdens de training. Onze aanpak wordt getraind op slechts ongeveer 15k trainingsvoorbeelden gedurende één dag op vier A100 GPU's, en overtreft bestaande methoden op het gebied van krachtnaleving en fysicarealisme, waardoor wereldmodellen dichter bij real-world fysica-interacties komen. We maken alle datasets, code, gewichten en interactieve videodemo's beschikbaar op onze projectpagina.
Door te profiteren van visuele encoders die contrastief zijn getraind op grootschalige afbeeldingen van natuurlijke taferelen, hebben Large Multimodal Models (LMMs) opmerkelijke prestaties behaald in diverse visuele perceptietaken. De inherente beperkingen van contrastief leren op basis van samengevatte beschrijvingen beperken echter fundamenteel de mogelijkheden van modellen voor nauwkeurig redeneren, met name in cruciale scenario's van geometrisch probleemoplossen. Om het geometrische begrip te verbeteren, stellen we een nieuw hard negatief contrastief leerkader voor voor de visuele encoder, dat beeldgebaseerd contrastief leren combineert met generatiegebaseerde harde negatieven die worden gecreëerd door het verstoren van diagramgeneratiecode, en tekstgebaseerd contrastief leren met regelgebaseerde negatieven afgeleid van aangepaste geometrische beschrijvingen en retrieval-gebaseerde negatieven geselecteerd op basis van bijschriftgelijkenis. We trainen CLIP met onze sterke negatieve leermethode, genaamd MMCLIP (Multimodal Math CLIP), en trainen vervolgens een LMM voor geometrisch probleemoplossen. Experimenten tonen aan dat ons getrainde model, MMGeoLM, aanzienlijk beter presteert dan andere open-source modellen op drie geometrische redeneerbenchmarks. Zelfs met een grootte van 7B kan het concurreren met krachtige closed-source modellen zoals GPT-4o. We bestuderen verder de impact van verschillende methoden voor het construeren van negatieve voorbeelden en het aantal negatieve voorbeelden op de geometrische redeneerprestaties van LMM, wat vruchtbare conclusies oplevert. De code en dataset zijn beschikbaar op https://github.com/THU-KEG/MMGeoLM.
De toenemende rekenkundige eisen van grote taalmodellen (LLMs) maken efficiënte inferentie- en activatiestrategieën steeds kritischer. Hoewel recente benaderingen, zoals Mixture-of-Experts (MoE), selectieve activatie benutten maar gespecialiseerde training vereisen, bieden trainingsvrije sparse activatiemethoden een bredere toepasbaarheid en superieure resource-efficiëntie dankzij hun plug-and-play ontwerp. Veel bestaande methoden vertrouwen echter uitsluitend op de grootte van verborgen toestanden om activatie te bepalen, wat resulteert in hoge benaderingsfouten en suboptimale inferentienauwkeurigheid. Om deze beperkingen aan te pakken, stellen we WINA (Weight Informed Neuron Activation) voor, een nieuw, eenvoudig en trainingsvrij sparse activatieraamwerk dat zowel de grootte van verborgen toestanden als de kolomsgewijze ell_2-normen van gewichtsmatrices gezamenlijk in overweging neemt. We tonen aan dat dit leidt tot een sparsificatiestrategie die optimale benaderingsfoutgrenzen verkrijgt met theoretische garanties die strakker zijn dan bestaande technieken. Empirisch presteert WINA ook beter dan state-of-the-art methoden (bijv. TEAL) met tot wel 2,94% gemiddeld betere prestaties bij dezelfde sparsiteitsniveaus, over een diverse set van LLM-architecturen en datasets. Deze resultaten positioneren WINA als een nieuwe prestatiegrens voor trainingsvrije sparse activatie in LLM-inferentie, wat trainingsvrije sparse activatiemethoden vooruithelpt en een robuuste basis legt voor efficiënte inferentie. De broncode is beschikbaar op https://github.com/microsoft/wina.
Dit artikel introduceert InfantAgent-Next, een generalistisch agent die in staat is om op een multimodale manier met computers te interacteren, waarbij tekst, afbeeldingen, audio en video worden omvat. In tegenstelling tot bestaande benaderingen die ofwel ingewikkelde workflows rond een enkel groot model bouwen of alleen workflowmodulariteit bieden, integreert onze agent tool-gebaseerde en puur visuele agents binnen een zeer modulaire architectuur, waardoor verschillende modellen samen kunnen werken om ontkoppelde taken stap voor stap op te lossen. Onze veelzijdigheid wordt gedemonstreerd door onze mogelijkheid om niet alleen puur visueel gebaseerde real-world benchmarks (d.w.z., OSWorld) te evalueren, maar ook meer algemene of tool-intensieve benchmarks (bijv., GAIA en SWE-Bench). Specifiek behalen we een nauwkeurigheid van 7,27% op OSWorld, wat hoger is dan Claude-Computer-Use. Codes en evaluatiescripts zijn open-source beschikbaar op https://github.com/bin123apple/InfantAgent.
Multimodale Large Language Models (MLLMs) hebben opmerkelijke capaciteiten getoond bij diverse taken, maar ze blijven aanzienlijk achter bij mensen op het gebied van ruimtelijk redeneren. Wij onderzoeken deze kloof via Transformation-Driven Visual Reasoning (TVR), een uitdagende taak die het identificeren van objecttransformaties tussen afbeeldingen onder verschillende gezichtspunten vereist. Terwijl traditionele Supervised Fine-Tuning (SFT) er niet in slaagt coherente redeneerpaden te genereren in cross-view situaties, lijdt sparse-reward Reinforcement Learning (RL) onder inefficiënte exploratie en trage convergentie. Om deze beperkingen aan te pakken, stellen we STAR-R1 voor, een nieuw framework dat een single-stage RL-paradigma integreert met een fijnmazig beloningsmechanisme dat is afgestemd op TVR. Specifiek beloont STAR-R1 gedeeltelijke correctheid terwijl het overmatige enumeratie en passief nietsdoen bestraft, waardoor efficiënte exploratie en precies redeneren mogelijk worden. Uitgebreide evaluaties tonen aan dat STAR-R1 state-of-the-art prestaties behaalt op alle 11 metrieken, waarbij het SFT met 23% overtreft in cross-view scenario's. Verdere analyse onthult het antropomorfe gedrag van STAR-R1 en benadrukt het unieke vermogen om alle objecten te vergelijken voor het verbeteren van ruimtelijk redeneren. Ons werk biedt cruciale inzichten voor het bevorderen van onderzoek naar MLLMs en redeneermodellen. De codes, modelgewichten en data zullen publiekelijk beschikbaar zijn op https://github.com/zongzhao23/STAR-R1.
Recente vooruitgang in Automatische Spraakherkenning (ASR) is grotendeels aangedreven door enorme spraakcorpora. Het uitbreiden van de dekking naar diverse talen met beperkte middelen blijft echter een aanzienlijke uitdaging. Dit artikel introduceert Speech Back-Translation, een schaalbare pijplijn die meertalige ASR-modellen verbetert door grootschalige tekstcorpora om te zetten in synthetische spraak via kant-en-klare tekst-naar-spraak (TTS) modellen. We tonen aan dat slechts tientallen uren van echte getranscribeerde spraak effectief kunnen worden gebruikt om TTS-modellen te trainen die synthetische spraak genereren op honderden keren het oorspronkelijke volume, terwijl een hoge kwaliteit behouden blijft. Om de kwaliteit van synthetische spraak te evalueren, ontwikkelen we een beoordelingskader gebaseerd op verstaanbaarheid en stellen we duidelijke drempels vast voor wanneer synthetische data voordelig zijn voor ASR-training. Met behulp van Speech Back-Translation genereren we meer dan 500.000 uur aan synthetische spraak in tien talen en zetten we de pre-training van Whisper-large-v3 voort, waarbij we gemiddelde transcriptiefouten met meer dan 30\% verminderen. Deze resultaten onderstrepen de schaalbaarheid en effectiviteit van Speech Back-Translation voor het verbeteren van meertalige ASR-systemen.
Foundation models worden steeds beter in het autonoom programmeren, wat de mogelijkheid opent dat ze ook gevaarlijke offensieve cyberoperaties kunnen automatiseren. Huidige audits van frontier modellen onderzoeken de cybersecurityrisico's van dergelijke agents, maar de meeste houden geen rekening met de vrijheidsgraden die tegenstanders in de echte wereld hebben. Met name met sterke verificatoren en financiële prikkels zijn agents voor offensieve cybersecurity vatbaar voor iteratieve verbetering door potentiële tegenstanders. Wij beargumenteren dat beoordelingen een uitgebreid dreigingsmodel in de context van cybersecurity moeten overwegen, waarbij de verschillende vrijheidsgraden die een tegenstander kan hebben in stateful en non-stateful omgevingen binnen een vast rekenbudget worden benadrukt. We laten zien dat zelfs met een relatief klein rekenbudget (8 H100 GPU-uren in ons onderzoek) tegenstanders de cybersecurity-capaciteit van een agent op InterCode CTF met meer dan 40\% kunnen verbeteren ten opzichte van de baseline — zonder enige externe hulp. Deze resultaten onderstrepen de noodzaak om de cybersecurityrisico's van agents op een dynamische manier te evalueren, wat een representatiever beeld van het risico geeft.
Hoewel Masked Diffusion Models (MDM's), zoals LLaDA, een veelbelovend paradigma vormen voor taalmodellering, is er relatief weinig inspanning geleverd om deze modellen af te stemmen op menselijke voorkeuren via reinforcement learning. De uitdaging ontstaat voornamelijk door de hoge variantie in Evidence Lower Bound (ELBO)-gebaseerde waarschijnlijkheidsschattingen die nodig zijn voor voorkeursoptimalisatie. Om dit probleem aan te pakken, stellen we Variance-Reduced Preference Optimization (VRPO) voor, een raamwerk dat de variantie van ELBO-schatters formeel analyseert en grenzen afleidt voor zowel de bias als de variantie van voorkeursoptimalisatiegradiënten. Op basis van dit theoretische fundament introduceren we onbevooroordeelde variantiereductiestrategieën, waaronder optimale Monte Carlo-budgettoewijzing en antithetische steekproefname, die de prestaties van MDM-afstemming aanzienlijk verbeteren. We demonstreren de effectiviteit van VRPO door het toe te passen op LLaDA, en het resulterende model, LLaDA 1.5, overtreft zijn SFT-only voorganger consistent en significant op wiskundige (GSM8K +4.7), code (HumanEval +3.0, MBPP +1.8) en afstemmingsbenchmarks (IFEval +4.0, Arena-Hard +4.3). Bovendien toont LLaDA 1.5 een zeer competitieve wiskundige prestaties in vergelijking met sterke taal-MDM's en ARM's. Projectpagina: https://ml-gsai.github.io/LLaDA-1.5-Demo/.
Grote taalmodellen blinken uit in patroonherkenning, maar schieten vaak tekort in systematische compositionele generalisatie. Wij stellen het dekkingsprincipe voor: een data-gericht raamwerk dat aantoont dat modellen die voornamelijk vertrouwen op patroonherkenning voor compositionele taken niet betrouwbaar kunnen generaliseren buiten het vervangen van fragmenten die identieke resultaten opleveren wanneer ze in dezelfde contexten worden gebruikt. We tonen aan dat dit raamwerk een sterke voorspellende kracht heeft voor de generalisatiecapaciteiten van Transformers. Ten eerste leiden we af en bevestigen we empirisch dat de benodigde trainingsdata voor tweestapsgeneralisatie minstens kwadratisch groeit met de grootte van de tokenset, en dat de efficiëntie van de trainingsdata niet verbetert met een 20-voudige schaling van parameters. Ten tweede tonen we aan dat voor compositionele taken met padambiguïteit, waarbij één variabele de uitvoer via meerdere computationele paden beïnvloedt, Transformers contextafhankelijke staatrepresentaties leren die zowel de prestaties als de interoperabiliteit ondermijnen. Ten derde verbetert Chain-of-Thought-supervisie de efficiëntie van trainingsdata voor meerstapstaken, maar worstelt nog steeds met padambiguïteit. Tot slot schetsen we een mechanisme-gebaseerde taxonomie die drie manieren onderscheidt waarop neurale netwerken kunnen generaliseren: structuurgebaseerd (beperkt door dekking), eigenschapgebaseerd (gebruikmakend van algebraïsche invarianties), en gedeelde-operator (via functiehergebruik). Dit conceptuele kader plaatst onze resultaten in context en benadrukt waar nieuwe architectonische ideeën nodig zijn om systematische compositioneelheid te bereiken. Over het geheel genomen biedt het dekkingsprincipe een verenigend perspectief voor het begrijpen van compositioneel redeneren, en onderstreept het de noodzaak van fundamentele architectonische of trainingsinnovaties om echt systematische compositioneelheid te bereiken.
Grote taalmodellen (LLMs) hebben uitstekende capaciteiten getoond op het gebied van biomedische vraag-antwoordtaken, maar hun toepassing in real-world klinische consultaties blijft kernuitdagingen kennen. Bestaande systemen vertrouwen op een eenrichtingsinformatieoverdracht waarbij patiënten hun symptomen in één ronde volledig moeten beschrijven, wat leidt tot niet-specifieke diagnostische aanbevelingen wanneer klachten vaag zijn. Traditionele meerronde dialoogmethoden gebaseerd op supervised learning worden beperkt door statische, data-gedreven paradigma's, hebben een gebrek aan generaliseerbaarheid en worstelen met het intelligent extraheren van cruciale klinische informatie. Om deze beperkingen aan te pakken, stellen we DoctorAgent-RL voor, een reinforcement learning (RL)-gebaseerd multi-agent samenwerkingskader dat medische consultaties modelleert als een dynamisch besluitvormingsproces onder onzekerheid. De dokter-agent optimaliseert continu zijn vraagstrategie binnen het RL-kader door meerronde interacties met de patiënt-agent, waarbij het dynamisch zijn informatieverzamelingspad aanpast op basis van uitgebreide beloningen van de Consultatie Evaluator. Dit RL-finetuningmechanisme stelt LLMs in staat om autonoom interactiestrategieën te ontwikkelen die aansluiten bij klinische redeneerlogica, in plaats van oppervlakkig patronen in bestaande dialoogdata na te bootsen. Opmerkelijk is dat we MTMedDialog hebben geconstrueerd, de eerste Engelse meerronde medische consultatiedataset die patiëntinteracties kan simuleren. Experimenten tonen aan dat DoctorAgent-RL bestaande modellen overtreft in zowel meerronde redeneercapaciteit als uiteindelijke diagnostische prestaties, wat praktische waarde aantoont bij het ondersteunen van klinische consultaties. https://github.com/JarvisUSTC/DoctorAgent-RL
State-of-the-art membership inference-aanvallen (MIAs) vereisen doorgaans het trainen van veel referentiemodellen, waardoor het moeilijk is om deze aanvallen op te schalen naar grote vooraf getrainde taalmmodellen (LLMs). Als gevolg hiervan heeft eerder onderzoek zich ofwel gericht op zwakkere aanvallen die het trainen van referentiemodellen vermijden (bijvoorbeeld fine-tuning-aanvallen), ofwel op sterkere aanvallen die worden toegepast op kleinschalige modellen en datasets. Zwakkere aanvallen zijn echter broos gebleken - ze behalen een succes dat bijna willekeurig is - en inzichten uit sterke aanvallen in vereenvoudigde settings zijn niet direct toepasbaar op de LLMs van vandaag. Deze uitdagingen hebben een belangrijke vraag opgeroepen: zijn de beperkingen die in eerder werk zijn waargenomen te wijten aan keuzes in de aanvalsontwerpen, of zijn MIAs fundamenteel ineffectief op LLMs? Wij gaan deze vraag te lijf door LiRA - een van de sterkste MIAs - op te schalen naar GPT-2-architecturen variërend van 10M tot 1B parameters, waarbij we referentiemodellen trainen op meer dan 20B tokens uit de C4-dataset. Onze resultaten dragen op drie belangrijke manieren bij aan het begrip van MIAs op LLMs: (1) sterke MIAs kunnen succesvol zijn op vooraf getrainde LLMs; (2) hun effectiviteit blijft echter beperkt (bijvoorbeeld AUC<0,7) in praktische settings; en (3) de relatie tussen het succes van MIAs en gerelateerde privacy-metrics is niet zo rechtlijnig als eerder werk heeft gesuggereerd.
Traditionele Reinforcement Learning from Human Feedback (RLHF) maakt vaak gebruik van beloningsmodellen, waarbij vaak voorkeursstructuren zoals het Bradley-Terry-model worden aangenomen, die mogelijk niet nauwkeurig de complexiteit van echte menselijke voorkeuren vastleggen (bijvoorbeeld intransitiviteit). Nash Learning from Human Feedback (NLHF) biedt een directer alternatief door het probleem te formuleren als het vinden van een Nash-evenwicht van een spel dat door deze voorkeuren wordt gedefinieerd. In dit werk introduceren we Nash Mirror Prox (Nash-MP), een online NLHF-algoritme dat gebruikmaakt van het Mirror Prox-optimalisatieschema om snelle en stabiele convergentie naar het Nash-evenwicht te bereiken. Onze theoretische analyse toont aan dat Nash-MP lineaire convergentie van de laatste iteratie vertoont naar het bèta-geregulariseerde Nash-evenwicht. Specifiek bewijzen we dat de KL-divergentie naar het optimale beleid afneemt met een snelheid van de orde (1+2beta)^{-N/2}, waarbij N het aantal voorkeursvragen is. We tonen verder lineaire convergentie van de laatste iteratie aan voor de exploitatiekloof en uniform voor de span semi-norm van log-kansen, waarbij al deze snelheden onafhankelijk zijn van de grootte van de actieruimte. Bovendien stellen we een benaderde versie van Nash-MP voor en analyseren we deze, waarbij proximale stappen worden geschat met behulp van stochastische beleidsgradiënten, wat het algoritme dichter bij toepassingen brengt. Tot slot beschrijven we een praktische implementatiestrategie voor het finetunen van grote taalmodellen en presenteren we experimenten die de competitieve prestaties en compatibiliteit met bestaande methoden aantonen.
Recente ontwikkelingen in grote taalmodellen (LLMs) hebben latent redeneren geïntroduceerd als een veelbelovend alternatief voor autoregressief redeneren. Door interne berekeningen uit te voeren met verborgen toestanden van vorige stappen, profiteert latent redeneren van meer informatieve kenmerken in plaats van een discrete keten-van-gedachten (CoT) te bemonsteren. Toch zijn latent redeneren-benaderingen vaak niet compatibel met LLMs, omdat hun continue paradigma botst met de discrete aard van autoregressieve generatie. Bovendien zijn deze methoden afhankelijk van CoT-sporen voor training en slagen ze er daarom niet in om de inherente redeneerpatronen van LLMs te benutten. In dit werk onderzoeken we latent redeneren door gebruik te maken van de intrinsieke mogelijkheden van LLMs via reinforcement learning (RL). Hiertoe introduceren we hybrid reasoning policy optimization (HRPO), een RL-gebaseerde hybride latent redeneren-benadering die (1) eerdere verborgen toestanden integreert in bemonsterde tokens met een leerbaar gating-mechanisme, en (2) de training initialiseert met voornamelijk token-embeddings terwijl geleidelijk meer verborgen kenmerken worden opgenomen. Dit ontwerp behoudt de generatieve mogelijkheden van LLMs en stimuleert hybride redeneren met behulp van zowel discrete als continue representaties. Daarnaast introduceert de hybride HRPO stochastiek in latent redeneren via token-bemonstering, waardoor RL-gebaseerde optimalisatie mogelijk wordt zonder CoT-trajecten te vereisen. Uitgebreide evaluaties over diverse benchmarks tonen aan dat HRPO eerdere methoden overtreft in zowel kennis- als redeneerintensieve taken. Bovendien blijven HRPO-getrainde LLMs interpreteerbaar en vertonen ze intrigerend gedrag zoals cross-linguale patronen en kortere voltooiingslengtes, wat het potentieel van onze RL-gebaseerde benadering benadrukt en inzichten biedt voor toekomstig werk in latent redeneren.
Reinforcement learning toont potentie in het verbeteren van de redeneervaardigheden van grote taalmodelen, maar het is moeilijk op te schalen vanwege de lage steekproefficiëntie tijdens de uitrolfase. Bestaande methoden proberen de efficiëntie te verbeteren door problemen te plannen op basis van hun moeilijkheidsgraad. Deze benaderingen kampen echter met instabiele en bevooroordeelde schattingen van de probleemmoeilijkheid en slagen er niet in om de afstemming tussen modelcompetentie en probleemmoeilijkheid in RL-training vast te leggen, wat leidt tot suboptimale resultaten. Om deze beperkingen aan te pakken, introduceert dit artikel Competence-Difficulty Alignment Sampling (CDAS), dat een nauwkeurige en stabiele schatting van probleemmoeilijkheden mogelijk maakt door historische prestatieverschillen van problemen te aggregeren. Vervolgens wordt de modelcompetentie gekwantificeerd om adaptief problemen te selecteren waarvan de moeilijkheidsgraad in lijn is met de huidige competentie van het model, gebruikmakend van een vast puntensysteem. Experimentele resultaten over een reeks uitdagende wiskundige benchmarks tonen aan dat CDAS grote verbeteringen bereikt in zowel nauwkeurigheid als efficiëntie. CDAS behaalt de hoogste gemiddelde nauwkeurigheid ten opzichte van baseline-methoden en vertoont aanzienlijke snelheidsvoordelen in vergelijking met Dynamic Sampling, een competitieve strategie in DAPO, die 2,33 keer langzamer is dan CDAS.
Grote taalmodellen (LLMs) worden doorgaans afgestemd om veiligheidsrichtlijnen te volgen door schadelijke instructies te weigeren. Een recente aanval, genaamd abliteratie, isoleert en onderdrukt de enkelvoudige latente richting die het meest verantwoordelijk is voor het weigeringsgedrag, waardoor het model in staat wordt gesteld om onethische inhoud te genereren. Wij stellen een verdediging voor die de manier waarop modellen weigeringen genereren, aanpast. We construeren een uitgebreid-weigeringsdataset die schadelijke prompts bevat met een volledig antwoord dat de reden voor de weigering rechtvaardigt. Vervolgens fine-tunen we Llama-2-7B-Chat en Qwen2.5-Instruct (1,5B en 3B parameters) op onze uitgebreid-weigeringsdataset, en evalueren we de resulterende systemen op een set schadelijke prompts. In onze experimenten behouden uitgebreid-weigeringsmodellen hoge weigeringspercentages, die hooguit met 10% dalen, terwijl de weigeringspercentages van baseline-modellen met 70-80% dalen na abliteratie. Een brede evaluatie van veiligheid en bruikbaarheid toont aan dat fine-tuning met uitgebreide weigeringen de abliteratie-aanval neutraliseert terwijl de algemene prestaties behouden blijven.
Met het groeiende succes van redeneermodellen bij complexe natuurlijke taal taken, hebben onderzoekers in de Information Retrieval (IR) gemeenschap begonnen te verkennen hoe vergelijkbare redeneervaardigheden kunnen worden geïntegreerd in passageherrangschikkers gebouwd op Large Language Models (LLMs). Deze methoden gebruiken doorgaans een LLM om een expliciet, stapsgewijs redeneerproces te produceren voordat een uiteindelijke relevantievoorspelling wordt gemaakt. Maar, verbetert redeneren daadwerkelijk de nauwkeurigheid van herrangschikking? In dit artikel duiken we dieper in op deze vraag en bestuderen we de impact van het redeneerproces door redeneringsgebaseerde puntgewijze herrangschikkers (ReasonRR) te vergelijken met standaard, niet-redenerende puntgewijze herrangschikkers (StandardRR) onder identieke trainingsomstandigheden, en constateren we dat StandardRR over het algemeen beter presteert dan ReasonRR. Voortbouwend op deze observatie bestuderen we vervolgens het belang van redeneren voor ReasonRR door het redeneerproces uit te schakelen (ReasonRR-NoReason), en vinden we dat ReasonRR-NoReason verrassend effectiever is dan ReasonRR. Door de oorzaak van dit resultaat te onderzoeken, onthullen onze bevindingen dat redeneringsgebaseerde herrangschikkers worden beperkt door het redeneerproces van de LLM, dat het model richting gepolariseerde relevantiescores duwt en daardoor de gedeeltelijke relevantie van passages niet in overweging neemt, een belangrijke factor voor de nauwkeurigheid van puntgewijze herrangschikkers.
Sparse Autoencoders (SAEs) zijn een belangrijk instrument in mechanistische interpretatie (MI) voor het ontbinden van neurale netwerkactivaties in interpreteerbare kenmerken. De ambitie om een canonieke set kenmerken te identificeren wordt echter bemoeilijkt door de waargenomen inconsistentie van geleerde SAE-kenmerken over verschillende trainingsruns heen, wat de betrouwbaarheid en efficiëntie van MI-onderzoek ondermijnt. Dit position paper betoogt dat mechanistische interpretatie prioriteit moet geven aan kenmerkconsistentie in SAEs — de betrouwbare convergentie naar equivalente kensets over onafhankelijke runs heen. Wij stellen voor om de Pairwise Dictionary Mean Correlation Coefficient (PW-MCC) te gebruiken als een praktische maatstaf om consistentie te operationaliseren en laten zien dat hoge niveaus haalbaar zijn (0,80 voor TopK SAEs op LLM-activaties) met de juiste architectonische keuzes. Onze bijdragen omvatten het detailleren van de voordelen van het prioriteren van consistentie; het bieden van een theoretische onderbouwing en synthetische validatie met behulp van een modelorganisme, wat PW-MCC bevestigt als een betrouwbare proxy voor het herstellen van de grondwaarheid; en het uitbreiden van deze bevindingen naar real-world LLM-data, waar hoge kenmerkconsistentie sterk correleert met de semantische gelijkenis van geleerde kenmerkverklaringen. Wij roepen op tot een gemeenschapsbrede verschuiving naar het systematisch meten van kenmerkconsistentie om robuuste cumulatieve vooruitgang in MI te bevorderen.
Reinforcement Learning (RL) heeft een centrale rol gespeeld in de recente opkomst van de wiskundige vaardigheden van LLM's door zelfverbetering mogelijk te maken via binaire verificatiesignalen. Daarentegen wordt Supervised Learning (SL) zelden overwogen voor dergelijke verificatiegestuurde training, voornamelijk vanwege de sterke afhankelijkheid van referentieantwoorden en het onvermogen om fouten te reflecteren. In dit werk dagen we de heersende opvatting uit dat zelfverbetering exclusief is voor RL en introduceren we Negative-aware Fine-Tuning (NFT) -- een gesuperviseerde aanpak die LLM's in staat stelt om hun fouten te reflecteren en autonoom te verbeteren zonder externe begeleiders. Tijdens online training, in plaats van zelf gegenereerde negatieve antwoorden weg te gooien, construeert NFT een impliciet negatief beleid om deze te modelleren. Dit impliciete beleid wordt geparametriseerd met hetzelfde positieve LLM dat we willen optimaliseren op positieve data, waardoor directe beleidsoptimalisatie mogelijk wordt op alle generaties van LLM's. We voeren experimenten uit op 7B en 32B modellen in wiskundige redeneertaken. De resultaten tonen consistent aan dat NFT, door het extra benutten van negatieve feedback, significant verbetert ten opzichte van SL-baselines zoals Rejection sampling Fine-Tuning, en zelfs leidende RL-algoritmen zoals GRPO en DAPO evenaart of overtreft. Bovendien tonen we aan dat NFT en GRPO feitelijk equivalent zijn in strikt-on-policy training, ondanks dat ze voortkomen uit volledig verschillende theoretische fundamenten. Onze experimenten en theoretische bevindingen overbruggen de kloof tussen SL- en RL-methoden in binaire-feedback leer systemen.
Generaliseerbare actieve mapping in complexe onbekende omgevingen blijft een cruciale uitdaging voor mobiele robots. Bestaande methoden, beperkt door onvoldoende trainingsdata en conservatieve verkenningstrategieën, vertonen beperkte generaliseerbaarheid over scènes met diverse lay-outs en complexe connectiviteit. Om schaalbare training en betrouwbare evaluatie mogelijk te maken, introduceren we GLEAM-Bench, de eerste grootschalige benchmark ontworpen voor generaliseerbare actieve mapping met 1.152 diverse 3D-scènes uit synthetische en real-scan datasets. Op basis hiervan stellen we GLEAM voor, een geünificeerd generaliseerbaar verkenningbeleid voor actieve mapping. De superieure generaliseerbaarheid komt voornamelijk voort uit onze semantische representaties, langetermijn navigeerbare doelen en gerandomiseerde strategieën. Het overtreft aanzienlijk state-of-the-art methoden, met een dekking van 66,50% (+9,49%) met efficiënte trajecten en verbeterde mappingnauwkeurigheid op 128 onbekende complexe scènes. Projectpagina: https://xiao-chen.tech/gleam/.
Grote Taalmodellen (LLM's) blinken uit in complex redeneren door middel van zoekalgoritmen, maar huidige strategieën lijden vaak onder een enorme tokenconsumptie door overbodige verkenning van semantisch equivalente stappen. Bestaande methoden voor semantische gelijkenis hebben moeite om dergelijke equivalentie nauwkeurig te identificeren in domeinspecifieke contexten zoals wiskundig redeneren. Om dit aan te pakken, stellen we EquivPruner voor, een eenvoudige maar effectieve aanpak die semantisch equivalente acties identificeert en verwijdert tijdens het zoeken naar redeneringen in LLM's. We introduceren ook MathEquiv, de eerste dataset die we hebben gemaakt voor de equivalentie van wiskundige uitspraken, waarmee een lichtgewicht equivalentiedetector kan worden getraind. Uitgebreide experimenten met verschillende modellen en taken tonen aan dat EquivPruner de tokenconsumptie aanzienlijk vermindert, de zoekefficiëntie verbetert en vaak ook de nauwkeurigheid van het redeneren verhoogt. Bijvoorbeeld, wanneer toegepast op Qwen2.5-Math-7B-Instruct op GSM8K, verminderde EquivPruner de tokenconsumptie met 48,1\% terwijl ook de nauwkeurigheid werd verbeterd. Onze code is beschikbaar op https://github.com/Lolo1222/EquivPruner.
Recente grote taalmodellen zoals Gemini-1.5, DeepSeek-V3 en Llama-4 adopteren steeds vaker Mixture-of-Experts (MoE)-architecturen, die een sterke efficiëntie-prestatiebalans bieden door slechts een fractie van het model per token te activeren. Toch ontbreekt het academische onderzoekers nog steeds aan een volledig open, end-to-end MoE-platform voor het onderzoeken van schaling, routering en expertgedrag. Wij brengen FLAME-MoE uit, een volledig open-source onderzoekssuite bestaande uit zeven decoder-only modellen, variërend van 38M tot 1.7B actieve parameters, waarvan de architectuur--64 experts met top-8 gating en 2 gedeelde experts--nauw aansluit bij moderne productie-LLM's. Alle trainingsdatapijplijnen, scripts, logs en checkpoints zijn openbaar beschikbaar om reproduceerbaar experimenteren mogelijk te maken. Over zes evaluatietaken verbetert FLAME-MoE de gemiddelde nauwkeurigheid met maximaal 3,4 punten ten opzichte van dichte basislijnen die met identieke FLOPs zijn getraind. Door gebruik te maken van volledige transparantie van de trainingssporen, presenteren we initiële analyses die aantonen dat (i) experts zich steeds meer specialiseren op verschillende tokensubsets, (ii) co-activeringsmatrices spaarzaam blijven, wat een divers gebruik van experts weerspiegelt, en (iii) routeringsgedrag vroeg in de training stabiliseert. Alle code, trainingslogs en modelcheckpoints zijn beschikbaar op https://github.com/cmu-flame/FLAME-MoE.
Bijna een decennium lang heeft de academische gemeenschap onderzoek gedaan naar backdoors in neurale netwerken, waarbij de focus voornamelijk lag op classificatietaken waarbij tegenstanders de modelvoorspelling manipuleren. Hoewel deze aanvallen duidelijk kwaadaardig zijn, is de directe impact ervan in de praktijk onduidelijk gebleven. In dit artikel introduceren we een nieuwe en aanzienlijk krachtigere klasse van backdoors die voortbouwt op recente ontwikkelingen in architecturale backdoors. We demonstreren hoe deze backdoors specifiek kunnen worden ontworpen om batched inference te exploiteren, een veelgebruikte techniek voor hardwarebenutting, waardoor grootschalige manipulatie en diefstal van gebruikersgegevens mogelijk wordt. Door het batchingproces te targeten, vergemakkelijken deze architecturale backdoors informatielekken tussen gelijktijdige gebruikersverzoeken en stellen ze aanvallers in staat om modelreacties die naar andere gebruikers binnen dezelfde batch worden gestuurd volledig te controleren. Met andere woorden, een aanvaller die de modelarchitectuur kan wijzigen, kan de modelinvoer en -uitvoer van andere gebruikers binnen dezelfde batch instellen en stelen. We tonen aan dat dergelijke aanvallen niet alleen haalbaar zijn, maar ook verontrustend effectief, gemakkelijk kunnen worden geïnjecteerd in veelvoorkomende modelarchitecturen, en een echt kwaadaardige bedreiging vormen voor de privacy van gebruikers en de integriteit van systemen. Cruciaal is dat we, om deze nieuwe klasse van kwetsbaarheden tegen te gaan, een deterministische mitigatiestrategie voorstellen die formele garanties biedt tegen deze nieuwe aanvalsvector, in tegenstelling tot eerder werk dat vertrouwde op Large Language Models om de backdoors te vinden. Onze mitigatiestrategie maakt gebruik van een nieuw Information Flow Control-mechanisme dat de modelgrafiek analyseert en non-interferentie tussen verschillende gebruikersinvoeren binnen dezelfde batch bewijst. Met behulp van onze mitigatiestrategie voeren we een grootschalige analyse uit van modellen die via Hugging Face worden gehost en vinden we meer dan 200 modellen die (onbedoelde) informatielekken tussen batchvermeldingen introduceren vanwege het gebruik van dynamische kwantisatie.
Grote Taalmodellen (LLM's) zijn gevoelig voor hallucinatie, vooral tijdens meerstaps- en redeneerintensieve taken zoals het oplossen van wiskundige problemen. Terwijl Outcome Reward Models alleen de eindantwoorden verifiëren, beoordelen Process Reward Models (PRM's) elke tussenstap om de generatie richting coherente oplossingen te sturen. Wij introduceren PathFinder-PRM, een nieuw hiërarchisch, foutbewust discriminerend PRM dat eerst wiskundige en consistentiefouten bij elke stap classificeert, en vervolgens deze fijnmazige signalen combineert om de juistheid van de stap te schatten. Om PathFinder-PRM te trainen, hebben we een dataset van 400K samples geconstrueerd door het met menselijke annotaties verrijkte PRM800K-corpus en RLHFlow Mistral-traceringen te voorzien van driedimensionale stapniveau-labels. Op PRMBench behaalt PathFinder-PRM een nieuwe state-of-the-art PRMScore van 67.7, wat beter is dan het vorige beste resultaat (65.5) terwijl het drie keer minder data gebruikt. Wanneer toegepast op beloningsgeleide greedy search, levert ons model een prm@8 van 48.3, een verbetering van +1.5 punten ten opzichte van de sterkste baseline. Deze resultaten tonen aan dat ontkoppelde foutdetectie en beloningsschatting niet alleen de fijnmazige foutdetectie verbeteren, maar ook end-to-end, beloningsgeleid wiskundig redeneren aanzienlijk verbeteren met een grotere data-efficiëntie.
Met de vooruitgang in grote audio-taalmodellen (LALMs), die grote taalmodellen (LLMs) versterken met auditieve mogelijkheden, wordt verwacht dat deze modellen universele vaardigheid zullen demonstreren in diverse auditieve taken. Hoewel er tal van benchmarks zijn ontstaan om de prestaties van LALMs te beoordelen, blijven deze gefragmenteerd en ontbreekt het aan een gestructureerde taxonomie. Om deze kloof te overbruggen, voeren we een uitgebreid onderzoek uit en stellen we een systematische taxonomie voor voor de evaluatie van LALMs, waarbij we deze categoriseren in vier dimensies op basis van hun doelstellingen: (1) Algemeen Auditief Bewustzijn en Verwerking, (2) Kennis en Redenering, (3) Dialooggerichte Vaardigheid, en (4) Eerlijkheid, Veiligheid en Betrouwbaarheid. We bieden gedetailleerde overzichten binnen elke categorie en belichten uitdagingen op dit gebied, waarbij we inzichten bieden in veelbelovende toekomstige richtingen. Voor zover wij weten, is dit het eerste onderzoek dat specifiek gericht is op de evaluaties van LALMs, en biedt het duidelijke richtlijnen voor de gemeenschap. We zullen de verzameling van de onderzochte artikelen vrijgeven en deze actief onderhouden om verdere vooruitgang in het veld te ondersteunen.
Post-training heeft zijn belang aangetoond bij het verbeteren van de redeneervaardigheden van grote taalmodelen (LLM's). De belangrijkste post-trainingsmethoden kunnen worden onderverdeeld in supervised fine-tuning (SFT) en reinforcement fine-tuning (RFT). SFT is efficiënt en geschikt voor kleine taalmodelen, maar kan leiden tot overfitting en de redeneervaardigheden van grotere modellen beperken. Daarentegen levert RFT over het algemeen betere generalisatie op, maar is sterk afhankelijk van de kracht van het basismodel. Om de beperkingen van SFT en RFT aan te pakken, stellen we Unified Fine-Tuning (UFT) voor, een nieuw post-trainingsparadigma dat SFT en RFT verenigt in één geïntegreerd proces. UFT stelt het model in staat om effectief oplossingen te verkennen terwijl het informatieve supervisiesignalen incorporeert, waardoor de kloof tussen memoriseren en denken die onderliggend is aan bestaande methoden wordt overbrugd. Opmerkelijk is dat UFT over het algemeen beter presteert dan zowel SFT als RFT, ongeacht de grootte van het model. Bovendien bewijzen we theoretisch dat UFT de inherente exponentiële complexiteitsbarrière van RFT doorbreekt, en tonen we voor het eerst aan dat geünificeerde training de convergentie op langetermijnredeneertaken exponentieel kan versnellen.
Een groeiend aantal autoregressieve modellen, zoals MAR, FlowAR, xAR en Harmon, neemt diffusie-sampling over om de kwaliteit van beeldgeneratie te verbeteren. Deze strategie leidt echter tot een lage inferentie-efficiëntie, omdat het meestal 50 tot 100 stappen kost om een token te bemonsteren via diffusie. Dit artikel onderzoekt hoe dit probleem effectief kan worden aangepakt. Onze belangrijkste motivatie is dat naarmate er meer tokens worden gegenereerd tijdens het autoregressieve proces, de daaropvolgende tokens meer beperkte verdelingen volgen en gemakkelijker te bemonsteren zijn. Om dit intuïtief uit te leggen: als een model een deel van een hond heeft gegenereerd, moeten de resterende tokens de hond completeren en zijn dus meer beperkt. Empirisch bewijs ondersteunt onze motivatie: in latere generatiefasen kunnen de volgende tokens goed worden voorspeld door een multilayer perceptron, vertonen ze een lage variantie en volgen ze denoiseringspaden die dichter bij een rechte lijn liggen, van ruis naar tokens. Op basis van onze bevinding introduceren we diffusie-stap-annealing (DiSA), een trainingsvrije methode die geleidelijk minder diffusiestappen gebruikt naarmate er meer tokens worden gegenereerd, bijvoorbeeld door 50 stappen aan het begin te gebruiken en geleidelijk af te nemen tot 5 stappen in latere fasen. Omdat DiSA is afgeleid van onze bevinding die specifiek is voor diffusie in autoregressieve modellen, is het complementair aan bestaande versnellingsmethoden die alleen voor diffusie zijn ontworpen. DiSA kan worden geïmplementeerd in slechts een paar regels code op bestaande modellen, en hoewel eenvoudig, bereikt het 5-10 keer snellere inferentie voor MAR en Harmon en 1,4-2,5 keer voor FlowAR en xAR, terwijl de generatiekwaliteit behouden blijft.
Metadata-extractie is essentieel voor het catalogiseren en behouden van datasets, waardoor effectieve onderzoeksontdekking en reproduceerbaarheid mogelijk worden, vooral gezien de huidige exponentiële groei in wetenschappelijk onderzoek. Hoewel Masader (Alyafeai et al., 2021) de basis legde voor het extraheren van een breed scala aan metadata-attributen uit wetenschappelijke artikelen over Arabische NLP-datasets, is het sterk afhankelijk van handmatige annotatie. In dit artikel presenteren we MOLE, een raamwerk dat gebruikmaakt van Large Language Models (LLMs) om automatisch metadata-attributen te extraheren uit wetenschappelijke artikelen die datasets van talen anders dan Arabisch behandelen. Onze schema-gestuurde methodologie verwerkt volledige documenten in meerdere invoerformaten en bevat robuuste validatiemechanismen voor consistente output. Daarnaast introduceren we een nieuwe benchmark om de onderzoeksvooruitgang op deze taak te evalueren. Door systematische analyse van contextlengte, few-shot learning en integratie van webnavigatie, tonen we aan dat moderne LLMs veelbelovende resultaten laten zien bij het automatiseren van deze taak, wat de noodzaak benadrukt van verdere toekomstige verbeteringen om consistente en betrouwbare prestaties te garanderen. We maken de code beschikbaar: https://github.com/IVUL-KAUST/MOLE en de dataset: https://huggingface.co/datasets/IVUL-KAUST/MOLE voor de onderzoeksgemeenschap.
Huidige grote taalmodellen (LLMs) hebben opkomende capaciteiten getoond in taken die sociale intelligentie vereisen, waaronder implicatuurresolutie (Sravanthi et al. (2024)) en theory-of-mind redenering (Shapira et al. (2024)), beide gebieden die een aanzienlijk pragmatisch begrip vereisen. Echter, hoe LLMs deze competentie verwerven gedurende het trainingsproces, blijft slecht begrepen. In dit werk introduceren we ALTPRAG, een dataset gebaseerd op het pragmatische concept van alternatieven, ontworpen om te evalueren of LLMs in verschillende trainingsfasen subtiele sprekersintenties accuraat kunnen afleiden. Elk voorbeeld koppelt twee contextueel passende maar pragmatisch verschillende vervolgen, wat een fijnmazige beoordeling mogelijk maakt van zowel pragmatische interpretatie als contrastief redeneren. We evalueren systematisch 22 LLMs over belangrijke trainingsfasen: pre-training, supervised fine-tuning (SFT), en voorkeursoptimalisatie, om de ontwikkeling van pragmatische competentie te onderzoeken. Onze resultaten tonen aan dat zelfs basismodellen een opmerkelijke gevoeligheid voor pragmatische signalen vertonen, die consistent verbetert met toename in model- en dataschaal. Daarnaast dragen SFT en RLHF bij aan verdere verbeteringen, met name in cognitief-pragmatisch redeneren. Deze bevindingen benadrukken pragmatische competentie als een emergent en compositioneel kenmerk van LLM-training en bieden nieuwe inzichten voor het afstemmen van modellen op menselijke communicatienormen.
Grote multimodale basis modellen, met name op het gebied van taal en visie, hebben aanzienlijke vooruitgang geboekt bij diverse taken, waaronder robotica, autonoom rijden, informatie retrieval en grounding. Veel van deze modellen zien objecten echter als ondeelbaar en negeren de componenten waaruit ze bestaan. Het begrijpen van deze componenten en hun bijbehorende affordances biedt waardevolle inzichten in de functionaliteit van een object, wat fundamenteel is voor het uitvoeren van een breed scala aan taken. In dit werk introduceren we een nieuwe real-world benchmark, InstructPart, bestaande uit handmatig gelabelde part segmentatie annotaties en taakgerichte instructies om de prestaties van huidige modellen te evalueren bij het begrijpen en uitvoeren van part-level taken in alledaagse contexten. Uit onze experimenten blijkt dat taakgerichte part segmentatie een uitdagend probleem blijft, zelfs voor state-of-the-art Vision-Language Models (VLMs). Naast onze benchmark introduceren we een eenvoudige baseline die een tweevoudige prestatieverbetering bereikt door fine-tuning met onze dataset. Met onze dataset en benchmark willen we onderzoek naar taakgerichte part segmentatie faciliteren en de toepasbaarheid van VLMs in verschillende domeinen verbeteren, waaronder robotica, virtual reality, informatie retrieval en andere gerelateerde velden. Projectwebsite: https://zifuwan.github.io/InstructPart/.
Recente multimodale beeldgeneratoren zoals GPT-4o, Gemini 2.0 Flash en Gemini 2.5 Pro blinken uit in het volgen van complexe instructies, het bewerken van afbeeldingen en het behouden van conceptconsistentie. Ze worden echter nog steeds geëvalueerd met losstaande toolkits: tekst-naar-beeld (T2I) benchmarks die gebrek hebben aan multimodale conditionering, en aangepaste beeldgeneratiebenchmarks die compositiesemantiek en algemene kennis over het hoofd zien. Wij stellen MMIG-Bench voor, een uitgebreide Multi-Modale Beeldgeneratie Benchmark die deze taken verenigt door 4.850 rijk geannoteerde tekstprompts te koppelen aan 1.750 multi-view referentiebeelden over 380 onderwerpen, variërend van mensen, dieren, objecten en artistieke stijlen. MMIG-Bench is uitgerust met een drieledig evaluatieraamwerk: (1) laagniveau-metrics voor visuele artefacten en identiteitsbehoud van objecten; (2) de nieuwe Aspect Matching Score (AMS): een VQA-gebaseerde middenniveau-metric die fijnmazige prompt-beeldafstemming biedt en een sterke correlatie vertoont met menselijke beoordelingen; en (3) hoog-niveau-metrics voor esthetiek en menselijke voorkeur. Met MMIG-Bench evalueren we 17 state-of-the-art modellen, waaronder Gemini 2.5 Pro, FLUX, DreamBooth en IP-Adapter, en valideren we onze metrics met 32k menselijke beoordelingen, wat diepgaande inzichten oplevert in architectuur en data-ontwerp. We zullen de dataset en evaluatiecode vrijgeven om rigoureuze, verenigde evaluatie te bevorderen en toekomstige innovaties in multimodale beeldgeneratie te versnellen.
Recente ontwikkelingen zoals Chain-of-Thought prompting hebben grote taalmodellen (LLMs) aanzienlijk verbeterd in zero-shot medisch redeneren. Prompting-gebaseerde methoden blijven echter vaak oppervlakkig en instabiel, terwijl fijn afgestemde medische LLMs te kampen hebben met slechte generalisatie onder distributieverschuivingen en beperkte aanpassingsvermogen aan onbekende klinische scenario's. Om deze beperkingen aan te pakken, presenteren we TAGS, een test-time framework dat een breed capabele generalist combineert met een domeinspecifieke specialist om complementaire perspectieven te bieden zonder enige modelafstemming of parameterupdates. Om dit generalist-specialist redeneerproces te ondersteunen, introduceren we twee aanvullende modules: een hiërarchisch retrievalsysteem dat multi-schaal voorbeelden biedt door voorbeelden te selecteren op basis van zowel semantische als redeneerniveau-overeenkomsten, en een betrouwbaarheidsscorer die de consistentie van het redeneren evalueert om de uiteindelijke antwoordaggregatie te begeleiden. TAGS behaalt sterke prestaties op negen MedQA benchmarks, waarbij de nauwkeurigheid van GPT-4o met 13,8% wordt verhoogd, DeepSeek-R1 met 16,8%, en een standaard 7B-model wordt verbeterd van 14,1% naar 23,9%. Deze resultaten overtreffen verschillende fijn afgestemde medische LLMs, zonder enige parameterupdates. De code zal beschikbaar zijn op https://github.com/JianghaoWu/TAGS.
Onzekerheidskwantificering is essentieel voor het beoordelen van de betrouwbaarheid en vertrouwenswaardigheid van moderne AI-systemen. Onder de bestaande benaderingen is verbaal uitgedrukte onzekerheid, waarbij modellen hun vertrouwen uitdrukken via natuurlijke taal, naar voren gekomen als een lichtgewicht en interpreteerbare oplossing in grote taalmmodellen (LLMs). De effectiviteit ervan in visueel-taalkundige modellen (VLMs) is echter nog onvoldoende onderzocht. In dit werk voeren we een uitgebreide evaluatie uit van verbaal uitgedrukt vertrouwen in VLMs, waarbij we drie modelcategorieën, vier taakdomeinen en drie evaluatiescenario's bestrijken. Onze resultaten tonen aan dat huidige VLMs vaak aanzienlijke miskalibratie vertonen over diverse taken en instellingen. Opmerkelijk is dat visuele redeneermodellen (d.w.z. denken met afbeeldingen) consistent een betere kalibratie vertonen, wat suggereert dat modalitiespecifiek redeneren cruciaal is voor betrouwbare onzekerheidsschatting. Om kalibratie-uitdagingen verder aan te pakken, introduceren we Visual Confidence-Aware Prompting, een tweestaps promptstrategie die de vertrouwensuitlijning in multimodale instellingen verbetert. Over het algemeen benadrukt onze studie de inherente miskalibratie in VLMs over verschillende modaliteiten. In bredere zin onderstrepen onze bevindingen het fundamentele belang van modaliteitsuitlijning en modelgetrouwheid bij het bevorderen van betrouwbare multimodale systemen.
Stuurmethoden zijn naar voren gekomen als effectieve en gerichte hulpmiddelen om het gedrag van grote taalmodellen (LLMs) te beïnvloeden zonder hun parameters aan te passen. Multimodale grote taalmodellen (MLLMs) beschikken echter nog niet over dezelfde reeks technieken, deels vanwege hun recente ontwikkeling en architectonische diversiteit. Geïnspireerd door deze kloof onderzoeken we of MLLMs kunnen worden gestuurd met behulp van vectoren die zijn afgeleid van hun tekstgebaseerde LLM-backbone, via sparse autoencoders (SAEs), mean shift en lineaire probing. We ontdekken dat tekstafgeleide sturing consistent de multimodale nauwkeurigheid verbetert over diverse MLLM-architecturen en visuele taken. In het bijzonder verhoogt mean shift de nauwkeurigheid van ruimtelijke relaties op CV-Bench met tot wel +7,3% en de telnauwkeurigheid met tot wel +3,3%, wat beter presteert dan prompting en sterke generalisatie vertoont naar out-of-distribution datasets. Deze resultaten benadrukken tekstuele stuurvectoren als een krachtig, efficiënt mechanisme om de gronding in MLLMs te verbeteren met minimale extra datacollectie en rekenkundige overhead.
We introduceren CASS, de eerste grootschalige dataset en modelsuite voor cross-architectuur GPU-code-transpilatie, gericht op zowel broncode-niveau (CUDA ↔ HIP) als assembly-niveau (Nvidia SASS ↔ AMD RDNA3) vertaling. De dataset omvat 70k geverifieerde codeparen voor zowel host als device, en vult hiermee een kritieke leemte in de draagbaarheid van low-level GPU-code. Met behulp van deze bron trainen we de CASS-familie van domeinspecifieke taalmodellen, waarbij we een nauwkeurigheid van 95% voor broncodevertaling en 37,5% voor assemblyvertaling behalen, wat aanzienlijk beter is dan commerciële baselines zoals GPT-4o, Claude en Hipify. Onze gegenereerde code komt in meer dan 85% van de testgevallen overeen met native prestaties, waarbij runtime- en geheugengedrag behouden blijven. Om rigoureuze evaluatie mogelijk te maken, introduceren we CASS-Bench, een zorgvuldig samengestelde benchmark die 16 GPU-domeinen omvat met grondwaarde-uitvoering. Alle data, modellen en evaluatietools worden als open source vrijgegeven om vooruitgang te bevorderen in GPU-compilertools, binaire compatibiliteit en LLM-gestuurde hardwarevertaling. De dataset en benchmark zijn beschikbaar op https://huggingface.co/datasets/MBZUAI/cass{blue{HuggingFace}}, met code op https://github.com/GustavoStahl/CASS{blue{GitHub}}.
Offline doelgericht reinforcement learning (GCRL) biedt een praktisch leerparadigma waarbij beleidsregels voor het bereiken van doelen worden getraind op basis van overvloedige, ongelabelde (beloningsvrije) datasets zonder aanvullende interactie met de omgeving. Offline GCRL worstelt echter nog steeds met taken met een lange horizon, zelfs met recente vooruitgang die gebruikmaakt van hiërarchische beleidsstructuren, zoals HIQL. Door de oorzaak van deze uitdaging te identificeren, observeren we de volgende inzichten: Ten eerste ontstaan prestatieknelpunten vooral door het onvermogen van het hoogste beleidsniveau om geschikte subdoelen te genereren. Ten tweede wordt, bij het leren van het hoogste beleidsniveau in taken met een lange horizon, het teken van het voordeelsignaal vaak onjuist. Daarom stellen we dat het verbeteren van de waardefunctie om een duidelijk voordeelsignaal te produceren voor het leren van het hoogste beleidsniveau essentieel is. In dit paper stellen we een eenvoudige maar effectieve oplossing voor: Option-aware Temporally Abstracted value learning, genaamd OTA, dat temporele abstractie integreert in het temporele differentiële leerproces. Door de waardebijwerking aan te passen zodat deze optiebewust is, verkort het voorgestelde leerschema de effectieve horizonlengte, wat betere voordeelschattingen mogelijk maakt, zelfs in taken met een lange horizon. We tonen experimenteel aan dat het hoogste beleidsniveau dat wordt geëxtraheerd met behulp van de OTA-waardefunctie sterke prestaties behaalt op complexe taken uit OGBench, een recent voorgestelde offline GCRL-benchmark, waaronder navigatie in doolhoven en visuele robotmanipulatieomgevingen.
Dit artikel onderzoekt het ontstaan van interpreteerbare categorische kenmerken binnen grote taalmodellen (LLM's), waarbij hun gedrag wordt geanalyseerd over trainingscheckpoints (tijd), transformer-lagen (ruimte) en verschillende modelgroottes (schaal). Door gebruik te maken van sparse autoencoders voor mechanistische interpreteerbaarheid, identificeren we wanneer en waar specifieke semantische concepten ontstaan binnen neurale activaties. De resultaten tonen duidelijke temporele en schaalspecifieke drempels voor het ontstaan van kenmerken in meerdere domeinen. Opvallend is dat ruimtelijke analyse onverwachte semantische heractivatie onthult, waarbij kenmerken uit vroege lagen opnieuw opduiken in latere lagen, wat standaardaannames over representatiedynamiek in transformer-modellen uitdaagt.
Ondanks recente vooruitgang in algemene robotica, blijven robotbeleidsregels ver achter bij basale menselijke vaardigheden in de echte wereld. Mensen interageren voortdurend met de fysieke wereld, maar deze rijke databron blijft grotendeels onbenut in robotleren. Wij stellen EgoZero voor, een minimaal systeem dat robuuste manipulatietaken leert uit menselijke demonstraties die zijn vastgelegd met Project Aria slimme brillen, en zonder robotdata. EgoZero maakt het mogelijk: (1) extractie van complete, door robots uitvoerbare acties uit in-the-wild, egocentrische menselijke demonstraties, (2) compressie van menselijke visuele waarnemingen in morfologie-agnostische toestandsrepresentaties, en (3) gesloten-lus beleidsleren dat morfologisch, ruimtelijk en semantisch generaliseert. We implementeren EgoZero-beleidsregels op een grijper Franka Panda robot en demonstreren zero-shot transfer met een slagingspercentage van 70% over 7 manipulatietaken en slechts 20 minuten dataverzameling per taak. Onze resultaten suggereren dat in-the-wild menselijke data kan dienen als een schaalbare basis voor robotleren in de echte wereld - wat de weg effent naar een toekomst van overvloedige, diverse en naturalistische trainingsdata voor robots. Code en video's zijn beschikbaar op https://egozero-robot.github.io.