Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Kunstmatige Intelligentie (AI) versnelt de transformatie van wetenschappelijke onderzoeksparadigma's, niet alleen door de onderzoeks efficiëntie te verbeteren, maar ook door innovatie te stimuleren. Wij introduceren NovelSeek, een uniform gesloten-lus multi-agent raamwerk om Autonoom Wetenschappelijk Onderzoek (ASR) uit te voeren in diverse wetenschappelijke onderzoeksgebieden, waardoor onderzoekers complexe problemen in deze gebieden met ongekende snelheid en precisie kunnen aanpakken. NovelSeek benadrukt drie belangrijke voordelen: 1) Schaalbaarheid: NovelSeek heeft zijn veelzijdigheid bewezen in 12 wetenschappelijke onderzoeks taken, in staat om innovatieve ideeën te genereren om de prestaties van basislijncode te verbeteren. 2) Interactiviteit: NovelSeek biedt een interface voor feedback van menselijke experts en multi-agent interactie in geautomatiseerde end-to-end processen, waardoor de naadloze integratie van domeinexpertkennis mogelijk wordt. 3) Efficiëntie: NovelSeek heeft veelbelovende prestatieverbeteringen bereikt in verschillende wetenschappelijke velden met aanzienlijk minder tijdsinvestering vergeleken met menselijke inspanningen. Bijvoorbeeld, in reactieopbrengstvoorspelling steeg het van 27,6% naar 35,4% in slechts 12 uur; in enhanceractiviteitsvoorspelling steeg de nauwkeurigheid van 0,52 naar 0,79 met slechts 4 uur verwerking; en in 2D semantische segmentatie verbeterde de precisie van 78,8% naar 81,0% in slechts 30 uur.
Het volgen van instructies is essentieel voor het afstemmen van grote taalmodellen (LLMs) op de intenties van gebruikers. Hoewel recente modellen gericht op redeneren indrukwekkende prestaties laten zien bij complexe wiskundige problemen, blijft hun vermogen om natuurlijke taal-instructies op te volgen onderbelicht. In dit werk introduceren we MathIF, een specifieke benchmark voor het evalueren van instructievolging bij wiskundige redeneertaken. Onze empirische analyse toont een consistent spanningsveld tussen het opschalen van redeneercapaciteit en het behouden van controleerbaarheid, aangezien modellen die effectiever redeneren vaak moeite hebben om gebruikersrichtlijnen te volgen. We constateren dat modellen die zijn afgestemd op gedistilleerde lange ketens van gedachten of getraind met redeneringsgerichte reinforcement learning vaak achteruitgaan in het volgen van instructies, vooral wanneer de generatielengte toeneemt. Bovendien laten we zien dat zelfs eenvoudige interventies gedeeltelijk kunnen bijdragen aan het herstellen van gehoorzaamheid, zij het ten koste van de redeneerprestaties. Deze bevindingen benadrukken een fundamenteel spanningsveld in de huidige LLM-trainingsparadigma's en motiveren de behoefte aan meer instructiebewuste redeneermodellen. We maken de code en data beschikbaar op https://github.com/TingchenFu/MathIF.
Onlangs hebben grote taalmodellen (LLMs) opmerkelijke redeneervaardigheden getoond via grootschalige reinforcement learning (RL). Het blijft echter een uitdaging om het RL-algoritme te benutten om effectieve multi-tool collaboratieve redenering in LLMs mogelijk te maken. In dit artikel introduceren we Tool-Star, een RL-gebaseerd framework ontworpen om LLMs in staat te stellen autonoom meerdere externe tools aan te roepen tijdens stapsgewijs redeneren. Tool-Star integreert zes soorten tools en omvat systematische ontwerpen in zowel datasynthese als training. Om het gebrek aan tool-gebruiksdata aan te pakken, stellen we een algemene tool-geïntegreerde redeneerdatasynthesepijplijn voor, die tool-geïntegreerde prompting combineert met hint-gebaseerde sampling om automatisch en schaalbaar tool-gebruikstrajecten te genereren. Een daaropvolgend kwaliteitsnormalisatie- en moeilijkheidsbewuste classificatieproces filtert laagkwalitatieve samples eruit en organiseert de dataset van makkelijk naar moeilijk. Bovendien stellen we een tweefasen trainingsframework voor om multi-tool collaboratieve redenering te verbeteren door: (1) cold-start fine-tuning, dat LLMs begeleidt om redeneerpatronen te verkennen via tool-aanroepfeedback; en (2) een multi-tool self-critic RL-algoritme met hiërarchisch beloningsontwerp, dat beloningsbegrip versterkt en effectieve toolcollaboratie bevordert. Experimentele analyses op meer dan 10 uitdagende redeneerbenchmarks benadrukken de effectiviteit en efficiëntie van Tool-Star. De code is beschikbaar op https://github.com/dongguanting/Tool-Star.
Chain-of-thought redeneren heeft de prestaties van Large Language Models (LLMs) aanzienlijk verbeterd in diverse domeinen. Dit redeneerproces is echter tot nu toe beperkt gebleven tot de tekstuele ruimte, wat de effectiviteit ervan beperkt bij visueel intensieve taken. Om deze beperking aan te pakken, introduceren we het concept van redeneren in de pixelruimte. Binnen dit nieuwe raamwerk worden Vision-Language Models (VLMs) uitgerust met een reeks visuele redeneeroperaties, zoals inzoomen en frame-selectie. Deze operaties stellen VLMs in staat om visuele bewijzen direct te inspecteren, te bevragen en daaruit af te leiden, waardoor de redeneernauwkeurigheid voor visuele taken wordt verbeterd. Het ontwikkelen van dergelijke pixelruimte-redeneervaardigheden in VLMs brengt aanzienlijke uitdagingen met zich mee, waaronder de aanvankelijk onevenwichtige competentie van het model en diens terughoudendheid om de nieuw geïntroduceerde pixelruimte-operaties te omarmen. We pakken deze uitdagingen aan via een tweefasige trainingsaanpak. De eerste fase maakt gebruik van instructieafstemming op gesynthetiseerde redeneersporen om het model vertrouwd te maken met de nieuwe visuele operaties. Hierna volgt een reinforcement learning (RL)-fase die gebruikmaakt van een nieuwsgierigheid-gestuurd beloningsschema om de balans te vinden tussen exploratie in de pixelruimte en tekstueel redeneren. Met deze visuele operaties kunnen VLMs interacteren met complexe visuele inputs, zoals informatie-rijke afbeeldingen of video's, om proactief de benodigde informatie te verzamelen. We tonen aan dat deze aanpak de prestaties van VLMs aanzienlijk verbetert op diverse visuele redeneerbenchmarks. Ons 7B-model, \model, behaalt 84\% op V* bench, 74\% op TallyQA-Complex en 84\% op InfographicsVQA, wat de hoogste nauwkeurigheid is die tot nu toe door een open-source model is bereikt. Deze resultaten onderstrepen het belang van pixelruimte-redeneren en de effectiviteit van ons raamwerk.
Recente vooruitgang in multimodale generatieve modellen heeft aanzienlijke vooruitgang mogelijk gemaakt in instructiegebaseerde beeldbewerking. Hoewel deze modellen visueel plausibele resultaten produceren, blijft hun vermogen voor kennisgebaseerde redeneertaken bij beeldbewerking onderbelicht. In dit artikel introduceren we KRIS-Bench (Knowledge-based Reasoning in Image-editing Systems Benchmark), een diagnostische benchmark ontworpen om modellen te evalueren door een cognitief geïnformeerde bril. Gebaseerd op onderwijstheorie categoriseert KRIS-Bench bewerkingstaken in drie fundamentele kennissoorten: Feitelijk, Conceptueel en Procedureel. Op basis van deze taxonomie ontwerpen we 22 representatieve taken die 7 redeneerdimensies beslaan en publiceren we 1.267 hoogwaardig geannoteerde bewerkingsinstanties. Om een gedetailleerde evaluatie te ondersteunen, stellen we een uitgebreid protocol voor dat een nieuwe Knowledge Plausibility-metric integreert, versterkt door kennishints en gekalibreerd via menselijke studies. Empirische resultaten op 10 state-of-the-art modellen onthullen aanzienlijke tekortkomingen in redeneerprestaties, wat de noodzaak aantoont van kennisgerichte benchmarks om de ontwikkeling van intelligente beeldbewerkingssystemen te bevorderen.
Het begrijpen van lange video's is een cruciale vaardigheid geworden in real-world toepassingen zoals videobewaking, vergaderingsoverzichten, analyse van educatieve lezingen en sportuitzendingen. Het blijft echter computationeel onhaalbaar voor VideoLLM's, voornamelijk vanwege twee knelpunten: 1) sequentiële videodecodering, het proces van het omzetten van de ruwe bitstream naar RGB-frames kan tot een minuut duren voor uur-lange video-invoer, en 2) kostbaar prefilling van tot enkele miljoenen tokens voor LLM-inferentie, wat resulteert in hoge latentie en geheugengebruik. Om deze uitdagingen aan te pakken, stellen we QuickVideo voor, een systeem-algoritme co-design dat het begrijpen van lange video's aanzienlijk versnelt om real-time downstream toepassingen te ondersteunen. Het bestaat uit drie belangrijke innovaties: QuickDecoder, een parallelle CPU-gebaseerde videodecoder die een 2-3 keer snellere verwerking bereikt door video's op te splitsen in keyframe-uitgelijnde intervallen die gelijktijdig worden verwerkt; QuickPrefill, een geheugenefficiënte prefilling-methode die KV-cache pruning gebruikt om meer frames te ondersteunen met minder GPU-geheugen; en een overlappingsschema dat CPU-videodecodering overlapt met GPU-inferentie. Samen verminderen deze componenten de inferentietijd met een minuut op lange video-invoer, waardoor schaalbare, hoogwaardige videobegrip mogelijk wordt, zelfs op beperkte hardware. Experimenten tonen aan dat QuickVideo generaliseert over duur en bemonsteringsfrequenties, waardoor het verwerken van lange video's in de praktijk haalbaar wordt.
Diffusion Transformers zijn opgekomen als de basis voor visuele generatieve modellen, maar hun schaalbaarheid wordt beperkt door de hoge kosten van hyperparameter (HP) afstemming op grote schaal. Recentelijk werd Maximal Update Parametrization (muP) voorgesteld voor standaard Transformers, wat een stabiele HP-overdracht van kleine naar grote taalmodel mogelijk maakt en de afstemkosten aanzienlijk reduceert. Het blijft echter onduidelijk of muP van standaard Transformers ook van toepassing is op diffusion Transformers, die zowel architectonisch als doelgericht verschillen. In dit werk generaliseren we standaard muP naar diffusion Transformers en valideren we de effectiviteit ervan via grootschalige experimenten. Eerst bewijzen we rigoureus dat muP van mainstream diffusion Transformers, waaronder DiT, U-ViT, PixArt-alpha en MMDiT, overeenkomt met die van de standaard Transformer, waardoor bestaande muP-methodologieën direct kunnen worden toegepast. Gebruikmakend van dit resultaat, tonen we systematisch aan dat DiT-muP robuuste HP-overdraagbaarheid geniet. Opmerkelijk is dat DiT-XL-2-muP met een overgedragen leercurve 2,9 keer sneller convergeert dan de originele DiT-XL-2. Tot slot valideren we de effectiviteit van muP op tekst-naar-beeldgeneratie door PixArt-alpha te schalen van 0,04B naar 0,61B en MMDiT van 0,18B naar 18B. In beide gevallen presteren modellen onder muP beter dan hun respectievelijke baselines, terwijl ze slechts minimale afstemkosten vereisen: slechts 5,5% van één trainingsrun voor PixArt-alpha en 3% van het verbruik door menselijke experts voor MMDiT-18B. Deze resultaten vestigen muP als een principieel en efficiënt raamwerk voor het schalen van diffusion Transformers.
Ondanks recente vooruitgang in grootschalige reinforcement learning (RL) voor redeneren, blijft het trainingsrecept voor het bouwen van hoogpresterende redeneermodellen ongrijpbaar. Belangrijke implementatiedetails van grensverleggende modellen, zoals DeepSeek-R1, inclusief datacuratiestrategieën en het RL-trainingsrecept, worden vaak weggelaten. Bovendien wijst recent onderzoek uit dat distillatie effectiever blijft dan RL voor kleinere modellen. In dit werk tonen we aan dat grootschalige RL de redeneervaardigheden van sterke, kleine en middelgrote modellen aanzienlijk kan verbeteren, met resultaten die die van state-of-the-art distillatiegebaseerde modellen overtreffen. We bestuderen het RL-trainingsproces systematisch door middel van uitgebreide ablatie-experimenten en stellen een eenvoudige maar effectieve aanpak voor: eerst trainen op alleen wiskundige prompts, daarna op alleen code-prompts. Opmerkelijk is dat RL met alleen wiskunde niet alleen de prestaties van sterke gedistilleerde modellen op wiskundige benchmarks aanzienlijk verbetert (bijv. +14,6% / +17,2% op AIME 2025 voor de 7B / 14B modellen), maar ook op code-redeneertaken (bijv. +6,8% / +5,8% op LiveCodeBench voor de 7B / 14B modellen). Daarnaast verbeteren uitgebreide RL-iteraties met alleen code de prestaties op code-benchmarks verder, met minimale of geen verslechtering van de wiskundige resultaten. We ontwikkelen een robuuste datacuratiepipeline om uitdagende prompts te verzamelen met hoogwaardige, verifieerbare antwoorden en testcases om verificatiegebaseerde RL in beide domeinen mogelijk te maken. Tot slot identificeren we belangrijke experimentele inzichten, waaronder curriculumleren met progressief toenemende responslengtes en het stabiliserende effect van on-policy parameterupdates. We constateren dat RL niet alleen de fundamentele redeneervaardigheden die tijdens de pretraining en supervised fine-tuning (bijv. distillatie) zijn verworven, naar voren haalt, maar ook de grenzen van het redeneervermogen van het model verlegt, waardoor het problemen kan oplossen die voorheen onoplosbaar waren.
In dit werk introduceren we LLaDA-V, een puur op diffusie gebaseerd Multimodaal Groot Taalmodel (MLLM) dat visuele instructieafstemming integreert met gemaskeerde diffusiemodellen, wat een afwijking vormt van de autoregressieve paradigma's die dominant zijn in huidige multimodale benaderingen. Gebouwd op LLaDA, een representatief groot taaldiffusiemodel, bevat LLaDA-V een visuele encoder en een MLP-connector die visuele kenmerken projecteert in de taalinbeddingsruimte, waardoor effectieve multimodale afstemming mogelijk wordt. Ons empirisch onderzoek onthult verschillende intrigerende resultaten: Ten eerste toont LLaDA-V veelbelovende multimodale prestaties, ondanks dat het taalmodel zwakker is op puur tekstuele taken in vergelijking met tegenhangers zoals LLaMA3-8B en Qwen2-7B. Wanneer getraind op dezelfde instructiedata, is LLaDA-V zeer concurrerend ten opzichte van LLaMA3-V over multimodale taken heen, met betere dataschaalbaarheid. Het verkleint ook de prestatiekloof met Qwen2-VL, wat de effectiviteit van de architectuur voor multimodale taken suggereert. Ten tweede behaalt LLaDA-V state-of-the-art prestaties in multimodaal begrip in vergelijking met bestaande hybride autoregressieve-diffusie en puur op diffusie gebaseerde MLLM's. Onze bevindingen suggereren dat grote taaldiffusiemodellen veelbelovend zijn in multimodale contexten en verder onderzoek in toekomstig onderzoek rechtvaardigen. Projectpagina en codes: https://ml-gsai.github.io/LLaDA-V-demo/.
Visuele generatiemodellen hebben opmerkelijke vooruitgang geboekt in het creëren van realistische afbeeldingen vanuit tekstprompts, maar worstelen nog steeds met complexe prompts die meerdere objecten specificeren met precieze ruimtelijke relaties en attributen. Het effectief verwerken van dergelijke prompts vereist expliciete redenering over de semantische inhoud en ruimtelijke lay-out. Wij presenteren GoT-R1, een raamwerk dat reinforcement learning toepast om semantisch-ruimtelijke redenering in visuele generatie te verbeteren. Gebaseerd op de Generation Chain-of-Thought-benadering, stelt GoT-R1 modellen in staat om autonoom effectieve redeneerstrategieën te ontdekken die verder gaan dan vooraf gedefinieerde sjablonen, door middel van zorgvuldig ontworpen reinforcement learning. Om dit te bereiken, stellen we een dual-stage multidimensionaal beloningsraamwerk voor dat MLLM's benut om zowel het redeneerproces als de uiteindelijke output te evalueren, waardoor effectieve supervisie over de gehele generatiepijplijn mogelijk wordt. Het beloningssysteem beoordeelt semantische uitlijning, ruimtelijke nauwkeurigheid en visuele kwaliteit in een geïntegreerde aanpak. Experimentele resultaten tonen significante verbeteringen op de T2I-CompBench-benchmark, met name in compositietaken die precieze ruimtelijke relaties en attribuutbinding betreffen. GoT-R1 zet de standaard voor beeldgeneratie verder door geavanceerde redeneervaardigheden succesvol over te brengen naar het domein van visuele generatie. Om toekomstig onderzoek te faciliteren, maken we onze code en vooraf getrainde modellen publiekelijk beschikbaar op https://github.com/gogoduan/GoT-R1.
Risicomijdende reinforcement learning vindt toepassing in diverse hoogrisicovakgebieden. In tegenstelling tot klassieke reinforcement learning, die gericht is op het maximaliseren van verwachte opbrengsten, kiezen risicomijdende agents beleidsregels die het risico minimaliseren, waarbij soms verwachte waarde wordt opgeofferd. Deze voorkeuren kunnen worden geformuleerd via nutstheorie. Wij richten ons op het specifieke geval van de exponentiële nutsfunctie, waarbij we de Bellman-vergelijkingen kunnen afleiden en diverse reinforcement learning-algoritmen kunnen toepassen met weinig aanpassingen. Deze methoden lijden echter aan numerieke instabiliteit vanwege de noodzaak van exponentberekeningen gedurende het proces. Om dit aan te pakken, introduceren we een numeriek stabiele en wiskundig solide verliesfunctie gebaseerd op de Itakura-Saito-divergentie voor het leren van toestands- en actiewaardefuncties. We evalueren onze voorgestelde verliesfunctie tegenover gevestigde alternatieven, zowel theoretisch als empirisch. In het experimentele gedeelte verkennen we meerdere financiële scenario's, sommige met bekende analytische oplossingen, en tonen we aan dat onze verliesfunctie beter presteert dan de alternatieven.
Grote taalmodellen (LLMs) hebben opmerkelijke vooruitgang geboekt bij wiskundige taken door middel van Chain-of-Thought (CoT) redenering. Bestaande wiskundige CoT-datasets lijden echter vaak aan Thought Leaps doordat experts tussenliggende stappen weglaten, wat het leren en de generalisatie van modellen negatief beïnvloedt. Wij stellen de CoT Thought Leap Bridge Task voor, die als doel heeft om sprongen automatisch te detecteren en ontbrekende tussenliggende redeneerstappen te genereren om de volledigheid en samenhang van CoT te herstellen. Om dit te faciliteren, hebben we een gespecialiseerde trainingsdataset genaamd ScaleQM+ geconstrueerd, gebaseerd op de gestructureerde ScaleQuestMath-dataset, en hebben we CoT-Bridge getraind om gedachtensprongen te overbruggen. Door middel van uitgebreide experimenten op benchmarks voor wiskundig redeneren, tonen we aan dat modellen die zijn afgestemd op overbrugde datasets consistent beter presteren dan modellen die zijn getraind op originele datasets, met verbeteringen tot +5,87% op NuminaMath. Onze aanpak verbetert effectief gedistilleerde data (+3,02%) en biedt betere startpunten voor reinforcement learning (+3,1%), en functioneert als een plug-and-play module die compatibel is met bestaande optimalisatietechnieken. Bovendien toont CoT-Bridge verbeterde generalisatie naar out-of-domain logische redeneertaken, wat bevestigt dat het verbeteren van de volledigheid van redenering breed toepasbare voordelen oplevert.
Het trainen van robuuste retrieval- en reranker-modellen is doorgaans afhankelijk van grootschalige retrieval-datasets; bijvoorbeeld, de BGE-collectie bevat 1,6 miljoen query-passage-paren afkomstig uit verschillende databronnen. We merken echter dat bepaalde datasets de effectiviteit van modellen negatief kunnen beïnvloeden — het verwijderen van 8 van de 15 datasets uit de BGE-collectie verkleint de trainingset met 2,35 keer en verhoogt de nDCG@10 op BEIR met 1,0 punt. Dit motiveert een diepgaand onderzoek naar de kwaliteit van trainingsdata, met specifieke aandacht voor "false negatives", waarbij relevante passages ten onrechte als irrelevant zijn gelabeld. We stellen een eenvoudige, kosteneffectieve aanpak voor met behulp van cascading LLM-prompts om harde negatieven te identificeren en te herlabelen. Experimentele resultaten tonen aan dat het herlabelen van false negatives met true positives zowel de E5 (base)- als Qwen2.5-7B-retrievalmodellen verbetert met 0,7-1,4 nDCG@10 op BEIR en met 1,7-1,8 nDCG@10 op zero-shot AIR-Bench-evaluatie. Soortgelijke verbeteringen worden waargenomen voor rerankers die zijn verfijnd op de hergelabelde data, zoals Qwen2.5-3B op BEIR. De betrouwbaarheid van het cascading-ontwerp wordt verder ondersteund door menselijke annotatieresultaten, waarbij we vaststellen dat de beoordeling door GPT-4o een veel hogere overeenstemming met mensen vertoont dan GPT-4o-mini.
Generatieve AI (GenAI) biedt aanzienlijke mogelijkheden voor het automatiseren van alledaagse beeldbewerkingstaken, vooral na de recente release van GPT-4o op 25 maart 2025. Maar welke onderwerpen willen mensen het vaakst bewerkt hebben? Welke soorten bewerkingen willen ze uitvoeren (bijvoorbeeld het verwijderen of styliseren van het onderwerp)? Verkiezen mensen precieze bewerkingen met voorspelbare uitkomsten of juist zeer creatieve? Door de kenmerken van real-world verzoeken en de bijbehorende bewerkingen door freelance foto-bewerkingsspecialisten te begrijpen, kunnen we lessen trekken voor het verbeteren van AI-gebaseerde editors en bepalen welke soorten verzoeken momenteel succesvol kunnen worden afgehandeld door AI-editors? In dit artikel presenteren we een unieke studie die deze vragen behandelt door 83k verzoeken uit de afgelopen 12 jaar (2013-2025) te analyseren op de Reddit-community, die 305k PSR-wizard-bewerkingen verzamelde. Volgens menselijke beoordelingen kan slechts ongeveer 33% van de verzoeken worden vervuld door de beste AI-editors (inclusief GPT-4o, Gemini-2.0-Flash, SeedEdit). Interessant genoeg presteren AI-editors slechter op verzoeken met weinig creativiteit die precieze bewerkingen vereisen dan op meer open taken. Ze hebben vaak moeite om de identiteit van mensen en dieren te behouden en maken regelmatig ongevraagde aanpassingen. Aan de andere kant beoordelen VLM-rechters (bijvoorbeeld o1) anders dan menselijke rechters en kunnen ze AI-bewerkingen meer prefereren dan menselijke bewerkingen. Code en kwalitatieve voorbeelden zijn beschikbaar op: https://psrdataset.github.io
Ondanks de opmerkelijke generatiekwaliteit van video Diffusion Transformer (DiT)-modellen, wordt hun praktische inzet ernstig belemmerd door de uitgebreide rekenvereisten. Deze inefficiëntie komt voort uit twee belangrijke uitdagingen: de kwadratische complexiteit van self-attention ten opzichte van de tokenlengte en de meerstapsaard van diffusiemodellen. Om deze beperkingen aan te pakken, presenteren we Jenga, een nieuwe inferentiepijplijn die dynamische aandachtssnijding combineert met progressieve resolutiegeneratie. Onze aanpak maakt gebruik van twee belangrijke inzichten: (1) vroege denoiseringsstappen vereisen geen hoge-resolutie latente representaties, en (2) latere stappen vereisen geen dichte aandacht. Jenga introduceert een bloksgewijs aandachtmechanisme dat dynamisch relevante tokeninteracties selecteert met behulp van 3D ruimtevullende curven, naast een progressieve resolutiestrategie die geleidelijk de latente resolutie verhoogt tijdens de generatie. Experimentele resultaten tonen aan dat Jenga aanzienlijke snelheidswinsten behaalt bij meerdere state-of-the-art video diffusiemodellen, terwijl een vergelijkbare generatiekwaliteit wordt behouden (8,83 keer sneller met een prestatieverlies van 0,01% op VBench). Als een plug-and-play oplossing maakt Jenga praktische, hoogwaardige videogeneratie mogelijk op moderne hardware door de inferentietijd te reduceren van minuten tot seconden — zonder dat modelhertraining vereist is. Code: https://github.com/dvlab-research/Jenga
Grote redeneermodellen (LRM's), zoals OpenAI o1 en DeepSeek-R1, hebben hun redeneervermogen aanzienlijk verbeterd door langere gedachtegangen te genereren, wat uitstekende prestaties oplevert bij een verscheidenheid aan taken. Deze prestatieverbetering gaat echter gepaard met een aanzienlijke toename van overbodige redeneringen tijdens het generatieproces, wat leidt tot hoge rekenkosten en het probleem van overdenken verergert. Hoewel veel bestaande benaderingen proberen het probleem van overdenken aan te pakken, zijn ze vaak afhankelijk van externe interventies. In dit artikel stellen we een nieuw raamwerk voor, Self-Braking Tuning (SBT), dat overdenken aanpakt door het model in staat te stellen zijn eigen redeneerproces te reguleren, waardoor de afhankelijkheid van externe controlemechanismen wordt geëlimineerd. We construeren een set van identificatiemetrics voor overdenken op basis van standaardantwoorden en ontwerpen een systematische methode om overbodige redeneringen te detecteren. Deze methode identificeert nauwkeurig onnodige stappen binnen de redeneertrajectorie en genereert trainingssignalen voor het aanleren van zelfregulerend gedrag. Op basis hiervan ontwikkelen we een complete strategie voor het construeren van data met adaptieve redeneerlengtes en introduceren we een innovatief rempromptmechanisme dat het model in staat stelt om op natuurlijke wijze te leren wanneer het redeneren op een geschikt moment moet beëindigen. Experimenten op wiskundige benchmarks (AIME, AMC, MATH500, GSM8K) tonen aan dat onze methode het tokenverbruik met tot wel 60% reduceert, terwijl een vergelijkbare nauwkeurigheid wordt behouden als bij onbeperkte modellen.
In dit werk introduceren we Dimple, het eerste Discrete Diffusion Multimodal Large Language Model (DMLLM). We observeren dat training met een puur discrete diffusiebenadering leidt tot aanzienlijke trainingsinstabiliteit, suboptimale prestaties en ernstige lengtebiasproblemen. Om deze uitdagingen aan te pakken, ontwerpen we een nieuw trainingsparadigma dat een initiële autoregressieve fase combineert met een daaropvolgende diffusiefase. Deze aanpak resulteert in het Dimple-7B-model, getraind op dezelfde dataset en met een vergelijkbare trainingspipeline als LLaVA-NEXT. Dimple-7B overtreft uiteindelijk LLaVA-NEXT in prestaties met 3,9%, wat aantoont dat DMLLM prestaties kan bereiken die vergelijkbaar zijn met die van autoregressieve modellen. Om de inferentie-efficiëntie te verbeteren, stellen we een decodeerstrategie voor genaamd confident decoding, die het aantal gegenereerde tokens bij elke stap dynamisch aanpast, waardoor het aantal generatie-iteraties aanzienlijk wordt verminderd. In autoregressieve modellen is het aantal voorwaartse iteraties tijdens de generatie gelijk aan de responslengte. Met confident decoding is het aantal iteraties dat Dimple nodig heeft echter slechts text{responslengte}{3}. We implementeren ook de prefilling-techniek in autoregressieve modellen opnieuw en tonen aan dat deze geen significante invloed heeft op de prestaties bij de meeste benchmarkevaluaties, terwijl het een versnelling biedt van 1,5x tot 7x. Daarnaast onderzoeken we de mogelijkheid van Dimple om zijn respons nauwkeurig te controleren met behulp van structuurpriors. Deze priors maken gestructureerde reacties mogelijk op een manier die verschilt van instructiegebaseerde of chain-of-thought prompting, en bieden fijnmazige controle over het responsformaat en de lengte, wat moeilijk te bereiken is in autoregressieve modellen. Over het algemeen valideert dit werk de haalbaarheid en voordelen van DMLLM en verbetert het de inferentie-efficiëntie en beheersbaarheid. Code en modellen zijn beschikbaar op https://github.com/yu-rp/Dimple.
Nu videogames de hoogste inkomsten genereren in de entertainmentindustrie, is het optimaliseren van ontwikkelingsworkflows essentieel geworden voor de duurzame groei van de sector. Recente vooruitgang in Vision-Language Models (VLMs) biedt aanzienlijk potentieel om verschillende aspecten van gameontwikkeling te automatiseren en te verbeteren, met name Quality Assurance (QA), wat een van de meest arbeidsintensieve processen in de industrie blijft met beperkte automatiseringmogelijkheden. Om de prestaties van VLMs in QA-taken voor videogames nauwkeurig te evalueren en hun effectiviteit in het omgaan met realistische scenario's te bepalen, is er een duidelijke behoefte aan gestandaardiseerde benchmarks, aangezien bestaande benchmarks onvoldoende zijn om aan de specifieke vereisten van dit domein te voldoen. Om deze kloof te overbruggen, introduceren we VideoGameQA-Bench, een uitgebreide benchmark die een breed scala aan game-QA-activiteiten omvat, waaronder visuele unittests, visuele regressietests, naald-in-een-hooiberg-taken, glitchdetectie en bugrapportgeneratie voor zowel afbeeldingen als video's van verschillende games. Code en data zijn beschikbaar op: https://asgaardlab.github.io/videogameqa-bench/
Hoewel reinforcement learning (RL) opmerkelijke successen heeft laten zien bij het verbeteren van grote taalmmodellen (LLMs), heeft het zich voornamelijk gericht op enkelvoudige taken, zoals het oplossen van wiskundige problemen. Het trainen van effectieve webagents voor meervoudige interacties blijft een uitdaging vanwege de complexiteit van besluitvorming over lange tijdshorizonten in dynamische webinterfaces. In dit werk presenteren we WebAgent-R1, een eenvoudig maar effectief end-to-end multi-turn RL-framework voor het trainen van webagents. Het leert direct van online interacties met webomgevingen door asynchroon diverse trajecten te genereren, volledig geleid door binaire beloningen afhankelijk van taaksucces. Experimenten op de WebArena-Lite-benchmark demonstreren de effectiviteit van WebAgent-R1, waarbij het taaksuccespercentage van Qwen-2.5-3B stijgt van 6,1% naar 33,9% en van Llama-3.1-8B van 8,5% naar 44,8%, wat aanzienlijk beter presteert dan bestaande state-of-the-art methoden en sterke propriëtaire modellen zoals OpenAI o3. Diepgaande analyses onthullen de effectiviteit van de denkgebaseerde promptingstrategie en test-time schaling door middel van verhoogde interacties voor webtaken. We onderzoeken verder verschillende RL-initialisatiebeleidslijnen door twee varianten te introduceren, namelijk WebAgent-R1-Zero en WebAgent-R1-CoT, die het belang van de warm-up trainingsfase (d.w.z. behavior cloning) benadrukken en inzichten bieden over het integreren van lange chain-of-thought (CoT) redenering in webagents.
Multimodal Large Language Models (MLLMs) worden steeds vaker ingezet in fine-tuning-as-a-service (FTaaS) omgevingen, waarbij door gebruikers aangeleverde datasets algemene modellen aanpassen voor downstream taken. Deze flexibiliteit brengt echter ernstige beveiligingsrisico's met zich mee, aangezien kwaadaardige fine-tuning met minimale inspanning backdoors in MLLMs kan implanteren. In dit artikel observeren we dat backdoor-triggers systematisch de cross-modale verwerking verstoren door abnormale aandacht te concentreren op niet-semantische regio's—een fenomeen dat we attention collapse noemen. Gebaseerd op dit inzicht stellen we Believe Your Eyes (BYE) voor, een datafilteringsframework dat aandacht-entropiepatronen gebruikt als zelfgesuperviseerde signalen om backdoor-voorbeelden te identificeren en te filteren. BYE werkt via een drietrapspijplijn: (1) het extraheren van aandachtkaarten met behulp van het fijn afgestemde model, (2) het berekenen van entropiescores en het profileren van gevoelige lagen via bimodale scheiding, en (3) het uitvoeren van ongeclusterde clustering om verdachte voorbeelden te verwijderen. In tegenstelling tot eerdere verdedigingen vereist BYE geen schone supervisie, aanvullende labels of modelaanpassingen. Uitgebreide experimenten met verschillende datasets, modellen en diverse triggertypes valideren de effectiviteit van BYE: het behaalt bijna-nul aanvalssuccespercentages terwijl de prestaties van schone taken behouden blijven, en biedt zo een robuuste en generaliseerbare oplossing tegen backdoor-bedreigingen in MLLMs.
Recente ontwikkelingen hebben succes getoond in het oproepen van sterke redeneervaardigheden in multimodale grote taalmodellen (MLLMs) door middel van regelgebaseerd reinforcement learning (RL) met uitkomstbeloningen. Dit paradigma ontbeert echter meestal toezicht op het denkproces dat tot het eindresultaat leidt. Hierdoor kan het model suboptimale redeneerstrategieën aanleren, wat het generalisatievermogen kan belemmeren. Gezien dit, stellen we SophiaVL-R1 voor, als een poging om beloningssignalen voor het denkproces in dit paradigma toe te voegen. Om dit te bereiken, trainen we eerst een denkbeloningsmodel dat de kwaliteit van het gehele denkproces evalueert. Gezien dat de denkbeloning voor bepaalde voorbeelden onbetrouwbaar kan zijn vanwege beloningsmanipulatie, stellen we de Trust-GRPO-methode voor, die een betrouwbaarheidsgewicht toekent aan de denkbeloning tijdens de training. Dit gewicht wordt berekend op basis van de denkbeloningsvergelijking van reacties die tot correcte versus incorrecte antwoorden leiden, wat helpt om de impact van mogelijk onbetrouwbare denkbeloningen te verminderen. Bovendien ontwerpen we een uitdovende trainingsstrategie die de denkbeloning geleidelijk vermindert, waardoor het model in latere trainingsfasen meer kan vertrouwen op de nauwkeurige regelgebaseerde uitkomstbeloning. Experimenten tonen aan dat onze SophiaVL-R1 een reeks redeneerende MLLMs overtreft op verschillende benchmarks (bijv. MathVisita, MMMU), wat sterke redeneer- en generalisatiecapaciteiten aantoont. Opmerkelijk is dat onze SophiaVL-R1-7B zelfs LLaVA-OneVision-72B overtreft op de meeste benchmarks, ondanks dat de laatste 10 keer meer parameters heeft. Alle code, modellen en datasets zijn openbaar beschikbaar gemaakt op https://github.com/kxfan2002/SophiaVL-R1.
Reinforcement Learning (RL) is uitgegroeid tot een krachtig instrument om de redeneervaardigheden van grote taalmmodellen (LLMs) te verbeteren door hun beleid te optimaliseren met beloningssignalen. Het succes van RL hangt echter af van de betrouwbaarheid van beloningen, die worden verstrekt door verificatiemodellen. In dit artikel belichten en analyseren we een wijdverbreid probleem—vals-negatieven—waarbij verificatiemodellen correcte modeluitvoer ten onrechte afwijzen. Onze diepgaande studie van de Big-Math-RL-Verified dataset onthult dat meer dan 38% van de door het model gegenereerde antwoorden te maken heeft met vals-negatieven, waarbij de verificator correcte antwoorden niet herkent. We tonen zowel empirisch als theoretisch aan dat deze vals-negatieven de RL-training ernstig belemmeren door het model te beroven van informatieve gradiëntsignalen en de convergentie te vertragen. Om dit te verhelpen, stellen we tinyV voor, een lichtgewicht LLM-gebaseerde verificator die bestaande regelgebaseerde methoden aanvult. Deze identificeert dynamisch potentiële vals-negatieven en herstelt geldige antwoorden om nauwkeurigere beloningsschattingen te produceren. Op meerdere wiskundige redeneerbenchmarks verhoogt de integratie van TinyV de slaagpercentages met tot wel 10% en versnelt het de convergentie ten opzichte van de baseline. Onze bevindingen benadrukken het cruciale belang van het aanpakken van vals-negatieven bij verificatie en bieden een praktische aanpak om RL-gebaseerde fine-tuning van LLMs te verbeteren. Onze code is beschikbaar op https://github.com/uw-nsl/TinyV.
Recente studies hebben de effectiviteit aangetoond van het gebruik van Reinforcement Learning (RL) bij het bouwen van redeneermodellen die gedachtegangen articuleren voordat ze tot een definitief antwoord komen. Ondanks voortdurende vooruitgang die gericht is op het mogelijk maken van redeneren voor visueel-taalkundige taken, genereren bestaande open-source visuele redeneermodellen doorgaans redeneerinhoud met puur natuurlijke taal, zonder expliciete integratie van visuele informatie. Dit beperkt hun vermogen om duidelijk gearticuleerde en visueel onderbouwde redeneerketens te produceren. Daarom stellen wij Grounded Reasoning with Images and Texts (GRIT) voor, een nieuwe methode voor het trainen van MLLM's om met afbeeldingen te denken. GRIT introduceert een onderbouwd redeneerparadigma, waarbij modellen redeneerketens genereren die natuurlijke taal afwisselen met expliciete bounding box-coördinaten. Deze coördinaten verwijzen naar regio's in de invoerafbeelding die het model tijdens zijn redeneerproces raadpleegt. Daarnaast is GRIT uitgerust met een reinforcement learning-benadering, GRPO-GR, gebaseerd op het GRPO-algoritme. GRPO-GR maakt gebruik van robuuste beloningen die gericht zijn op de nauwkeurigheid van het uiteindelijke antwoord en de opmaak van de onderbouwde redeneeruitvoer, waardoor de noodzaak voor gegevens met annotaties van redeneerketens of expliciete bounding box-labels wordt geëlimineerd. Hierdoor bereikt GRIT een uitzonderlijke data-efficiëntie, waarbij slechts 20 afbeelding-vraag-antwoord-tripletten uit bestaande datasets nodig zijn. Uitgebreide evaluaties tonen aan dat GRIT MLLM's effectief traint om samenhangende en visueel onderbouwde redeneerketens te produceren, wat een succesvolle eenwording van redeneer- en onderbouwingsvaardigheden aantoont.
Multimodale grote taalmodellen (MLLMs) hebben indrukwekkende successen behaald in vraag-antwoordtaken, maar hun mogelijkheden voor ruimtelijk inzicht zijn minder onderzocht. Dit werk onderzoekt een kritische vraag: beschikken bestaande MLLMs over 3D-ruimtelijke waarneming en begrip? Concreet leveren we de volgende bijdragen in dit artikel: (i) we introduceren VGBench, een benchmark specifiek ontworpen om MLLMs te beoordelen op visueel geometrisch inzicht, zoals camerapositie en bewegingsschatting; (ii) we stellen SpatialScore voor, de meest uitgebreide en diverse multimodale benchmark voor ruimtelijk begrip tot nu toe, die VGBench integreert met relevante gegevens uit 11 andere bestaande datasets. Deze benchmark omvat 28K samples over verschillende ruimtelijke begriptaken, modaliteiten en QA-formaten, samen met een zorgvuldig samengestelde uitdagende subset, SpatialScore-Hard; (iii) we ontwikkelen SpatialAgent, een nieuw multi-agent systeem met 9 gespecialiseerde tools voor ruimtelijk begrip, dat zowel Plan-Execute als ReAct-redeneerparadigma's ondersteunt; (iv) we voeren uitgebreide evaluaties uit om hardnekkige uitdagingen in ruimtelijk redeneren aan het licht te brengen, terwijl we de effectiviteit van SpatialAgent aantonen. We geloven dat SpatialScore waardevolle inzichten zal bieden en zal dienen als een rigoureuze benchmark voor de volgende evolutie van MLLMs.
Onlangs hebben reasoning-based MLLM's enig succes geboekt in het genereren van lange tekstuele redeneerketens. Ze hebben echter nog steeds moeite met complexe taken die dynamisch en iteratief focussen op en terugkeren naar visuele regio's vereisen om een precieze verankering van tekstuele redenering in visueel bewijs te bereiken. Wij introduceren VLM-R^3 (Visual Language Model with Region Recognition and Reasoning), een raamwerk dat een MLLM uitrust met de mogelijkheid om (i) te beslissen wanneer aanvullend visueel bewijs nodig is, (ii) te bepalen waar in de afbeelding verankerd moet worden, en (iii) de relevante sub-afbeeldingsinhoud naadloos te integreren in een interleaved chain-of-thought. De kern van onze methode is Region-Conditioned Reinforcement Policy Optimization (R-GRPO), een trainingsparadigma dat het model beloont voor het selecteren van informatieve regio's, het formuleren van geschikte transformaties (bijv. bijsnijden, inzoomen), en het integreren van de resulterende visuele context in volgende redeneerstappen. Om dit beleid op te starten, hebben we een bescheiden maar zorgvuldig samengesteld Visuo-Lingual Interleaved Rationale (VLIR) corpus samengesteld dat stap-voor-stap supervisie biedt op regio-selectie en tekstuele rechtvaardiging. Uitgebreide experimenten op MathVista, ScienceQA en andere benchmarks tonen aan dat VLM-R^3 een nieuwe state of the art vestigt in zero-shot en few-shot settings, met de grootste vooruitgang op vragen die subtiele ruimtelijke redenering of fijnmazige extractie van visuele aanwijzingen vereisen.
Moderne Vision-Language Models (VLMs) kunnen een breed scala aan taken oplossen die visueel redeneren vereisen. In real-world scenario's zijn wenselijke eigenschappen voor VLMs snelle inferentie en controleerbare generatie (bijvoorbeeld het beperken van uitvoer om aan een gewenst formaat te voldoen). Echter, bestaande autoregressieve (AR) VLMs zoals LLaVA presteren minder goed op deze aspecten. Discrete diffusiemodellen (DMs) bieden een veelbelovend alternatief, waardoor parallelle decodering mogelijk wordt voor snellere inferentie en bidirectionele context voor controleerbare generatie via tekst-invulling. Hoewel effectief in taalgerichte omgevingen, is het potentieel van DMs voor multimodale taken onderbelicht. Wij introduceren LaViDa, een familie van VLMs gebaseerd op DMs. We bouwen LaViDa door DMs uit te rusten met een vision-encoder en gezamenlijk de gecombineerde onderdelen te fine-tunen voor multimodale instructievolging. Om de uitdagingen die zich voordoen aan te pakken, integreert LaViDa nieuwe technieken zoals complementaire masking voor effectieve training, prefix KV-cache voor efficiënte inferentie en timestep shifting voor hoogwaardige sampling. Experimenten tonen aan dat LaViDa concurrerende of superieure prestaties behaalt ten opzichte van AR VLMs op multimodale benchmarks zoals MMMU, terwijl het unieke voordelen van DMs biedt, waaronder flexibele snelheid-kwaliteit afweging, controleerbaarheid en bidirectioneel redeneren. Op COCO-captioning overtreft LaViDa Open-LLaVa-Next-8B met +4.1 CIDEr en een 1.92x versnelling. Op bidirectionele taken behaalt het een verbetering van +59% op Constrained Poem Completion. Deze resultaten tonen aan dat LaViDa een sterk alternatief is voor AR VLMs. Code en modellen zullen worden vrijgegeven in de camera-ready versie.
Reinforcement Learning (RL) heeft zich bewezen als een effectieve post-trainingsstrategie om het redeneren in vision-language modellen (VLMs) te verbeteren. Group Relative Policy Optimization (GRPO) is een recente prominente methode die modellen aanmoedigt om volledige redeneersporen te genereren voordat ze antwoorden, wat leidt tot een hoger tokengebruik en hogere rekenkosten. Geïnspireerd door het menselijke denkproces – waarbij mensen redeneren overslaan voor eenvoudige vragen, maar zorgvuldig nadenken wanneer nodig – onderzoeken we hoe VLMs eerst kunnen beslissen wanneer redeneren noodzakelijk is. Om dit te realiseren, stellen we TON voor, een tweefasige trainingsstrategie: (i) een supervised fine-tuning (SFT) fase met een eenvoudige maar effectieve 'thought dropout'-operatie, waarbij redeneersporen willekeurig worden vervangen door lege gedachten. Dit introduceert een think-or-not formaat dat dient als een koude start voor selectief redeneren; (ii) een GRPO-fase die het model in staat stelt vrij te verkennen wanneer het wel of niet moet nadenken, terwijl het taakbewuste uitkomstenbeloningen maximaliseert. Experimentele resultaten tonen aan dat TON de voltooiingslengte met tot wel 90% kan verminderen in vergelijking met standaard GRPO, zonder prestaties op te offeren of zelfs te verbeteren. Verdere evaluaties over diverse vision-language taken – die een reeks redeneermoeilijkheden omvatten onder zowel 3B als 7B modellen – laten consistent zien dat het model geleidelijk leert om onnodige redeneerstappen over te slaan naarmate de training vordert. Deze bevindingen werpen licht op de weg naar mensachtige redeneerpatronen in reinforcement learning benaderingen. Onze code is beschikbaar op https://github.com/kokolerk/TON.
Reinforcement learning (RL) levert aanzienlijke verbeteringen op in de prestaties van grote taalmodelen (LLMs) voor downstream taken en in de afstemming met menselijke waarden. Verrassend genoeg ontstaan dergelijke grote vooruitgangen door het bijwerken van slechts een klein subnetwerk dat slechts 5 tot 30 procent van de parameters omvat, terwijl de rest effectief ongewijzigd blijft. We verwijzen naar dit fenomeen als parameter-update-sparsity veroorzaakt door RL. Dit wordt waargenomen bij alle 7 veelgebruikte RL-algoritmen (bijv. PPO, GRPO, DPO) en alle 10 LLMs uit verschillende families in onze experimenten. Deze sparsity is intrinsiek en treedt op zonder expliciete regularisaties of architecturale beperkingen die sparsity bevorderen. Het finetunen van alleen het subnetwerk herstelt de testnauwkeurigheid en levert, opmerkelijk genoeg, een model op dat bijna identiek is aan het model dat wordt verkregen via volledig finetunen. De subnetwerken van verschillende random seeds, trainingsdata en zelfs RL-algoritmen vertonen aanzienlijk meer overlap dan op basis van toeval verwacht zou worden. Onze analyse suggereert dat deze sparsity niet het gevolg is van het bijwerken van slechts een subset van lagen, maar dat bijna alle parameter-matrices op een vergelijkbare manier spaarse updates ontvangen. Bovendien zijn de updates voor bijna alle parameter-matrices bijna full-rank, wat suggereert dat RL een kleine subset van parameters bijwerkt die desondanks bijna de volledige deelruimtes beslaan die de parameter-matrices kunnen representeren. We vermoeden dat deze update-sparsity voornamelijk kan worden toegeschreven aan het trainen op data die dicht bij de beleidsverdeling ligt, en dat technieken die het beleid stimuleren om dicht bij het voorgetrainde model te blijven, zoals KL-regularisatie en gradient clipping, slechts een beperkte impact hebben.
Grote visueel-taalkundige modellen (LVLMs) blijven kwetsbaar voor hallucinaties, waarbij vaak inhoud wordt gegenereerd die niet overeenkomt met visuele invoer. Hoewel recente benaderingen multi-modale Direct Preference Optimization (DPO) bevorderen om hallucinaties te verminderen, vertrouwen ze doorgaans op vooraf gedefinieerde of willekeurig bewerkte negatieve voorbeelden die niet de werkelijke modelfouten weerspiegelen, wat de trainingsdoeltreffendheid beperkt. In dit werk stellen we een Online Vision-language Preference Learning (OViP) raamwerk voor dat dynamisch contrastieve trainingsgegevens construeert op basis van de eigen hallucinatoire uitvoer van het model. Door semantische verschillen tussen gesampelde responsparen te identificeren en negatieve afbeeldingen te synthetiseren met behulp van een diffusiemodel, genereert OViP relevantere begeleidingssignalen in realtime. Deze foutgedreven training maakt adaptieve afstemming van zowel tekstuele als visuele voorkeuren mogelijk. Bovendien verfijnen we bestaande evaluatieprotocollen om de afweging tussen hallucinatieonderdrukking en expressiviteit beter te vatten. Experimenten op hallucinatie- en algemene benchmarks tonen aan dat OViP hallucinaties effectief vermindert terwijl de kernmulti-modale capaciteiten behouden blijven.
Recente vooruitgang in Reasoning LLM's (bijv. DeepSeek-R1 en OpenAI-o1) heeft indrukwekkende redeneervaardigheden getoond via reinforcement learning. Het uitbreiden van deze vaardigheden naar Multimodale LLM's (MLLM's) wordt echter belemmerd door de buitensporige kosten van hertraining en het gebrek aan hoogwaardige, verifieerbare multimodale redeneerdatasets. Dit artikel introduceert het FRANK Model, een training-FRee ANd r1-liKe MLLM dat kant-en-klare MLLM's uitrust met redeneer- en reflectievaardigheden, zonder enige gradient-updates of extra supervisie. Onze belangrijkste inzicht is het ontkoppelen van perceptie en redeneren over MLLM-decoderlagen. Specifiek observeren we dat vergeleken met de diepere decoderlagen, de ondiepe decoderlagen meer aandacht besteden aan visuele tokens, terwijl de diepere decoderlagen zich concentreren op tekstuele semantiek. Deze observatie motiveert een hiërarchische gewichtsfusiebenadering die een visueel voorgetrainde MLLM combineert met een op redeneren gespecialiseerde LLM. Hiertoe stellen we een laagsgewijze, Taylor-afgeleide gesloten-vorm fusiemechanisme voor dat redeneercapaciteit integreert in diepe decoderlagen terwijl visuele verankering in ondiepe decoderlagen behouden blijft. Uitgebreide experimenten op uitdagende multimodale redeneerbenchmarks demonstreren de effectiviteit van onze aanpak. Op de MMMU-benchmark behaalt ons model FRANK-38B een nauwkeurigheid van 69,2, wat de sterkste baseline InternVL2.5-38B met +5,3 overtreft, en zelfs het propriëtaire GPT-4o-model overstijgt. Onze projecthomepage is te vinden op: http://iip.whu.edu.cn/frank/index.html
Multi-modale grote taalmodellen (MLLMs) hebben snel vooruitgang geboekt in visuele taken, maar hun ruimtelijk begrip blijft beperkt tot afzonderlijke afbeeldingen, waardoor ze niet geschikt zijn voor robotica en andere real-world toepassingen die multi-frame redenering vereisen. In dit artikel stellen we een raamwerk voor om MLLMs te voorzien van robuust multi-frame ruimtelijk begrip door dieptewaarneming, visuele correspondentie en dynamische waarneming te integreren. Centraal in onze aanpak staat de MultiSPA-dataset, een nieuwe, grootschalige verzameling van meer dan 27 miljoen samples die diverse 3D- en 4D-scènes omvat. Naast MultiSPA introduceren we een uitgebreide benchmark die een breed scala aan ruimtelijke taken test onder uniforme metrieken. Ons resulterende model, Multi-SpatialMLLM, behaalt aanzienlijke verbeteringen ten opzichte van baseline- en propriëtaire systemen, wat schaalbare, generaliseerbare multi-frame redenering aantoont. We observeren verder multi-task voordelen en vroege aanwijzingen van opkomende capaciteiten in uitdagende scenario's, en laten zien hoe ons model kan dienen als een multi-frame beloningsannotator voor robotica.
Reinforcement learning from human feedback (RLHF) is uitgegroeid tot een krachtig paradigma voor het afstemmen van grote taalmodellen op menselijke voorkeuren na de training. Een kernuitdaging bij RLHF is het construeren van nauwkeurige beloningssignalen, waarbij conventionele Bradley-Terry beloningsmodellen (BT RMs) vaak gevoelig zijn voor de omvang en dekking van de data, evenals kwetsbaar voor beloningsmanipulatie. Generatieve beloningsmodellen (GenRMs) bieden een robuuster alternatief door chain-of-thought (CoT) redeneringen te genereren, gevolgd door een uiteindelijke beloning. Bestaande GenRMs vertrouwen echter op oppervlakkige, verticaal geschaalde redeneringen, wat hun vermogen beperkt om genuanceerde of complexe (bijvoorbeeld redeneringsintensieve) taken aan te kunnen. Bovendien zijn hun gepaarde voorkeursuitvoer incompatibel met standaard RLHF-algoritmen die puntgewijze beloningssignalen vereisen. In dit werk introduceren we Think-RM, een trainingsframework dat langetermijnredeneringen in GenRMs mogelijk maakt door een intern denkproces te modelleren. In plaats van gestructureerde, extern aangeleverde redeneringen te produceren, genereert Think-RM flexibele, zelfgestuurde redeneringstrajecten die geavanceerde mogelijkheden ondersteunen, zoals zelfreflectie, hypothetisch redeneren en divergent redeneren. Om deze redeneervaardigheden te stimuleren, warmen we eerst de modellen op door supervised fine-tuning (SFT) over lange CoT-data. Vervolgens verbeteren we de langetermijnvaardigheden van het model verder door regelgebaseerd reinforcement learning (RL). Daarnaast stellen we een nieuwe gepaarde RLHF-pijplijn voor die beleid direct optimaliseert met behulp van gepaarde voorkeursbeloningen, waardoor de noodzaak voor puntgewijze beloningsconversie wordt geëlimineerd en het gebruik van Think-RM-uitvoer effectiever wordt. Experimenten tonen aan dat Think-RM state-of-the-art resultaten behaalt op RM-Bench, waarbij het zowel BT RM als verticaal geschaalde GenRM met 8% overtreft. In combinatie met onze gepaarde RLHF-pijplijn demonstreert het superieure eindbeleidsprestaties vergeleken met traditionele benaderingen.
Grote Taalmodellen (LLMs) hebben geavanceerde mogelijkheden getoond in real-world agentische toepassingen. Groeiende onderzoeksinspanningen zijn gericht op de ontwikkeling van LLM-gebaseerde agents om praktische eisen aan te pakken, wat een nieuwe uitdaging introduceert: agentische scenario's omvatten vaak uitgebreide instructies met complexe beperkingen, zoals uitgebreide systeemprompts en gedetailleerde toolspecificaties. Hoewel het volgen van dergelijke instructies cruciaal is voor agentische toepassingen, blijft de vraag of LLMs deze betrouwbaar kunnen volgen onderbelicht. In dit artikel introduceren we AgentIF, de eerste benchmark voor het systematisch evalueren van het instructievolgvermogen van LLMs in agentische scenario's. AgentIF heeft drie belangrijke kenmerken: (1) Realistisch, samengesteld uit 50 real-world agentische toepassingen. (2) Lang, met een gemiddelde van 1.723 woorden en een maximum van 15.630 woorden. (3) Complex, met een gemiddelde van 11,9 beperkingen per instructie, die diverse beperkingstypes omvatten, zoals toolspecificaties en voorwaarde-beperkingen. Om AgentIF te construeren, verzamelen we 707 door mensen geannoteerde instructies over 50 agentische taken van industriële applicatieagents en open-source agentische systemen. Voor elke instructie annoteren we de bijbehorende beperkingen en bijbehorende evaluatiemetrics, waaronder code-gebaseerde evaluatie, LLM-gebaseerde evaluatie en hybride code-LLM evaluatie. We gebruiken AgentIF om bestaande geavanceerde LLMs systematisch te evalueren. We observeren dat huidige modellen over het algemeen slecht presteren, vooral bij het omgaan met complexe beperkingsstructuren en toolspecificaties. We voeren verder foutanalyse en analytische experimenten uit over instructielengte en meta-beperkingen, wat enkele bevindingen oplevert over de faalmodi van bestaande LLMs. We hebben de code en data vrijgegeven om toekomstig onderzoek te faciliteren.
Proces Beloningsmodellen (PRMs), die stap-voor-stap feedback geven op de redeneringen gegenereerd door Grote Taalmodellen (LLMs), krijgen steeds meer aandacht. Er blijven echter twee belangrijke onderzoekslacunes bestaan: het verzamelen van nauwkeurige foutlabels op stapniveau voor training vereist doorgaans kostbare menselijke annotatie, en bestaande PRMs zijn beperkt tot wiskundige redeneerproblemen. Als reactie op deze lacunes beoogt dit artikel de uitdagingen van automatische datasetcreatie en de generalisatie van PRMs naar diverse redeneertaken aan te pakken. Om dit doel te bereiken, stellen we FoVer voor, een benadering voor het trainen van PRMs op foutlabels op stapniveau die automatisch zijn geannoteerd door formele verificatietools, zoals Z3 voor formele logica en Isabelle voor stellingbewijzen, die automatische en nauwkeurige verificatie bieden voor symbolische taken. Met deze benadering synthetiseren we een trainingsdataset met foutlabels op LLM-reacties voor taken in formele logica en stellingbewijzen zonder menselijke annotatie. Hoewel deze datasynthese alleen haalbaar is voor taken die compatibel zijn met formele verificatie, observeren we dat LLM-gebaseerde PRMs die op onze dataset zijn getraind, kruistaskgeneralisatie vertonen, wat de verificatie over diverse redeneertaken verbetert. Specifiek presteren PRMs die met FoVer zijn getraind aanzienlijk beter dan baseline PRMs gebaseerd op de originele LLMs en behalen ze competitieve of superieure resultaten vergeleken met state-of-the-art PRMs die zijn getraind op labels geannoteerd door mensen of sterkere modellen, zoals gemeten door stap-voor-stap verificatie op ProcessBench en Best-of-K prestaties over 12 redeneerbenchmarks, waaronder MATH, AIME, ANLI, MMLU en BBH. De datasets, modellen en code zijn beschikbaar op https://github.com/psunlpgroup/FoVer.
Large Reasoning Models (LRMs) introduceren een nieuw generatieparadigma van expliciet redeneren voordat een antwoord wordt gegeven, wat leidt tot opmerkelijke verbeteringen in complexe taken. Ze brengen echter ook aanzienlijke veiligheidsrisico's met zich mee tegen schadelijke queries en adversariële aanvallen. Hoewel recente mainstream veiligheidsinspanningen op LRMs, zoals supervised fine-tuning (SFT), de veiligheidsprestaties verbeteren, ontdekken we dat SFT-afgestemde modellen moeite hebben om te generaliseren naar onbekende jailbreak-prompten. Na grondig onderzoek van de generatie van LRMs identificeren we een veiligheidsaha-moment dat veiligheidsredenering kan activeren en tot een veilig antwoord kan leiden. Dit aha-moment verschijnt typisch in de 'key sentence', die volgt op het querybegripsproces van de modellen en kan aangeven of het model veilig zal doorgaan. Op basis van deze inzichten stellen we SafeKey voor, met twee complementaire doelstellingen om het veiligheidsaha-moment in de key sentence beter te activeren: (1) een Dual-Path Safety Head om het veiligheidssignaal in de interne representaties van het model vóór de key sentence te versterken, en (2) een Query-Mask Modeling-doelstelling om de aandacht van de modellen op hun querybegrip te verbeteren, wat belangrijke veiligheidsaanwijzingen bevat. Experimenten over meerdere veiligheidsbenchmarks tonen aan dat onze methoden de veiligheidsgeneraliseerbaarheid aanzienlijk verbeteren voor een breed scala aan jailbreak-aanvallen en out-of-distribution schadelijke prompten, waarbij de gemiddelde schadelijkheidsgraad met 9,6\% wordt verlaagd, terwijl de algemene capaciteiten behouden blijven. Onze analyse laat zien hoe SafeKey de veiligheid verbetert door interne aandacht te hervormen en de kwaliteit van verborgen representaties te verbeteren.
Hoogwaardige machinevertalingssystemen gebaseerd op grote taalmmodellen (LLM's) hebben de productie van gepersonaliseerde vertalingen die specifieke stilistische beperkingen weerspiegelen, vereenvoudigd. Deze systemen hebben echter nog steeds moeite in situaties waar stilistische vereisten minder expliciet zijn en mogelijk moeilijker over te brengen zijn via prompting. We onderzoeken verschillende strategieën voor het personaliseren van door LLM's gegenereerde vertalingen in omgevingen met beperkte bronnen, met de focus op het uitdagende domein van literaire vertaling. We onderzoeken promptingstrategieën en interventies tijdens de inferentie om modelgeneraties te sturen naar een gepersonaliseerde stijl, en stellen een contrastief raamwerk voor dat gebruikmaakt van latente concepten die zijn geëxtraheerd uit sparse auto-encoders om opvallende personalisatie-eigenschappen te identificeren. Onze resultaten tonen aan dat sturing sterke personalisatie bereikt terwijl de vertaalkwaliteit behouden blijft. We onderzoeken verder de impact van sturing op LLM-representaties en vinden dat modellagen met een relevante impact voor personalisatie op een vergelijkbare manier worden beïnvloed door multi-shot prompting en onze sturingsmethode, wat suggereert dat vergelijkbare mechanismen een rol spelen.
We stellen RoPECraft voor, een trainingsvrije methode voor videobewegingsoverdracht voor diffusietransformers die uitsluitend werkt door hun roterende positionele embeddings (RoPE) aan te passen. We extraheren eerst dicht optisch flow uit een referentievideo en gebruiken de resulterende bewegingsverschuivingen om de complex-exponentiële tensoren van RoPE te vervormen, waardoor beweging effectief wordt gecodeerd in het generatieproces. Deze embeddings worden vervolgens verder geoptimaliseerd tijdens de denoising-stappen via trajectorie-uitlijning tussen de voorspelde en doel-snelheden met behulp van een flow-matching doelstelling. Om de uitvoer trouw te houden aan de tekstprompt en dubbele generaties te voorkomen, incorporeren we een regularisatieterm gebaseerd op de fasecomponenten van de Fourier-transformatie van de referentievideo, waarbij de fasehoeken worden geprojecteerd op een gladde variëteit om hoogfrequente artefacten te onderdrukken. Experimenten op benchmarks tonen aan dat RoPECraft alle recent gepubliceerde methoden zowel kwalitatief als kwantitatief overtreft.
Het evalueren van tekstgeneratiecapaciteiten van grote taalmodellen (LLMs) is uitdagend, vooral voor talen met beperkte bronnen waar methoden voor directe beoordeling schaars zijn. Wij stellen MUG-Eval voor, een nieuw raamwerk dat de meertalige generatiecapaciteiten van LLMs evalueert door bestaande benchmarks om te zetten in conversatietaken en de nauwkeurigheid van de LLMs op die taken te meten. We hebben deze conversatietaken specifiek ontworpen om effectieve communicatie in de doeltaal te vereisen. Vervolgens gebruiken we simpelweg de taaksuccesratio als een benadering van succesvolle conversatiegeneratie. Onze aanpak biedt twee belangrijke voordelen: het is onafhankelijk van taal-specifieke NLP-tools of geannoteerde datasets, die voor de meeste talen beperkt zijn, en het vertrouwt niet op LLMs-als-beoordelaars, waarvan de evaluatiekwaliteit buiten een paar talen met veel bronnen afneemt. We evalueren 8 LLMs in 30 talen die hoog-, midden- en laag-resourcetalen omvatten, en we ontdekken dat MUG-Eval sterk correleert met gevestigde benchmarks (r > 0,75) terwijl het gestandaardiseerde vergelijkingen tussen talen en modellen mogelijk maakt. Ons raamwerk biedt een robuuste en resource-efficiënte oplossing voor het evalueren van meertalige generatie die kan worden uitgebreid naar duizenden talen.
Vision-Language Models (VLMs) verwerven kennis van de echte wereld en algemene redeneervaardigheden via internet-schaal beeld-tekst corpora. Ze kunnen robotsystemen versterken met scènebegrip en taakplanning, en visuomotorische beleidsregels ondersteunen die getraind zijn op robottrajectoriedata. Wij onderzoeken het omgekeerde paradigma - het gebruik van rijke, echte, multimodale robottrajectoriedata om VLMs te verbeteren en te evalueren. In dit artikel presenteren we Robo2VLM, een Visual Question Answering (VQA) datasetgeneratieframework voor VLMs. Gegeven een door een mens tele-geoperateerd robottraject, leidt Robo2VLM de grondwaarheid af van niet-visuele en niet-beschrijvende sensorische modaliteiten, zoals de pose van de eindeffector, de grijperopening en krachtsensoren. Op basis van deze modaliteiten segmenteren we het robottraject in een reeks manipulatie fasen. In elke fase gebruikt Robo2VLM scène- en interactiebegrip om 3D-eigenschappen van de robot, het taakdoel en het doelobject te identificeren. Deze eigenschappen worden gebruikt om representatieve VQA-vragen te genereren - afbeeldingen met tekstuele meerkeuzevragen - gebaseerd op ruimtelijke, doelgerichte en interactieredeneringsvraagsjablonen. We hebben Robo2VLM-1 samengesteld, een grootschalige in-the-wild dataset met 684.710 vragen die 463 verschillende scènes en 3.396 robotmanipulatietaken beslaan, afkomstig van 176k echte robottrajectorieën. De resultaten suggereren dat Robo2VLM-1 de mogelijkheden van VLMs in ruimtelijke en interactieredenering kan benchmarken en verbeteren.
Metaforisch begrip in afbeeldingen blijft een kritieke uitdaging voor AI-systemen, aangezien bestaande modellen moeite hebben om de genuanceerde culturele, emotionele en contextuele implicaties in visuele content te begrijpen. Hoewel multimodale grote taalmodellen (MLLMs) uitblinken in basale Visual Question Answer (VQA)-taken, kampen ze met een fundamentele beperking bij beeldimplicatietaken: contextuele hiaten die de relaties tussen verschillende visuele elementen en hun abstracte betekenissen vertroebelen. Geïnspireerd door het menselijk cognitieve proces, stellen we Let Androids Dream (LAD) voor, een nieuw raamwerk voor het begrijpen en redeneren over beeldimplicaties. LAD adresseert ontbrekende context via een driestappenraamwerk: (1) Perceptie: het omzetten van visuele informatie in rijke en meerdere niveaus omvattende tekstuele representaties, (2) Zoeken: iteratief zoeken en integreren van kennis uit verschillende domeinen om ambiguïteit op te lossen, en (3) Redeneren: het genereren van context-afgestemde beeldimplicaties via expliciet redeneren. Ons raamwerk met het lichtgewicht GPT-4o-mini-model behaalt state-of-the-art (SOTA) prestaties in vergelijking met meer dan 15 MLLMs op de Engelse beeldimplicatiebenchmark en een aanzienlijke verbetering op de Chinese benchmark, waarbij het vergelijkbaar presteert met het GPT-4o-model op Multiple-Choice Question (MCQ) en 36,7% beter scoort op Open-Style Question (OSQ). Daarnaast biedt ons werk nieuwe inzichten in hoe AI beeldimplicaties effectiever kan interpreteren, wat het veld van visie-taalredenering en mens-AI-interactie vooruithelpt. Ons project is publiekelijk beschikbaar op https://github.com/MING-ZCH/Let-Androids-Dream-of-Electric-Sheep.
Naarmate visueel-taalmodelen (VLMs) steeds meer geïntegreerd raken in het dagelijks leven, wordt de behoefte aan nauwkeurig begrip van visuele cultuur steeds kritischer. Toch slagen deze modellen er vaak niet in om culturele nuances effectief te interpreteren. Eerder onderzoek heeft de effectiviteit van retrieval-augmented generation (RAG) aangetoond bij het verbeteren van cultureel begrip in tekstuele contexten, terwijl de toepassing ervan in multimodale scenario’s nog onderbelicht is. Om deze kloof te overbruggen, introduceren we RAVENEA (Retrieval-Augmented Visual culturE uNdErstAnding), een nieuwe benchmark die is ontworpen om visueel cultuur begrip te bevorderen door middel van retrieval, met focus op twee taken: cultuurgericht visueel vraag-antwoord (cVQA) en cultuurgeïnformeerde beeldbeschrijving (cIC). RAVENEA breidt bestaande datasets uit door de integratie van meer dan 10.000 Wikipedia-documenten die zijn gecureerd en gerangschikt door menselijke annotators. Met RAVENEA trainen en evalueren we zeven multimodale retrievers voor elke beeldquery, en meten we de downstream-impact van retrieval-augmented inputs over veertien state-of-the-art VLMs. Onze resultaten tonen aan dat lichtgewicht VLMs, wanneer ze worden versterkt met cultuurbewuste retrieval, hun niet-versterkte tegenhangers overtreffen (met minimaal 3,2% absoluut op cVQA en 6,2% absoluut op cIC). Dit onderstreept de waarde van retrieval-augmented methoden en cultureel inclusieve benchmarks voor multimodaal begrip.
Ondanks aanzienlijke vooruitgang in Grote Visuele Taalmodellen (LVLMs), blijft er een kloof bestaan, met name wat betreft hun interpreteerbaarheid en hoe ze tekstuele informatie in afbeeldingen lokaliseren en interpreteren. In dit artikel onderzoeken we verschillende LVLMs om de specifieke heads te identificeren die verantwoordelijk zijn voor het herkennen van tekst uit afbeeldingen, wat wij de Optical Character Recognition Head (OCR Head) noemen. Onze bevindingen over deze heads zijn als volgt: (1) Minder Sparse: In tegenstelling tot eerdere retrieval heads, worden een groot aantal heads geactiveerd om tekstuele informatie uit afbeeldingen te extraheren. (2) Kwalitatief Anders: OCR heads hebben eigenschappen die significant verschillen van algemene retrieval heads, met een lage gelijkenis in hun kenmerken. (3) Statisch Geactiveerd: De activatiefrequentie van deze heads komt nauw overeen met hun OCR-scores. We valideren onze bevindingen in downstream taken door Chain-of-Thought (CoT) toe te passen op zowel OCR als conventionele retrieval heads en door deze heads te maskeren. We tonen ook aan dat het herverdelen van sink-token waarden binnen de OCR heads de prestaties verbetert. Deze inzichten bieden een dieper begrip van de interne mechanismen die LVLMs gebruiken bij het verwerken van ingebedde tekstuele informatie in afbeeldingen.
Kunnen grote taalmodellen (LLM's) hun fouten toegeven wanneer ze beter zouden moeten weten? In dit werk definiëren we het gedrag van het erkennen van fouten in eerder gegenereerde antwoorden als "terugtrekking" en streven we ernaar te begrijpen wanneer en waarom LLM's ervoor kiezen om antwoorden terug te trekken. We construeren eerst model-specifieke datasets om te evalueren of een model een incorrect antwoord dat in tegenspraak is met zijn eigen parametrische kennis, zal terugtrekken. Hoewel LLM's in staat zijn tot terugtrekking, doen ze dit slechts sporadisch. We tonen aan dat terugtrekking nauw verbonden is met eerder geïdentificeerde indicatoren van de interne overtuiging van modellen: modellen falen in het terugtrekken van foute antwoorden waarvan ze "geloven" dat ze feitelijk correct zijn. Sturende experimenten tonen verder aan dat interne overtuiging causale invloed heeft op modelterugtrekking. In het bijzonder, wanneer het model niet gelooft in zijn antwoord, moedigt dit niet alleen het model aan om te proberen het antwoord te verifiëren, maar verandert het ook het aandachtgedrag tijdens zelfverificatie. Tot slot demonstreren we dat eenvoudige supervised fine-tuning de prestaties van terugtrekking aanzienlijk verbetert door het model te helpen meer accurate interne overtuigingen te leren. Code en datasets zijn beschikbaar op https://github.com/ayyyq/llm-retraction.
We introduceren een nieuwe dataset ontworpen om de fysieke en ruimtelijke redeneervaardigheden van Large Language Models (LLM) te benchmarken op basis van topologie-optimalisatie, een methode voor het berekenen van optimale materiaalverdelingen binnen een ontwerpruimte onder voorgeschreven belastingen en ondersteuningen. In deze dataset krijgen LLM's voorwaarden zoals 2D-randen, uitgeoefende krachten en ondersteuningen, en moeten ze redeneren over de resulterende optimale materiaalverdeling. De dataset omvat een verscheidenheid aan taken, variërend van het invullen van gemaskeerde regio's binnen gedeeltelijke structuren tot het voorspellen van volledige materiaalverdelingen. Het oplossen van deze taken vereist inzicht in de krachtverdeling en de benodigde materiaalverdeling onder gegeven beperkingen, zonder toegang tot simulatietools of expliciete fysieke modellen, wat modellen uitdaagt om te redeneren over structurele stabiliteit en ruimtelijke organisatie. Onze dataset richt zich op de evaluatie van ruimtelijke en fysieke redeneervaardigheden in 2D-omgevingen, en biedt een complementair perspectief ten opzichte van traditionele taal- en logische benchmarks.
Moderne BPE-tokenizers splitsen kalenderdatums vaak op in betekenisloze fragmenten, bijvoorbeeld 20250312 → 202, 503, 12, wat het aantal tokens opblaast en de onderliggende structuur verhult die nodig is voor robuust temporeel redeneren. In dit werk (1) introduceren we een eenvoudige maar interpreteerbare metriek, genaamd de datumfragmentatieratio, die meet hoe trouw een tokenizer meercijferige datumcomponenten behoudt; (2) presenteren we DateAugBench, een set van 6500 voorbeelden die drie temporele redeneertaken omvat: contextgebaseerde datumresolutie, formaatonafhankelijke puzzels en datumrekenkunde over historische, hedendaagse en toekomstige regimes; en (3) ontdekken we, via laaggewijze probing en causale aandacht-hop-analyses, een emergent datumabstractiemechanisme waarbij grote taalmodellen de fragmenten van maand-, dag- en jaarcomponenten aan elkaar rijgen voor temporeel redeneren. Onze experimenten tonen aan dat overmatige fragmentatie correleert met nauwkeurigheidsdalingen tot wel 10 punten bij ongebruikelijke datums zoals historische en futuristische datums. Verder vinden we dat hoe groter het model, hoe sneller de emergente datumabstractie die datumfragmenten herstel, wordt bereikt. Tot slot observeren we een redeneerpad dat LLMs volgen om datumfragmenten samen te stellen, dat typisch verschilt van menselijke interpretatie (jaar → maand → dag).
Door vooraf te trainen om samenhangende afbeeldingen te synthetiseren uit verstoorde invoer, leren generatieve modellen van nature objectgrenzen en scènecomposities te begrijpen. Hoe kunnen we deze generatieve representaties hergebruiken voor algemene perceptuele organisatie? We finetunen Stable Diffusion en MAE (encoder+decoder) voor categorie-agnostische instantiesegmentatie met behulp van ons instance coloring loss, uitsluitend op een beperkte set objecttypen (binnenhuisinrichting en auto's). Verrassend genoeg vertonen onze modellen sterke zero-shot generalisatie, waarbij ze objecten van typen en stijlen die niet in de finetuning voorkwamen (en in veel gevallen ook niet in MAE's ImageNet-1K voorafgaande training), nauwkeurig segmenteren. Onze best presterende modellen benaderen de zwaar begeleide SAM sterk bij evaluatie op onbekende objecttypen en stijlen, en overtreffen deze bij het segmenteren van fijne structuren en ambiguë grenzen. In tegenstelling hiermee slagen bestaande promptbare segmentatie-architecturen of discriminatief vooraf getrainde modellen er niet in te generaliseren. Dit suggereert dat generatieve modellen een inherent groeperingsmechanisme leren dat overdraagbaar is over categorieën en domeinen, zelfs zonder internet-schaal voorafgaande training. Code, vooraf getrainde modellen en demo's zijn beschikbaar op onze website.
Grote audio-taalmodellen (LALMs) breiden de grote taalmodellen uit met multimodale begrip van spraak, audio, enz. Hoewel hun prestaties op spraak- en audiotaken uitgebreid zijn bestudeerd, blijven hun redeneervaardigheden onderbelicht. Met name hun multi-hop redeneren, het vermogen om meerdere feiten te herinneren en te integreren, ontbreekt systematische evaluatie. Bestaande benchmarks richten zich op algemene spraak- en audiotaken, conversatievaardigheden en eerlijkheid, maar negeren dit aspect. Om deze kloof te overbruggen, introduceren we SAKURA, een benchmark die het multi-hop redeneren van LALMs beoordeelt op basis van spraak- en audio-informatie. Resultaten tonen aan dat LALMs moeite hebben om spraak-/audio-representaties te integreren voor multi-hop redeneren, zelfs wanneer ze de relevante informatie correct extraheren, wat een fundamentele uitdaging in multimodaal redeneren blootlegt. Onze bevindingen onthullen een kritieke beperking in LALMs en bieden inzichten en bronnen voor toekomstig onderzoek.