Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Hoewel het "diep redeneren"-paradigma aanzienlijke vooruitgang heeft geboekt in verifieerbare domeinen zoals wiskunde, blijft de toepassing ervan op open-einde, creatieve generatie een kritieke uitdaging. De twee dominante methoden om redeneren te bevorderen – reinforcement learning (RL) en instructiedistillatie – falen op dit gebied; RL worstelt met het ontbreken van duidelijke beloningssignalen en hoogwaardige beloningsmodellen, terwijl distillatie buitensporig duur is en beperkt wordt door de capaciteiten van het leraarmodel. Om deze beperkingen te overwinnen, introduceren we REverse-Engineered Reasoning (REER), een nieuw paradigma dat de aanpak fundamenteel verandert. In plaats van een redeneerproces "voorwaarts" op te bouwen via trial-and-error of imitatie, werkt REER "achterwaarts" vanuit bekende goede oplossingen om het latente, stapsgewijze diepe redeneerproces dat deze zou kunnen hebben geproduceerd, computationeel te ontdekken. Met deze schaalbare, gradient-vrije aanpak cureren en openbaren we DeepWriting-20K, een grootschalige dataset van 20.000 diepe redeneertrajecten voor open-einde taken. Ons model, DeepWriter-8B, getraind op deze data, overtreft niet alleen sterke open-source baselines, maar presteert ook concurrerend met, en soms zelfs beter dan, toonaangevende propriëtaire modellen zoals GPT-4o en Claude 3.5.
Het paradigma van Large Language Models (LLMs) is steeds meer verschoven naar agentische toepassingen, waarbij webbrowsingmogelijkheden essentieel zijn voor het ophalen van informatie uit diverse online bronnen. Bestaande open-source webagents tonen echter beperkte informatiezoekvaardigheden bij complexe taken of hebben geen transparante implementaties. In dit werk identificeren we dat de belangrijkste uitdaging ligt in de schaarste van uitdagende data voor informatiezoeken. Om deze beperking aan te pakken, introduceren we WebExplorer: een systematische data-generatiebenadering die gebruikmaakt van modelgebaseerde exploratie en iteratieve, lange-naar-korte query-evolutie. Deze methode creëert uitdagende query-antwoordparen die multi-stap redeneren en complexe webnavigatie vereisen. Door gebruik te maken van onze samengestelde dataset van hoge kwaliteit, ontwikkelen we met succes het geavanceerde webagent WebExplorer-8B via supervised fine-tuning gevolgd door reinforcement learning. Ons model ondersteunt een contextlengte van 128K en tot 100 toolaanroepbeurten, waardoor langetermijnprobleemoplossing mogelijk wordt. Op diverse informatiezoekbenchmarks behaalt WebExplorer-8B de state-of-the-art prestaties op zijn schaal. Opmerkelijk is dat WebExplorer-8B, als een model van 8B grootte, effectief kan zoeken over een gemiddelde van 16 beurten na RL-training, wat een hogere nauwkeurigheid oplevert dan WebSailor-72B op BrowseComp-en/zh en de beste prestaties behaalt onder modellen tot 100B parameters op WebWalkerQA en FRAMES. Naast deze informatiezoektaken bereikt ons model ook sterke generalisatie op de HLE-benchmark, ondanks dat het alleen getraind is op kennisintensieve QA-data. Deze resultaten benadrukken onze benadering als een praktische weg naar langetermijn webagents.
We stellen TraceRL voor, een trajectbewust reinforcement learning-framework voor diffusie-taalmodelen (DLMs) dat de voorkeursinferentietrajectorie integreert in post-training en toepasbaar is op verschillende architecturen. Uitgerust met een diffusiegebaseerd waardemodel dat de trainingsstabiliteit verbetert, tonen we verbeterde redeneerprestaties aan op complexe wiskunde- en coderingstaken. Daarnaast kan het ook worden toegepast om blokspecifieke modellen aan te passen aan grotere blokken, wat de steekproefflexibiliteit verbetert. Met behulp van TraceRL leiden we een reeks state-of-the-art diffusie-taalmodelen af, genaamd TraDo. Hoewel kleiner dan 7B-schaal AR-modellen, presteert TraDo-4B-Instruct nog steeds consistent beter op complexe wiskundige redeneertaken. TraDo-8B-Instruct behaalt relatieve nauwkeurigheidsverbeteringen van 6,1% ten opzichte van Qwen2.5-7B-Instruct en 51,3% ten opzichte van Llama3.1-8B-Instruct op wiskundige redeneerbenchmarks. Door middel van curriculum learning leiden we ook het eerste lange-CoT DLM af, dat Qwen2.5-7B-Instruct overtreft op MATH500 met een relatieve nauwkeurigheidsverbetering van 18,1%. Om reproduceerbaar onderzoek en praktische toepassingen te faciliteren, geven we een uitgebreid open-source framework vrij voor het bouwen, trainen en implementeren van diffusie-LLM's over diverse architecturen. Het framework integreert versnelde KV-cache-technieken en inferentie-engines voor zowel inferentie als reinforcement learning, en bevat implementaties van verschillende supervised fine-tuning en RL-methoden voor wiskunde, codering en algemene taken. Code en Modellen: https://github.com/Gen-Verse/dLLM-RL
We introduceren Paper2Agent, een geautomatiseerd framework dat onderzoeksartikelen omzet in AI-agenten. Paper2Agent transformeert onderzoeksresultaten van passieve artefacten naar actieve systemen die het gebruik, de adoptie en de ontdekking van kennis kunnen versnellen. Traditionele onderzoeksartikelen vereisen dat lezers aanzienlijke inspanning leveren om de code, data en methoden van een artikel te begrijpen en aan te passen voor hun eigen werk, wat barrières creëert voor verspreiding en hergebruik. Paper2Agent lost dit probleem op door automatisch een artikel om te zetten in een AI-agent die fungeert als een deskundige onderzoeksassistent. Het analyseert systematisch het artikel en de bijbehorende codebase met behulp van meerdere agenten om een Model Context Protocol (MCP)-server te construeren, waarna het iteratief tests genereert en uitvoert om het resulterende MCP te verfijnen en robuuster te maken. Deze paper-MCP's kunnen vervolgens flexibel worden verbonden met een chatagent (bijvoorbeeld Claude Code) om complexe wetenschappelijke vragen te beantwoorden via natuurlijke taal, terwijl tools en workflows uit het oorspronkelijke artikel worden ingezet. We demonstreren de effectiviteit van Paper2Agent in het creëren van betrouwbare en capabele paper-agenten door middel van diepgaande casestudies. Paper2Agent creëerde een agent die AlphaGenome gebruikt om genomische varianten te interpreteren, en agenten gebaseerd op ScanPy en TISSUE om single-cell en spatial transcriptomics-analyses uit te voeren. We valideren dat deze paper-agenten de resultaten van het oorspronkelijke artikel kunnen reproduceren en nieuwe gebruikersvragen correct kunnen uitvoeren. Door statische artikelen om te zetten in dynamische, interactieve AI-agenten, introduceert Paper2Agent een nieuw paradigma voor kennisdisseminatie en legt het de basis voor een collaboratief ecosysteem van AI-co-wetenschappers.
De opkomst van grootschalige vision foundation models, vooraf getraind op diverse natuurlijke afbeeldingen, heeft een paradigmaverschuiving in computer vision teweeggebracht. Echter, hoe de effectiviteit van deze geavanceerde vision foundation models overgedragen wordt naar gespecialiseerde domeinen, zoals medische beeldvorming, blijft een open vraag. Dit rapport onderzoekt of DINOv3, een state-of-the-art zelfgesuperviseerde vision transformer (ViT) die sterk presteert in dense prediction-taken, direct kan dienen als een krachtige, uniforme encoder voor medische vision-taken zonder domeinspecifieke voorafgaande training. Om dit te beantwoorden, benchmarken we DINOv3 op veelvoorkomende medische vision-taken, waaronder 2D/3D-classificatie en segmentatie op een breed scala aan medische beeldvormingsmodaliteiten. We analyseren systematisch de schaalbaarheid door modelgroottes en invoerbeeldresoluties te variëren. Onze bevindingen tonen aan dat DINOv3 indrukwekkende prestaties levert en een formidabele nieuwe baseline vestigt. Opmerkelijk is dat het zelfs medisch-specifieke foundation models zoals BiomedCLIP en CT-Net op verschillende taken kan overtreffen, ondanks dat het uitsluitend op natuurlijke afbeeldingen is getraind. We identificeren echter duidelijke beperkingen: de kenmerken van het model verslechteren in scenario's die diepe domeinspecialisatie vereisen, zoals bij Whole-Slide Pathological Images (WSIs), Electron Microscopy (EM) en Positron Emission Tomography (PET). Bovendien observeren we dat DINOv3 niet consistent de schaalwetten in het medische domein volgt; de prestaties nemen niet betrouwbaar toe met grotere modellen of fijnere kenmerkresoluties, wat diverse schaalgedragingen over taken heen laat zien. Uiteindelijk vestigt ons werk DINOv3 als een sterke baseline, waarvan de krachtige visuele kenmerken kunnen dienen als een robuuste prior voor meerdere complexe medische taken. Dit opent veelbelovende toekomstige richtingen, zoals het benutten van zijn kenmerken om multiview-consistentie in 3D-reconstructie te bevorderen.
Diepe onderzoekssystemen, agent-gebaseerde AI die complexe, meerstaps taken oplossen door redenering te coördineren, te zoeken over het open web en gebruikersbestanden, en gereedschappen te gebruiken, bewegen zich richting hiërarchische implementaties met een Planner, Coördinator en Uitvoerders. In de praktijk blijft het trainen van volledige stacks end-to-end onpraktisch, dus de meeste werkzaamheden trainen een enkele planner die is verbonden met kernhulpmiddelen zoals zoeken, browsen en code. Hoewel SFT protocolgetrouwheid biedt, lijdt het onder imitatie- en blootstellingsvooroordelen en maakt het onvoldoende gebruik van omgevingsfeedback. Voorkeursuitlijningsmethoden zoals DPO zijn schema- en proxy-afhankelijk, off-policy, en zwak voor langetermijntoewijzing van credits en multi-objectieve afwegingen. Een verdere beperking van SFT en DPO is hun afhankelijkheid van door mensen gedefinieerde beslissingspunten en subvaardigheden via schemadesign en gelabelde vergelijkingen. Reinforcement learning sluit aan bij gesloten-lus, gereedschapsinteractieonderzoek door trajectniveau-beleid te optimaliseren, waardoor exploratie, herstelgedrag en principiële toewijzing van credits mogelijk worden, en het vermindert de afhankelijkheid van dergelijke menselijke aannames en beoordelaarsvooroordelen. Deze survey is, voor zover wij weten, de eerste die gewijd is aan de RL-fundamenten van diepe onderzoekssystemen. Het systemiseert werk na DeepSeek-R1 langs drie assen: (i) datasynthese en -curatie; (ii) RL-methoden voor agent-gebaseerd onderzoek die stabiliteit, steekproefefficiëntie, lange contextverwerking, belonings- en creditdesign, multi-objectieve optimalisatie en multimodale integratie omvatten; en (iii) agent-gebaseerde RL-trainingssystemen en -frameworks. We behandelen ook agentarchitectuur en -coördinatie, evenals evaluatie en benchmarks, waaronder recente QA, VQA, lange-synthese en domeingebonden, gereedschapsinteractietaken. We destilleren terugkerende patronen, identificeren infrastructuurknelpunten en bieden praktische richtlijnen voor het trainen van robuuste, transparante diepe onderzoeksagenten met RL.
Visueel redeneren, een hoeksteen van menselijke intelligentie, omvat complexe perceptuele en logische processen die essentieel zijn voor het oplossen van uiteenlopende visuele problemen. Hoewel vooruitgang in computervisie krachtige modellen heeft opgeleverd voor diverse perceptuele taken, blijft het gebruik ervan voor algemeen visueel redeneren een uitdaging. Eerder werk toont aan dat het verbeteren van LLM's met visiemodellen via supervised finetuning de prestaties verbetert, maar kampt met belangrijke beperkingen zoals dure datageneratie, afhankelijkheid van zorgvuldige datafiltering en slechte generalizatie. Om deze problemen aan te pakken, stellen we ReVPT voor om de vaardigheden van multimodale LLM's te verbeteren om te redeneren over en visuele tools te gebruiken door middel van reinforcement learning. We introduceren een nieuw RL-algoritme gebaseerd op GRPO, ontworpen om modellen te trainen om te redeneren met een reeks van vier visuele tools. Door middel van uitgebreide experimenten tonen we aan dat onze methode state-of-the-art prestaties behaalt op verschillende perceptie-zware benchmarks, waaronder SAT, CV-Bench, BLINK en MMStar, en significant beter presteert dan de supervised en tekstgebaseerde RL-finetuning baselines. Opmerkelijk is dat onze ReVPT-3B en ReVPT-7B de instruct-modellen overtreffen met respectievelijk 9,03% en 9,44% op CV-Bench. Tot slot bieden we de gemeenschap nieuwe inzichten in RL-gebaseerd gebruik van visuele tools door middel van uitgebreide ablatiestudies. Onze code is beschikbaar op https://github.com/ls-kelvin/REVPT.
Multi-task learning (MTL) wordt vaak bereikt door datasets samen te voegen voordat fine-tuning plaatsvindt, maar de toenemende beschikbaarheid van gefinetunede modellen heeft geleid tot nieuwe benaderingen zoals modelmerging via taakarithmetiek. Een grote uitdaging in deze context is taakinterferentie, die verergert naarmate het aantal taken toeneemt. Wij stellen een methode voor die modellen die op verschillende taken zijn getraind, samenvoegt tot één model, waarbij sterke prestaties op alle taken behouden blijven. Onze aanpak maakt gebruik van Jensen-Shannon-divergentie om het samenvoegproces te begeleiden zonder aanvullende gelabelde data te vereisen, en balanceert automatisch het belang van taken. In tegenstelling tot bestaande methoden blijft onze aanpak robuust naarmate het aantal taken groeit en presteert deze consistent beter dan eerder werk.
Vision-Language Models (VLMs) hebben opmerkelijke successen geboekt bij diverse visuele taken, maar hun prestaties verslechteren in complexe visuele omgevingen. Hoewel bestaande verbeteringsmethoden aanvullende training vereisen, afhankelijk zijn van externe segmentatietools of op grofkorrelige niveaus werken, negeren ze het inherente vermogen van VLMs. Om deze kloof te overbruggen, onderzoeken we de aandachtspatronen van VLMs en ontdekken dat: (1) visuele complexiteit sterk correleert met aandacht-entropie, wat een negatieve impact heeft op de redeneerprestaties; (2) aandacht geleidelijk verfijnt van globale scanning in oppervlakkige lagen naar gerichte convergentie in diepere lagen, waarbij de mate van convergentie wordt bepaald door visuele complexiteit. (3) Theoretisch bewijzen we dat het contrast van aandachtkaarten tussen algemene queries en taakspecifieke queries het mogelijk maakt om visuele signalen te ontbinden in semantische signalen en visuele ruiscomponenten. Op basis van deze inzichten stellen we Contrastive Attention Refinement for Visual Enhancement (CARVE) voor, een trainingsvrije methode die taakrelevante visuele signalen extraheert door aandachtcontrasten op pixelniveau. Uitgebreide experimenten tonen aan dat CARVE consistent de prestaties verbetert, met verbeteringen tot wel 75% op open-source modellen. Ons werk biedt kritische inzichten in de wisselwerking tussen visuele complexiteit en aandachtmechanismen, en biedt een efficiënte weg om visueel redeneren te verbeteren met contrasterende aandacht.
Het uitrusten van grote taalmodellen (LLMs) met complexe, verweven redeneer- en hulpmiddelgebruikscapaciteiten is een belangrijk aandachtspunt geworden in onderzoek naar agent-gebaseerde AI, vooral met recente vooruitgang in redeneringsgerichte (``denkende'') modellen. Dergelijke capaciteiten zijn essentieel voor het ontsluiten van een aantal belangrijke toepassingen. Een van deze toepassingen is Diepgaand Onderzoek (DR), dat uitgebreid zoeken en redeneren over vele bronnen vereist. Ons werk in dit artikel richt zich op de ontwikkeling van native autonome single-agent modellen voor DR met minimale webcrawling en integratie van Python-hulpmiddelen. In tegenstelling tot multi-agent systemen, waar agents vooraf gedefinieerde rollen innemen en bij elke stap in een statische workflow worden verteld wat ze moeten doen, bepaalt een autonome single-agent zijn volgende actie dynamisch op basis van de context, zonder handmatige instructie. Terwijl eerder werk trainingsrecepten heeft voorgesteld voor basis- of instructie-afgestemde LLMs, richten wij ons op continue reinforcement learning (RL) van redeneringsgeoptimaliseerde modellen om agentische vaardigheden verder te verbeteren terwijl het redeneervermogen behouden blijft. Hiertoe stellen we een eenvoudig RL-recept voor met volledig synthetische data, dat we toepassen op verschillende open-source LLMs. Onze beste variant, SFR-DR-20B, behaalt tot 28,7% op de Humanity's Last Exam-benchmark. Daarnaast voeren we belangrijke analyse-experimenten uit om meer inzicht te bieden in onze methodologieën.
We introduceren UniVerse-1, een geïntegreerd, Veo-3-achtig model dat in staat is om gecoördineerde audio en video gelijktijdig te genereren. Om de trainings efficiëntie te verbeteren, omzeilen we het trainen vanaf nul en gebruiken we in plaats daarvan een stitching of experts (SoE) techniek. Deze aanpak fuseert diepgaand de corresponderende blokken van vooraf getrainde video- en muziekgeneratie expertmodellen, waardoor hun fundamentele capaciteiten volledig worden benut. Om nauwkeurige annotaties en temporele uitlijning voor zowel omgevingsgeluiden als spraak met videocontent te garanderen, hebben we een online annotatiepijplijn ontwikkeld die de benodigde trainingsdata verwerkt en labels genereert tijdens het trainingsproces. Deze strategie omzeilt de prestatievermindering die vaak wordt veroorzaakt door verkeerd uitgelijnde tekstgebaseerde annotaties. Door de synergie van deze technieken produceert ons model, na te zijn afgestemd op ongeveer 7.600 uur aan audio-videodata, resultaten met goed gecoördineerde audio-visuals voor het genereren van omgevingsgeluiden en sterke uitlijning voor spraakgeneratie. Om onze voorgestelde methode systematisch te evalueren, introduceren we Verse-Bench, een nieuwe benchmarkdataset. In een poging om onderzoek in audio-videogeneratie vooruit te helpen en de prestatiekloof met state-of-the-art modellen zoals Veo3 te verkleinen, maken we ons model en code publiekelijk beschikbaar. We hopen dat deze bijdrage de bredere onderzoeksgemeenschap ten goede zal komen. Projectpagina: https://dorniwang.github.io/UniVerse-1/.
Unified multimodale begrips- en generatiemodellen hebben recentelijk aanzienlijke vooruitgang geboekt in beeldgeneratiecapaciteit, maar er blijft een grote kloof bestaan in instructieopvolging en detailbehoud in vergelijking met systemen die begrip en generatie nauw koppelen, zoals GPT-4o. Gemotiveerd door recente ontwikkelingen in interleaving reasoning, onderzoeken we of dergelijke redenering de Text-to-Image (T2I)-generatie verder kan verbeteren. We introduceren Interleaving Reasoning Generation (IRG), een raamwerk dat afwisselt tussen tekstgebaseerd denken en beeld-synthese: het model produceert eerst een tekstgebaseerde denkstap om een initieel beeld te begeleiden, reflecteert vervolgens op het resultaat om fijnmazige details, visuele kwaliteit en esthetiek te verfijnen, terwijl de semantiek behouden blijft. Om IRG effectief te trainen, stellen we Interleaving Reasoning Generation Learning (IRGL) voor, dat zich richt op twee subdoelen: (1) het versterken van de initiële denk-en-genereer fase om kerninhoud en basiskwaliteit vast te stellen, en (2) het mogelijk maken van hoogwaardige tekstuele reflectie en getrouwe implementatie van die verfijningen in een volgend beeld. We hebben IRGL-300K samengesteld, een dataset georganiseerd in zes ontbonden leerwijzen die gezamenlijk het leren van tekstgebaseerd denken en volledige denken-beeld trajecten omvatten. Uitgaande van een unified foundation model dat van nature interleaved tekst-beeld uitvoer produceert, bouwt onze tweefasige training eerst robuust denken en reflectie op, en stemt vervolgens efficiënt de IRG-pipeline af op de volledige denken-beeld trajectdata. Uitgebreide experimenten tonen state-of-the-art prestaties, met absolute winsten van 5-10 punten op GenEval, WISE, TIIF, GenAI-Bench en OneIG-EN, naast aanzienlijke verbeteringen in visuele kwaliteit en fijnmazige trouw. De code, modelgewichten en datasets zullen worden vrijgegeven op: https://github.com/Osilly/Interleaving-Reasoning-Generation.
De integratie van Large Language Models (LLM's) in geautomatiseerd bewijzen van stellingen heeft enorme belofte getoond, maar wordt fundamenteel beperkt door uitdagingen in het opschalen van zowel reinforcement learning (RL) tijdens de training als de rekencapaciteit tijdens de inferentie. Dit artikel introduceert BFS-Prover-V2, een systeem ontworpen om dit dubbele schaalprobleem aan te pakken. We presenteren twee primaire innovaties. De eerste is een nieuw multi-turn off-policy RL-raamwerk voor het continu verbeteren van de prestaties van de LLM-stapbewijzer tijdens de training. Dit raamwerk, geïnspireerd door de principes van AlphaZero, maakt gebruik van een meerfasen expert-iteratiepijplijn met adaptieve tactiekniveau datafiltering en periodieke hertraining om de prestatieplateaus te overwinnen die doorgaans langdurige RL in LLM-gebaseerde agenten beperken. De tweede innovatie is een planner-versterkte multi-agent zoekarchitectuur die de redeneercapaciteiten tijdens de inferentie opschaalt. Deze architectuur gebruikt een algemeen redeneermodel als een hoog niveau planner om complexe stellingen iteratief te decomponeren in een reeks eenvoudigere subdoelen. Deze hiërarchische aanpak vermindert de zoekruimte aanzienlijk, waardoor een team van parallelle bewijzeragenten efficiënt kan samenwerken door gebruik te maken van een gedeelde bewijscache. We demonstreren dat deze dubbele aanpak tot state-of-the-art resultaten leidt op gevestigde benchmarks voor formele wiskunde. BFS-Prover-V2 behaalt 95,08% en 41,4% op respectievelijk de MiniF2F- en ProofNet-test sets. Hoewel gedemonstreerd in het domein van formele wiskunde, zijn de RL- en inferentietechnieken die in dit werk worden gepresenteerd van breder belang en kunnen ze worden toegepast op andere domeinen die langetermijn multi-turn redenering en complex zoeken vereisen.
Text-to-image (T2I)-generatie heeft als doel om afbeeldingen te synthetiseren op basis van tekstuele prompts, die gezamenlijk specificeren wat getoond moet worden en impliceren wat afgeleid kan worden, wat overeenkomt met twee kernvaardigheden: compositie en redenering. Met de opkomende vooruitgang van T2I-modellen in redenering die verder gaat dan compositie, tonen bestaande benchmarks echter duidelijke beperkingen in het bieden van uitgebreide evaluaties over en binnen deze vaardigheden. Tegelijkertijd stellen deze vooruitgangen modellen in staat om complexere prompts te verwerken, terwijl huidige benchmarks beperkt blijven tot lage scènedichtheid en vereenvoudigde één-op-één-redenering. Om deze beperkingen aan te pakken, stellen we T2I-CoReBench voor, een uitgebreide en complexe benchmark die zowel de compositie- als redeneervaardigheden van T2I-modellen evalueert. Om uitvoerigheid te waarborgen, structureren we compositie rond scènegrafelementen (instantie, attribuut en relatie) en redenering rond het filosofische kader van inferentie (deductief, inductief en abductief), wat resulteert in een 12-dimensionale evaluatietaxonomie. Om de complexiteit te vergroten, geïnspireerd door de inherente complexiteit van real-world scenario's, cureren we elke prompt met een hoge compositionele dichtheid voor compositie en meerstapsinferentie voor redenering. We koppelen ook elke prompt aan een checklist die individuele ja/nee-vragen specificeert om elk beoogd element onafhankelijk te beoordelen, wat een fijnmazige en betrouwbare evaluatie mogelijk maakt. Statistisch gezien omvat onze benchmark 1.080 uitdagende prompts en ongeveer 13.500 checklistvragen. Experimenten met 27 huidige T2I-modellen tonen aan dat hun compositievermogen nog steeds beperkt blijft in complexe scenario's met hoge dichtheid, terwijl het redeneervermogen nog verder achterblijft als een kritieke bottleneck, waarbij alle modellen moeite hebben om impliciete elementen uit prompts af te leiden. Onze projectpagina: https://t2i-corebench.github.io/.
De integratie van Large Language Models (LLM's) in diverse toepassingen heeft de behoefte aan gestructureerde en betrouwbare reacties aangewakkerd. Een belangrijke uitdaging in Retrieval-Augmented Generation (RAG)-systemen is het waarborgen dat uitvoer overeenkomt met verwachte formaten, terwijl hallucinaties worden geminimaliseerd. Deze studie onderzoekt de rol van begeleide decodering in RAG-systemen, waarbij drie methoden worden vergeleken: Outlines, XGrammar en LM Format Enforcer, in verschillende multi-turn prompting-opstellingen (0-turn, 1-turn en 2-turn). Door succespercentages, hallucinatiepercentages en uitvoerkwaliteit te evalueren, bieden we inzicht in hun prestaties en toepasbaarheid. Onze bevindingen onthullen hoe multi-turn interacties begeleide decodering beïnvloeden, waarbij onverwachte prestatievariaties aan het licht komen die methodeselectie voor specifieke use cases kunnen informeren. Dit werk bevordert het begrip van gestructureerde uitvoergeneratie in RAG-systemen, en biedt zowel theoretische inzichten als praktische richtlijnen voor de implementatie van LLM's.
Test-time schaling verhoogt de rekentijd tijdens inferentie door modellen in staat te stellen lange redeneerketens te genereren, en heeft sterke prestaties getoond in vele domeinen. In dit werk tonen we echter aan dat deze aanpak nog niet effectief is voor kennisintensieve taken, waar hoge feitelijke nauwkeurigheid en lage hallucinatiepercentages essentieel zijn. We voeren een uitgebreide evaluatie uit van test-time schaling met behulp van 12 redeneermodellen op twee kennisintensieve benchmarks. Onze resultaten laten zien dat het verhogen van de rekentijd tijdens testen niet consistent leidt tot verbeterde nauwkeurigheid en in veel gevallen zelfs resulteert in meer hallucinaties. Vervolgens analyseren we hoe uitgebreid redeneren het hallucinatiegedrag beïnvloedt. We constateren dat verminderde hallucinaties vaak het gevolg zijn van het feit dat het model ervoor kiest zich te onthouden na langer nadenken, in plaats van verbeterde feitelijke herinnering. Omgekeerd moedigt langer redeneren bij sommige modellen pogingen aan op voorheen onbeantwoorde vragen, waarvan vele resulteren in hallucinaties. Casestudies tonen aan dat uitgebreid redeneren bevestigingsbias kan veroorzaken, wat leidt tot overmoedige hallucinaties. Ondanks deze beperkingen merken we op dat het inschakelen van redeneren, vergeleken met niet nadenken, nog steeds voordelig blijft. Code en data zijn beschikbaar op https://github.com/XuZhao0/tts-knowledge.
Drag-gebaseerde beeldbewerking is naar voren gekomen als een krachtig paradigma voor intuïtieve beeldmanipulatie. Bestaande benaderingen zijn echter voornamelijk gebaseerd op het manipuleren van de latente ruimte van generatieve modellen, wat leidt tot beperkte precisie, vertraagde feedback en model-specifieke beperkingen. Daarom presenteren wij Inpaint4Drag, een nieuw raamwerk dat drag-gebaseerde bewerking ontbindt in bidirectionele vervorming in de pixelruimte en beeldinpainting. Geïnspireerd door elastische objectvervorming in de fysieke wereld, behandelen wij beeldregio's als vervormbare materialen die hun natuurlijke vorm behouden onder gebruikersmanipulatie. Onze methode bereikt real-time vervormingsvoorbeelden (0,01s) en efficiënte inpainting (0,3s) bij een resolutie van 512x512, wat de interactie-ervaring aanzienlijk verbetert in vergelijking met bestaande methoden die minuten per bewerking vereisen. Door drag-inputs direct om te zetten in standaard inpainting-formaten, fungeert onze aanpak als een universele adapter voor elk inpainting-model zonder architectuurwijzigingen, waardoor automatisch alle toekomstige verbeteringen in inpainting-technologie worden geërfd. Uitgebreide experimenten tonen aan dat onze methode superieure visuele kwaliteit en precieze controle bereikt, terwijl real-time prestaties worden behouden. Projectpagina: https://visual-ai.github.io/inpaint4drag/
We presenteren Llama-GENBA-10B, een drietalig basis model dat de Engelse dominantie in grote taalmodellen aanpakt. Gebouwd op Llama 3.1-8B en opgeschaald naar 10B parameters, is Llama-GENBA-10B continu voorgetraind op 164B tokens (82B Engels, 82B Duits en 80M Beiers), waarbij de middelen in balans worden gehouden en Engelse dominantie wordt voorkomen. Gericht op de Duitse NLP-gemeenschap, bevordert het model ook het Beiers als een taal met beperkte bronnen. De ontwikkeling pakte vier uitdagingen aan: (1) het samenstellen van een meertalig corpus ondanks de schaarste van Beiers, (2) het creëren van een uniforme tokenizer voor Engels, Duits en Beiers, (3) het optimaliseren van de architectuur en taalratio hyperparameters voor cross-linguale overdracht, en (4) het opzetten van de eerste gestandaardiseerde drietalige evaluatiesuite door Duitse benchmarks naar het Beiers te vertalen. Evaluaties tonen aan dat Llama-GENBA-10B sterke cross-linguale prestaties behaalt, waarbij de fijn afgestelde variant Apertus-8B-2509 en gemma-2-9b in het Beiers overtreft en zichzelf vestigt als het beste model in zijn klasse voor deze taal, terwijl het ook EuroLLM in het Engels overtreft en de resultaten in het Duits evenaart. De training op de Cerebras CS-2 toonde efficiënte grootschalige meertalige voorpretraining aan met gedocumenteerd energiegebruik, en biedt een blauwdruk voor inclusieve basis modellen die talen met beperkte bronnen integreren.
Donkere humor in online memes brengt unieke uitdagingen met zich mee vanwege de afhankelijkheid van impliciete, gevoelige en cultureel contextuele signalen. Om het gebrek aan bronnen en methoden voor het detecteren van donkere humor in multimodale content aan te pakken, introduceren we een nieuwe dataset van 4.379 Reddit-memes die zijn geannoteerd voor donkere humor, doelcategorie (geslacht, geestelijke gezondheid, geweld, ras, handicap en overige), en een drie-level intensiteitsbeoordeling (mild, matig, ernstig). Op basis van deze bron stellen we een reasoning-augmented framework voor dat eerst gestructureerde verklaringen genereert voor elke meme met behulp van een Large Vision-Language Model (VLM). Via een Role-Reversal Self-Loop neemt het VLM het perspectief van de auteur aan om zijn verklaringen iteratief te verfijnen, waardoor volledigheid en afstemming worden gewaarborgd. Vervolgens extraheren we tekstuele kenmerken uit zowel het OCR-transcript als de zelfverfijnde reasoning via een tekstencoder, terwijl visuele kenmerken worden verkregen met behulp van een vision transformer. Een Tri-stream Cross-Reasoning Network (TCRNet) fuseert deze drie stromen—tekst, beeld en reasoning—via pairwise attention-mechanismen, wat resulteert in een uniforme representatie voor classificatie. Experimentele resultaten tonen aan dat onze aanpak sterke baseline-methoden overtreft in drie taken: detectie van donkere humor, doelidentificatie en intensiteitsvoorspelling. De dataset, annotaties en code worden vrijgegeven om verder onderzoek naar multimodale humorinterpretatie en contentmoderatie te faciliteren. Code en Dataset zijn beschikbaar op: https://github.com/Sai-Kartheek-Reddy/D-Humor-Dark-Humor-Understanding-via-Multimodal-Open-ended-Reasoning
In dit position paper behandelen we de aanhoudende kloof tussen de snel groeiende AI-mogelijkheden en de achterblijvende vooruitgang op het gebied van veiligheid. Bestaande paradigma's zijn onder te verdelen in "Maak AI Veilig", waarbij achteraf afstemming en beveiligingsmaatregelen worden toegepast maar dat broos en reactief blijft, en "Maak Veilige AI", dat intrinsieke veiligheid benadrukt maar moeite heeft om onvoorziene risico's in open-ended omgevingen aan te pakken. Wij stellen daarom safe-by-coevolution voor als een nieuwe formulering van het "Maak Veilige AI"-paradigma, geïnspireerd door biologische immuniteit, waarbij veiligheid een dynamisch, adversarieel en voortdurend leerproces wordt. Om deze visie operationeel te maken, introduceren we R^2AI -- Resistant and Resilient AI -- als een praktisch raamwerk dat weerstand tegen bekende bedreigingen combineert met veerkracht tegen onvoorziene risico's. R^2AI integreert snelle en langzame veiligheidsmodellen, adversariële simulatie en verificatie via een veiligheidswindtunnel, en continue feedbacklussen die ervoor zorgen dat veiligheid en capaciteit samen evolueren. Wij beargumenteren dat dit raamwerk een schaalbare en proactieve aanpak biedt om voortdurende veiligheid te waarborgen in dynamische omgevingen, waarbij zowel kortetermijnkwetsbaarheden als langetermijnexistentiële risico's worden aangepakt naarmate AI evolueert naar AGI en ASI.
Vision-language modellen (VLMs) zoals CLIP hebben indrukwekkende zero-shot en few-shot leermogelijkheden getoond in diverse toepassingen. Het aanpassen van deze modellen aan nieuwe, fijnmazige domeinen blijft echter moeilijk vanwege de afhankelijkheid van prompt engineering en de hoge kosten van volledige model fine-tuning. Bestaande aanpassingsmethoden vertrouwen op aanvullende componenten, zoals prompt tokens en adaptermodules, wat de aanpassingskwaliteit kan beperken, het model kan destabiliseren en de rijke kennis die tijdens het vooraf trainen is opgedaan, kan aantasten. In dit werk presenteren we CLIP-SVD, een nieuwe multimodale en parameter-efficiënte aanpakstechniek die gebruikmaakt van Singular Value Decomposition (SVD) om de interne parameterruimte van CLIP aan te passen zonder extra modules te injecteren. Specifiek fine-tunen we alleen de singuliere waarden van de CLIP-parametermatrices om de basisvectoren voor domeinaanpassing te herschalen, terwijl het vooraf getrainde model behouden blijft. Dit ontwerp maakt verbeterde aanpassingsprestaties mogelijk met slechts 0,04% van de totale parameters van het model en behoudt beter zijn generalisatievermogen. CLIP-SVD behaalt state-of-the-art classificatieresultaten op 11 natuurlijke en 10 biomedische datasets en overtreft eerdere methoden in zowel nauwkeurigheid als generalisatie onder few-shot instellingen. Daarnaast maken we gebruik van een op natuurlijke taal gebaseerde aanpak om de effectiviteit en dynamiek van de CLIP-aanpassing te analyseren, wat de interpreteerbaarheid van CLIP-SVD mogelijk maakt. De code is publiekelijk beschikbaar op https://github.com/HealthX-Lab/CLIP-SVD.
Het gebrek aan hoogwaardige, logisch correcte data vormt een kritieke belemmering voor het bevorderen van het wiskundig redeneervermogen van Large Language Models (LLMs). Ons werk gaat deze uitdaging aan door decennia van onderzoek naar automatisch stellingen bewijzen om te zetten in een schaalbare data-engine. In plaats van te vertrouwen op foutgevoelige LLMs of complexe syntax van bewijsassistenten zoals Lean en Isabelle, maakt ons framework gebruik van de saturatiecapaciteiten van E-prover op de uitgebreide TPTP-axiombibliotheek om een enorme, gegarandeerd valide corpus van stellingen af te leiden. Onze pijplijn is principieel en eenvoudig: saturatie van axioma's, filteren op "interessante" stellingen, en het genereren van taken. Zonder LLMs in de loop elimineren we feitelijke fouten door constructie. Deze puur symbolische data wordt vervolgens omgezet in drie moeilijkheidsgecontroleerde uitdagingen: entailment-verificatie, premisse-selectie en reconstructie van bewijzen. Onze zero-shot experimenten op frontier-modellen onthullen een duidelijke zwakte: de prestaties storten in bij taken die diepgaand, structureel redeneren vereisen. Ons framework biedt zowel het diagnostische instrument om deze kloof te meten als een schaalbare bron van symbolische trainingsdata om deze aan te pakken. We maken de code en data publiekelijk beschikbaar. https://github.com/sileod/reasoning_core https://hf.co/datasets/reasoning-core/rc1
Vision-Language-Action (VLA)-modellen vormen een veelbelovende weg naar het realiseren van algemene, belichaamde agents die zich snel kunnen aanpassen aan nieuwe taken, modaliteiten en omgevingen. Methoden voor het interpreteren en sturen van VLA's blijven echter ver achter bij klassieke robotica-pipelines, die gebaseerd zijn op expliciete modellen van kinematica, dynamica en controle. Dit gebrek aan mechanistisch inzicht is een centrale uitdaging bij het inzetten van geleerde beleidsregels in real-world robotica, waar robuustheid en verklaarbaarheid cruciaal zijn. Geïnspireerd door vooruitgang in mechanistische interpreteerbaarheid voor grote taalmodellen, introduceren we het eerste raamwerk voor het interpreteren en sturen van VLA's via hun interne representaties, waardoor directe interventie in modelgedrag tijdens inferentie mogelijk wordt. We projecteren feedforward-activaties binnen transformer-lagen op de token-embeddingbasis, waarbij we spaarzame semantische richtingen identificeren - zoals snelheid en richting - die causaal verbonden zijn aan actieselectie. Gebruikmakend van deze bevindingen, introduceren we een algemene activatie-stuurmethode die gedrag in realtime moduleert, zonder fine-tuning, beloningssignalen of omgevingsinteractie. We evalueren deze methode op twee recente open-source VLA's, Pi0 en OpenVLA, en demonstreren zero-shot gedragscontrole in simulatie (LIBERO) en op een fysieke robot (UR5). Dit werk toont aan dat interpreteerbare componenten van belichaamde VLA's systematisch kunnen worden benut voor controle - wat een nieuw paradigma vestigt voor transparante en stuurbare foundation-modellen in robotica.
Om de efficiëntie van GUI-agents op verschillende platforms zoals smartphones en computers te verbeteren, ontstaat een hybride paradigma dat flexibele GUI-bewerkingen combineert met efficiënte snelkoppelingen (bijv. API's, deep links) als een veelbelovende richting. Een raamwerk voor het systematisch benchmarken van deze hybride agents is echter nog onderbelicht. Om de eerste stap te zetten in het overbruggen van deze kloof, introduceren we MAS-Bench, een benchmark die baanbrekend werk verricht in de evaluatie van GUI-snelkoppelingshybride agents, met een specifieke focus op het mobiele domein. Naast het gebruik van vooraf gedefinieerde snelkoppelingen, beoordeelt MAS-Bench de capaciteit van een agent om autonoom snelkoppelingen te genereren door herbruikbare, kostenefficiënte workflows te ontdekken en te creëren. Het omvat 139 complexe taken over 11 real-world applicaties, een kennisbank van 88 vooraf gedefinieerde snelkoppelingen (API's, deep-links, RPA-scripts) en 7 evaluatiemetrics. De taken zijn ontworpen om oplosbaar te zijn via alleen GUI-bewerkingen, maar kunnen aanzienlijk worden versneld door slim snelkoppelingen in te bedden. Experimenten tonen aan dat hybride agents aanzienlijk hogere slagingspercentages en efficiëntie behalen dan hun GUI-only tegenhangers. Dit resultaat toont ook de effectiviteit van onze methode voor het evalueren van de snelkoppelingsgeneratiecapaciteiten van een agent. MAS-Bench vult een kritieke evaluatiekloof en biedt een fundamenteel platform voor toekomstige vooruitgang in het creëren van efficiëntere en robuustere intelligente agents.
LiDAR-puntwolkregistratie is fundamenteel voor robotperceptie en -navigatie. Echter, in geometrisch gedegenereerde of smalle omgevingen worden registratieproblemen slecht geconditioneerd, wat leidt tot onstabiele oplossingen en verminderde nauwkeurigheid. Hoewel bestaande benaderingen proberen deze problemen aan te pakken, slagen ze er niet in de kernuitdaging te adresseren: het nauwkeurig detecteren, interpreteren en oplossen van deze slechte conditionering, wat resulteert in gemiste detecties of verstoorde oplossingen. In deze studie introduceren we DCReg, een principieel raamwerk dat systematisch de slecht geconditioneerde registratieproblemen aanpakt via drie geïntegreerde innovaties. Ten eerste bereikt DCReg betrouwbare detectie van slechte conditionering door een Schur-complementdecompositie toe te passen op de Hessiaanmatrix. Deze techniek ontkoppelt het registratieprobleem in schone rotatie- en translatiesubruimtes, waardoor koppelingseffecten die degeneratiepatronen maskeren in conventionele analyses worden geëlimineerd. Ten tweede ontwikkelen we binnen deze schone subruimtes kwantitatieve karakteriseringstechnieken die expliciete mappingen tot stand brengen tussen wiskundige eigenruimtes en fysieke bewegingsrichtingen, wat bruikbare inzichten biedt over welke specifieke bewegingen beperkingen missen. Tot slot, gebruikmakend van deze schone subruimte, ontwerpen we een gerichte mitigatiestrategie: een nieuwe preconditioner die selectief alleen de geïdentificeerde slecht geconditioneerde richtingen stabiliseert, terwijl alle goed geconditioneerde informatie in de waarneembare ruimte behouden blijft. Dit maakt efficiënte en robuuste optimalisatie mogelijk via de Preconditioned Conjugate Gradient-methode met een enkele fysiek interpreteerbare parameter. Uitgebreide experimenten tonen aan dat DCReg een verbetering van ten minste 20% - 50% in lokalisatienauwkeurigheid en een versnelling van 5-100 keer bereikt in vergelijking met state-of-the-art methoden in diverse omgevingen. Onze implementatie zal beschikbaar zijn op https://github.com/JokerJohn/DCReg.