Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren InternVL3, een belangrijke vooruitgang in de InternVL-serie die een native multimodale voorafgaande trainingsparadigma introduceert. In plaats van een tekst-gebaseerd groot taalmodel (LLM) aan te passen naar een multimodaal groot taalmodel (MLLM) dat visuele invoer ondersteunt, verwerft InternVL3 zowel multimodale als linguïstische capaciteiten gezamenlijk vanuit diverse multimodale data en pure-tekst corpora tijdens een enkele voorafgaande trainingsfase. Dit geïntegreerde trainingsparadigma lost effectief de complexiteiten en uitlijningsuitdagingen op die vaak worden aangetroffen in conventionele achteraf-trainingspijplijnen voor MLLMs. Om de prestaties en schaalbaarheid verder te verbeteren, integreert InternVL3 variabele visuele positiecodering (V2PE) om uitgebreide multimodale contexten te ondersteunen, maakt het gebruik van geavanceerde post-trainings technieken zoals begeleid fijn afstemmen (SFT) en gemengde voorkeursoptimalisatie (MPO), en neemt het testtijd-schaalstrategieën aan naast een geoptimaliseerde trainingsinfrastructuur. Uitgebreide empirische evaluaties tonen aan dat InternVL3 superieure prestaties levert over een breed scala aan multimodale taken. In het bijzonder behaalt InternVL3-78B een score van 72.2 op de MMMU-benchmark, waarmee het een nieuwe state-of-the-art vestigt onder open-source MLLMs. De capaciteiten blijven zeer concurrerend met toonaangevende propriëtaire modellen, waaronder ChatGPT-4o, Claude 3.5 Sonnet en Gemini 2.5 Pro, terwijl het ook sterke pure-taalvaardigheden behoudt. In lijn met de principes van open wetenschap, zullen we zowel de trainingsdata als de modelgewichten openbaar beschikbaar stellen om verder onderzoek en ontwikkeling in de volgende generatie MLLMs te bevorderen.
De opkomst van DeepSeek R1 en QwQ 32B heeft prestatiebarrières doorbroken voor het draaien van geavanceerde grote taalmodellen (LLMs) op thuisapparaten. Hoewel consumentenhardware steeds krachtiger wordt en modelkwantisatie verbetert, vereisen bestaande end-side oplossingen nog steeds GPU-clusters, grote RAM/VRAM en hoge bandbreedte, ver buiten het bereik van een gemiddeld thuiscluster. Dit artikel introduceert prima.cpp, een gedistribueerd inferentiesysteem dat 70B-schaalmodellen draait op alledaagse thuisapparaten met een mix van CPU/GPU, lage RAM/VRAM, Wi-Fi en cross-platform ondersteuning. Het gebruikt mmap om modelgewichten te beheren en introduceert piped-ring parallelisme met prefetching om schijfladen te verbergen. Door heterogeniteit in berekening, communicatie, schijf, geheugen (en zijn beheergedrag) en het besturingssysteem te modelleren, wijst het optimaal modellagen toe aan de CPU en GPU van elk apparaat, waardoor de tokenlatentie verder wordt verminderd. Een elegant algoritme genaamd Halda wordt voorgesteld om dit NP-moeilijke toewijzingsprobleem op te lossen. We evalueren prima.cpp op een veelvoorkomend vier-node thuiscluster. Het presteert beter dan llama.cpp, exo en dllama op 30B+ modellen terwijl de geheugendruk onder de 6% blijft. Dit brengt geavanceerde 30B-70B modellen, zoals Llama 3, DeepSeek R1, Qwen 2.5 en QwQ, naar thuisassistenten, waardoor geavanceerde AI echt toegankelijk wordt voor individuen. De code is open source en beschikbaar op https://github.com/Lizonghang/prima.cpp.
OpenAI's multimodale GPT-4o heeft opmerkelijke capaciteiten getoond op het gebied van beeldgeneratie en -bewerking, maar het vermogen om wereldkennis-gestuurde semantische synthese te bereiken—waarbij domeinkennis, contextueel redeneren en instructievolging naadloos worden geïntegreerd—blijft onbewezen. In deze studie evalueren we deze capaciteiten systematisch op drie kritieke dimensies: (1) Globale Instructievolging, (2) Fijnmazige Bewerkingsprecisie, en (3) Post-Generatie Redenering. Hoewel bestaande benchmarks de sterke capaciteiten van GPT-4o in beeldgeneratie en -bewerking benadrukken, onthult onze evaluatie hardnekkige beperkingen van GPT-4o: het model valt vaak terug op letterlijke interpretaties van instructies, past kennisbeperkingen inconsistent toe en worstelt met conditionele redeneertaken. Deze bevindingen dagen heersende aannames uit over het verenigde begrip en de generatiecapaciteiten van GPT-4o, en leggen significante tekortkomingen bloot in de dynamische kennisintegratie. Onze studie pleit voor de ontwikkeling van robuustere benchmarks en trainingsstrategieën die verder gaan dan oppervlakkige afstemming, en benadrukt contextbewuste en redeneringsgestuurde multimodale generatie.
Onlangs hebben langzaam denkende systemen zoals GPT-o1 en DeepSeek-R1 groot potentieel getoond bij het oplossen van uitdagende problemen door expliciete reflectie. Ze overtreffen de beste snel denkende modellen, zoals GPT-4o, aanzienlijk op verschillende wiskundige en wetenschappelijke benchmarks. Hun multimodale redeneervaardigheden blijven echter vergelijkbaar met die van snel denkende modellen. Zo is de prestaties van GPT-o1 op benchmarks zoals MathVista, MathVerse en MathVision vergelijkbaar met die van snel denkende modellen. In dit artikel streven we ernaar om de langzaam denkende capaciteiten van visie-taalmodellen te verbeteren door middel van reinforcement learning (zonder gebruik te maken van distillatie) om de stand van de techniek vooruit te helpen. Eerst passen we het GRPO-algoritme aan met een nieuwe techniek genaamd Selective Sample Replay (SSR) om het probleem van verdwijnende voordelen aan te pakken. Hoewel deze aanpak sterke prestaties oplevert, vertonen de resulterende RL-getrainde modellen beperkte zelfreflectie of zelfverificatie. Om langzaam denken verder aan te moedigen, introduceren we Forced Rethinking, waarbij een tekstuele herdenkingsprikkel wordt toegevoegd aan het einde van initiële rollouts in RL-training, waardoor expliciet een zelfreflectie-redeneerstap wordt afgedwongen. Door deze twee technieken te combineren, behaalt ons model, VL-Rethinker, state-of-the-art scores op MathVista, MathVerse en MathVision van respectievelijk 80,3%, 61,8% en 43,9%. VL-Rethinker behaalt ook open-source SoTA op multidisciplinaire benchmarks zoals MMMU-Pro, EMMA en MEGA-Bench, waardoor de kloof met GPT-o1 wordt verkleind.
We introduceren FUSION, een familie van multimodale grote taalmodellen (MLLMs) met een volledig visie-taal uitlijnings- en integratieparadigma. In tegenstelling tot bestaande methoden die voornamelijk vertrouwen op late-stadium modaliteitsinteractie tijdens LLM-decodering, bereikt onze aanpak een diepe, dynamische integratie gedurende de hele verwerkingspijplijn. Hiertoe stellen we Text-Guided Unified Vision Encoding voor, waarbij tekstuele informatie wordt opgenomen in visuele codering om pixelniveau-integratie te bereiken. We ontwerpen verder Context-Aware Recursive Alignment Decoding dat visuele kenmerken recursief aggregeert, geconditioneerd op tekstuele context tijdens decodering, waardoor fijnmazige, vraagniveau semantische integratie mogelijk wordt. Om kenmerkmapping te begeleiden en modaliteitsdiscrepanties te mitigeren, ontwikkelen we Dual-Supervised Semantic Mapping Loss. Daarnaast construeren we een Synthesized Language-Driven Question-Answer (QA) dataset via een nieuwe datasynthesemethode, waarbij we prioriteit geven aan hoogwaardige QA-paren om tekstgeleide kenmerkintegratie te optimaliseren. Op basis van deze fundamenten trainen we FUSION op twee schalen-3B, 8B-en demonstreren we dat onze volledige modaliteitsintegratieaanpak bestaande methoden significant overtreft met slechts 630 visuele tokens. Opmerkelijk is dat FUSION 3B Cambrian-1 8B en Florence-VL 8B op de meeste benchmarks overtreft. FUSION 3B blijft Cambrian-1 8B overtreffen, zelfs wanneer beperkt tot 300 visuele tokens. Onze ablatiestudies tonen aan dat FUSION LLaVA-NeXT op meer dan de helft van de benchmarks overtreft onder dezelfde configuratie zonder dynamische resolutie, wat de effectiviteit van onze aanpak benadrukt. We geven onze code, modelgewichten en dataset vrij. https://github.com/starriver030515/FUSION
Het genereren van hoogwaardige code die complexe programmeertaken oplost, is uitdagend, vooral met huidige decoder-gebaseerde modellen die sterk stochastische uitvoer produceren. Bij codegeneratie kunnen zelfs kleine fouten de volledige oplossing gemakkelijk doen falen. Het benutten van meerdere gegenereerde oplossingen kan de algehele uitvoerkwaliteit aanzienlijk verbeteren. Een effectieve manier om codegeneratie te verbeteren, is door een codegeneratiemodel te combineren met een herrangiermodel, dat de beste oplossing selecteert uit de gegenereerde voorbeelden. Wij stellen een nieuwe iteratieve zelf-trainingsmethode voor voor het trainen van herrangiermodellen met behulp van Proximal Policy Optimization (PPO), gericht op het verbeteren van zowel de herrangiernauwkeurigheid als het algehele codegeneratieproces. In tegenstelling tot traditionele PPO-benaderingen, waarbij de focus ligt op het optimaliseren van een generatief model met een beloningsmodel, benadrukt onze aanpak de ontwikkeling van een robuust belonings-/herrangiermodel. Dit model verbetert de kwaliteit van gegenereerde code door herrangschikking en behandelt problemen en fouten die het beloningsmodel mogelijk over het hoofd ziet tijdens de PPO-afstemming met het herrangiermodel. Onze methode verfijnt de trainingsdataset iteratief door uitvoer opnieuw te evalueren, hoogscorende negatieve voorbeelden te identificeren en deze op te nemen in de trainingsloop, wat de modelprestaties versterkt. Onze evaluatie op de MultiPL-E dataset toont aan dat ons model met 13,4 miljard parameters een model met 33 miljard parameters overtreft in codegeneratiekwaliteit, terwijl het drie keer sneller is. Bovendien bereikt het prestaties die vergelijkbaar zijn met GPT-4 en overtreft het deze in één programmeertaal.
Langetermijnvideo-begrip in multimodale grote taalmodellen (MLLMs) wordt geconfronteerd met een kritieke uitdaging: het balanceren van computationele efficiëntie met het behoud van fijnmazige spatio-temporele patronen. Bestaande benaderingen (bijvoorbeeld spaarzame bemonstering, dichte bemonstering met lage resolutie, en tokencompressie) lijden onder aanzienlijk informatieverlies in temporele dynamiek, ruimtelijke details of subtiele interacties, vooral in video's met complexe bewegingen of variërende resoluties. Om dit aan te pakken, stellen we Mavors voor, een nieuw raamwerk dat Multi-granulariteit video-representatie introduceert voor holistische langetermijnvideo-modellering. Specifiek codeert Mavors ruwe videocontent direct in latente representaties via twee kerncomponenten: 1) een Intra-chunk Vision Encoder (IVE) die hoogresolutie ruimtelijke kenmerken behoudt via 3D-convoluties en Vision Transformers, en 2) een Inter-chunk Feature Aggregator (IFA) die temporele samenhang tussen chunks vaststelt met transformer-gebaseerde afhankelijkheidsmodellering met chunk-level roterende positiecoderingen. Bovendien verenigt het raamwerk beeld- en videobegrip door afbeeldingen te behandelen als enkel-frame video's via sub-beelddecompositie. Experimenten over diverse benchmarks tonen de superioriteit van Mavors aan in het behouden van zowel ruimtelijke trouw als temporele continuïteit, waarbij het bestaande methoden significant overtreft in taken die fijnmazige spatio-temporele redenering vereisen.
Webagents stellen gebruikers in staat om taken uit te voeren in webbrowsers via natuurlijke taalinteractie. Het evalueren van de trajecten van webagents is een belangrijk probleem, omdat het ons helpt te bepalen of de agent de taken succesvol heeft voltooid. Op regels gebaseerde methoden worden hiervoor veel gebruikt, maar ze zijn moeilijk uit te breiden naar nieuwe taken en herkennen mogelijk niet altijd succesvolle trajecten. We kunnen een hogere nauwkeurigheid bereiken door menselijke evaluatie, maar het proces zou aanzienlijk langzamer en duurder zijn. Automatische evaluaties met LLM's kunnen de uitdagingen van het ontwerpen van nieuwe regels en het handmatig annoteren van trajecten vermijden, waardoor snellere en kosteneffectieve evaluatie mogelijk wordt. Het is echter onduidelijk hoe effectief ze zijn bij het evalueren van webagents. Daarom stellen we AgentRewardBench voor, de eerste benchmark om de effectiviteit van LLM-beoordelaars voor het evalueren van webagents te beoordelen. AgentRewardBench bevat 1302 trajecten over 5 benchmarks en 4 LLM's. Elk traject in AgentRewardBench wordt beoordeeld door een expert, die vragen beantwoord over het succes, de neveneffecten en de herhaling van de agent. Met behulp van onze benchmark evalueren we 12 LLM-beoordelaars en concluderen we dat geen enkele LLM uitblinkt over alle benchmarks. We ontdekken ook dat de op regels gebaseerde evaluatie die door veelgebruikte benchmarks wordt gebruikt, de slagingskans van webagents vaak onderschat, wat een belangrijk zwak punt van op regels gebaseerde evaluatie benadrukt en de noodzaak aantoont om flexibelere automatische evaluaties te ontwikkelen. We publiceren de benchmark op: https://agent-reward-bench.github.io.
We introduceren S1-Bench, een nieuwe benchmark ontworpen om de prestaties van Large Reasoning Models (LRMs) te evalueren op eenvoudige taken die intuïtief systeem 1-denken bevorderen in plaats van deliberatief systeem 2-redeneren. Hoewel LRMs significante doorbraken hebben bereikt in complexe redeneertaken door expliciete gedachteketens, kan hun afhankelijkheid van diep analytisch denken hun systeem 1-denken beperken. Bovendien ontbreekt momenteel een benchmark om de prestaties van LRMs te evalueren in taken die dergelijke vaardigheden vereisen. Om deze leemte op te vullen, presenteert S1-Bench een reeks eenvoudige, diverse en van nature heldere vragen over meerdere domeinen en talen, specifiek ontworpen om de prestaties van LRMs in dergelijke taken te beoordelen. Onze uitgebreide evaluatie van 22 LRMs onthult significant lagere efficiëntietendensen, waarbij de uitvoer gemiddeld 15,5 keer langer is dan die van traditionele kleine LLMs. Daarnaast identificeren LRMs vaak correcte antwoorden vroegtijdig, maar blijven ze onnodig delibereren, waarbij sommige modellen zelfs talrijke fouten produceren. Deze bevindingen benadrukken de rigide redeneerpatronen van huidige LRMs en onderstrepen de aanzienlijke ontwikkeling die nodig is om gebalanceerde duale-systeemdenkvaardigheden te bereiken die zich adequaat kunnen aanpassen aan de complexiteit van taken.
Recente vooruitgang in reinforcement learning (RL)-gebaseerde na-training heeft geleid tot aanzienlijke verbeteringen in grote taalmmodellen (LLM's), met name in het versterken van hun redeneervaardigheden om complexe taken aan te kunnen. De meeste bestaande methoden behandelen de trainingsgegevens echter als een geheel, waarbij over het hoofd wordt gezien dat moderne LLM-training vaak een mix van gegevens uit diverse distributies omvat, die variëren in zowel bron als moeilijkheidsgraad. Deze heterogeniteit introduceert een belangrijke uitdaging: hoe het trainingsschema adaptief over distributies te plannen om de leer efficiëntie te optimaliseren. In dit artikel presenteren we een principieel curriculumlerenraamwerk gebaseerd op het concept van distributieniveau-leerbaarheid. Onze kerninzicht is dat de omvang van beleidsvoordelen weerspiegelt hoeveel een model nog kan profiteren van verdere training op een gegeven distributie. Op basis hiervan stellen we een distributieniveau-curriculumlerenraamwerk voor RL-gebaseerde LLM-na-training voor, dat het Upper Confidence Bound (UCB)-principe benut om de steekproefkansen voor verschillende distributies dynamisch aan te passen. Deze aanpak geeft prioriteit aan distributies met een hoog gemiddeld voordeel (exploitatie) of een laag steekproefaantal (exploratie), wat resulteert in een adaptief en theoretisch onderbouwd trainingsschema. We concretiseren ons curriculumlerenraamwerk met GRPO als het onderliggende RL-algoritme en demonstreren de effectiviteit ervan op logisch redeneerdatasets met meerdere moeilijkheidsgraden en bronnen. Onze experimenten tonen aan dat ons raamwerk de convergentiesnelheid en de uiteindelijke prestaties aanzienlijk verbetert, wat de waarde van distributiebewuste curriculumstrategieën in LLM-na-training benadrukt. Code: https://github.com/ZhentingWang/DUMP.
Beeldrepresentaties worden vaak geëvalueerd via onsamenhangende, taakspecifieke protocollen, wat leidt tot een gefragmenteerd begrip van modelcapaciteiten. Het is bijvoorbeeld onduidelijk of een beeldembeddingmodel dat goed is in het clusteren van afbeeldingen, even goed presteert bij het ophalen van relevante afbeeldingen op basis van een stuk tekst. We introduceren de Massive Image Embedding Benchmark (MIEB) om de prestaties van beeld- en beeld-tekst-embeddingmodellen te evalueren over het breedste spectrum tot nu toe. MIEB omvat 38 talen en 130 individuele taken, die we groeperen in 8 hoogwaardige categorieën. We testen 50 modellen op onze benchmark en constateren dat geen enkele methode dominant is over alle taakcategorieën. We onthullen verborgen capaciteiten in geavanceerde visionmodellen, zoals hun nauwkeurige visuele representatie van teksten, en hun nog beperkte mogelijkheden in interleaved coderingen en het matchen van afbeeldingen en teksten in aanwezigheid van verstorende factoren. We tonen ook aan dat de prestaties van vision-encoders op MIEB sterk correleren met hun prestaties wanneer ze worden gebruikt in multimodale grote taalmodellen. Onze code, dataset en leaderboard zijn openbaar beschikbaar op https://github.com/embeddings-benchmark/mteb.
Sociale simulatie transformeert traditioneel sociaalwetenschappelijk onderzoek door menselijk gedrag te modelleren via interacties tussen virtuele individuen en hun omgeving. Met recente vooruitgang in grote taalmodellen (LLM's) heeft deze aanpak een groeiend potentieel getoond in het vastleggen van individuele verschillen en het voorspellen van groepsgedrag. Bestaande methoden kampen echter met uitdagingen op het gebied van afstemming, gerelateerd aan de omgeving, doelgebruikers, interactiemechanismen en gedragspatronen. Daarom introduceren wij SocioVerse, een LLM-agent-gestuurd wereldmodel voor sociale simulatie. Ons framework beschikt over vier krachtige afstemmingscomponenten en een gebruikerspool van 10 miljoen echte individuen. Om de effectiviteit te valideren, hebben we grootschalige simulatie-experimenten uitgevoerd in drie verschillende domeinen: politiek, nieuws en economie. De resultaten tonen aan dat SocioVerse grootschalige populatiedynamieken kan weerspiegelen, terwijl diversiteit, geloofwaardigheid en representativiteit worden gewaarborgd door gestandaardiseerde procedures en minimale handmatige aanpassingen.
Graphical User Interface (GUI)-agents bieden platformoverschrijdende oplossingen voor het automatiseren van complexe digitale taken, met aanzienlijk potentieel om productiviteitsworkflows te transformeren. Hun prestaties worden echter vaak beperkt door het gebrek aan hoogwaardige trajectgegevens. Om deze beperking aan te pakken, stellen we voor om Vision Language Models (VLMs) te trainen op datarijke, redeneerintensieve taken tijdens een specifieke mid-training fase, en vervolgens te onderzoeken hoe het opnemen van deze taken generalisatie naar GUI-planningsscenario's vergemakkelijkt. Specifiek verkennen we een reeks taken met direct beschikbare instructieafstemmingsgegevens, waaronder GUI-perceptie, multimodale redenering en tekstuele redenering. Door uitgebreide experimenten over 11 mid-training taken tonen we aan dat: (1) Taakgeneralisatie zeer effectief blijkt, wat aanzienlijke verbeteringen oplevert in de meeste situaties. Multimodale wiskundige redenering verbetert bijvoorbeeld de prestaties op AndroidWorld met een absolute 6,3%. Opmerkelijk is dat tekstuele wiskundige gegevens de prestaties van GUI-webagents aanzienlijk verbeteren, met een verbetering van 5,6% op WebArena en 5,4% op AndroidWorld, wat opmerkelijke cross-modale generalisatie van tekstuele naar visuele domeinen onderstreept; (2) In tegenstelling tot eerdere aannames hebben GUI-perceptiegegevens - voorheen beschouwd als nauw verwant aan GUI-agenttaken en veel gebruikt voor training - een relatief beperkte impact op de uiteindelijke prestaties; (3) Op basis van deze inzichten identificeren we de meest effectieve mid-training taken en stellen we geoptimaliseerde mengdatasets samen, wat resulteert in absolute prestatieverbeteringen van 8,0% op WebArena en 12,2% op AndroidWorld. Ons werk biedt waardevolle inzichten in cross-domein kennisoverdracht voor GUI-agents en biedt een praktische aanpak om uitdagingen op het gebied van dataschaarste in dit opkomende veld aan te pakken. De code, gegevens en modellen zijn beschikbaar op https://github.com/hkust-nlp/GUIMid.
Recentelijk is het verbeteren van het redeneervermogen van grote multimodale modellen (LMM's) door middel van reinforcement learning aanzienlijk vooruitgegaan. De meeste bestaande werken zijn echter gebaseerd op zeer redeneerintensieve datasets zoals wiskunde en code, en onderzoekers kiezen over het algemeen grootschalige modellen als basis. Wij stellen dat het verkennen van het redeneervermogen van kleinschalige modellen nog steeds waardevol is voor onderzoekers met beperkte rekenbronnen. Bovendien is het even betekenisvol om modellen in staat te stellen hun redeneerprocessen uit te leggen op algemene vraag-antwoorddatasets. Daarom presenteren wij het kleinschalige videoredeneermodel TinyLLaVA-Video-R1. Gebaseerd op TinyLLaVA-Video, een traceerbaar getraind videobegripmodel met niet meer dan 4B parameters, toont het niet alleen een aanzienlijk verbeterd redeneer- en denkvermogen na het gebruik van reinforcement learning op algemene Video-QA-datasets, maar vertoont het ook het opkomende kenmerk van "aha-momenten". Verder delen wij een reeks experimentele bevindingen, met als doel praktische inzichten te bieden voor toekomstige verkenning van videoredeneer- (denk-)vermogens in kleinschalige modellen. Het is beschikbaar op https://github.com/ZhangXJ199/TinyLLaVA-Video-R1.
Effectief redeneren is cruciaal voor het oplossen van complexe wiskundige problemen. Recente grote taalmodellen (LLMs) hebben de prestaties verbeterd door het schalen van testtijdberekeningen via lange ketens van gedachtegangen. Echter, transformer-gebaseerde modellen zijn inherent beperkt in het uitbreiden van de contextlengte vanwege hun kwadratische rekencomplexiteit en lineaire geheugenvereisten. In dit artikel introduceren we een nieuw hybride lineair RNN-redeneermodel, M1, gebouwd op de Mamba-architectuur, dat geheugenefficiënte inferentie mogelijk maakt. Onze aanpak maakt gebruik van een distillatieproces van bestaande redeneermodellen en wordt verder verbeterd door RL-training. Experimentele resultaten op de AIME- en MATH-benchmarks laten zien dat M1 niet alleen beter presteert dan eerdere lineaire RNN-modellen, maar ook de prestaties evenaart van state-of-the-art Deepseek R1 gedistilleerde redeneermodellen op een vergelijkbare schaal. We vergelijken ook onze generatiesnelheid met een zeer performante algemene inferentie-engine, vLLM, en observeren een meer dan 3x versnelling in vergelijking met een transformer van dezelfde grootte. Met deze doorvoersnelheidsverbetering kunnen we een hogere nauwkeurigheid bereiken in vergelijking met DeepSeek R1 gedistilleerde transformer-redeneermodellen onder een vast generatietijdbudget door gebruik te maken van zelfconsistentie-stemming. Over het geheel introduceren we een hybride Mamba-redeneermodel en bieden we een effectievere aanpak voor het schalen van testtijdgeneratie met behulp van zelfconsistentie of lange ketens van gedachtegangen.
AI speelt een steeds crucialere rol in de transformatie van hoe wetenschappelijke ontdekkingen worden gedaan. Wij introduceren The AI Scientist-v2, een end-to-end agentisch systeem dat in staat is het eerste volledig door AI gegenereerde, peer-review-geaccepteerde workshoppaper te produceren. Dit systeem formuleert iteratief wetenschappelijke hypotheses, ontwerpt en voert experimenten uit, analyseert en visualiseert data, en schrijft autonoom wetenschappelijke manuscripten. Vergeleken met zijn voorganger (v1, Lu et al., 2024 arXiv:2408.06292), elimineert The AI Scientist-v2 de afhankelijkheid van door mensen geschreven codesjablonen, generaliseert effectief over diverse machine learning-domeinen, en maakt gebruik van een nieuwe progressieve agentische boomzoekmethodologie die wordt beheerd door een toegewijde experimentmanager-agent. Daarnaast verbeteren we de AI-reviewercomponent door een Vision-Language Model (VLM)-feedbacklus te integreren voor iteratieve verfijning van de inhoud en esthetiek van de figuren. We hebben The AI Scientist-v2 geëvalueerd door drie volledig autonome manuscripten in te dienen bij een peer-reviewed ICLR-workshop. Opmerkelijk is dat één manuscript scores behaalde die hoog genoeg waren om de gemiddelde acceptatiedrempel van mensen te overschrijden, wat de eerste keer markeert dat een volledig door AI gegenereerd paper met succes een peer review heeft doorlopen. Deze prestatie onderstreept de groeiende capaciteit van AI om alle aspecten van wetenschappelijk onderzoek uit te voeren. We verwachten dat verdere vooruitgang in autonome wetenschappelijke ontdekkingstechnologieën een diepgaande impact zal hebben op de generatie van menselijke kennis, waardoor een ongekende schaalbaarheid in onderzoeksproductiviteit mogelijk wordt en wetenschappelijke doorbraken aanzienlijk worden versneld, wat de samenleving als geheel ten goede komt. We hebben de code open-source gemaakt op https://github.com/SakanaAI/AI-Scientist-v2 om de toekomstige ontwikkeling van deze transformerende technologie te bevorderen. We bespreken ook de rol van AI in de wetenschap, inclusief AI-veiligheid.
Wetenschappers leiden vaak abstracte procedures af uit specifieke probleemgevallen en gebruiken deze abstracties om nieuwe, gerelateerde gevallen te genereren. Bijvoorbeeld, programma's die de formele regels en eigenschappen van een systeem coderen, zijn nuttig gebleken in velden variërend van RL (procedurele omgevingen) tot natuurkunde (simulatie-engines). Deze programma's kunnen worden gezien als functies die verschillende uitvoer genereren op basis van hun parameterisaties (bijvoorbeeld gridworld-configuratie of initiële fysische condities). We introduceren de term EFA (Executable Functional Abstraction) om dergelijke programma's voor wiskundige problemen aan te duiden. EFA-achtige constructies zijn nuttig gebleken voor wiskundig redeneren als probleemgeneratoren om modellen te stress-testen. Eerdere werkzaamheden waren echter beperkt tot abstracties voor basisschoolwiskunde (waarvan de eenvoudige regels gemakkelijk in programma's kunnen worden gecodeerd), terwijl het genereren van EFA's voor gevorderde wiskunde tot nu toe menselijke engineering vereiste. We onderzoeken de automatische constructie van EFA's voor gevorderde wiskundige problemen. We operationaliseren de taak van het automatisch construeren van EFA's als een programma-synthesetaak en ontwikkelen EFAGen, dat een LLM conditioneert op een startwiskundeprobleem en de stapsgewijze oplossing om kandidaat-EFA-programma's te genereren die trouw zijn aan het gegeneraliseerde probleem en de oplossingsklasse die ten grondslag ligt aan het startprobleem. Bovendien formaliseren we eigenschappen die elke geldige EFA moet bezitten in termen van uitvoerbare unittests, en laten we zien hoe deze tests kunnen worden gebruikt als verifieerbare beloningen om LLM's te trainen om betere schrijvers van EFA's te worden. We demonstreren dat EFA's die door EFAGen zijn geconstrueerd rationeel gedrag vertonen door trouw te blijven aan startproblemen, leerbare probleemvariaties produceren, en dat EFAGen EFA's kan afleiden uit meerdere diverse bronnen van competitieniveau wiskundeproblemen. Ten slotte tonen we downstream toepassingen van modelgeschreven EFA's aan, zoals het vinden van probleemvariaties die moeilijker of gemakkelijker zijn voor een leerling om op te lossen, evenals datageneratie.
Recente LLM's hebben de redeneervaardigheden aanzienlijk verbeterd, voornamelijk door een expliciet, uitgebreid Denkproces op te nemen als onderdeel van de generatie. In dit artikel vragen we ons af of dit expliciete denken wel noodzakelijk is. Met behulp van de state-of-the-art DeepSeek-R1-Distill-Qwen ontdekken we dat het omzeilen van het denkproces via eenvoudige prompting, aangeduid als NoThinking, verrassend effectief kan zijn. Bij het controleren van het aantal tokens presteert NoThinking beter dan Thinking over een diverse set van zeven uitdagende redeneerdatasets—waaronder wiskundige probleemoplossing, formeel bewijzen van stellingen en coderen—met name in low-budget situaties, bijvoorbeeld 51,3 vs. 28,9 op ACM 23 met 700 tokens. Opmerkelijk is dat de prestaties van NoThinking competitiever worden met pass@k naarmate k toeneemt. Op basis van deze observatie tonen we aan dat een parallelle schaalbenadering die NoThinking gebruikt om N outputs onafhankelijk te genereren en deze aggregeert, zeer effectief is. Voor aggregatie gebruiken we taakspecifieke verifiers wanneer deze beschikbaar zijn, of passen we eenvoudige best-of-N strategieën toe, zoals selectie op basis van vertrouwen. Onze methode overtreft een reeks baselines met vergelijkbare latentie bij gebruik van Thinking, en is vergelijkbaar met Thinking met aanzienlijk langere latentie (tot 9x). Samen moedigt ons onderzoek een heroverweging aan van de noodzaak van uitgebreide denkprocessen, terwijl het ook een competitief referentiepunt biedt voor het bereiken van sterke redeneerprestaties in low-budget situaties of bij lage latentie met behulp van parallelle schaling.
Recente vooruitgang in Grote Visueel-Taalmodellen heeft opmerkelijke mogelijkheden getoond. Ze falen echter vaak bij complexe redeneertaken die mensen doorgaans aanpakken met visuele hulpmiddelen en weloverwogen, stapsgewijs denken. Hoewel bestaande methoden tekstgebaseerd langzaam denken of rudimentaire visuele ondersteuning hebben onderzocht, schieten ze tekort in het vastleggen van de ingewikkelde, verweven aard van menselijke visueel-verbale redeneerprocessen. Om deze beperkingen te overwinnen en geïnspireerd door de mechanismen van langzaam denken in de menselijke cognitie, introduceren we VisuoThink, een nieuw raamwerk dat visuospatiale en linguïstische domeinen naadloos integreert. VisuoThink faciliteert multimodaal langzaam denken door progressief visueel-tekstueel redeneren mogelijk te maken en omvat test-time schaling via look-ahead boomzoeken. Uitgebreide experimenten tonen aan dat VisuoThink redeneervermogens aanzienlijk verbetert via inference-time schaling, zelfs zonder fine-tuning, en state-of-the-art prestaties bereikt in taken die betrekking hebben op geometrie en ruimtelijk redeneren.
Het ontdekken van wetenschappelijke vergelijkingen is een fundamentele taak in de geschiedenis van wetenschappelijke vooruitgang, waardoor wetten die natuurlijke fenomenen beschrijven kunnen worden afgeleid. Recentelijk hebben Large Language Models (LLMs) interesse gewekt voor deze taak vanwege hun potentieel om ingebedde wetenschappelijke kennis te benutten voor het genereren van hypothesen. Het evalueren van de werkelijke ontdekkingscapaciteiten van deze methoden blijft echter uitdagend, omdat bestaande benchmarks vaak vertrouwen op veelvoorkomende vergelijkingen die gevoelig zijn voor memorisatie door LLMs, wat leidt tot opgeblazen prestatiemetingen die geen echte ontdekking weerspiegelen. In dit artikel introduceren we LLM-SRBench, een uitgebreide benchmark met 239 uitdagende problemen uit vier wetenschappelijke domeinen, specifiek ontworpen om LLM-gebaseerde methoden voor het ontdekken van wetenschappelijke vergelijkingen te evalueren terwijl triviale memorisatie wordt voorkomen. Onze benchmark bestaat uit twee hoofdcategorieën: LSR-Transform, die veelvoorkomende fysieke modellen omzet in minder gebruikelijke wiskundige representaties om redenering voorbij gememoriseerde vormen te testen, en LSR-Synth, die synthetische, ontdekking-gedreven problemen introduceert die data-gedreven redenering vereisen. Door uitgebreide evaluatie van verschillende state-of-the-art methoden, met zowel open als gesloten LLMs, vinden we dat het tot nu toe best presterende systeem slechts 31,5% symbolische nauwkeurigheid bereikt. Deze bevindingen benadrukken de uitdagingen van het ontdekken van wetenschappelijke vergelijkingen en positioneren LLM-SRBench als een waardevolle bron voor toekomstig onderzoek.
Grote taalmodellen leren en blijven leren door de accumulatie van op gradiënten gebaseerde updates, maar hoe individuele stukjes nieuwe informatie bestaande kennis beïnvloeden, wat leidt tot zowel gunstige generalisatie als problematische hallucinatie, blijft slecht begrepen. We demonstreren dat bij het leren van nieuwe informatie LLM's een "priming"-effect vertonen: het leren van een nieuw feit kan ervoor zorgen dat het model die kennis onterecht toepast in ongerelateerde contexten. Om dit fenomeen systematisch te bestuderen, introduceren we "Outlandish", een zorgvuldig samengestelde dataset van 1320 diverse tekstmonsters die is ontworpen om te onderzoeken hoe nieuwe kennis doordringt in de bestaande kennisbasis van een LLM. Met behulp van deze dataset tonen we aan dat de mate van priming na het leren van nieuwe informatie kan worden voorspeld door de tokenwaarschijnlijkheid van sleutelwoorden vóór het leren te meten. Deze relatie blijft robuust over verschillende modelarchitecturen (PALM-2, Gemma, Llama), groottes en trainingsfasen. Ten slotte ontwikkelen we twee nieuwe technieken om te moduleren hoe nieuwe kennis het bestaande modelgedrag beïnvloedt: (1) een "stepping-stone" tekstaugmentatiestrategie en (2) een "ignore-k" update-pruningmethode. Deze benaderingen verminderen ongewenste priming-effecten met 50-95\% terwijl het vermogen van het model om nieuwe informatie te leren behouden blijft. Onze bevindingen bieden zowel empirische inzichten in hoe LLM's leren als praktische tools om de specificiteit van kennisinsertie in taalmodellen te verbeteren. Verdere materialen: https://sunchipsster1.github.io/projects/outlandish/
De opkomst van LLM-gestuurde AI-personages roept veiligheidszorgen op, met name voor kwetsbare menselijke gebruikers met psychologische stoornissen. Om deze risico's aan te pakken, stellen we EmoAgent voor, een multi-agent AI-framework dat is ontworpen om mentale gezondheidsrisico's in mens-AI-interacties te evalueren en te beperken. EmoAgent bestaat uit twee componenten: EmoEval simuleert virtuele gebruikers, inclusief diegenen die mentaal kwetsbare individuen uitbeelden, om veranderingen in de mentale gezondheid voor en na interacties met AI-personages te beoordelen. Het maakt gebruik van klinisch bewezen psychologische en psychiatrische beoordelingsinstrumenten (PHQ-9, PDI, PANSS) om mentale risico's die door LLM worden veroorzaakt te evalueren. EmoGuard fungeert als intermediair, houdt de mentale status van gebruikers in de gaten, voorspelt mogelijke schade en biedt corrigerende feedback om risico's te beperken. Experimenten uitgevoerd in populaire karaktergebaseerde chatbots tonen aan dat emotioneel betrokken dialogen kunnen leiden tot psychologische achteruitgang bij kwetsbare gebruikers, met een verslechtering van de mentale toestand in meer dan 34,4% van de simulaties. EmoGuard vermindert deze verslechteringspercentages aanzienlijk, wat zijn rol bij het waarborgen van veiligere AI-mens-interacties onderstreept. Onze code is beschikbaar op: https://github.com/1akaman/EmoAgent
3D-captioning, dat als doel heeft de inhoud van 3D-scènes in natuurlijke taal te beschrijven, blijft zeer uitdagend vanwege de inherente schaarste van puntenwolken en de zwakke kruismodale uitlijning in bestaande methoden. Om deze uitdagingen aan te pakken, stellen we 3D CoCa voor, een nieuw geïntegreerd raamwerk dat contrastief visueel-taalleermodel naadloos combineert met 3D-captiongeneratie in een enkele architectuur. Onze aanpak maakt gebruik van een bevroren CLIP visueel-taalmodel als basis om rijke semantische voorkennis te bieden, een ruimtelijk bewuste 3D-scène-encoder om geometrische context vast te leggen, en een multimodale decoder om beschrijvende captions te genereren. In tegenstelling tot eerdere tweestapsmethoden die afhankelijk zijn van expliciete objectvoorstellen, optimaliseert 3D CoCa zowel contrastieve als captioning-doelstellingen gezamenlijk in een gedeelde kenmerkruimte, waardoor externe detectoren of handmatige voorstellen overbodig worden. Dit gezamenlijke trainingsparadigma resulteert in sterkere ruimtelijke redenering en rijkere semantische verankering door 3D- en tekstuele representaties uit te lijnen. Uitgebreide experimenten op de ScanRefer- en Nr3D-benchmarks tonen aan dat 3D CoCa de huidige state-of-the-art aanzienlijk overtreft met respectievelijk 10,2% en 5,76% in CIDEr bij 0,5IoU. De code zal beschikbaar zijn op https://github.com/AIGeeksGroup/3DCoCa.
Recente ontwikkelingen in Large Language Models (LLMs) hebben het mogelijk gemaakt dat ze menselijk niveau van overtuigingskracht benaderen. Dit potentieel roept echter ook zorgen op over de veiligheidsrisico's van LLM-gestuurde overtuiging, met name hun potentieel voor onethische beïnvloeding door manipulatie, misleiding, uitbuiting van kwetsbaarheden en vele andere schadelijke tactieken. In dit werk presenteren we een systematisch onderzoek naar de veiligheid van LLM-overtuiging via twee kritieke aspecten: (1) of LLMs onethische overtuigingstaken correct afwijzen en onethische strategieën tijdens uitvoering vermijden, inclusief gevallen waarin het initiële overtuigingsdoel ethisch neutraal lijkt, en (2) hoe beïnvloedende factoren zoals persoonlijkheidskenmerken en externe druk hun gedrag beïnvloeden. Hiertoe introduceren we PersuSafety, het eerste uitgebreide raamwerk voor de beoordeling van overtuigingsveiligheid, dat bestaat uit drie fasen, namelijk het creëren van een overtuigingsscène, het simuleren van overtuigende gesprekken en de beoordeling van overtuigingsveiligheid. PersuSafety behandelt 6 diverse onethische overtuigingsthema's en 15 veelvoorkomende onethische strategieën. Door uitgebreide experimenten met 8 veelgebruikte LLMs observeren we significante veiligheidsproblemen bij de meeste LLMs, waaronder het niet herkennen van schadelijke overtuigingstaken en het inzetten van verschillende onethische overtuigingsstrategieën. Onze studie roept op tot meer aandacht voor het verbeteren van veiligheidsafstemming in progressieve en doelgerichte gesprekken, zoals overtuiging.
Redeneervaardige grote taalmodellen (LLM's) hebben recent indrukwekkende prestaties getoond in complexe logische en wiskundige taken, maar hun effectiviteit bij het evalueren van natuurlijke taalgeneratie is nog onontgonnen. Deze studie vergelijkt systematisch redeneer-gebaseerde LLM's (DeepSeek-R1 en OpenAI o3) met hun niet-redeneerende tegenhangers in evaluatietaken voor machinaal vertalen (MT) en tekstsamenvatting (TS). We evalueren acht modellen uit drie architectuurcategorieën, waaronder state-of-the-art redeneermodellen, hun gedistilleerde varianten (variërend van 8B tot 70B parameters), en equivalente conventionele, niet-redeneerende LLM's. Onze experimenten op de WMT23- en SummEval-benchmarks laten zien dat de voordelen van redeneervaardigheden sterk model- en taakafhankelijk zijn: terwijl OpenAI o3-mini-modellen consistente prestatieverbeteringen laten zien met toenemende redeneerintensiteit, presteert DeepSeek-R1 slechter in vergelijking met zijn niet-redeneerende variant, met uitzondering van bepaalde aspecten van TS-evaluatie. Correlatieanalyse toont aan dat een verhoogd gebruik van redeneertokens positief correleert met de evaluatiekwaliteit in o3-mini-modellen. Bovendien laten onze resultaten zien dat de distillatie van redeneervaardigheden redelijke prestaties behoudt in middelgrote modellen (32B), maar aanzienlijk verslechtert in kleinere varianten (8B). Dit werk biedt de eerste uitgebreide beoordeling van redeneer-LLM's voor NLG-evaluatie en biedt inzichten in hun praktische toepassing.
Multimodale redenering, waarbij taal en visuele signalen worden geïntegreerd in probleemoplossing en besluitvorming, is een fundamenteel aspect van menselijke intelligentie en een cruciale stap richting kunstmatige algemene intelligentie. Echter, de evaluatie van multimodale redeneervaardigheden in Multimodale Grote Taalmodellen (MLLMs) blijft ontoereikend. De meeste bestaande redeneerbenchmarks worden beperkt door een beperkte dataschaal, smalle domeindekking en ongestructureerde kennisverdeling. Om deze tekortkomingen aan te pakken, introduceren we MDK12-Bench, een multidisciplinaire benchmark die de redeneervaardigheden van MLLMs evalueert via real-world K-12 examens. Onze benchmark, die zes disciplines omvat (wiskunde, natuurkunde, scheikunde, biologie, aardrijkskunde en informatiewetenschappen), bestaat uit 140K redeneervoorbeelden over diverse moeilijkheidsgraden van basisschool tot 12e klas. Het bevat 6.827 annotaties van kennispunten op instapniveau gebaseerd op een goed georganiseerde kennisstructuur, gedetailleerde antwoordverklaringen, moeilijkheidslabels en kruisjaarpartities, wat een robuust platform biedt voor uitgebreide evaluatie. Daarnaast presenteren we een nieuw dynamisch evaluatieraamwerk om problemen met datacontaminatie te verminderen door vraagformuleringen, vraagtypen en beeldstijlen te bootstrappen tijdens de evaluatie. Uitgebreide experimenten op MDK12-Bench onthullen de aanzienlijke beperkingen van huidige MLLMs in multimodale redenering. De bevindingen op onze benchmark bieden inzichten voor de ontwikkeling van de volgende generatie modellen. Onze data en code zijn beschikbaar op https://github.com/LanceZPF/MDK12.
Om ontwikkelingskosten te verlagen en naadloze integratie tussen potentiële componenten van een generatieve AI-toepassing mogelijk te maken, is het Model Context Protocol (MCP) (Anthropic, 2024) recentelijk vrijgegeven en vervolgens breed geadopteerd. Het MCP is een open protocol dat API-aanroepen naar grote taalmodellen (LLM's), gegevensbronnen en agentische tools standaardiseert. Door meerdere MCP-servers met elkaar te verbinden, elk gedefinieerd met een set tools, bronnen en prompts, kunnen gebruikers geautomatiseerde workflows definiëren die volledig worden aangedreven door LLM's. Wij tonen echter aan dat het huidige MCP-ontwerp een breed scala aan beveiligingsrisico's met zich meebrengt voor eindgebruikers. In het bijzonder demonstreren we dat toonaangevende LLM's in de industrie kunnen worden gedwongen om MCP-tools te gebruiken om het systeem van een AI-ontwikkelaar te compromitteren via verschillende aanvallen, zoals het uitvoeren van kwaadaardige code, externe toegangscontrole en diefstal van inloggegevens. Om deze en gerelateerde aanvallen proactief te mitigeren, introduceren we een veiligheidsaudittool, MCPSafetyScanner, de eerste agentische tool om de beveiliging van een willekeurige MCP-server te beoordelen. MCPScanner gebruikt verschillende agents om (a) automatisch adversariële voorbeelden te bepalen op basis van de tools en bronnen van een MCP-server; (b) gerelateerde kwetsbaarheden en oplossingen te zoeken op basis van die voorbeelden; en (c) een beveiligingsrapport te genereren met alle bevindingen. Ons werk belicht ernstige beveiligingsproblemen met algemene agentische workflows, terwijl het ook een proactieve tool biedt om de veiligheid van MCP-servers te auditen en gedetecteerde kwetsbaarheden aan te pakken vóór implementatie. De beschreven MCP-serveraudittool, MCPSafetyScanner, is vrij beschikbaar op: https://github.com/johnhalloran321/mcpSafetyScanner.
Grootschalige vooraf getrainde diffusiemodellen hebben uitstekende resultaten behaald op het gebied van conditionele beeldgeneratie. Het herstel van oude muurschilderingen, als een belangrijke downstream-taak in dit veld, stelt echter aanzienlijke uitdagingen aan diffusiemodel-gebaseerde herstelmethoden vanwege de grote defecte gebieden en schaarse trainingsvoorbeelden. Conditionele hersteltaken zijn meer gericht op of het herstelde deel voldoet aan de esthetische normen van muurschilderingsherstel in termen van algemene stijl en naaddetail, en dergelijke metrieken voor het evalueren van heuristische beeldaanvullingen ontbreken in het huidige onderzoek. Wij stellen daarom DiffuMural voor, een gecombineerd Multi-schaal convergentie en Collaboratief Diffusie mechanisme met ControlNet en cyclische consistentieverlies om de afstemming tussen de gegenereerde beelden en de conditionele controle te optimaliseren. DiffuMural toont uitstekende capaciteiten in het herstel van muurschilderingen, waarbij gebruik wordt gemaakt van trainingsgegevens van 23 grootschalige Dunhuang muurschilderingen die consistente visuele esthetiek vertonen. Het model blinkt uit in het herstellen van ingewikkelde details, het bereiken van een samenhangend algemeen uiterlijk en het aanpakken van de unieke uitdagingen die worden gesteld door onvolledige muurschilderingen die geen feitelijke basis hebben. Ons evaluatiekader omvat vier belangrijke metrieken om onvolledige muurschilderingen kwantitatief te beoordelen: feitelijke nauwkeurigheid, textuurdetail, contextuele semantiek en holistische visuele samenhang. Bovendien integreren we humanistische waarderingsmethoden om ervoor te zorgen dat de herstelde muurschilderingen hun culturele en artistieke betekenis behouden. Uitgebreide experimenten valideren dat onze methode zowel kwalitatieve als kwantitatieve metrieken overtreft in vergelijking met state-of-the-art (SOTA) benaderingen.