Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Code is naar voren gekomen als een precies en uitvoerbaar medium voor redeneren en handelen in het agententijdperk. Toch heeft de vooruitgang zich grotendeels gericht op taalkundige taken zoals programma-synthese en debugging, waardoor visueel gericht coderen onderbelicht is gebleven. Geïnspireerd door hoe mensen redeneren met schetsen, bepleiten we SVG-code als een compacte, interpreteerbare en uitvoerbare visuele representatie. We introduceren VCode, een benchmark die multimodaal begrip herformuleert als codegeneratie: gegeven een afbeelding moet een model SVG produceren die de symbolische betekenis behoudt voor downstream redeneren. VCode beslaat drie domeinen: algemeen gezond verstand (MM-Vet), professionele disciplines (MMMU) en visueel gerichte perceptie (CV-Bench). Om symbolische trouw te beoordelen, stellen we CodeVQA voor, een nieuw evaluatieprotocol waarbij een beleidsmodel vragen beantwoordt over gerenderde SVG's; correcte antwoorden duiden op getrouwe symbolische preservatie. Empirisch gezien worstelen voorhoede-VLM's met het genereren van getrouwe SVG's, wat een hardnekkige kloof tussen taalkundig en visueel gericht coderen blootlegt. Om deze kloof te dichten, introduceren we VCoder, een agent-gebaseerd framework dat VLM's versterkt langs twee assen: (i) Denken met Revisie, dat iteratief discrepanties analyseert en SVG-code verfijnt; en (ii) Handelen met Visuele Hulpmiddelen, waarbij detectors en parsers gestructureerde aanwijzingen leveren zoals objecten, vormen en tekst die verder gaan dan de intrinsieke capaciteit van het model. Over benchmarks heen scoren voorhoede-VLM's met sterke redeneervermogens over het algemeen goed, maar blijven beperkt in professionele kennis en 3D-redenering. VCoder behaalt een algehele winst van 12,3 punten ten opzichte van de best presterende Claude-4-Opus. Menselijke studies tonen aan dat zowel mensen als VLM's slechter presteren op gerenderde SVG's, maar hun consistentie toont de belofte van symbolische visuele representatie. De benchmark en code zijn beschikbaar op https://github.com/CSU-JPG/VCode.
Het groeiende succes van Vision-Language-Action (VLA) modellen komt voort uit de belofte dat voorgetrainde Vision-Language Modellen (VLM's) agents kunnen voorzien van overdraagbare wereldkennis en vision-language (VL) grounding, wat een basis legt voor actiemodellen met een bredere generalisatie. Toch blijft het onduidelijk in hoeverre hun oorspronkelijke VL-representaties en kennis behouden blijven wanneer deze VLM's worden geadapteerd aan de actiemodaliteit. In dit werk voeren we een systematische studie uit naar het behoud van representaties tijdens VLA fine-tuning, waaruit blijkt dat naïeve actie-fine-tuning leidt tot degradatie van visuele representaties. Om deze effecten te karakteriseren en te meten, onderzoeken we de verborgen representaties van VLA en analyseren we aandachtspunten; verder ontwerpen we een reeks gerichte taken en methoden die VLA-modellen vergelijken met hun tegenhangers, de VLM's, om veranderingen in VL-capaciteiten veroorzaakt door actie-fine-tuning te isoleren. We evalueren verder een reeks strategieën voor het uitlijnen van visuele representaties en introduceren een eenvoudige maar effectieve methode die degradatie vermindert en verbeterde generalisatie naar out-of-distribution (OOD) scenario's oplevert. Samen genomen verduidelijkt onze analyse de afweging tussen actie-fine-tuning en de degradatie van VL-representaties en belicht het praktische benaderingen om de geërfde VL-capaciteiten te herstellen. Code is publiekelijk beschikbaar: https://blind-vla-paper.github.io
Wij presenteren MIRA, een nieuwe benchmark die is ontworpen om modellen te evalueren in scenario's waarbij het genereren van tussenliggende visuele beelden essentieel is voor succesvol redeneren. In tegenstelling tot traditionele CoT-methoden die uitsluitend op tekst vertrouwen, vereisen taken in MIRA dat modellen tussenliggende beelden - zoals schetsen, structurele diagrammen of padtekeningen - genereren en gebruiken om hun redeneerproces te sturen. Deze opzet weerspiegelt nauwkeurig hoe mensen complexe problemen oplossen door "tekenend te denken". Om dit aan te pakken, richt MIRA zich op taken die intrinsiek uitdagend zijn en complexe structuren, ruimtelijke relaties of redeneerstappen omvatten die moeilijk uitsluitend via taal uit te drukken zijn. Om te waarborgen dat onze evaluatiedata van hoge kwaliteit is, omvatten we 546 multimodale problemen, geannoteerd met tussenliggende visuele beelden en finale antwoorden. Wij stellen ook een gestandaardiseerd evaluatieprotocol voor MIRA voor dat drie niveaus van evaluatie-input omvat: directe input met alleen beeld en vraag, tekstuele CoT-input met beeld en denkprompts, en Visuele-CoT-input met zowel geannoteerde beeldaanwijzingen als tekstuele denkprompts. Om de bovengrens van modelcapaciteit op onze benchmark te onderzoeken, rapporteren we ook pass@k- en meerderheidsstemmingsnauwkeurigheden onder verschillende k-instellingen. Experimentele resultaten tonen aan dat bestaande multimodale grote taalmodellen, inclusief de sterkste private modellen en sterke open-weight modellen, slecht presteren wanneer ze uitsluitend op tekstuele prompts vertrouwen. Wanneer echter tussenliggende visuele aanwijzingen worden verstrekt, verbetert de modelprestatie consistent, met een gemiddelde relatieve winst van 33,7% over alle modellen en taken heen. We onderzoeken ook de bovengrens door de zoekruimte uit te breiden en tekstuele prompts te ontwerpen die zijn afgestemd op Visuele-CoT, maar beide leveren slechts beperkte verbeteringen op vergeleken met onze Visuele-CoT-instelling. Deze resultaten onderstrepen de cruciale rol van verbeeld visuele informatie bij het mogelijk maken van succesvol redeneren op MIRA.
Wij presenteren Step-Audio-EditX, het eerste open-source op een Large Language Model (LLM) gebaseerde audiomodel dat uitblinkt in expressieve en iteratieve audiobewerking, inclusief emotie, spreekstijl en paralinguïstiek, naast robuuste zero-shot text-to-speech (TTS) capaciteiten. Onze kerninnovatie schuilt in het gebruik van uitsluitend synthetische data met een grote marge, waardoor de noodzaak voor op embeddings gebaseerde prior knowledge of hulpmodules wordt omzeild. Deze 'large-margin learning'-aanpak maakt zowel iteratieve controle als hoge expressiviteit voor verschillende stemmen mogelijk, en vertegenwoordigt een fundamentele verschuiving ten opzichte van de conventionele focus op disentanglement op representatieniveau. Evaluatieresultaten tonen aan dat Step-Audio-EditX zowel MiniMax-2.6-hd als Doubao-Seed-TTS-2.0 overtreft in taken zoals emotiebewerking en andere fijnmazige controle-taken.
Multimodale grote taalmmodellen (MLLM's) moeten conflicten oplossen wanneer verschillende modaliteiten tegenstrijdige informatie verschaffen, een proces dat wij *modaliteitsvolging* noemen. Eerder werk mat dit gedrag alleen met grove, dataset-brede statistieken, waarbij de invloed van het modelvertrouwen in unimodale redenering over het hoofd werd gezien. In dit artikel introduceren we een nieuw kader dat modaliteitsvolging opdeelt in twee fundamentele factoren: relatieve redeneeronzekerheid (het casusspecifieke vertrouwensverschil tussen unimodale voorspellingen) en inherente modaliteitsvoorkeur (een stabiele vooringenomenheid van het model wanneer de onzekerheden in evenwicht zijn). Om dit kader te valideren, construeren we een beheersbare dataset die de redeneermoeilijkheid van visuele en tekstuele invoer systematisch varieert. Met behulp van entropie als een fijnmazige onzekerheidsmetriek ontdekken we een universele wet: de waarschijnlijkheid om een modaliteit te volgen neemt monotoon af naarmate de relatieve onzekerheid toeneemt. Op het relatieve moeilijkheidsniveau waar het model beide modaliteiten met vergelijkbare waarschijnlijkheid volgt – wat wij het *evenwichtspunt* noemen – vinden we een praktische indicator van de inherente voorkeur van het model. In tegenstelling tot traditionele macro-niveau ratio's biedt deze maatstaf een meer principiële en minder verstorende manier om modaliteitsvooringenomenheid te karakteriseren, losgekoppeld van unimodale capaciteiten en dataset-artefacten. Verder onthullen we, door voorspellingen per laag te onderzoeken, het interne mechanisme van oscillatie: in dubbelzinnige regio's nabij het evenwichtspunt wisselen modellen tussen modaliteiten over de lagen heen, wat de extern waargenomen besluiteloosheid verklaart. Samen vestigen deze bevindingen relatieve onzekerheid en inherente voorkeur als de twee sturende principes van modaliteitsvolging, en bieden zij zowel een kwantitatief kader als mechanistisch inzicht in hoe MLLM's tegenstrijdige informatie oplossen.
Het ontwikkelingspad van AI suggereert dat we in toenemende mate zullen vertrouwen op agent-gebaseerde systemen die bestaan uit onafhankelijk ontwikkelde agents met verschillende informatie, rechten en tools. Het succes van deze systemen zal in cruciale mate afhangen van effectieve samenwerking tussen deze heterogene agents, zelfs onder gedeeltelijke waarneembaarheid. Ondanks intense belangstelling, zijn er weinig empirische studies die dergelijke agent-agent samenwerking op grote schaal hebben geëvalueerd. Wij stellen een collaboratief doolhofoplossingsbenchmark voor dat (i) collaboratieve capaciteiten isoleert, (ii) probleemcomplexiteit moduleert, (iii) schaalbare automatische beoordeling mogelijk maakt, en (iv) geen outputformaatbeperkingen oplegt, waardoor ecologische plausibiliteit behouden blijft. Met dit framework evalueren we 32 toonaangevende open- en closed-source modellen in solo-, homogene en heterogene koppelingen. Onze resultaten onthullen een "samenwerkingskloof": modellen die alleen goed presteren, gaan vaak aanzienlijk achteruit wanneer ze moeten samenwerken. Samenwerking kan dramatisch mislukken; bijvoorbeeld, kleine gedistilleerde modellen die doolhoven goed alleen oplossen, kunnen in bepaalde koppelingen bijna volledig falen. Wij constateren dat beginnen met de sterkere agent de resultaten vaak verbetert, wat een "relay inference"-benadering motiveert waarbij de sterkere agent de leiding neemt voordat hij overdraagt aan de zwakkere, waardoor een groot deel van de kloof wordt gedicht. Onze bevindingen pleiten voor (1) samenwerkingsbewuste evaluatie, (2) trainingsstrategieën die zijn ontwikkeld om collaboratieve capaciteiten te verbeteren, en (3) interactieontwerp dat betrouwbaar de latente vaardigheden van agents naar voren haalt, richtlijnen die van toepassing zijn op AI-AI en mens-AI samenwerking.
Het reconstrueren van beelden die mensen zien op basis van hun fMRI-hersenmetingen biedt een niet-invasieve kijk in het menselijk brein. Ondanks recente vooruitgang mogelijk gemaakt door diffusiemodellen, ontbreekt het huidige methoden vaak aan getrouwheid aan de daadwerkelijk waargenomen beelden. Wij presenteren "Brain-IT", een breingeïnspireerde aanpak die deze uitdaging aanpakt met een Brain Interaction Transformer (BIT). Deze maakt effectieve interacties mogelijk tussen clusters van functioneel vergelijkbare hersengebieden (voxels). Deze functionele clusters zijn gedeeld door alle proefpersonen en dienen als bouwstenen voor het integreren van informatie binnen en tussen hersenen. Alle modelcomponenten worden gedeeld door alle clusters en proefpersonen, wat efficiënte training met een beperkte hoeveelheid data mogelijk maakt. Om de beeldreconstructie te sturen, voorspelt BIT twee complementaire gelokaliseerde patch-level beeldkenmerken: (i) hoogwaardige semantieke kenmerken die het diffusiemodel sturen naar de correcte semantieke inhoud van het beeld; en (ii) laagwaardige structurele kenmerken die helpen het diffusieproces te initialiseren met de correcte grove lay-out van het beeld. Het ontwerp van BIT maakt een directe informatiestroom mogelijk van hersengebiedclusters naar gelokaliseerde beeldkenmerken. Door deze principes bereikt onze methode beeldreconstructies vanuit fMRI die de waargenomen beelden getrouw reconstrueren, en overtreft zij de huidige state-of-the-art methoden zowel visueel als volgens standaard objectieve metrieken. Bovendien bereiken we met slechts 1 uur fMRI-data van een nieuwe proefpersoon resultaten die vergelijkbaar zijn met huidige methoden die getraind zijn op volledige 40-uurs opnames.
Grote taalmodellen (LLM's) die worden getraind voor stapsgewijs redeneren, worden vaak excessief breedsprakig, wat de inferentiekosten verhoogt. Standaard Reinforcement Learning with Verifiable Rewards (RLVR)-pijplijnen filteren "eenvoudige" problemen eruit voor trainingsdoeleinden, waardoor het model voornamelijk traint op moeilijkere problemen die langere redeneerketens vereisen. Dit verschuift de verdeling van de uitvoerlengte naar boven, wat resulteert in een model dat "langer nadenken" verwart met "beter nadenken". In dit werk tonen we aan dat het behouden en matig zwaarder wegen van redelijk eenvoudige problemen fungeert als een impliciete lengteregularisator. Door het model bloot te stellen aan oplosbare taken met korte ketens, wordt de uitvoerverdeling begrensd en wordt ongeremde breedsprakigheid voorkomen. Het resultaat is *emergent beknoptheid zonder kosten*: het model leert moeilijkere problemen op te lossen zonder de uitvoerlengte op te blazen, ondanks de afwezigheid van expliciete lengtestrafing. RLVR-experimenten met deze aanpak op Qwen3-4B-Thinking-2507 (met een limiet van 16k tokens) behalen de baseline pass@1 AIME25-nauwkeurigheid terwijl ze oplossingen genereren die gemiddeld bijna twee keer zo kort zijn. De code is beschikbaar op https://github.com/MBZUAI-Paris/Frugal-AI{GitHub}, met datasets en modellen op https://huggingface.co/collections/MBZUAI-Paris/k2-think-mini-68dcfa8b114686a4bd3dc2bc{Hugging Face}.
Grote multimodale modellen (LMM's) kampen vaak met ernstige inefficiëntie tijdens inferentie als gevolg van het grote aantal visuele tokens dat door beeldencoders wordt geïntroduceerd. Hoewel recente tokencompressiemethoden, zoals pruning en samenvoeging, veelbelovend zijn gebleken in het verminderen van redundantie, blijft hun evaluatie gefragmenteerd en inconsistent. In dit werk presenteren we UniPruneBench, een uniforme en uitbreidbare benchmark voor het pruning van visuele tokens in multimodale LLM's. UniPruneBench biedt gestandaardiseerde protocollen over zes vaardigheidsdimensies en tien datasets, waarbij tien representatieve compressie-algoritmen en drie families van LMM's (LLaVA-v1.5, Intern-VL3 en Qwen2.5-VL) worden bestreken. Naast taaknauwkeurigheid integreert het systeemniveau-metrieken zoals runtime en prefilling-latency om een holistisch beeld te geven. Onze experimenten onthullen verschillende belangrijke bevindingen: (1) willekeurige pruning is een verrassend sterke baseline, (2) geen enkele methode presteert consistent beter dan andere in alle scenario's, (3) de gevoeligheid voor pruning varieert aanzienlijk tussen taken, waarbij OCR het kwetsbaarst is, en (4) de pruningratio is de dominante factor die prestatievermindering bepaalt. Wij geloven dat UniPruneBench een betrouwbare basis zal vormen voor toekomstig onderzoek naar efficiënte multimodale modellering.
Huidige benchmarks voor coderen evalueren taalmodellen (TM'en) op concrete, goed-gespecificeerde taken, zoals het repareren van specifieke bugs of het schrijven van gerichte tests. Menselijke programmeurs besteden echter niet de hele dag aan het onophoudelijk aanpakken van geïsoleerde taken. In plaats daarvan is real-world softwareontwikkeling geworteld in het nastreven van hoogwaardige doelen, zoals het verbeteren van gebruikersretentie of het verlagen van kosten. Het evalueren of TM'en ook iteratief code kunnen ontwikkelen om open-einde doelstellingen beter te bereiken zonder expliciete begeleiding, blijft een open uitdaging. Om dit aan te pakken, introduceren we CodeClash, een benchmark waarin TM'en deelnemen aan meerronde toernooien om de beste codebase te bouwen voor het bereiken van een competitief doel. Elke ronde verloopt in twee fasen: agents bewerken hun code, waarna hun codebases rechtstreeks tegen elkaar strijden in een code-arena die winnaars bepaalt op basis van doelstellingen zoals scoremaximalisatie, resourceverwerving of overleving. Of het nu gaat om het schrijven van notities, het bestuderen van documentatie, het analyseren van competitielogboeken of het creëren van testsuites, modellen moeten zelf beslissen hoe ze hun codebases kunnen verbeteren, zowel absoluut als ten opzichte van hun tegenstanders. We voeren 1680 toernooien uit (in totaal 25.200 rondes) om 8 TM'en te evalueren in 6 arena's. Onze resultaten tonen aan dat hoewel modellen uiteenlopende ontwikkelstijlen vertonen, ze fundamentele beperkingen delen in strategisch redeneren. Modellen hebben ook moeite met het langetermijnonderhoud van codebases, omdat repositories progressief rommelig en redundant worden. Deze beperkingen zijn duidelijk: topmodellen verliezen elke ronde van ervaren menselijke programmeurs. We maken CodeClash open-source om de studie naar autonome, doelgerichte code-ontwikkeling vooruit te helpen.
Grootschalige data heeft doorbraken mogelijk gemaakt in de robotica, van taalmodellen tot visie-taal-actiemodellen voor bimanuele manipulatie. Humanoïde robotica beschikt echter niet over even effectieve raamwerken voor gegevensverzameling. Bestaande teleoperatiesystemen voor humanoïden gebruiken ofwel ontkoppelde besturing, of zijn afhankelijk van dure motion-capture-opstellingen. Wij introduceren TWIST2, een draagbaar, mocap-vrij teleoperatie- en gegevensverzamelingssysteem voor humanoïden dat volledige lichaamscontrole behoudt en tegelijkertijd de schaalbaarheid verbetert. Ons systeem maakt gebruik van PICO4U VR voor het verkrijgen van real-time lichaamsbewegingen van mensen, met een aangepaste 2-DoF robotnek (kosten ongeveer $250) voor egocentrisch zicht, wat holistische mens-naar-humanoïde besturing mogelijk maakt. Wij demonstreren behendige en mobiele humanoïde vaardigheden op lange termijn en kunnen 100 demonstraties verzamelen in 15 minuten met een slagingspercentage van bijna 100%. Op basis van deze pijplijn stellen wij een hiërarchisch raamwerk voor een visuomotorisch beleid voor dat autonoom het volledige humanoïde lichaam aanstuurt op basis van egocentrisch zicht. Ons visuomotorisch beleid demonstreert met succes behendige manipulatie met het hele lichaam en dynamische schoptaakjes. Het gehele systeem is volledig reproduceerbaar en open source beschikbaar op https://yanjieze.com/TWIST2. Onze verzamelde dataset is eveneens open source beschikbaar op https://twist-data.github.io.
Huidige evaluatieparadigma's voor grote taalmodellen (LLM's) vormen een kritieke blinde vlek in AI-onderzoek. Ze steunen op ondoorzichtige numerieke metrieken die fundamentele beperkingen in ruimtelijk redeneren verhullen, zonder een intuïtief begrip van modelcapaciteiten te bieden. Dit tekort creëert een gevaarlijke kloof tussen gerapporteerde prestaties en praktische vaardigheden, vooral voor toepassingen die begrip van de fysieke wereld vereisen. Wij introduceren LTD-Bench, een baanbrekende benchmark die LLM-evaluatie transformeert van abstracte scores naar direct observeerbare visuele output door modellen te vragen tekeningen te genereren via puntmatrices of uitvoerbare code. Deze aanpak maakt ruimtelijke redeneerbeperkingen direct inzichtelijk, zelfs voor niet-experts, en overbrugt zo de fundamentele kloof tussen statistische prestaties en intuïtieve beoordeling. LTD-Bench implementeert een uitgebreide methodologie met complementaire generatietaken (testen van ruimtelijke verbeeldingskracht) en herkenningstaken (beoordelen van ruimtelijke perceptie) over drie progressief uitdagende moeilijkheidsniveaus, waarbij beide richtingen van de kritieke taal-ruimtelijke mapping methodisch worden geëvalueerd. Onze uitgebreide experimenten met state-of-the-art modellen leggen een alarmerende capaciteitskloof bloot: zelfs LLM's die indrukwekkende resultaten behalen op traditionele benchmarks tonen diepgaande tekortkomingen in het tot stand brengen van bidirectionele mapping tussen taal en ruimtelijke concepten – een fundamentele beperking die hun potentieel als authentieke wereldmodellen ondermijnt. Bovendien maken de visuele outputs van LTD-Bench krachtige diagnostische analyse mogelijk, wat een potentiële aanpak biedt om modelgelijkenis te onderzoeken.
Testen op echte machines is onmisbaar voor robotbesturingsalgoritmen. In de context van op leren gebaseerde algoritmen, met name VLA-modellen, wordt de vraag naar grootschalige evaluatie - het testen van een groot aantal modellen op een groot aantal taken - steeds urgenter. Dit correct uitvoeren is echter zeer niet-triviaal, vooral wanneer schaalbaarheid en reproduceerbaarheid in aanmerking worden genomen. In dit rapport beschrijven we onze methodologie voor het opzetten van RoboChallenge, een online evaluatiesysteem om robotbesturingsalgoritmen te testen, en onze evaluatie van recente state-of-the-art VLA-modellen met behulp van onze initiële benchmark Table30.
Grote taalmodellen (LLM's) hebben opmerkelijke capaciteiten getoond in talloze praktijktoepassingen. Hoewel het overgrote deel van het onderzoek vanuit experimenteel perspectief snel vordert, vergt dit aanzienlijke rekenkracht, data en andere middelen. Daarom is het openen van de black-box van LLM's vanuit een theoretisch standpunt een cruciale uitdaging geworden. Dit artikel neemt de theorie van de snelheids-vervormingsfunctie, gerichte informatie en Granger-causaliteit als uitgangspunt om de informatie-theoretische principes achter LLM's te onderzoeken, wat leidt tot de ontwikkeling van een semantische informatie-theorie voor LLM's, waarbij de fundamentele eenheid de token is, in plaats van bits die geen enkele semantische betekenis hebben. Door het probabilistische model van LLM's te definiëren, bespreken we structuuronafhankelijke informatie-theoretische maten, zoals de gerichte snelheids-vervormingsfunctie in pre-training, de gerichte snelheids-beloningsfunctie in post-training, en de semantische informatiestroom in de inferentiefase. Dit artikel gaat ook diep in op de theorie van semantische inbedding op tokenniveau en de informatie-theoretisch optimale vectorisatiemethode. Vervolgens stellen we een algemene definitie van autoregressieve LLM's voor, waarbij de Transformer-architectuur en zijn prestaties zoals ELBO, generalisatiefoutgrens, geheugencapaciteit en semantische informatie-maten theoretisch kunnen worden afgeleid. Andere architecturen, zoals Mamba/Mamba2 en LLaDA, worden eveneens binnen ons kader besproken. Bijgevolg biedt dit artikel een theoretisch kader voor het begrijpen van LLM's vanuit het perspectief van semantische informatie-theorie, dat ook de nodige theoretische instrumenten biedt voor verder diepgaand onderzoek.
Wij introduceren iFlyBot-VLA, een grootschalig Vision-Language-Action (VLA) model dat is getraind onder een nieuw raamwerk. De belangrijkste bijdragen zijn als volgt: (1) een latent actiemodel grondig getraind op grootschalige menselijke en robotmanipulatievideo's; (2) een duaal actierepresentatieraamwerk dat zowel het Vision-Language Model (VLM) als de actie-expert gezamenlijk superviseert tijdens de training; (3) een gemengde trainingsstrategie die robotbaangegevens combineert met algemene QA- en ruimtelijke QA-datasets, waardoor de 3D-waarnemings- en redeneervermogens van de VLM-backbone effectief worden verbeterd. Specifiek wordt het VLM getraind om twee complementaire vormen van acties te voorspellen: latente acties, afgeleid van ons vooraf getrainde latentie-actiemodel op cross-embodiment manipulatiegegevens, die impliciete hoogwaardige intenties vastleggen; en gestructureerde discrete actietokens, verkregen via frequentiedomeintransformaties van continue regelsignalen, die expliciete laagwaardige dynamiek coderen. Deze dubbele supervisie brengt de representatieruimten van taal, visie en actie in overeenstemming, waardoor het VLM direct kan bijdragen aan actiegeneratie. Experimentele resultaten op de LIBERO Franka-benchmark tonen de superioriteit van ons raamwerk aan, terwijl evaluaties in de echte wereld verder aantonen dat iFlyBot-VLA competitieve slagingspercentages behaalt bij diverse en uitdagende manipulatietaken. Verder zijn wij van plan een deel van onze zelf samengestelde dataset open source te maken om toekomstig onderzoek in de gemeenschap te ondersteunen.
Grote Taalmodellen hebben sterke prestaties getoond op veel gevestigde redeneerbenchmarks. Deze benchmarks evalueren echter voornamelijk gestructureerde vaardigheden zoals kwantitatief probleemoplossen, waardoor een kloof ontstaat in het beoordelen van flexibele, veelzijdige redeneervaardigheden die centraal staan in de menselijke intelligentie. Deze vaardigheden vereisen de integratie van logische deductie met ruimtelijk inzicht en constraint satisfaction, wat door huidige evaluaties niet goed wordt gemeten. Om dit aan te pakken, introduceren we RiddleBench, een benchmark bestaande uit 1.737 uitdagende raadsels in het Engels, ontworpen om deze kernredeneervaardigheden te onderzoeken. Evaluatie van state-of-the-art modellen op RiddleBench toont fundamentele zwaktes. Zelfs toonaangevende propriëtaire modellen zoals Gemini 2.5 Pro, o3 en Claude 4 Sonnet halen een nauwkeurigheid van slechts iets boven de 60% (respectievelijk 60,30%, 63,37% en 63,16%). Analyse onthult verder diepgaande mislukkingen, waaronder hallucinatiecascades (het accepteren van gebrekkige redeneringen van andere modellen) en een zwakke zelfcorrectie als gevolg van een sterke zelfbevestigingsbias. Hun redenering is ook fragiel, waarbij de prestaties significant verslechteren wanneer beperkingen worden herschikt of irrelevante informatie wordt geïntroduceerd. RiddleBench fungeert als een diagnostisch hulpmiddel voor deze problemen en als een bron voor het leiden van de ontwikkeling van robuustere en betrouwbaardere taalmodellen.
Complex grafiekbegrip vereist geavanceerde visuele herkenning en redeneervaardigheden van multimodale grote taalmodellen (MLLM's). Echter, huidig onderzoek biedt beperkte dekking van complexe grafiekscenario's en rekenintensieve redeneertaken die gangbaar zijn in praktijktoepassingen. Deze studie stelt een geautomatiseerde, meerfasige code-gestuurde pijplijn voor voor het systematisch genereren van visuele redeneerdatasets om deze beperkingen aan te pakken. De pijplijn integreert retrieval-augmented generation (RAG) om professionele grafieksjablonen op te halen en gebruikt chain-of-thought (CoT)-strategieën om redenatiecode te genereren die echte dataverdelingen simuleert, waardoor grafiekweergave en vraaggerelateerde statistische berekeningen worden aangedreven. Door modelgebaseerde evaluatie verbetert de pijplijn grafiekdiversiteit en data-kwaliteit. Met dit framework construeren we ChartM^3, een multidimensionale en meerstaps dataset met 38K grafieken en 142K vraag-antwoordparen voor training, plus 2.871 hoogwaardige evaluatiemonsters voor praktische prestatiebeoordeling. Supervised fine-tuning (SFT) en reinforcement learning (RL)-experimenten tonen aan dat onze dataset redeneervaardigheden en cross-domein generalisatieprestaties significant verbetert, waardoor kleinere modellen prestaties kunnen bereiken die vergelijkbaar zijn met grootschalige modellen in complex grafiekbegrip.
Het begrijpen en voorspellen van emoties uit video's heeft de afgelopen jaren aanzienlijke aandacht gekregen in wetenschappelijke studies, aangewakkerd door vooruitgang in video large language models (VideoLLM's). Hoewel geavanceerde methoden vooruitgang hebben geboekt in video-emotieanalyse, vormt de intrinsieke aard van emoties aanzienlijke uitdagingen. Emoties worden gekenmerkt door dynamische en cue-afhankelijke eigenschappen, waardoor het moeilijk is complexe en evoluerende emotionele toestanden met een redelijke onderbouwing te begrijpen. Om deze uitdagingen aan te pakken, stellen we een nieuw raamwerk voor voor affectieve cue-gestuurd redeneren dat fundamentele attribuutperceptie, expressieanalyse en hoogwaardig emotiebegrip op een gefaseerde manier verenigt. De kern van onze aanpak bestaat uit een familie van video-emotiefoundationmodellen (VidEmo), specifiek ontworpen voor emotieredenering en instructievolging. Deze modellen ondergaan een tweefasen afstemmingsproces: eerst curriculumemotieleren om emotiekennis in te brengen, gevolgd door reinforcement learning met een affectieve boomstructuur voor emotieredenering. Bovendien hebben we een foundationele datainfrastructuur opgezet en introduceren we een emotiegerichte fijnmazige dataset (Emo-CFG) bestaande uit 2,1 miljoen diverse op instructies gebaseerde samples. Emo-CFG omvat verklaarbare emotionele vraag-antwoordparen, fijnmazige bijschriften en bijbehorende onderbouwingen, en biedt essentiële bronnen voor het bevorderen van emotiebegriptaken. Experimentele resultaten tonen aan dat onze aanpak competitieve prestaties bereikt en een nieuwe mijlpaal vestigt across 15 gezichtsperceptietaken.
In dit werk presenteren wij LiveSecBench, een dynamische en continu bijgewerkte veiligheidsbenchmark die specifiek is ontworpen voor toepassingsscenario's van taalmodelen in de Chinese taal. LiveSecBench evalueert modellen op zes kritieke dimensies (Legaliteit, Ethiek, Feitelijkheid, Privacy, Robuustheid tegen Adversariële Aanvallen, en Veiligheid van Redeneringen) die geworteld zijn in het Chinese juridische en sociale kader. Deze benchmark houdt zijn relevantie door een dynamisch updateschema dat nieuwe bedreigingsvectoren integreert, zoals de geplande opname van Veiligheid van Tekst-naar-Beeld Generatie en Agent Veiligheid in de volgende update. Momenteel heeft LiveSecBench (v251030) 18 taalmodelen geëvalueerd, wat een beeld schetst van de AI-veiligheid in de context van de Chinese taal. De leaderboard is openbaar toegankelijk op https://livesecbench.intokentech.cn/.
Naarmate de wereldwijde last van de ziekte van Alzheimer (AD) blijft toenemen, is vroege en accurate detectie steeds crucialer geworden, vooral in regio's met beperkte toegang tot geavanceerde diagnostische hulpmiddelen. Wij stellen BRAINS (Biomedical Retrieval-Augmented Intelligence for Neurodegeneration Screening) voor om deze uitdaging aan te pakken. Dit nieuwe systeem benut de krachtige redeneercapaciteiten van Large Language Models (LLM's) voor de detectie en monitoring van Alzheimer. BRAINS beschikt over een dual-module architectuur: een cognitieve diagnostische module en een casusretrievalmodule. De Diagnostische Module gebruikt LLM's die zijn gefinetuned op cognitieve en neuroimaging datasets – inclusief MMSE, CDR-scores en hersenvolumemetingen – om gestructureerde risicobeoordelingen voor Alzheimer uit te voeren. Intussen codeert de Casus Retrieval Module patiëntprofielen in latente representaties en haalt vergelijkbare casussen op uit een samengestelde kennisbank. Deze ondersteunende casussen worden via een Casusfusielaag geïntegreerd met het invoerprofiel om het contextuele begrip te verbeteren. De gecombineerde representatie wordt vervolgens verwerkt met klinische prompts voor inferentie. Evaluaties op real-world datasets tonen de effectiviteit van BRAINS aan in het classificeren van ziektestadiums en het identificeren van vroege tekenen van cognitieve achteruitgang. Dit systeem toont niet alleen een sterk potentieel als hulpmiddel voor schaalbare, uitlegbare en vroegtijdige detectie van de ziekte van Alzheimer, maar biedt ook hoop voor toekomstige toepassingen in het veld.
Huidige grote taalmodellen blinken uit in brede, algemene taken, maar presteren consequent ondermaats wanneer ze worden blootgesteld aan zeer gespecialiseerde domeinen die diepgaande culturele, linguïstische en vakinhoudelijke expertise vereisen. Traditionele medische systemen zoals Ayurveda belichamen in het bijzonder eeuwenlang genuanceerde tekstuele en klinische kennis waar mainstream LLM's niet accuraat in slagen te interpreteren of toe te passen. Wij introduceren AyurParam-2.9B, een domein-gespecialiseerd, tweetalig taalmodel verfijnd vanuit Param-1-2.9B met behulp van een uitgebreide, deskundig samengestelde Ayurveda-dataset die klassieke teksten en klinische richtlijnen omvat. De dataset van AyurParam integreert contextbewust, redeneer- en objectief-stijl vraag-en-antwoord in zowel Engels als Hindi, met rigoureuze annotatieprotocollen voor feitelijke precisie en instructieve helderheid. Gebenchmarkt op BhashaBench-Ayur, overtreft AyurParam niet alleen alle open-source instructie-verfijnde modellen in zijn grootteklasse (1.5–3B parameters), maar demonstreert ook competitieve of superieure prestaties in vergelijking met veel grotere modellen. De resultaten van AyurParam benadrukken de noodzaak van authentieke domeinadaptatie en hoogwaardige supervisie voor het leveren van betrouwbare, cultureel congruente AI voor gespecialiseerde medische kennis.
Text-to-image (T2I) diffusiemodellen hebben een sterke prestatie geleverd in semantische uitlijning, maar ze worstelen nog steeds met het genereren van het juiste aantal objecten dat in prompts wordt gespecificeerd. Bestaande benaderingen incorporeren typisch auxiliary counting-netwerken als externe critici om numeriek vermogen te verbeteren. Omdat deze critici echter gradientbegeleiding moeten bieden tijdens de generatie, zijn ze beperkt tot op regressie gebaseerde modellen die inherent differentieerbaar zijn, waardoor detector-gebaseerde modellen met superieur telvermogen worden uitgesloten, waarvan het tel-via-enumeratie-karakter niet-differentieerbaar is. Om deze beperking te overwinnen, stellen we Detector-to-Differentiable (D2D) voor, een nieuw raamwerk dat niet-differentieerbare detectiemodellen omvormt tot differentieerbare critici, waardoor hun superieure telvermogen wordt benut om numerieke generatie te begeleiden. Specifiek ontwerpen we aangepaste activatiefuncties om detector-logits om te zetten in zachte binaire indicatoren, die vervolgens worden gebruikt om de ruisprior tijdens inferentie te optimaliseren met vooraf getrainde T2I-modellen. Onze uitgebreide experimenten op SDXL-Turbo, SD-Turbo en Pixart-DMD over vier benchmarks van uiteenlopende complexiteit (low-density, high-density en multi-object scenario's) demonstreren consistente en substantiële verbeteringen in objecttel nauwkeurigheid (bijvoorbeeld een stijging tot 13,7% op D2D-Small, een low-density benchmark met 400 prompts), met minimale degradatie in algemene beeldkwaliteit en computationele overhead.
Complex redeneren over tabelgegevens is cruciaal in real-world data-analyse, maar grote taalmmodellen (LLM's) presteren vaak ondermaats vanwege complexe queries, rumoerige data en beperkte numerieke capaciteiten. Om deze problemen aan te pakken, stellen we \method voor, een framework bestaande uit: (1) een query-ontbinder die complexe vragen afbreekt, (2) een tabelzuiveraar die rumoerige tabellen reinigt en filtert, en (3) een op Program-of-Thoughts (PoT) gebaseerde redenaar die uitvoerbare code genereert om het uiteindelijke antwoord uit de gezuiverde tabel af te leiden. Om een onbevooroordeelde evaluatie te waarborgen en datalekken te mitigeren, introduceren we een nieuwe dataset, CalTab151, die specifiek is ontworpen voor complexe numerieke redenering over tabellen. Experimentele resultaten tonen aan dat \method consequent bestaande methoden overtreft, met state-of-the-art (SOTA) prestaties en een nauwkeurigheidsverbetering van 8,79%, 6,08% en 19,87% op respectievelijk TAT-QA, TableBench en \method. Bovendien integreert ons framework naadloos met mainstream LLM's en biedt het een robuuste oplossing voor complexe numerieke tabulaire redenering. Deze bevindingen benadrukken de effectiviteit van ons framework bij het verbeteren van de LLM-prestaties voor complexe numerieke tabulaire redenering. Data en code zijn op aanvraag beschikbaar.
Onbegeleid leren van diepte en ego-motion, twee fundamentele 3D-perceptietaken, heeft de afgelopen jaren aanzienlijke vooruitgang geboekt. De meeste methoden behandelen ego-motion echter als een hulptaak, waarbij ofwel alle bewegingstypen worden gemengd ofwel diepte-onafhankelijke rotatiebewegingen worden uitgesloten in de supervisie. Dergelijke ontwerpen beperken de integratie van sterke geometrische beperkingen, wat de betrouwbaarheid en robuustheid onder diverse omstandigheden vermindert. Deze studie introduceert een onderscheidende behandeling van bewegingcomponenten, waarbij gebruik wordt gemaakt van de geometrische regelmatigheden van hun respectievelijke rigide flows om zowel de diepte- als ego-motion-schatting te verbeteren. Gegeven opeenvolgende videoframes, stellen netwerkuitvoeren eerst de optische assen en beeldvlakken van de bron- en doelscamera's uit. Optische flows tussen frames worden getransformeerd door deze uitlijningen, en afwijkingen worden gekwantificeerd om afzonderlijk geometrische beperkingen op te leggen aan elke ego-motion-component, wat een gerichtere verfijning mogelijk maakt. Deze uitlijningen herformuleren verder het gezamenlijke leerproces in coaxiale en coplaire vormen, waar diepte en elke translatiecomponent onderling kunnen worden afgeleid via gesloten geometrische relaties, wat aanvullende beperkingen introduceert die de diepterobuustheid verbeteren. DiMoDE, een algemeen kader voor gezamenlijk leren van diepte en ego-motion dat deze ontwerpen incorporeert, behaalt state-of-the-art prestaties op meerdere openbare datasets en een nieuw verzamelde, diverse real-world dataset, met name onder uitdagende omstandigheden. Onze broncode zal na publicatie openbaar beschikbaar zijn op mias.group/DiMoDE.
Recente studies hebben Direct Preference Optimization (DPO) geïdentificeerd als een efficiënte en beloningsvrije benadering om de kwaliteit van videogeneratie te verbeteren. Bestaande methoden volgen echter grotendeels paradigma's uit het beelddomein en zijn voornamelijk ontwikkeld voor kleinschalige modellen (ongeveer 2B parameters), wat hun vermogen beperkt om de unieke uitdagingen van videotaken aan te pakken, zoals kostbare dataconstructie, onstabiele training en hoog geheugengebruik. Om deze beperkingen te overwinnen, introduceren we een GT-Pair die automatisch hoogwaardige voorkeursparen opstelt door echte video's als positieve voorbeelden en door het model gegenereerde video's als negatieve voorbeelden te gebruiken, waardoor externe annotatie overbodig wordt. Verder presenteren we Reg-DPO, dat de SFT-verliesfunctie integreert als regularisatieterm in het DPO-doel om de trainingsstabiliteit en generatiefideliteit te verbeteren. Daarnaast bereikt onze aanpak, door het FSDP-framework te combineren met meerdere geheugenoptimalisatietechnieken, een bijna drie keer hogere trainingscapaciteit dan bij gebruik van alleen FSDP. Uitgebreide experimenten met zowel I2V- als T2V-taken op meerdere datasets tonen aan dat onze methode consistent beter presteert dan bestaande benaderingen en superieure videogeneratiekwaliteit levert.