Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Multimodale redenering vereist een iteratieve coördinatie tussen taal en visie, maar het blijft onduidelijk wat een zinvolle verweven denkketen vormt. Wij stellen dat tekst- en beeldgedachten complementair moeten functioneren in plaats van isomorf, als modaliteiten die elkaar wederzijds vooruithelpen bij het redeneren. Op basis van dit principe bouwen we ThinkMorph, een uniform model dat is afgestemd op 24K hoogwaardige verweven redeneersporen, afkomstig van taken met uiteenlopende visuele betrokkenheid. ThinkMorph leert progressieve tekst-beeldredeneringsstappen te genereren die visuele inhoud concreet manipuleren terwijl een coherente verbale logica behouden blijft. Het behaalt grote vooruitgang op visiegerichte benchmarks (gemiddeld 34,7% boven het basismodel) en generaliseert naar taken buiten het domein, waarbij het grotere en propriëtaire VLMs evenaart of overtreft. Naast prestaties vertoont ThinkMorph emergent multimodaal inzicht, waaronder onzichtbare visuele manipulatievaardigheden, adaptief schakelen tussen redeneermodi en betere schaalbaarheid tijdens testen door gediversifieerde multimodale gedachten. Deze bevindingen wijzen op veelbelovende richtingen voor het karakteriseren van de emergentiecapaciteiten van uniforme modellen voor multimodale redenering.
Moderne AI-hardware, zoals Nvidia's Blackwell-architectuur, omarmt in toenemende mate low-precision floating-point (FP)-formaten om de alomtegenwoordige activeringsuitbijters in Large Language Models (LLM's) te verwerken. Ondanks deze industriële trend ontbrak tot nu toe een uniforme vergelijking van FP- en integer (INT)-kwantisering op verschillende granulariteiten, waardoor co-design van algoritmen en hardware zonder duidelijke richtlijn bleef. Dit artikel voorziet in die leemte door de afwegingen tussen FP- en INT-formaten systematisch te onderzoeken. We onthullen een kritiek prestatiekruispunt: waar FP uitblinkt in grofkorrelige kwantisering, is de vergelijking op fijnkorrelig (bloksgewijs) niveau genuanceerder. Onze uitgebreide vergelijking toont aan dat voor populaire 8-bits fijnkorrelige formaten (bijv. MX met blokgrootte 32), MXINT8 superieur is aan zijn FP-tegenhanger in zowel algoritmische nauwkeurigheid als hardware-efficiëntie. Voor 4-bits formaten heeft FP (bijv. MXFP4, NVFP4) echter vaak een nauwkeurigheidsvoordeel, hoewel we aantonen dat NVINT4 NVFP4 kan overtreffen wanneer uitbijter-reductietechnieken zoals Hadamard-rotatie worden toegepast. We introduceren ook een symmetrische clippingsmethode die gradientbias oplost bij fijnkorrelige INT-training met weinig bits, wat nagenoeg verliesvrije prestaties voor MXINT8-training mogelijk maakt. Deze bevindingen dagen de huidige hardware-koers uit, door aan te tonen dat een universele FP-aanpak suboptimaal is en te bepleiten dat fijnkorrelige INT-formaten, in het bijzonder MXINT8, een betere balans bieden van nauwkeurigheid, vermogen en efficiëntie voor toekomstige AI-versnellers.
Vision-Language Model (VLM)-aangedreven agents die computers gebruiken, hebben mensachtige capaciteiten getoond bij het bedienen van digitale omgevingen zoals mobiele platforms. Hoewel deze agents grote belofte inhouden voor het bevorderen van digitale automatisering, roept hun potentieel voor onveilige handelingen, zoals systeeminbraak en privacylekken, aanzienlijke bezorgdheid op. Het detecteren van deze veiligheidsrisico's in de uitgestrekte en complexe operationele ruimte van mobiele omgevingen vormt een formidabele uitdaging die kritisch onderbelicht is gebleven. Om een basis te leggen voor onderzoek naar de veiligheid van mobiele agents, introduceren we MobileRisk-Live, een dynamische sandbox-omgeving vergezeld van een veiligheidsdetectiebenchmark die realistische trajecten met gedetailleerde annotaties omvat. Hierop voortbouwend stellen we OS-Sentinel voor, een nieuw hybride veiligheidsdetectiekader dat een Formele Verifier voor het detecteren van expliciete systeemniveau-overtredingen synergetisch combineert met een op VLM gebaseerde Contextuele Beoordelaar voor het inschatten van contextuele risico's en agentacties. Experimenten tonen aan dat OS-Sentinel 10%-30% verbeteringen bereikt ten opzichte van bestaande benaderingen over meerdere metrieken. Verdere analyse verschaft kritische inzichten die de ontwikkeling van veiligere en betrouwbaardere autonome mobiele agents bevorderen.
De efficiëntie van grote taalmodellen (LLM's) wordt fundamenteel beperkt door hun sequentiële, token-voor-token generatieproces. Wij stellen dat het overwinnen van dit knelpunt een nieuwe ontwerp-as vereist voor de schaalvergroting van LLM's: het vergroten van de semantische bandbreedte van elke generatieve stap. Hiertoe introduceren we Continue Autoregressieve Taalmodellen (CALM), een paradigmaverschuiving van discrete volgende-tokenvoorspelling naar continue volgende-vectorvoorspelling. CALM gebruikt een auto-encoder met hoge nauwkeurigheid om een blok van K tokens te comprimeren tot een enkele continue vector, waaruit de originele tokens met een nauwkeurigheid van meer dan 99,9% gereconstrueerd kunnen worden. Hierdoor kunnen we taal modelleren als een reeks continue vectoren in plaats van discrete tokens, wat het aantal generatieve stappen met een factor K vermindert. De paradigmaverschuiving vereist een nieuwe modelleertoolkit; daarom ontwikkelen we een uitgebreid kader zonder kansberekening dat robuuste training, evaluatie en beheerbare steekproefname in het continue domein mogelijk maakt. Experimenten tonen aan dat CALM de prestatie-rekenkosten-verhouding aanzienlijk verbetert en de prestaties van sterke discrete basislijnen bereikt tegen aanzienlijk lagere rekenkosten. Belangrijker nog, deze bevindingen vestigen volgende-vectorvoorspelling als een krachtige en schaalbare weg naar ultra-efficiënte taalmodellen. Code: https://github.com/shaochenze/calm. Project: https://shaochenze.github.io/blog/2025/CALM.
Vision-Language-Action (VLA)-modellen stellen robots in staat om complexe taken te begrijpen en uit te voeren op basis van multimodale invoer. Hoewel recent onderzoek het gebruik van reinforcement learning (RL) verkent om het arbeidsintensieve datacollectieproces bij het schalen van supervised fine-tuning (SFT) te automatiseren, blijft de toepassing van RL op grote schaal op flow-gebaseerde VLA's (bijv. pi_0, pi_{0,5}) een uitdaging vanwege onberekenbare actie-log-waarschijnlijkheden veroorzaakt door iteratieve ruisverwijdering. Wij pakken deze uitdaging aan met pi_{RL}, een open-source raamwerk voor het trainen van flow-gebaseerde VLA's in parallelle simulatie. pi_{RL} implementeert twee RL-algoritmen: (1) {Flow-Noise} modelleert het ruisverwijderingsproces als een MDP met discrete tijd en een leerbaar ruisnetwerk voor exacte log-waarschijnlijkheidsberekening. (2) {Flow-SDE} integreert ruisverwijdering met de interactie tussen agent en omgeving, en formuleert een MDP met twee lagen dat ODE-naar-SDE-conversie gebruikt voor efficiënte RL-exploratie. We evalueren pi_{RL} op de LIBERO- en ManiSkill-benchmarks. Op LIBERO verhoogt pi_{RL} de prestaties van few-shot SFT-modellen pi_0 en pi_{0,5} van respectievelijk 57,6% naar 97,6% en van 77,1% naar 98,3%. In ManiSkill trainen we pi_{RL} in 320 parallelle omgevingen, waarbij we pi_0 verbeteren van 41,6% naar 85,7% en pi_{0,5} van 40,0% naar 84,8% over 4352 pick-and-place taken, wat de schaalbaarheid van multitask-RL in heterogene simulatie aantoont. Over het geheel genomen behaalt pi_{RL} aanzienlijke prestatieverbeteringen en een sterkere generalisatie in vergelijking met SFT-modellen, wat de effectiviteit van online RL voor flow-gebaseerde VLA's bevestigt.
Het finetunen van grote taalmodellen (LLM's) met reinforcement learning (RL) lijdt vaak onder instabiliteit als gevolg van een numerieke mismatch tussen het trainings- en het inferentiebeleid. Hoewel eerder werk heeft geprobeerd dit probleem te verhelpen via algoritmische correcties of technische aanpassingen, tonen wij aan dat de oorzaak ervan ligt in de floating point-precisie zelf. Het veelgebruikte BF16-formaat, ondanks zijn grote dynamisch bereik, introduceert aanzienlijke afrondingsfouten die de consistentie tussen training en inferentie doorbreken. In dit werk demonstreren wij dat eenvoudig terugvallen op FP16 deze mismatch effectief elimineert. De wijziging is eenvoudig, wordt volledig ondersteund door moderne frameworks met slechts enkele regels code-aanpassing, en vereist geen modificatie van de modelarchitectuur of het leeralgoritme. Onze resultaten suggereren dat het uniform gebruiken van FP16 een stabielere optimalisatie, snellere convergentie en sterkere prestaties oplevert over diverse taken, algoritmen en frameworks. Wij hopen dat deze bevindingen aanzetten tot een bredere heroverweging van de afwegingen rondom precisie bij RL-finetuning.
Ruimtelijk inzicht blijft een zwak punt van Grote Vision-Laagmodellen (LVLM's). Bestaande pijplijnen voor supervised fine-tuning (SFT) en recente reinforcement learning met verifieerbare beloningen (RLVR) zijn afhankelijk van kostbare supervisie, gespecialiseerde tools of beperkende omgevingen die de schaalbaarheid belemmeren. Wij introduceren Spatial-SSRL, een zelfgesuperviseerd RL-paradigma dat verifieerbare signalen direct uit gewone RGB- of RGB-D beelden afleidt. Spatial-SSRL formuleert automatisch vijf pretext-taken die 2D- en 3D-ruimtelijke structuur vastleggen: herordening van geschudde patches, herkenning van gespiegelde patches, invullen van uitgeknipte patches, regionale diepte-ordening en voorspelling van relatieve 3D-positie. Deze taken bieden grond-waarheid-antwoorden die eenvoudig te verifiëren zijn en geen menselijke of LVLM-annotatie vereisen. Training op onze taken verbetert het ruimtelijk redeneren aanzienlijk, terwijl de algemene visuele capaciteiten behouden blijven. Op zeven benchmarks voor ruimtelijk begrip in zowel beeld- als video-instellingen levert Spatial-SSRL gemiddelde nauwkeurigheidswinsten op van 4.63% (3B) en 3.89% (7B) ten opzichte van de Qwen2.5-VL-baselines. Onze resultaten tonen aan dat eenvoudige, intrinsieke supervisie RLVR op grote schaal mogelijk maakt en een praktische route biedt naar sterker ruimtelijk inzicht in LVLM's.
Distribution Matching Distillation (DMD) distilleert op scores gebaseerde generatieve modellen tot efficiënte één-staps generatoren, zonder dat een één-op-één correspondentie met de bemonsteringstrajecten van hun leraren vereist is. Beperkte modelcapaciteit zorgt er echter voor dat één-staps gedistilleerde modellen onderpresteren op complexe generatieve taken, zoals het synthetiseren van ingewikkelde objectbewegingen in tekst-naar-video-generatie. Het direct uitbreiden van DMD naar multi-staps distillatie verhoogt het geheugengebruik en de computationele diepte, wat leidt tot instabiliteit en verminderde efficiëntie. Hoewel eerdere werken stochastische gradient truncatie als mogelijke oplossing voorstellen, observeren wij dat dit de generatiediversiteit van multi-staps gedistilleerde modellen aanzienlijk reduceert, tot het niveau van hun één-staps tegenhangers. Om deze beperkingen aan te pakken, stellen wij Gefaseerde DMD voor, een multi-staps distillatiekader dat het idee van fasegewijze distillatie verbindt met Mixture-of-Experts (MoE), waardoor de leer moeilijkheid wordt verminderd en de modelcapaciteit wordt verbeterd. Gefaseerde DMD is gebouwd op twee kernideeën: progressieve distributie matching en score matching binnen subintervallen. Ten eerste deelt ons model het SNR-bereik op in subintervallen en verfijnt het model progressief naar hogere SNR-niveaus om complexe distributies beter te leren. Vervolgens hebben wij rigoureuze wiskundige afleidingen uitgevoerd om ervoor te zorgen dat de trainingsdoelstelling binnen elk subinterval accuraat is. Wij valideren Gefaseerde DMD door state-of-the-art beeld- en videogeneratiemodellen te distilleren, waaronder Qwen-Image (20B parameters) en Wan2.2 (28B parameters). Experimentele resultaten tonen aan dat Gefaseerde DMD de uitvoerdiversiteit beter behoudt dan DMD, terwijl essentiële generatieve capaciteiten behouden blijven. Wij zullen onze code en modellen vrijgeven.
Autonome Graphical User Interface (GUI)-agenten zijn afhankelijk van nauwkeurige GUI-gronding, waarbij taalopdrachten worden gekoppeld aan coördinaten op het scherm, om gebruikerscommando's uit te voeren. Huidige modellen, of ze nu getraind zijn via supervised fine-tuning (SFT) of reinforcement fine-tuning (RFT), beschikken echter niet over zelfbewustzijn van hun capaciteitsgrenzen, wat leidt tot overmoed en onbetrouwbare voorspellingen. We evalueren eerst systematisch probabilistisch en verbaal uitgedrukt vertrouwen in algemene en GUI-specifieke modellen, wat een misalignement onthult tussen vertrouwen en werkelijke nauwkeurigheid. Dit is vooral kritiek bij dynamische GUI-automatiseringstaken, waar enkele fouten tot taakfalen kunnen leiden. Om dit aan te pakken, stellen we HyperClick voor, een nieuw raamwerk dat betrouwbare GUI-gronding verbetert door onzekerheidscalibratie. HyperClick introduceert een dubbele beloningsmechanisme, dat een binaire beloning voor correcte acties combineert met een op afgeknotte Gaussische verdeling gebaseerde modelering van ruimtelijk vertrouwen, gecalibreerd met de Brier-score. Deze aanpak optimaliseert gezamenlijk de grondingsnauwkeurigheid en betrouwbaarheid van het vertrouwen, waardoor introspectieve zelfkritiek wordt gestimuleerd. Uitgebreide experimenten op zeven uitdagende benchmarks tonen aan dat HyperClick state-of-the-art prestaties bereikt en tegelijkertijd goed gecalibreerd vertrouwen biedt. Door expliciete vertrouwenscalibratie en introspectieve zelfkritiek mogelijk te maken, vermindert HyperClick overmoed en ondersteunt het betrouwbaardere GUI-automatisering.
Multimodale positiecodering is essentieel voor visie-taalmodellen, maar er is tot nu toe weinig systematisch onderzoek naar gedaan. Wij voeren een uitgebreide analyse uit van multimodale Rotary Positional Embedding (RoPE) door de twee kerncomponenten te onderzoeken: positieontwerp en frequentietoewijzing. Via uitgebreide experimenten identificeren we drie belangrijke richtlijnen: positionele coherentie, volledig frequentiegebruik en behoud van tekstuele prioriteiten – wat eenduidige lay-out, rijke representatie en getrouwe overdracht van het vooraf getrainde LLM waarborgt. Gebaseerd op deze inzichten stellen we Multi-Head RoPE (MHRoPE) en MRoPE-Interleave (MRoPE-I) voor, twee eenvoudige, plug-and-play varianten die geen aanpassingen aan de architectuur vereisen. Onze methoden overtreffen bestaande benaderingen consistent in diverse benchmarks, met significante verbeteringen in zowel algemeen als fijnmazig multimodaal begrip. Code zal beschikbaar zijn op https://github.com/JJJYmmm/Multimodal-RoPEs.
De verbaosheid van Chain-of-Thought (CoT) redenering belemmert de grootschalige inzet ervan in efficiëntie-kritieke toepassingen. Recent zijn impliciete CoT-benaderingen ontstaan, die redeneerstappen coderen binnen de verborgen embeddingruimte van een LLM (aangeduid als "impliciete redenering") in plaats van in expliciete tokens. Deze aanpak versnelt CoT door de redeneerlengte te verkorten en sommige LLM-componenten te omzeilen. Bestaande impliciete CoT-methoden kampen echter met twee grote uitdagingen: (1) ze slagen er niet in de semantische afstemming te behouden tussen de impliciete redenering (wanneer omgezet naar natuurlijke taal) en de grond-waarheid-redenering, wat leidt tot een significante prestatievermindering van CoT, en (2) ze richten zich op het verkorten van de lengte van de impliciete redenering, maar negeren de aanzienlijke tijdskosten voor een LLM om één individuele impliciete redeneringstoken te genereren. Om deze uitdagingen aan te pakken, stellen wij een nieuw semantisch-afgestemd impliciet CoT-raamwerk voor, genaamd SemCoT. Specifiek ontwerpen wij voor de eerste uitdaging een contrastief getrainde sentence-transformer die de semantische afstemming tussen impliciete en expliciete redenering evalueert, welke wordt gebruikt om semantisch behoud af te dwingen tijdens de optimalisatie van impliciete redenering. Voor de tweede uitdaging introduceren wij een efficiënte impliciete-redenering-generator door een lichtgewicht taalmodel te fine-tunen met knowledge distillation. Deze generator wordt geleid door onze sentence-transformer om de grond-waarheid-redenering te distilleren tot semantisch afgestemde impliciete redenering, waarbij tevens wordt geoptimaliseerd voor nauwkeurigheid. SemCoT is de eerste aanpak die de CoT-efficiëntie verbetert door gezamenlijk de tokenspecifieke generatiesnelheid te optimaliseren en de semantische afstemming met de grond-waarheid-redenering te behouden. Uitgebreide experimenten tonen de superieure prestaties van SemCoT aan in vergelijking met state-of-the-art methoden, zowel qua efficiëntie als effectiviteit. Onze code is te vinden op https://github.com/YinhanHe123/SemCoT/.
De kwadratische kosten van 'scaled dot-product attention' vormen een centrale belemmering bij het schalen van autoregressieve taalmodellen naar lange contexten. Lineaire-tijd aandacht en State Space Models (SSMs) bieden schaalbare alternatieven, maar zijn doorgaans beperkt tot eerste-orde- of kernelgebaseerde benaderingen, wat de expressiviteit kan beperken. Wij introduceren Higher-order Linear Attention (HLA), een causaal, streaming-mechanisme dat hogere interacties realiseert via compacte prefix-voldoende-statistieken. In het tweede-ordegeval handhaaft HLA een constante toestandsgrootte en berekent per-token-uitvoer in lineaire tijd zonder enige n-bij-n-matrices te materialiseren. Wij geven gesloten streaming-identiteiten, een strikt causale gemaskeerde variant met twee extra samenvattingen, en een chunk-parallelle trainingsschema gebaseerd op associatieve scans die de activaties van een seriële recurrentie exact reproduceert. Wij schetsen verder uitbreidingen naar de derde en hogere ordes. Collectief positioneren deze resultaten HLA als een principieel, schaalbaar bouwsteen dat aandacht-achtige, data-afhankelijke mixing combineert met de efficiëntie van moderne recurrent architecturen. Projectpagina: https://github.com/yifanzhang-pro/HLA.
Multimodale grote taalmodellen (MLLM's) hebben een stap voorwaarts betekend voor belichaamde agents door directe waarneming, redenering en planning van taakgerichte acties op basis van visuele invoer mogelijk te maken. Dergelijke visueel gedreven belichaamde agents creëren echter een nieuw aanvalsoppervlak: visuele backdoor-aanvallen, waarbij de agent zich normaal gedraagt totdat een visuele trigger in de scène verschijnt, waarna hij persistent een door de aanvaller gespecificeerd meerstappenbeleid uitvoert. Wij introduceren BEAT, het eerste raamwerk om dergelijke visuele backdoors in MLLM-gebaseerde belichaamde agents te injecteren met behulp van objecten in de omgeving als triggers. In tegenstelling tot tekstuele triggers vertonen objecttriggers grote variatie over viewpoints en belichting heen, wat het moeilijk maakt ze betrouwbaar in te planten. BEAT lost deze uitdaging op door (1) een trainingsset te construeren die diverse scènes, taken en triggerplaatsingen omvat om agents bloot te stellen aan triggervariabiliteit, en (2) een tweefasen-trainingsschema te introduceren dat eerst supervised fine-tuning (SFT) toepast en vervolgens onze nieuwe Contrastive Trigger Learning (CTL). CTL formuleert triggerdiscriminatie als preference learning tussen invoer met en zonder trigger, waarbij expliciet de beslissingsgrenzen wordt aangescherpt om precieze backdoor-activatie te garanderen. Over verschillende benchmarks voor belichaamde agents en MLLM's heen behaalt BEAT aanvalssuccespercentages tot 80%, terwijl het sterke prestaties op goedaardige taken behoudt, en generaliseert het betrouwbaar naar out-of-distribution triggerplaatsingen. Opmerkelijk is dat CTL, vergeleken met naïeve SFT, de backdoor-activatie-accuraatheid met tot 39% verhoogt onder beperkte backdoor-data. Deze bevindingen blootleggen een kritiek, doch onontgonnen, veiligheidsrisico in MLLM-gebaseerde belichaamde agents, en benadrukken de noodzaak van robuuste verdedigingsmechanismen vóór inzet in de echte wereld.
Naarmate grote taalmodellen (LLM's) een steeds belangrijkere rol in de samenleving innemen, worden ze steeds vaker geconfronteerd met vragen die niet alleen een beroep doen op hun algemene kennis, maar ook vereisen dat ze zich afstemmen op bepaalde menselijke waardesystemen. Daarom is het bestuderen van de afstemming van LLM's op menselijke waarden een cruciaal onderzoeksgebied geworden. Eerder werk richtte zich echter voornamelijk op het evalueren van de afstemming van volledig getrainde modellen, waarbij de trainingsdynamiek waarmee modellen leren om menselijke waarden uit te drukken over het hoofd werd gezien. In dit werk onderzoeken we hoe en in welke fase waarde-afstemming ontstaat tijdens het post-trainingstraject van een model. Onze analyse ontwart de effecten van post-training-algoritmen en datasets, en meet zowel de omvang als het tijdstip van waardeveranderingen tijdens de training. Door te experimenteren met Llama-3- en Qwen-3-modellen van verschillende groottes, en met populaire datasets en algoritmen voor supervised fine-tuning (SFT) en preference optimization, stellen we vast dat de SFT-fase over het algemeen de waarden van een model vaststelt, en dat latere preference optimization deze waarden zelden opnieuw afstemt. Verder vinden we, met behulp van een synthetische preference-dataset die gecontroleerde manipulatie van waarden mogelijk maakt, dat verschillende preference-optimalisatie-algoritmen leiden tot verschillende resultaten in waarde-afstemming, zelfs wanneer de preference-data constant wordt gehouden. Onze bevindingen bieden praktische inzichten in hoe waarden worden aangeleerd tijdens post-training en helpen bij het informeren van datacuratie, evenals de selectie van modellen en algoritmen voor preference optimization om de afstemming van modellen op menselijke waarden te verbeteren.
Recentelijk heeft de uitbreiding van Vision-Language-Action-modellen (VLA's) met wereldmodellering veelbelovende resultaten getoond voor het verbeteren van robotbeleidsleren. Het blijft echter een uitdaging om gezamenlijk observaties van de volgende staat en actiesequenties te voorspellen vanwege het inherente verschil tussen de twee modaliteiten. Om dit aan te pakken, stellen we DUal-STream diffusion (DUST) voor, een VLA-raamwerk versterkt met een wereldmodel dat de modaliteitsconflicten hanteert en de prestaties van VLA's bij diverse taken verbetert. Concreet stellen we een multimodale diffusie-transformerarchitectuur voor die expliciet gescheiden modaliteitsstromen aanhoudt, maar toch kruismodale kennisdeling mogelijk maakt. Daarnaast introduceren we onafhankelijke ruisperturbaties voor elke modaliteit en een ontkoppeld flow-matching-verlies. Dit ontwerp stelt het model in staat om de gezamenlijke distributie op een bidirectionele manier te leren, zonder dat een uniforme latente ruimte nodig is. Gebaseerd op de ontkoppeling van modaliteiten tijdens de training, introduceren we ook een gezamenlijke bemonsteringsmethode die schaling tijdens de testfase ondersteunt, waarbij actie- en visietokens asynchroon in verschillende tempo's evolueren. Door experimenten op gesimuleerde benchmarks zoals RoboCasa en GR-1 behaalt DUST tot 6% winst ten opzichte van baseline-methoden, terwijl onze testtijd-schalingsaanpak een extra boost van 2-5% biedt. Bij real-world taken met de Franka Research 3 verbetert DUST de slagingspercentages met 13%, wat de effectiviteit ervan buiten simulatie bevestigt. Bovendien levert vooraf trainen op actievrije video's van BridgeV2 aanzienlijke transferwinsten op bij RoboCasa, wat het potentieel van DUST voor grootschalige VLA-pretraining onderstreept.
Wij presenteren Denario, een AI multi-agent systeem dat is ontworpen om als wetenschappelijke onderzoeksassistent te fungeren. Denario kan veel verschillende taken uitvoeren, zoals het genereren van ideeën, literatuuronderzoek verrichten, onderzoeksplannen ontwikkelen, code schrijven en uitvoeren, grafieken maken en een wetenschappelijk artikel opstellen en beoordelen. Het systeem heeft een modulaire architectuur, waardoor het specifieke taken kan afhandelen, zoals het genereren van een idee, of end-to-end wetenschappelijke analyses kan uitvoeren met Cmbagent als deep-research backend. In dit werk beschrijven wij Denario en zijn modules gedetailleerd en illustreren we zijn mogelijkheden door meerdere AI-gegenereerde artikelen te presenteren die het heeft gegenereerd in uiteenlopende wetenschappelijke disciplines zoals astrofysica, biologie, biofysica, biomedische informatica, scheikunde, materiaalwetenschap, mathematische fysica, geneeskunde, neurowetenschappen en planetaire wetenschap. Denario blinkt ook uit in het combineren van ideeën uit verschillende disciplines, wat wij illustreren door een artikel te tonen dat methoden uit de kwantumfysica en machine learning toepast op astrofysische data. Wij rapporteren de evaluaties die door domeinexperts op deze artikelen zijn uitgevoerd, die zowel numerieke scores als review-achtige feedback hebben verstrekt. Vervolgens belichten wij de sterke punten, zwakke punten en beperkingen van het huidige systeem. Ten slotte bespreken wij de ethische implicaties van AI-gedreven onderzoek en reflecteren wij op hoe dergelijke technologie zich verhoudt tot de wetenschapsfilosofie. Wij geven de code vrij op https://github.com/AstroPilot-AI/Denario. Een demo van Denario kan ook rechtstreeks op het web worden uitgevoerd op https://huggingface.co/spaces/astropilot-ai/Denario, en de volledige applicatie zal in de cloud worden geïmplementeerd.
Wiskundig redeneren vormt een centrale uitdaging voor grote taalmodelen (LLM's), waarbij niet alleen correcte antwoorden maar ook betrouwbare redeneerprocessen vereist zijn. Reinforcement Learning met Verifieerbare Beloningen (RLVR) is naar voren gekomen als een veelbelovende aanpak om dergelijke capaciteiten te verbeteren; echter, het vermogen om echt redeneren te bevorderen blijft onduidelijk. Wij onderzoeken RLVR op twee combinatorische problemen met volledig verifieerbare oplossingen: Activiteitenplanning en de Langste Stijgende Deelrij, met behulp van zorgvuldig samengestelde datasets met unieke optima. Over meerdere beloningsontwerpen heen constateren we dat RLVR evaluatiemetrices verbetert, maar vaak door oppervlakkige heuristieken te versterken in plaats van nieuwe redeneerstrategieën aan te leren. Deze bevindingen benadrukken de grenzen van RLVR-generalizatie, en onderstrepen het belang van benchmarks die echt wiskundig redeneren ontwarren van het uitbuiten van shortcuts, en die betrouwbare maatstaven voor vooruitgang bieden. Code beschikbaar op https://github.com/xashru/rlvr-seq-generalization.
Vision-Language-Action-modellen (VLA's) vertegenwoordigen een belangrijke grens in de embodied intelligence, met als doel digitale kennis te verbinden met interactie in de fysieke wereld. Hoewel deze modellen opmerkelijke generalistische capaciteiten hebben getoond, wordt hun inzet ernstig belemmerd door de aanzienlijke computationele en datavereisten die inherent zijn aan hun onderliggende grootschalige foundation-modellen. Gemotiveerd door de dringende noodzaak om deze uitdagingen aan te pakken, presenteert dit overzicht de eerste uitgebreide evaluatie van Efficient Vision-Language-Action-modellen (Efficiënte VLA's) over het gehele data-model-trainingsproces. Specifiek introduceren we een uniforme taxonomie om de uiteenlopende inspanningen op dit domein systematisch te organiseren, waarbij we huidige technieken indelen in drie kernpijlers: (1) Efficiënt Modelontwerp, gericht op efficiënte architecturen en modelcompressie; (2) Efficiënte Training, die de computationele last tijdens het modelleren vermindert; en (3) Efficiënte Datacollectie, die de knelpunten bij het verkrijgen en gebruiken van robotdata aanpakt. Door een kritische beoordeling van state-of-the-art methoden binnen dit kader, stelt dit overzicht niet alleen een fundamentele referentie voor de gemeenschap vast, maar vat het ook representatieve toepassingen samen, schetst het belangrijke uitdagingen en zet het een routekaart uit voor toekomstig onderzoek. We houden een continu bijgewerkte projectpagina bij om onze laatste ontwikkelingen te volgen: https://evla-survey.github.io/
Grote taalmodellen (LLM's) zijn bezig het paradigma van aanbevelingssystemen te hervormen door gebruikers in staat te stellen voorkeuren uit te drukken en aanbevelingen te ontvangen via gesprekken. Het afstemmen van LLM's op de aanbevelingstaak blijft echter een uitdaging: vooraf getrainde LLM's genereren vaak items die niet in de catalogus voorkomen, schenden vereiste uitvoerformaten en hun rangschikkingskwaliteit gaat sterk achteruit aan het einde van de gegenereerde lijst. Daarom stellen wij ConvRec-R1 voor, een raamwerk met twee fasen voor end-to-end training van op LLM's gebaseerde conversationele aanbevelingssystemen. In Fase 1 construeren we een gedragskloon-dataset met een Remap-Reflect-Adjust pijplijn, die hoogwaardige, op de catalogus gebaseerde demonstraties produceert vanuit krachtige blackbox-LLM's om de RL-training te warmstarten. In Fase 2 stellen we Rank-GRPO voor, een principiële uitbreiding van group relative policy optimization (GRPO) die is toegesneden op taken met rangschikkingsstijl-uitvoer. Rank-GRPO behandelt elke rang in de aanbevelingslijst als eenheid in plaats van tokens (te fijnkorrelig) of sequenties (te grof), herdefinieert beloningen om niet-causale toekenning van verdiensten te verwijderen en introduceert een rangniveau-belangverhouding gebaseerd op het geometrisch gemiddelde van ranggewijze tokenkansen om beleidsupdates te stabiliseren. Experimenten op de publieke Reddit-v2 dataset tonen aan dat ConvRec-R1 sneller convergeert en een hogere Recall en NDCG bereikt dan GRPO-stijl-basislijnen. Code en datasets zijn vrijgegeven op https://github.com/yaochenzhu/Rank-GRPO.
Nauwkeurige gebouweninstancesegmentatie en hoogteclassificatie zijn cruciaal voor stedelijke planning, 3D-stadsmodellering en infrastructuurmonitoring. Dit artikel presenteert een gedetailleerde analyse van YOLOv11, de recente vooruitgang in de YOLO-reeks van deep learning-modellen, met de focus op de toepassing voor gecombineerde gebouwenextractie en discrete hoogteclassificatie vanuit satellietbeelden. YOLOv11 bouwt voort op de sterke punten van eerdere YOLO-modellen door de introductie van een efficiëntere architectuur die kenmerken op verschillende schalen beter combineert, de objectlocalisatienauwkeurigheid verbetert en de prestaties in complexe stedelijke omgevingen verhoogt. Met behulp van de DFC2023 Track 2-dataset – die meer dan 125.000 geannoteerde gebouwen verspreid over 12 steden omvat – evalueren we de prestaties van YOLOv11 met metrieken zoals precisie, recall, F1-score en gemiddelde precisie (mAP). Onze bevindingen tonen aan dat YOLOv11 sterke instancesegmentatieprestaties bereikt met 60,4% mAP@50 en 38,3% mAP@50–95, waarbij het tegelijkertijd robuuste classificatienauwkeurigheid handhaaft over vijf vooraf gedefinieerde hoogtecategorieën. Het model blinkt uit in het omgaan met occlusies, complexe gebouwvormen en klasse-onbalans, particularly voor zeldzame hoogbouwstructuren. Vergelijkende analyse bevestigt dat YOLOv11 eerdere multitask-frameworks overtreft in zowel detectienauwkeurigheid als inferentiesnelheid, waardoor het bijzonder geschikt is voor real-time, grootschalige stedelijke kartografie. Dit onderzoek belicht het potentieel van YOLOv11 om semantische stadsreconstructie te bevorderen door middel van gestroomlijnde categorische hoogtemodellering, en biedt praktische inzichten voor toekomstige ontwikkelingen in remote sensing en geospatiale intelligentie.
Gezondheidsgerelateerde desinformatie is zeer wijdverspreid en potentieel schadelijk. Het is moeilijk te identificeren, vooral wanneer beweringen wetenschappelijke bevindingen verdraaien of verkeerd interpreteren. Wij onderzoeken de impact van synthetische datageneratie en lichtgewicht fine-tuningtechnieken op het vermogen van grote taalmodellen (LLM's) om drogredenen te herkennen met behulp van de MISSCI-dataset en het bijbehorende raamwerk. In dit werk stellen we MisSynth voor, een pijplijn die retrieval-augmented generation (RAG) toepast om synthetische voorbeelden van drogredenen te produceren, die vervolgens worden gebruikt om een LLM-model te fine-tunen. Onze resultaten tonen substantiële nauwkeurigheidswinst met gefinetunede modellen in vergelijking met standaard baseline-modellen. Het gefinetunede LLaMA 3.1 8B-model behaalde bijvoorbeeld een absolute verbetering van meer dan 35% in de F1-score op de MISSCI-testsplitsing ten opzichte van zijn standaard baseline. Wij tonen aan dat de introductie van synthetische data over drogredenen om beperkte geannoteerde bronnen aan te vullen, de zero-shot classificatieprestatie van LLM's voor taken rond wetenschappelijke desinformatie in de echte wereld aanzienlijk kan verbeteren, zelfs met beperkte rekenresources. De code en de synthetische dataset zijn beschikbaar op https://github.com/mxpoliakov/MisSynth.
Tekst-naar-beeldmodellen (T2I) worden steeds vaker gebruikt voor het genereren van synthetische datasets, maar het genereren van effectieve synthetische trainingsgegevens voor classificatie blijft een uitdaging. Het fine-tunen van een T2I-model met enkele reële voorbeelden kan de kwaliteit van de synthetische trainingsgegevens verbeteren; dit kan echter ook leiden tot overfitting en een verminderde diversiteit in de gegenereerde samples. Wij stellen een fine-tuningstrategie voor, genaamd BOB (BeyondOBjects), om deze problemen te mitigeren voor fijnmazige classificatie. Gegeven een kleine set reële voorbeelden, extraheren we eerst klasse-agnostische attributen, zoals de achtergrond van de scène en de pose van het object. Vervolgens conditioneren we expliciet op deze attributen tijdens het fine-tunen van het T2I-model en marginaliseren we deze tijdens de generatie. Dit ontwerp vermindert overfitting, behoudt de generatieve prior van het T2I-model, verkleint schattingsfouten en minimaliseert onbedoelde associaties tussen klassen verder. Uitgebreide experimenten met meerdere T2I-modellen, backbones en datasets tonen aan dat onze methode state-of-the-art prestaties bereikt bij fijnmazige classificatie met weinig voorbeelden wanneer wordt aangevuld met synthetische data. Concreet presteert BOB 7,4% beter dan DataDream op de Aircraft-dataset (van 50,0% naar 57,4% bij het fine-tunen van een CLIP-classificatiemodel met vijf reële afbeeldingen aangevuld met 100 synthetische afbeeldingen). In drie van de vier benchmarks bereikt het fine-tunen van downstream-modellen met 5 reële afbeeldingen aangevuld met BOB betere prestaties dan fine-tunen met 10 reële afbeeldingen. In totaal presteert BOB beter dan eerdere state-of-the-art methoden in 18 van de 24 experimentele settings, met nauwkeurigheidsverbeteringen van 2+% in 14 van deze settings.
Kaartspellen worden veelvuldig gebruikt om sequentieel besluitvormingsgedrag onder onzekerheid te bestuderen, met realistische analogieën in onderhandelingen, financiën en cybersecurity. Deze spellen zijn doorgaans in drie categorieën in te delen op basis van de controleflow: strikt sequentieel (spelers wisselen af met individuele acties), deterministische respons (bepaalde acties leiden tot een vast resultaat) en onbegrensde wederkerige respons (afwisselende tegenzetten zijn toegestaan). Een minder onderzochte maar strategisch rijke structuur is de begrensde eenzijdige respons, waarbij een actie van een speler de controle tijdelijk overdraagt aan de tegenstander, die aan een vaste voorwaarde moet voldoen via één of meer zetten voordat de beurt wordt afgesloten. Wij noemen spellen met dit mechanisme Bounded One-Sided Response Games (BORGs). Wij introduceren een aangepaste versie van Monopoly Deal als een benchmarkomgeving die deze dynamiek isoleert, waarbij een Huur-actie de tegenstander dwingt tot het kiezen van betaalmiddelen. De gouden standaard-algoritme, Counterfactual Regret Minimization (CFR), convergeert naar effectieve strategieën zonder nieuwe algoritmische uitbreidingen. Een lichtgewicht full-stack onderzoeksplatform integreert de omgeving, een geparallelleerde CFR-runtime en een door mensen bespeelbare webinterface. De getrainde CFR-agent en broncode zijn beschikbaar op https://monopolydeal.ai.