Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Meerstaps retrieval-augmented generation (RAG) is een veelgebruikte strategie geworden om grote taalmodellen (LLM's) te verbeteren bij taken die globaal begrip en intensief redeneren vereisen. Veel RAG-systemen bevatten een werkgeheugenmodule om opgehaalde informatie te consolideren. Bestaande geheugenontwerpen functioneren echter voornamelijk als passieve opslag die geïsoleerde feiten accumuleert met als doel lange invoer te condenseren en nieuwe subvragen af te leiden via deductie. Deze statische aard ziet de cruciale hogere-orde correlaties tussen primitieve feiten over het hoofd, waarvan de composities vaak sterkere richtlijnen voor vervolgstappen kunnen bieden. Hierdoor zijn hun representatiekracht en impact op meerstapsredenering en kennisevolutie beperkt, wat leidt tot gefragmenteerd redeneren en een zwak globaal betekenisgevend vermogen in uitgebreide contexten. Wij introduceren HGMem, een op hypergrafen gebaseerd geheugenmechanisme dat het geheugenconcept uitbreidt van eenvoudige opslag naar een dynamische, expressieve structuur voor complex redeneren en globaal begrip. In onze aanpak wordt geheugen gerepresenteerd als een hypergraaf waarvan de hyperkanten overeenkomen met afzonderlijke geheugeneenheden, waardoor de progressieve vorming van hogere-orde interacties binnen het geheugen mogelijk wordt. Dit mechanisme verbindt feiten en gedachten rond het centrale probleem, en evolueert naar een geïntegreerde en gesitueerde kennisstructuur die sterke proposities biedt voor dieper redeneren in latere stappen. Wij evalueren HGMem op verschillende uitdagende datasets die zijn ontworpen voor globaal betekenisgeven. Uitgebreide experimenten en diepgaande analyses tonen aan dat onze methode meerstaps RAG consistent verbetert en sterk presteert ten opzichte van krachtige baseline-systemen bij uiteenlopende taken.
Grote Taalmodellen (LLM's) passen uniforme berekening toe op alle tokens, ondanks dat taal een zeer niet-uniforme informatiedichtheid vertoont. Dit token-uniforme regime verspilt capaciteit aan lokaal voorspelbare segmenten, terwijl het te weinig rekenkracht toewijst aan semantisch kritieke overgangen. Wij stellen Dynamische Grote Conceptmodellen (DLCM) voor, een hiërarchisch taalmodelraamwerk dat semantische grenzen leert uit latente representaties en rekenkracht verplaatst van tokens naar een gecomprimeerde conceptruimte waar redeneren efficiënter is. DLCM ontdekt variabele-lengte concepten end-to-end zonder te vertrouwen op vooraf gedefinieerde linguïstische eenheden. Hiërarchische compressie verandert het schaalgedrag fundamenteel. Wij introduceren de eerste compressiebewuste schaalwet, die token-level capaciteit, concept-level redeneercapaciteit en compressieratio ontwart, waardoor principeakelijke compute-toewijzing onder vaste FLOP's mogelijk wordt. Om deze heterogene architectuur stabiel te trainen, ontwikkelen we verder een ontkoppelde μP-parametrisering die zero-shot hyperparametertransfer over breedtes en compressieregimes ondersteunt. Bij een praktische instelling (R=4, overeenkomend met een gemiddelde van vier tokens per concept) herverdeelt DLCM ongeveer een derde van de inferentie-rekenkracht naar een backbone met hogere redeneercapaciteit, wat een gemiddelde verbetering van +2,69% oplevert over 12 zero-shot benchmarks onder gelijke inferentie-FLOP's.
Hoewel recente Multimodale Large Language Models (MLLM's) aanzienlijke vooruitgang hebben geboekt in multimodale redeneervaardigheden, blijft hun denkproces overwegend tekstgecentreerd. Dit leidt tot suboptimale prestaties bij complexe, langetermijn- en visiegecentreerde taken. In dit artikel introduceren we een nieuw paradigma voor Generatief Multimodaal Redeneren en presenteren we DiffThinker, een op diffusie gebaseerd denkkader. Conceptueel herformuleert DiffThinker multimodaal redeneren als een native generatieve beeld-naar-beeld taak, wat superieure logische consistentie en ruimtelijke precisie oplevert in visiegecentreerde taken. We voeren een systematische vergelijking uit tussen DiffThinker en MLLM's, waarbij we het eerste diepgaande onderzoek presenteren naar de intrinsieke eigenschappen van dit paradigma. Dit onthult vier kerneigenschappen: efficiëntie, beheersbaarheid, native parallelliteit en samenwerkingsvermogen. Uitgebreide experimenten in vier domeinen (sequentiële planning, combinatorische optimalisatie, constraint satisfaction en ruimtelijke configuratie) tonen aan dat DiffThinker aanzienlijk beter presteert dan toonaangevende closed-source modellen, waaronder GPT-5 (+314.2%) en Gemini-3-Flash (+111.6%), evenals de gefinetunede Qwen3-VL-32B-basislijn (+39.0%). Dit benadrukt generatief multimodaal redeneren als een veelbelovende aanpak voor visiegecentreerd redeneren.
Diffusiemodellen bieden aantrekkelijke eigenschappen voor taalgeneratie, zoals parallelle decodering en iteratieve verfijning, maar de discrete en sterk gestructureerde aard van tekst vormt een uitdaging voor de directe toepassing van diffusieprincipes. In dit artikel herbezien we diffusie-taalmodelering vanuit het perspectief van het diffusieproces en taalmodelering, en schetsen we vijf eigenschappen die de mechanica van diffusie scheiden van taalspecifieke vereisten. We categoriseren eerst bestaande benaderingen in continue diffusie in de embeddedingsruimte en discrete diffusie over tokens. Vervolgens tonen we aan dat elk slechts een deel van de vijf essentiële eigenschappen vervult en dus een structurele afweging weerspiegelt. Door analyses van recente grootschalige diffusie-taalmodellen identificeren we twee centrale problemen: (i) uniforme corruptie houdt geen rekening met hoe informatie over posities is verdeeld, en (ii) training op marginale token-distributies kan afhankelijkheden tussen meerdere tokens niet vastleggen tijdens parallelle decodering. Deze observaties motiveren diffusieprocessen die beter aansluiten bij de structuur van tekst, en moedigen toekomstig onderzoek aan naar coherentere diffusie-taalmodellen.
In dit werk tonen we aan dat de impact van modelcapaciteit varieert tussen tijdstappen: deze is cruciaal in de vroege en late fasen, maar grotendeels verwaarloosbaar tijdens de tussenliggende fase. Dienovereenkomstig stellen we FlowBlending voor, een fasebewuste multi-model samplingstrategie die respectievelijk een groot model en een klein model inzet tijdens capaciteitsgevoelige fasen en tussenliggende fasen. We introduceren verder eenvoudige criteria om fasegrenzen te kiezen en bieden een velocity-divergentie-analyse als een effectieve proxy voor het identificeren van capaciteitsgevoelige regio's. Op LTX-Video (2B/13B) en WAN 2.1 (1.3B/14B) bereikt FlowBlending tot 1,65x snellere inferentie met 57,35% minder FLOPs, waarbij de visuele kwaliteit, temporele coherentie en semantische uitlijning van de grote modellen behouden blijven. FlowBlending is ook compatibel met bestaande samplingversnellings-technieken, wat een extra versnelling tot 2x mogelijk maakt. De projectpagina is beschikbaar op: https://jibin86.github.io/flowblending_project_page.
Generatief videomodelleren is naar voren gekomen als een overtuigend hulpmiddel om zero-shot te redeneren over plausibele fysieke interacties voor manipulatie in een open wereld. Desalniettemin blijft het een uitdaging om dergelijke door mensen geleide bewegingen om te zetten in de laag-niveau acties die door robotsystemen worden vereist. Wij observeren dat, gegeven een initiële afbeelding en een taakinstructie, deze modellen uitblinken in het synthetiseren van zinvolle objectbewegingen. Daarom introduceren wij Dream2Flow, een raamwerk dat videogeneratie en robotbesturing verbindt via 3D-objectstroom als een tussenvoorstelling. Onze methode reconstrueert 3D-objectbewegingen uit gegenereerde video's en formuleert manipulatie als het volgen van objecttrajecten. Door de toestandsveranderingen te scheiden van de actuatoren die deze veranderingen realiseren, overbrugt Dream2Flow de embodimentkloof en maakt het zero-shot-sturing mogelijk door vooraf getrainde videomodellen om objecten van uiteenlopende categorieën te manipuleren - inclusief rigide, gearticuleerde, vervormbare en granulaire objecten. Via trajectoptimalisatie of reinforcement learning zet Dream2Flow gereconstrueerde 3D-objectstroom om in uitvoerbare laag-niveau commando's zonder taakspecifieke demonstraties. Simulatie- en experimenten in de echte wereld benadrukken 3D-objectstroom als een algemeen en schaalbaar interface voor het aanpassen van videogeneratiemodellen voor robotmanipulatie in een open wereld. Video's en visualisaties zijn beschikbaar op https://dream2flow.github.io/.
Simulatie-optimalisatie (SO) wordt vaak belemmerd door ruis in evaluaties, hoge rekentijden en complexe, multimodale zoeklandschappen. Dit artikel introduceert Tabu-Enhanced Simulation Optimization (TESO), een nieuw metaheuristisch raamwerk dat adaptieve zoekstrategieën integreert met geheugen-gebaseerde technieken. TESO benut een kortetermijn Tabu Lijst om cycli te voorkomen en diversificatie te stimuleren, en een langetermijn Elite Geheugen om intensivering te sturen door hoogwaardige oplossingen te verstoren. Een aspiratiecriterie maakt het mogelijk tabubeperkingen te omzeilen voor uitzonderlijke kandidaten. Deze combinatie bevordert een dynamisch evenwicht tussen exploratie en exploitatie in stochastische omgevingen. We demonstreren de effectiviteit en betrouwbaarheid van TESO aan de hand van een wachtrijoptimalisatieprobleem, waarbij verbeterde prestaties ten opzichte van referentiemethoden worden aangetoond en de bijdrage van de geheugencomponenten wordt gevalideerd. Broncode en data zijn beschikbaar op: https://github.com/bulentsoykan/TESO.