Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Agentische zoeksystemen zoals Deep Research-systemen, waarbij grote taalmodellen autonoom het web doorzoeken, informatie synthetiseren en uitgebreide, met citaties onderbouwde antwoorden teruggeven, vertegenwoordigen een grote verschuiving in hoe gebruikers omgaan met informatie op webschaal. Hoewel ze een grotere efficiëntie en cognitieve ontlasting beloven, hebben de toenemende complexiteit en openheid van agentisch zoeken de bestaande evaluatiebenchmarks en -methodologieën overstegen, die grotendeels uitgaan van korte zoekhorizons en statische antwoorden. In dit artikel introduceren we Mind2Web 2, een benchmark van 130 realistische, hoogwaardige en langetermijntaken die realtime webbrowsing en uitgebreide informatiesynthese vereisen, opgebouwd met meer dan 1.000 uur menselijke arbeid. Om de uitdaging van het evalueren van tijdvariërende en complexe antwoorden aan te pakken, stellen we een nieuw Agent-as-a-Judge-framework voor. Onze methode construeert taakspecifieke beoordelaarsagenten op basis van een boomstructuurrubriekontwerp om zowel de correctheid van antwoorden als bronvermelding automatisch te beoordelen. We voeren een uitgebreide evaluatie uit van negen toonaangevende agentische zoeksystemen en menselijke prestaties, samen met een gedetailleerde foutenanalyse om inzichten te verkrijgen voor toekomstige ontwikkeling. Het best presterende systeem, OpenAI Deep Research, kan al 50-70% van de menselijke prestaties bereiken terwijl het de helft van de tijd besteedt, wat een groot potentieel laat zien. Samen biedt Mind2Web 2 een rigoureuze basis voor de ontwikkeling en benchmarking van de volgende generatie agentische zoeksystemen.
We ontwikkelen een kostenefficiënte neurosymbolische agent om uitdagende meerstaps beeldbewerkingstaken aan te pakken, zoals "Detecteer de bank in de afbeelding en kleur deze roze. Verwijder ook de kat voor een duidelijker beeld en kleur de muur geel." Deze agent combineert snelle, hoogwaardige subtakenplanning door grote taalmodellen (LLMs) met langzame, nauwkeurige toolgebruik en lokale A^* zoekacties per subtask om een kostenefficiënte toolpath te vinden – een reeks aanroepen van AI-tools. Om de kosten van A^* voor vergelijkbare subtaken te besparen, voeren we inductief redeneren uit op eerder succesvolle toolpaths via LLMs om continu veelgebruikte subroutines te extraheren/verfijnen en deze te hergebruiken als nieuwe tools voor toekomstige taken in een adaptieve snel-langzaam planning, waarbij eerst de hogere subroutines worden verkend, en alleen wanneer deze falen, wordt de laagniveau A^* zoekactie geactiveerd. De herbruikbare symbolische subroutines besparen aanzienlijk verkenningskosten voor dezelfde typen subtaken die worden toegepast op vergelijkbare afbeeldingen, wat resulteert in een mensachtige snel-langzaam toolpath agent "FaSTA^*": snelle subtakenplanning gevolgd door regelgebaseerde subroutineselectie per subtask wordt eerst geprobeerd door LLMs, wat naar verwachting de meeste taken zal dekken, terwijl langzame A^* zoekacties alleen worden geactiveerd voor nieuwe en uitdagende subtaken. Door vergelijking met recente beeldbewerkingstechnieken, tonen we aan dat FaSTA^* aanzienlijk computationeel efficiënter is, terwijl het competitief blijft met de state-of-the-art baseline in termen van slagingspercentage.
We presenteren WorldVLA, een autoregressief actiewereldmodel dat actie- en beeldbegrip en -generatie verenigt. Onze WorldVLA integreert het Vision-Language-Action (VLA)-model en het wereldmodel in één enkel raamwerk. Het wereldmodel voorspelt toekomstige beelden door zowel actie- als beeldbegrip te benutten, met als doel de onderliggende fysica van de omgeving te leren om de actiegeneratie te verbeteren. Tegelijkertijd genereert het actiemodel de daaropvolgende acties op basis van beeldobservaties, wat helpt bij visueel begrip en op zijn beurt de visuele generatie van het wereldmodel ondersteunt. We tonen aan dat WorldVLA losstaande actie- en wereldmodellen overtreft, wat de wederzijdse versterking tussen het wereldmodel en het actiemodel benadrukt. Daarnaast constateren we dat de prestaties van het actiemodel verslechteren bij het genereren van reeksen acties op een autoregressieve manier. Dit fenomeen kan worden toegeschreven aan het beperkte generalisatievermogen van het model voor actievoorspelling, wat leidt tot de doorvoering van fouten van eerdere acties naar latere. Om dit probleem aan te pakken, stellen we een aandachtmaskerstrategie voor die selectief eerdere acties maskeert tijdens de generatie van de huidige actie, wat een aanzienlijke prestatieverbetering laat zien in de taak van actiechunkgeneratie.
Recente vooruitgang in scène-reconstructie heeft geleid tot zeer realistische modellering van autonome rij-omgevingen (AD) met behulp van 3D Gaussian splatting. De resulterende reconstructies blijven echter sterk verbonden aan de oorspronkelijke observaties en hebben moeite met het ondersteunen van fotorealistische synthese van aanzienlijk gewijzigde of nieuwe rijscenario's. Dit werk introduceert MADrive, een geheugen-augmented reconstructieframework dat is ontworpen om de mogelijkheden van bestaande scène-reconstructiemethoden uit te breiden door waargenomen voertuigen te vervangen door visueel vergelijkbare 3D-assets die worden opgehaald uit een grootschalige externe geheugenbank. Specifiek presenteren we MAD-Cars, een gecureerde dataset van {sim}70K 360{\deg} auto-video's die in het wild zijn vastgelegd, en introduceren we een retrievemodule die de meest vergelijkbare auto-instanties in de geheugenbank vindt, de bijbehorende 3D-assets uit video reconstrueert en ze integreert in de doelscène door middel van oriëntatie-uitlijning en herbelichting. De resulterende vervangingen bieden complete multi-view representaties van voertuigen in de scène, waardoor fotorealistische synthese van aanzienlijk gewijzigde configuraties mogelijk wordt, zoals aangetoond in onze experimenten. Projectpagina: https://yandex-research.github.io/madrive/
Grokking, d.w.z. dat de testprestaties blijven verbeteren lang nadat de trainingsverlies is geconvergeerd, is recentelijk waargenomen bij het trainen van neurale netwerken, wat het mechanisme van generalisatie en andere opkomende capaciteiten zoals redeneren mysterieus maakt. Terwijl eerdere studies meestal kleine modellen trainen op een paar speelse of zeer specifieke taken voor duizenden epochs, voeren wij de eerste studie uit van grokking op checkpoints tijdens een eenmalige pretraining van een groot taalmodel (LLM) van 7B, namelijk OLMoE. We berekenen het trainingsverlies en evalueren de generalisatie op diverse benchmarktaken, waaronder wiskundig redeneren, codegeneratie en taken voor het ophalen van algemene kennis en domeinspecifieke kennis. Onze studie bevestigt voor het eerst dat grokking nog steeds plaatsvindt tijdens de pretraining van grootschalige foundationmodellen, hoewel verschillende gegevens asynchroon de grokkingfasen kunnen ingaan. We ontrafelen verder het "opkomen van generalisatie" van grokking door de interne dynamiek van LLM's te onderzoeken. Specifiek vinden we dat de paden van trainingsvoorbeelden (d.w.z. expertkeuzes over lagen heen) evolueren van willekeurig, voorbeeld-specifiek naar meer gestructureerd en deelbaar tussen voorbeelden tijdens grokking. Ook neemt de complexiteit van het pad van een voorbeeld af ondanks het geconvergeerde verlies. Dit wijst op een conversie van memorisatie naar generalisatie, wat een mechanistische verklaring biedt voor vertraagde generalisatie. In de studie ontwikkelen we twee nieuwe metrieken om de padafstand en de complexiteit van een enkel pad te kwantificeren. We tonen hun vermogen aan om de verbetering van generalisatie op diverse downstreamtaken te voorspellen. Ze zijn efficiënt, eenvoudig te berekenen en uitsluitend afhankelijk van trainingsgegevens. Daarom hebben ze praktische waarde voor pretraining, waardoor we de generalisatieprestaties kunnen monitoren zonder finetuning en testen. Theoretisch tonen we aan dat meer gestructureerde paden de modelcomplexiteit verminderen en de generalisatiegrens verbeteren.
Conditionele berekening is een populaire strategie om Transformers efficiënter te maken. Bestaande methoden richten zich vaak op individuele modules (bijvoorbeeld mixture-of-experts lagen) of slaan lagen onafhankelijk van elkaar over. Interpretatieonderzoek heeft echter aangetoond dat de middelste lagen van Transformers meer redundantie vertonen en dat vroege lagen informatie aggregeren in tokenposities. Geleid door deze inzichten stellen we een nieuwe architectuur voor die dynamisch een variabel aantal lagen van het midden naar buiten overslaat. In het bijzonder bepaalt een geleerd gatingmechanisme of een symmetrisch blok van centrale lagen moet worden overgeslagen op basis van de invoer, en een gated attentionmechanisme voorkomt dat volgende tokens aandacht besteden aan overgeslagen tokenposities. Residunormen worden beheerst met een 'sandwich'- of 'perilayernorm'-schema en gatesparsity met een adaptief regularisatieverlies. We hadden als doel de rekenvereisten voor 'eenvoudigere' tokens te verminderen en mogelijk een opkomende multi-level representatiehiërarchie te bevorderen, maar op de onderzochte schalen bereikt onze aanpak geen verbeteringen in de afweging tussen validatie-kruisentropie en geschatte FLOPs vergeleken met dichte baselines met minder lagen. We hebben onze code vrijgegeven op https://github.com/tim-lawson/skip-middle.
We presenteren SAM4D, een multi-modale en temporele foundation model ontworpen voor promptbare segmentatie over camera- en LiDAR-streams. Unified Multi-modal Positional Encoding (UMPE) wordt geïntroduceerd om camera- en LiDAR-features uit te lijnen in een gedeelde 3D-ruimte, wat naadloze cross-modale prompting en interactie mogelijk maakt. Daarnaast stellen we Motion-aware Cross-modal Memory Attention (MCMA) voor, dat gebruikmaakt van ego-motion compensatie om temporele consistentie en lange-termijn feature retrieval te verbeteren, wat robuuste segmentatie garandeert in dynamisch veranderende autonome rijscènes. Om annotatieknelpunten te vermijden, ontwikkelen we een multi-modale geautomatiseerde data-engine die VFM-gestuurde video masklets, spatiotemporele 4D-reconstructie en cross-modale masklet-fusie combineert. Dit framework genereert camera-LiDAR-uitgelijnde pseudo-labels met een snelheid die ordes van grootte sneller is dan menselijke annotatie, terwijl de semantische trouw afgeleid van VFM behouden blijft in point cloud representaties. We voeren uitgebreide experimenten uit op het geconstrueerde Waymo-4DSeg, die de krachtige cross-modale segmentatiecapaciteit en het grote potentieel in data-annotatie van het voorgestelde SAM4D aantonen.
We trainen modellen om Ego-centrische Video's te voorspellen op basis van menselijke acties (PEVA), gegeven de vorige video en een actie die wordt weergegeven door de relatieve 3D lichaamshouding. Door te conditioneren op kinematische houdingstrajecten, gestructureerd door de hiërarchie van lichaamsgewrichten, leert ons model te simuleren hoe fysieke menselijke acties de omgeving vormen vanuit een first-person perspectief. We trainen een auto-regressieve conditionele diffusie-transformer op Nymeria, een grootschalige dataset van real-world egocentrische video's en lichaamshoudingcaptures. Daarnaast ontwerpen we een hiërarchisch evaluatieprotocol met steeds uitdagendere taken, wat een uitgebreide analyse mogelijk maakt van de voorspellings- en controlecapaciteiten van het model in een belichaamde context. Ons werk vertegenwoordigt een eerste poging om de uitdagingen aan te pakken van het modelleren van complexe real-world omgevingen en belichaamde agentgedragingen met videovoorspelling vanuit het perspectief van een mens.
Skinning en rigging zijn fundamentele componenten in animatie, gereconstrueerde gearticuleerde objecten, motieoverdracht en 4D-generatie. Bestaande benaderingen vertrouwen voornamelijk op Linear Blend Skinning (LBS), vanwege de eenvoud en differentieerbaarheid ervan. LBS introduceert echter artefacten zoals volumeverlies en onnatuurlijke vervormingen, en het slaagt er niet in om elastische materialen zoals zachte weefsels, vacht en flexibele aanhangsels (bijv. olifantenslurpen, oren en vetweefsel) te modelleren. In dit werk stellen we PhysRig voor: een differentieerbaar, op fysica gebaseerd skinning- en rigging-framework dat deze beperkingen overwint door het rigide skelet in te bedden in een volumetrische representatie (bijv. een tetrahedraal mesh), die wordt gesimuleerd als een vervormbare soft-body structuur aangedreven door het geanimeerde skelet. Onze methode maakt gebruik van continuümmechanica en discretiseert het object als deeltjes ingebed in een Euleriaans achtergrondraster om differentieerbaarheid ten opzichte van zowel materiaaleigenschappen als skeletbeweging te garanderen. Daarnaast introduceren we materiaalprototypes, waardoor de leerruimte aanzienlijk wordt verkleind terwijl een hoge expressiviteit behouden blijft. Om ons framework te evalueren, construeren we een uitgebreide synthetische dataset met behulp van meshes uit Objaverse, The Amazing Animals Zoo en MixaMo, die diverse objectcategorieën en bewegingspatronen omvat. Onze methode presteert consistent beter dan traditionele LBS-gebaseerde benaderingen en genereert realistischer en fysisch plausibelere resultaten. Bovendien demonstreren we de toepasbaarheid van ons framework in de pose-overdrachtstaak, wat de veelzijdigheid ervan voor het modelleren van gearticuleerde objecten benadrukt.
Met de snelle opkomst van grote taalmodellen (LLM's) – elk geoptimaliseerd voor verschillende sterktes, stijlen of latentie/kostenprofielen – is routering een essentiële techniek geworden om het gebruik van verschillende modellen operationeel te maken. Bestaande LLM-routeringsbenaderingen hebben echter twee belangrijke beperkingen: ze evalueren prestaties met behulp van benchmarks die vaak geen rekening houden met menselijke voorkeuren die worden gestuurd door subjectieve evaluatiecriteria, en ze selecteren meestal uit een beperkte pool van modellen. In dit werk stellen we een voorkeursafgestemd routeringsraamwerk voor dat modelselectie begeleidt door queries te matchen met door de gebruiker gedefinieerde domeinen (bijv. reizen) of actietypen (bijv. beeldbewerking) – wat een praktisch mechanisme biedt om voorkeuren in routeringsbeslissingen te coderen. Specifiek introduceren we Arch-Router, een compact 1,5B-model dat leert om queries toe te wijzen aan domein-actievoorkeuren voor routeringsbeslissingen. Onze aanpak ondersteunt ook het naadloos toevoegen van nieuwe modellen voor routering zonder hertraining of architectuurwijzigingen te vereisen. Experimenten op conversatiedatasets tonen aan dat onze aanpak state-of-the-art (SOTA) resultaten behaalt in het matchen van queries met menselijke voorkeuren, en daarbij toonaangevende propriëtaire modellen overtreft. Onze aanpak vangt subjectieve evaluatiecriteria en maakt routeringsbeslissingen transparanter en flexibeler. Ons model is beschikbaar op: https://huggingface.co/katanemo/Arch-Router-1.5B.
We stellen FairyGen voor, een automatisch systeem voor het genereren van verhaalgedreven tekenfilmvideo's vanuit een enkele tekening van een kind, waarbij het unieke artistieke stijl trouw behouden blijft. In tegenstelling tot eerdere methoden voor verhalenvertelling die zich vooral richten op karakterconsistentie en basisbeweging, ontrafelt FairyGen expliciet karaktermodellering van gestileerde achtergrondgeneratie en integreert het cinematografische shotontwerp om expressief en samenhangend verhalenvertellen te ondersteunen. Gegeven een enkele karakterschets, gebruiken we eerst een MLLM om een gestructureerd storyboard te genereren met shotniveau-beschrijvingen die omgevingsinstellingen, karakteracties en cameraperspectieven specificeren. Om visuele consistentie te waarborgen, introduceren we een stijlpropagatie-adapter die de visuele stijl van het karakter vastlegt en toepast op de achtergrond, waardoor de volledige visuele identiteit van het karakter trouw behouden blijft terwijl stijlconsistente scènes worden gesynthetiseerd. Een shotontwerpmodule verbetert verder de visuele diversiteit en cinematografische kwaliteit door frame-cropping en multi-view-synthese op basis van het storyboard. Om het verhaal te animeren, reconstrueren we een 3D-proxy van het karakter om fysiek plausibele bewegingsreeksen af te leiden, die vervolgens worden gebruikt om een MMDiT-gebaseerd beeld-naar-video-diffusiemodel te finetunen. We stellen verder een tweefasen-bewegingscustomisatie-adapter voor: de eerste fase leert uiterlijkkenmerken van temporeel ongeordende frames, waarbij identiteit van beweging wordt ontrafeld; de tweede fase modelleert temporele dynamiek met behulp van een timestep-shift-strategie met bevroren identiteitsgewichten. Eenmaal getraind, rendert FairyGen direct diverse en samenhangende videoscènes die zijn afgestemd op het storyboard. Uitgebreide experimenten tonen aan dat ons systeem animaties produceert die stilistisch trouw zijn, narratief gestructureerd met natuurlijke beweging, wat het potentieel voor gepersonaliseerde en boeiende verhalenanimatie benadrukt. De code zal beschikbaar zijn op https://github.com/GVCLab/FairyGen.
Zeldzame ziekten treffen wereldwijd gezamenlijk meer dan 300 miljoen individuen, maar tijdige en accurate diagnose blijft een wijdverbreide uitdaging. Dit komt grotendeels door hun klinische heterogeniteit, lage individuele prevalentie en de beperkte bekendheid die de meeste clinici hebben met zeldzame aandoeningen. Hier introduceren we DeepRare, het eerste zeldzame ziekte-diagnose agentsysteem aangedreven door een groot taalmodel (LLM), dat in staat is om heterogene klinische invoer te verwerken. Het systeem genereert gerangschikte diagnostische hypothesen voor zeldzame ziekten, elk vergezeld van een transparante redeneerketen die tussenliggende analytische stappen koppelt aan verifieerbaar medisch bewijs. DeepRare bestaat uit drie belangrijke componenten: een centrale host met een langetermijngeheugenmodule; gespecialiseerde agentservers die verantwoordelijk zijn voor domeinspecifieke analytische taken, waarbij meer dan 40 gespecialiseerde tools en web-schaal, up-to-date medische kennisbronnen worden geïntegreerd, waardoor toegang tot de meest actuele klinische informatie wordt gegarandeerd. Dit modulaire en schaalbare ontwerp maakt complexe diagnostische redenering mogelijk terwijl traceerbaarheid en aanpasbaarheid behouden blijven. We evalueren DeepRare op acht datasets. Het systeem toont uitzonderlijke diagnostische prestaties onder 2.919 ziekten, met een nauwkeurigheid van 100% voor 1013 ziekten. In HPO-gebaseerde evaluaties presteert DeepRare aanzienlijk beter dan 15 andere methoden, zoals traditionele bioinformatica-diagnosetools, LLM's en andere agentsystemen, met een gemiddelde Recall@1-score van 57,18% en overtreft het de op een na beste methode (Reasoning LLM) met een aanzienlijke marge van 23,79 procentpunten. Voor multi-modale invoerscenario's behaalt DeepRare 70,60% bij Recall@1 vergeleken met Exomiser's 53,20% in 109 gevallen. Handmatige verificatie van redeneerketens door klinische experts bereikt 95,40% overeenstemming. Bovendien is het DeepRare-systeem geïmplementeerd als een gebruiksvriendelijke webapplicatie http://raredx.cn/doctor.
We beschrijven Generative Blocks World om te interageren met de scène van een gegenereerde afbeelding door het manipuleren van eenvoudige geometrische abstracties. Onze methode representeert scènes als assemblages van convexe 3D-primitieven, en dezelfde scène kan worden weergegeven door verschillende aantallen primitieven, waardoor een editor hele structuren of kleine details kan verplaatsen. Zodra de scènegeometrie is bewerkt, wordt de afbeelding gegenereerd door een op stroming gebaseerde methode die is geconditioneerd op diepte en een textuuraanwijzing. Onze textuuraanwijzing houdt rekening met de gewijzigde 3D-primitieven en overtreft de textuurconsistentie die wordt geboden door bestaande key-value caching-technieken. Deze textuuraanwijzingen (a) maken nauwkeurige object- en camerabewegingen mogelijk en (b) behouden grotendeels de identiteit van de afgebeelde objecten. Kwantitatieve en kwalitatieve experimenten tonen aan dat onze aanpak eerdere werken overtreft in visuele geloofwaardigheid, bewerkbaarheid en compositionele generalisatie.
De gedistribueerde training van foundation models, met name grote taalmodellen (LLMs), vereist een hoog niveau van communicatie. Hierdoor is het sterk afhankelijk van een gecentraliseerd cluster met snelle en betrouwbare interconnecties. Kunnen we training uitvoeren op langzame netwerken en daarmee de kracht van gedecentraliseerde clusters benutten bij het omgaan met modellen die meer dan 100 miljard parameters bevatten? In dit artikel introduceren we DiLoCoX, een low-communication, grootschalig gedecentraliseerd clustertrainingsframework. Het combineert Pipeline Parallelism met een Dual Optimizer Policy, One-Step-Delay Overlap van communicatie en lokale training, en een Adaptief Gradient Compressie Schema. Deze combinatie verbetert aanzienlijk de schaal van parameters en de snelheid van modelpre-training. We rechtvaardigen de voordelen van de one-step-delay overlap van communicatie en lokale training, evenals het adaptieve gradient compressie schema, door middel van een theoretische convergentieanalyse. Empirisch tonen we aan dat DiLoCoX in staat is om een 107B foundation model te pre-trainen over een 1Gbps netwerk. Vergeleken met vanilla AllReduce kan DiLoCoX een 357x versnelling bereiken in gedistribueerde training, terwijl de degradatie in modelconvergentie verwaarloosbaar blijft. Voor zover wij weten, is dit het eerste gedecentraliseerde trainingsframework dat met succes is toegepast op modellen met meer dan 100 miljard parameters.
In dit artikel introduceren we DuaShepherd, een nieuw raamwerk voor beloningsmodellering dat twee complementaire beloningssignalen integreert, namelijk correctheid en potentieel, om de wiskundige redeneervaardigheden van Large Language Models (LLM's) te verbeteren. Terwijl correctheidsgebaseerde signalen de nadruk leggen op het identificeren van stapsgewijze fouten, richten potentieelgebaseerde signalen zich op de waarschijnlijkheid om het juiste eindantwoord te bereiken. We hebben een geautomatiseerde pijplijn ontwikkeld voor het construeren van een grootschalige dataset voor beloningsmodellering met beide signalen. Een geünificeerde, multi-head architectuur werd onderzocht om de twee beloningsmodellen te trainen in een multi-task opzet, waarbij voordelen werden aangetoond van het parallel leren van zowel correctheid als potentieel. Door deze twee signalen te combineren in een samengestelde waarschijnlijkheid, behaalt ons model consistente prestatieverbeteringen op meerdere benchmarks. Empirische evaluaties op MATH500 en ProcessBench bevestigen dat deze gecombineerde beloning aanzienlijk beter presteert dan modellen die alleen op één beloningstype zijn getraind, en bereikt state-of-the-art prestaties onder vergelijkbare resourcebeperkingen.
Wij stellen MuseControlLite voor, een lichtgewicht mechanisme ontworpen om tekst-naar-muziekgeneratiemodellen te finetunen voor precieze conditionering met behulp van diverse tijdsvariërende muzikale attributen en referentie-audiosignalen. De belangrijkste bevinding is dat positionele embeddings, die zelden worden gebruikt door tekst-naar-muziekgeneratiemodellen in de conditioner voor tekstcondities, cruciaal zijn wanneer de conditie van belang een functie van tijd is. Met melodiecontrole als voorbeeld tonen onze experimenten aan dat het simpelweg toevoegen van roterende positionele embeddings aan de ontkoppelde cross-attentielagen de controle-nauwkeurigheid verhoogt van 56,6% naar 61,1%, terwijl 6,75 keer minder trainbare parameters nodig zijn dan state-of-the-art finetuning-mechanismen, gebruikmakend van hetzelfde vooraf getrainde diffusie-Transformer-model van Stable Audio Open. We evalueren diverse vormen van muzikaal attribuutcontrole, audio-inpainting en audio-outpainting, en demonstreren verbeterde bestuurbaarheid ten opzichte van MusicGen-Large en Stable Audio Open ControlNet tegen aanzienlijk lagere finetuningkosten, met slechts 85M trainbare parameters. Broncode, modelcheckpoints en demo-voorbeelden zijn beschikbaar op: https://musecontrollite.github.io/web/.
Heuristische algoritmen spelen een cruciale rol bij het oplossen van combinatorische optimalisatieproblemen (CO), maar traditionele ontwerpen zijn sterk afhankelijk van handmatige expertise en hebben moeite om te generaliseren over diverse instanties. Wij introduceren HeurAgenix, een tweefasen hyper-heuristisch raamwerk aangedreven door grote taalmodellen (LLM's) dat eerst heuristieken ontwikkelt en vervolgens automatisch daartussen selecteert. In de heuristische evolutiefase benut HeurAgenix een LLM om seed-heuristische oplossingen te vergelijken met oplossingen van hogere kwaliteit en herbruikbare evolutiestrategieën te extraheren. Tijdens het oplossen van problemen kiest het dynamisch de meest veelbelovende heuristiek voor elke probleemtoestand, geleid door het waarnemingsvermogen van het LLM. Voor flexibiliteit kan deze selector een state-of-the-art LLM zijn of een fijn afgestemd lichtgewicht model met lagere inferentiekosten. Om het gebrek aan betrouwbare supervisie veroorzaakt door de complexiteit van CO te verminderen, stellen we de lichtgewicht heuristische selector af met een dubbele beloningsmechanisme dat gezamenlijk gebruikmaakt van signalen uit selectievoorkeuren en toestandswaarneming, waardoor robuuste selectie mogelijk wordt onder ruisachtige annotaties. Uitgebreide experimenten op canonieke benchmarks tonen aan dat HeurAgenix niet alleen bestaande LLM-gebaseerde hyper-heuristieken overtreft, maar ook gespecialiseerde oplossers evenaart of overstijgt. Code is beschikbaar op https://github.com/microsoft/HeurAgenix.