Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Recente vooruitgang in grote taalmodellen (LLMs) en multi-agent systemen heeft opmerkelijke capaciteiten aangetoond in complexe probleemoplossende taken zoals diepgaand onderzoek, vibe coding en wiskundig redeneren. De meeste bestaande multi-agent systemen zijn echter gebouwd op handmatige prompt-/workflow-engineering met geavanceerde agentframeworks, waardoor ze rekenkundig inefficiënt, minder capabel zijn en niet kunnen profiteren van data-gedreven leren. In dit werk introduceren we Chain-of-Agents (CoA), een nieuw paradigma van LLM-redenering dat native end-to-end complexe probleemoplossing mogelijk maakt op dezelfde manier als een multi-agent systeem (d.w.z. multi-turn probleemoplossing met meerdere tools en meerdere agents) binnen één model. Bij chain-of-agents probleemoplossing activeert het model dynamisch verschillende tool agents en rollenspelende agents om multi-agent samenwerking op een end-to-end manier te simuleren. Om end-to-end chain-of-agents probleemoplossende vaardigheden in LLMs te stimuleren, introduceren we een multi-agent distillatie framework om state-of-the-art multi-agent systemen te distilleren in chain-of-agents trajecten voor agentische supervised fine-tuning. Vervolgens gebruiken we agentische reinforcement learning op verifieerbare agentische taken om de capaciteiten van de modellen verder te verbeteren op het gebied van chain-of-agents probleemoplossing. We noemen de resulterende modellen Agent Foundation Models (AFMs). Onze empirische studies tonen aan dat AFM nieuwe state-of-the-art prestaties vestigt op diverse benchmarks in zowel web agent- als code agent-instellingen. We maken het volledige onderzoek, inclusief de modelgewichten, code voor training en evaluatie, en de trainingsdata, volledig open source, wat een solide startpunt biedt voor toekomstig onderzoek naar agentmodellen en agentische RL.
LongSplat behandelt cruciale uitdagingen in het synthetiseren van nieuwe aanzichten (NVS) vanuit casual opgenomen lange video's die gekenmerkt worden door onregelmatige camerabewegingen, onbekende cameraposities en uitgestrekte scènes. Bestaande methoden kampen vaak met positiedrift, onnauwkeurige geometrie-initialisatie en ernstige geheugenbeperkingen. Om deze problemen aan te pakken, introduceren we LongSplat, een robuust 3D Gaussian Splatting-framework zonder vooraf bepaalde posities, dat de volgende kenmerken heeft: (1) Incrementele Gezamenlijke Optimalisatie die gelijktijdig cameraposities en 3D Gaussians optimaliseert om lokale minima te vermijden en globale consistentie te waarborgen; (2) een robuuste Positieschatting Module die gebruikmaakt van geleerde 3D-priors; en (3) een efficiënt Octree Anchor Formation-mechanisme dat dichte puntenwolken omzet in ankers op basis van ruimtelijke dichtheid. Uitgebreide experimenten op uitdagende benchmarks tonen aan dat LongSplat state-of-the-art resultaten behaalt, met aanzienlijke verbeteringen in renderkwaliteit, positienauwkeurigheid en rekenkundige efficiëntie in vergelijking met eerdere benaderingen. Projectpagina: https://linjohnss.github.io/longsplat/
Grote Taalmodellen (LLMs) vereisen geavanceerde prompting, maar huidige praktijken kampen met uitdagingen op het gebied van structuur, gegevensintegratie, gevoeligheid voor opmaak en tooling. Bestaande methoden bieden geen uitgebreide oplossingen voor het organiseren van complexe prompts die diverse gegevenstypen (documenten, tabellen, afbeeldingen) omvatten of het systematisch beheren van presentatievariaties. Om deze lacunes aan te pakken, introduceren we POML (Prompt Orchestration Markup Language). POML maakt gebruik van componentgebaseerde markup voor logische structuur (rollen, taken, voorbeelden), gespecialiseerde tags voor naadloze gegevensintegratie, en een CSS-achtig opmaaksysteem om inhoud te ontkoppelen van presentatie, waardoor de gevoeligheid voor opmaak wordt verminderd. Het omvat templating voor dynamische prompts en een uitgebreide ontwikkelaarstoolkit (IDE-ondersteuning, SDK's) om versiebeheer en samenwerking te verbeteren. We valideren POML via twee casestudies die de impact ervan aantonen op complexe applicatie-integratie (PomLink) en nauwkeurigheidsprestaties (TableQA), evenals een gebruikersstudie die de effectiviteit ervan beoordeelt in real-world ontwikkelingsscenario's.
Visuele ontwerpers putten van nature inspiratie uit meerdere visuele referenties, waarbij ze diverse elementen en esthetische principes combineren om kunstwerken te creëren. Huidige frameworks voor beeldgeneratie zijn echter voornamelijk afhankelijk van inputs uit één bron – ofwel tekstprompts of individuele referentiebeelden. In dit artikel richten we ons op de taak van controleerbare beeldgeneratie met behulp van meerdere visuele referenties. We introduceren MultiRef-bench, een rigoureus evaluatieframework bestaande uit 990 synthetische en 1.000 real-world samples die het incorporeren van visuele inhoud uit meerdere referentiebeelden vereisen. De synthetische samples zijn gegenereerd via onze data-engine RefBlend, met 10 referentietypen en 33 referentiecombinaties. Op basis van RefBlend construeren we verder een dataset MultiRef met 38k hoogwaardige beelden om verder onderzoek te faciliteren. Onze experimenten met drie interleaved beeld-tekstmodellen (d.w.z. OmniGen, ACE en Show-o) en zes agentische frameworks (bijv. ChatDiT en LLM + SD) laten zien dat zelfs state-of-the-art systemen moeite hebben met multi-referentieconditionering, waarbij het beste model OmniGen slechts 66,6% in synthetische samples en 79,0% in real-world gevallen gemiddeld behaalt in vergelijking met het gouden antwoord. Deze bevindingen bieden waardevolle richtingen voor het ontwikkelen van flexibelere en menselijkere creatieve tools die effectief meerdere bronnen van visuele inspiratie kunnen integreren. De dataset is publiek beschikbaar op: https://multiref.github.io/.
AI-agenten met geavanceerde redeneer- en hulpmiddelgebruikcapaciteiten hebben indrukwekkende prestaties geleverd bij het browsen op het web voor diepgaande zoekopdrachten. Hoewel bestaande benchmarks zoals BrowseComp deze browsevaardigheden evalueren, richten ze zich voornamelijk op tekstuele informatie en negeren ze de prevalentie van multimodale content. Om deze kloof te overbruggen, introduceren we MM-BrowseComp, een nieuwe benchmark bestaande uit 224 uitdagende, handgemaakte vragen die specifiek zijn ontworpen om de multimodale retrieval- en redeneercapaciteiten van agenten te beoordelen. Deze vragen bevatten vaak afbeeldingen in de prompts, en cruciale informatie die tijdens het zoek- en redeneerproces wordt tegengekomen, kan ook zijn ingebed in afbeeldingen of video's op webpagina's. Als gevolg hiervan blijken methoden die uitsluitend op tekst vertrouwen onvoldoende voor onze benchmark. Daarnaast bieden we een geverifieerde checklist voor elke vraag, waardoor een gedetailleerde analyse van multimodale afhankelijkheden en redeneerpaden mogelijk wordt. Onze uitgebreide evaluatie van state-of-the-art modellen op MM-BrowseComp toont aan dat zelfs topmodellen zoals OpenAI o3 met hulpmiddelen slechts een nauwkeurigheid van 29,02% behalen, wat de suboptimale multimodale capaciteiten en het gebrek aan native multimodaal redeneren in huidige modellen benadrukt.
Generalizatie in embodied AI wordt belemmerd door de "seeing-to-doing gap" (kloof tussen waarnemen en handelen), die voortkomt uit dataschaarste en heterogeniteit van embodiment. Om dit aan te pakken, introduceren wij "pointing" (aanwijzen) als een uniforme, embodiment-onafhankelijke tussenrepresentatie, waarbij we vier kernvaardigheden voor embodied pointing definiëren die hoogwaardige visueel-taalkundige begrip verbinden met laagniveau actieprimitieven. We presenteren Embodied-R1, een 3B Vision-Language Model (VLM) dat specifiek is ontworpen voor embodied redeneren en pointing. We gebruiken een breed scala aan embodied en algemene visuele redeneerdatasets als bronnen om een grootschalige dataset, Embodied-Points-200K, te construeren, die essentiële embodied pointing-vaardigheden ondersteunt. Vervolgens trainen we Embodied-R1 met een tweefasen Reinforced Fine-tuning (RFT) curriculum, uitgerust met een gespecialiseerd multi-task beloningsontwerp. Embodied-R1 behaalt state-of-the-art prestaties op 11 embodied ruimtelijke en pointing benchmarks. Cruciaal is dat het robuuste zero-shot generalisatie demonstreert door een slagingspercentage van 56,2% te behalen in SIMPLEREnv en 87,5% over 8 real-world XArm-taken zonder enige taakspecifieke fine-tuning, wat een verbetering van 62% vertegenwoordigt ten opzichte van sterke baselines. Bovendien toont het model een hoge robuustheid tegen diverse visuele verstoringen. Ons werk laat zien dat een pointing-gerichte representatie, gecombineerd met een RFT-trainingsparadigma, een effectieve en generaliseerbare route biedt om de perceptie-actie kloof in robotica te overbruggen.
Tekstgestuurde kleurbewerking in afbeeldingen en video's is een fundamenteel maar nog onopgelost probleem, dat een fijnmazige manipulatie van kleurattributen vereist, waaronder albedo, lichtbronkleur en omgevingsverlichting, terwijl fysieke consistentie in geometrie, materiaaleigenschappen en licht-materie-interacties behouden blijft. Bestaande trainingsvrije methoden bieden brede toepasbaarheid voor verschillende bewerkingstaken, maar hebben moeite met precieze kleurcontrole en introduceren vaak visuele inconsistentie in zowel bewerkte als niet-bewerkte gebieden. In dit werk presenteren we ColorCtrl, een trainingsvrije kleurbewerkingmethode die gebruikmaakt van de aandachtmechanismen van moderne Multi-Modale Diffusion Transformers (MM-DiT). Door structuur en kleur te ontwarren via gerichte manipulatie van aandachtkaarten en waardetokens, maakt onze methode nauwkeurige en consistente kleurbewerking mogelijk, samen met woordniveau-controle van attribuutintensiteit. Onze methode wijzigt alleen de beoogde gebieden die door de prompt worden gespecificeerd, en laat niet-gerelateerde gebieden ongemoeid. Uitgebreide experimenten op zowel SD3 als FLUX.1-dev tonen aan dat ColorCtrl bestaande trainingsvrije benaderingen overtreft en state-of-the-art prestaties bereikt in zowel bewerkingskwaliteit als consistentie. Bovendien overtreft onze methode sterke commerciële modellen zoals FLUX.1 Kontext Max en GPT-4o Image Generation wat betreft consistentie. Wanneer uitgebreid naar videomodellen zoals CogVideoX, vertoont onze aanpak grotere voordelen, met name in het behoud van temporele coherentie en bewerkingsstabiliteit. Ten slotte generaliseert onze methode ook naar instructiegebaseerde bewerkingsdiffusiemodellen zoals Step1X-Edit en FLUX.1 Kontext dev, wat verder haar veelzijdigheid aantoont.
Virtual Try-On (VTON) is een praktische en veelgebruikte taak, waarbij de meeste bestaande werken zich richten op kleding. Dit artikel presenteert OmniTry, een uniform raamwerk dat VTON uitbreidt voorbij kleding om elk draagbaar object te omvatten, zoals sieraden en accessoires, met een maskervrije instelling voor een meer praktische toepassing. Bij het uitbreiden naar verschillende soorten objecten is het samenstellen van gegevens uitdagend voor het verkrijgen van gepaarde afbeeldingen, d.w.z. de afbeelding van het object en het bijbehorende try-on resultaat. Om dit probleem aan te pakken, stellen we een tweestaps pijplijn voor: In de eerste fase maken we gebruik van grootschalige ongepaarde afbeeldingen, d.w.z. portretten met elk draagbaar item, om het model te trainen voor maskervrije lokalisatie. Specifiek hergebruiken we het inpainting-model om automatisch objecten op geschikte posities te tekenen gegeven een leeg masker. In de tweede fase wordt het model verder verfijnd met gepaarde afbeeldingen om de consistentie van het uiterlijk van het object over te dragen. We hebben waargenomen dat het model na de eerste fase snelle convergentie vertoont, zelfs met weinig gepaarde voorbeelden. OmniTry wordt geëvalueerd op een uitgebreide benchmark bestaande uit 12 veelvoorkomende klassen van draagbare objecten, met zowel in-shop als in-the-wild afbeeldingen. Experimentele resultaten suggereren dat OmniTry betere prestaties vertoont op zowel objectlokalisatie als ID-behoud in vergelijking met bestaande methoden. De code, modelgewichten en evaluatiebenchmark van OmniTry zullen openbaar beschikbaar worden gesteld op https://omnitry.github.io/.
Het evalueren van gepersonaliseerde aanbevelingen blijft een centrale uitdaging, vooral in langdurige audio domeinen zoals podcasts, waar traditionele offline metrieken lijden onder exposure bias en online methoden zoals A/B-testen kostbaar en operationeel beperkt zijn. In dit artikel stellen we een nieuw framework voor dat gebruikmaakt van Large Language Models (LLMs) als offline beoordelaars om de kwaliteit van podcastaanbevelingen op een schaalbare en interpreteerbare manier te beoordelen. Onze tweefasen profielbewuste aanpak construeert eerst natuurlijke-taal gebruikersprofielen die zijn gedestilleerd uit 90 dagen luistergeschiedenis. Deze profielen vatten zowel thematische interesses als gedragspatronen samen en dienen als compacte, interpreteerbare representaties van gebruikersvoorkeuren. In plaats van de LLM te voorzien van ruwe data, gebruiken we deze profielen om hoogwaardige, semantisch rijke context te bieden, waardoor de LLM effectiever kan redeneren over de afstemming tussen de interesses van een gebruiker en aanbevolen afleveringen. Dit vermindert de invoercomplexiteit en verbetert de interpreteerbaarheid. De LLM wordt vervolgens gevraagd om fijnmazige punt- en paarsgewijze beoordelingen te leveren op basis van de profiel-aflevering match. In een gecontroleerde studie met 47 deelnemers kwam onze profielbewuste beoordelaar met hoge nauwkeurigheid overeen met menselijke beoordelingen en presteerde beter of even goed als een variant die ruwe luistergeschiedenissen gebruikte. Het framework maakt efficiënte, profielbewuste evaluatie mogelijk voor iteratieve tests en modelselectie in aanbevelingssystemen.
Het vakgebied van spraakscheiding, dat het "cocktailpartyprobleem" aanpakt, heeft revolutionaire vooruitgang geboekt met DNN's (Deep Neural Networks). Spraakscheiding verbetert de helderheid in complexe akoestische omgevingen en fungeert als cruciale voorbewerking voor spraakherkenning en sprekerherkenning. De huidige literatuur richt zich echter nauw op specifieke architecturen of geïsoleerde benaderingen, wat leidt tot een gefragmenteerd begrip. Deze overzichtsstudie vult deze leemte door een systematisch onderzoek te bieden naar DNN-gebaseerde spraakscheidingsmethoden. Ons werk onderscheidt zich door: (I) Een uitgebreid perspectief: We onderzoeken systematisch leerparadigma's, scheidingsscenario's met bekende/onbekende sprekers, een vergelijkende analyse van supervised/self-supervised/unsupervised frameworks, en architectuurcomponenten van encoders tot schattingsstrategieën. (II) Actualiteit: De dekking van de nieuwste ontwikkelingen zorgt voor toegang tot actuele innovaties en benchmarks. (III) Unieke inzichten: Naast samenvatting evalueren we technologische trajecten, identificeren we opkomende patronen en belichten we veelbelovende richtingen, waaronder domeinrobuuste frameworks, efficiënte architecturen, multimodale integratie en nieuwe self-supervised paradigma's. (IV) Eerlijke evaluatie: We bieden kwantitatieve evaluaties op standaarddatasets, waardoor de werkelijke mogelijkheden en beperkingen van verschillende methoden worden onthuld. Deze uitgebreide overzichtsstudie dient als een toegankelijk referentiewerk voor ervaren onderzoekers en nieuwkomers die de complexe wereld van spraakscheiding verkennen.
Dit onderzoek bestudeert het gebruik van Large Language Models (LLMs) voor het voorspellen van door mensen waargenomen ellende-scores op basis van natuurlijke taal beschrijvingen van realistische scenario's. De taak wordt geformuleerd als een regressieprobleem, waarbij het model een scalaire waarde tussen 0 en 100 toekent aan elke invoeruitspraak. We evalueren meerdere promptingstrategieën, waaronder zero-shot, fixed-context few-shot en retrieval-based prompting met behulp van BERT-zinsembeddings. Few-shot benaderingen presteren consistent beter dan zero-shot baseline-methoden, wat het belang van contextuele voorbeelden in affectieve voorspelling onderstreept. Om verder te gaan dan statische evaluatie, introduceren we de "Misery Game Show", een nieuw gegamificeerd raamwerk geïnspireerd op een televisieformaat. Het test LLMs via gestructureerde rondes die ordinale vergelijking, binaire classificatie, scalaire schatting en feedback-gestuurd redeneren omvatten. Deze opzet stelt ons in staat om niet alleen de voorspellingsnauwkeurigheid te beoordelen, maar ook het vermogen van het model om zich aan te passen op basis van corrigerende feedback. De gegamificeerde evaluatie benadrukt het bredere potentieel van LLMs in dynamische emotionele redeneertaken die verder gaan dan standaard regressie. Code en data link: https://github.com/abhi1nandy2/Misery_Data_Exps_GitHub
Hoewel grote taalmodellen (LLMs) opmerkelijke prestaties hebben laten zien bij diverse taken, ontbreekt het hen fundamenteel aan zelfbewustzijn en vertonen ze vaak overmoedigheid door hoge betrouwbaarheidsscores toe te kennen aan incorrecte voorspellingen. Nauwkeurige betrouwbaarheidsschatting is daarom cruciaal om de betrouwbaarheid en betrouwbaarheid van door LLM gegenereerde uitvoer te verbeteren. Bestaande benaderingen lijden echter onder grofkorrelige scoringsmechanismen die geen fijnmazige, continue betrouwbaarheidsschattingen bieden gedurende het generatieproces. Om deze beperkingen aan te pakken, introduceren we FineCE, een nieuwe methode voor betrouwbaarheidsschatting die nauwkeurige, fijnmazige betrouwbaarheidsscores levert tijdens tekstgeneratie. Specifiek ontwikkelen we eerst een uitgebreide pijplijn voor het construeren van trainingsdata die effectief de onderliggende probabilistische verdeling van LLM-reacties vastlegt, en trainen we vervolgens een model om betrouwbaarheidsscores voor willekeurige tekstsequenties op een begeleide manier te voorspellen. Bovendien stellen we een Backward Confidence Integration (BCI)-strategie voor die informatie uit de daaropvolgende tekst benut om de betrouwbaarheidsschatting voor de huidige sequentie tijdens inferentie te verbeteren. We introduceren ook drie strategieën voor het identificeren van optimale posities om betrouwbaarheidsschatting uit te voeren binnen het generatieproces. Uitgebreide experimenten op meerdere benchmarkdatasets tonen aan dat FineCE consequent beter presteert dan bestaande klassieke methoden voor betrouwbaarheidsschatting. Onze code en alle referentiemethoden die in het artikel worden gebruikt, zijn beschikbaar op GitHub.
Recente vooruitgang in zelfverfijning heeft aanzienlijk potentieel getoond voor het verbeteren van de uitvoer van grote taalmmodellen (LLM's) door middel van iteratieve verfijning. De meeste bestaande methoden voor zelfverfijning zijn echter gebaseerd op een reactief proces met een vast aantal iteraties, waardoor het moeilijk is om het optimale moment en de inhoud van de verfijning te bepalen op basis van de zich ontwikkelende generatiecontext. Geïnspireerd door de manier waarop mensen hun gedachten dynamisch verfijnen tijdens uitvoering, stellen we ProActive Self-Refinement (PASR) voor, een nieuwe methode die LLM's in staat stelt hun uitvoer te verfijnen tijdens het generatieproces. In tegenstelling tot methoden die volledige reacties opnieuw genereren, beslist PASR proactief of, wanneer en hoe te verfijnen op basis van de interne staat van het model en de zich ontwikkelende context. We voeren uitgebreide experimenten uit op een diverse set van 10 taken om de effectiviteit van PASR te evalueren. Experimentele resultaten tonen aan dat PASR de probleemoplossende prestaties aanzienlijk verbetert. In het bijzonder reduceert PASR op Qwen3-8B het gemiddelde tokenverbruik met 41,6 procent vergeleken met standaardgeneratie, terwijl het ook een verbetering van 8,2 procent in nauwkeurigheid bereikt. Onze code en alle referentiemodellen die in het artikel worden gebruikt, zijn beschikbaar op GitHub.
Recente flow matching-modellen voor tekst-naar-beeldgeneratie hebben opmerkelijke kwaliteit bereikt, maar hun integratie met reinforcement learning voor afstemming op menselijke voorkeuren blijft suboptimaal, wat fijnmazige beloningsgebaseerde optimalisatie belemmert. Wij observeren dat de belangrijkste belemmering voor effectieve GRPO-training van flow-modellen de aanname van temporele uniformiteit in bestaande benaderingen is: schaarse terminale beloningen met uniforme krediettoewijzing slagen er niet in om de variërende kritiek van beslissingen over generatietijdstappen vast te leggen, wat resulteert in inefficiënte exploratie en suboptimale convergentie. Om dit tekort te verhelpen, introduceren we TempFlow-GRPO (Temporal Flow GRPO), een principieel GRPO-raamwerk dat de temporele structuur inherent aan flow-gebaseerde generatie vastlegt en benut. TempFlow-GRPO introduceert twee belangrijke innovaties: (i) een trajectvertakkingsmechanisme dat procesbeloningen biedt door stochastiek te concentreren op aangewezen vertakkingspunten, waardoor precieze krediettoewijzing mogelijk wordt zonder gespecialiseerde tussenliggende beloningsmodellen; en (ii) een ruisbewuste weegschema dat beleidsoptimalisatie moduleert volgens het intrinsieke exploratiepotentieel van elk tijdstap, waarbij leren wordt geprioriteerd tijdens impactvolle vroege fasen terwijl stabiele verfijning in latere fasen wordt gegarandeerd. Deze innovaties voorzien het model van temporeel bewuste optimalisatie die de onderliggende generatieve dynamiek respecteert, wat leidt tot state-of-the-art prestaties in afstemming op menselijke voorkeuren en standaard tekst-naar-beeldbenchmarks.
Auditief begrip - inclusief spraak, niet-spraakgeluiden en muziek - is essentieel voor het bereiken van menselijk niveau van intelligentie. Bijgevolg moeten AI-agenten holistisch auditief begrip demonstreren om te kwalificeren als algemeen intelligent. Het blijft echter een uitdaging om auditieve intelligentie uitgebreid te evalueren. Om deze kloof te overbruggen, introduceren we MMAU-Pro, de meest uitgebreide en rigoureus samengestelde benchmark voor het beoordelen van auditieve intelligentie in AI-systemen. MMAU-Pro bevat 5.305 instanties, waarbij elke instantie een of meer audiofragmenten bevat die zijn gekoppeld aan vraag-antwoordparen gegenereerd door menselijke experts, die spraak, geluid, muziek en hun combinaties omvatten. In tegenstelling tot bestaande benchmarks evalueert MMAU-Pro auditieve intelligentie over 49 unieke vaardigheden en meerdere complexe dimensies, waaronder langdurig auditief begrip, ruimtelijk audio-redeneren en multi-audio begrip, onder andere. Alle vragen zijn zorgvuldig ontworpen om bewuste multi-hop redenering te vereisen, inclusief zowel meerkeuze- als open-eind antwoordformaten. Belangrijk is dat de audiodata rechtstreeks "uit het wild" wordt gehaald in plaats van uit bestaande datasets met bekende distributies. We evalueren 22 toonaangevende open-source en propriëtaire multimodale AI-modellen, wat significante beperkingen aan het licht brengt: zelfs state-of-the-art modellen zoals Gemini 2.5 Flash en Audio Flamingo 3 behalen slechts respectievelijk 59,2% en 51,7% nauwkeurigheid, wat in meerdere categorieën bijna willekeurige prestaties benadert. Onze uitgebreide analyse belicht specifieke tekortkomingen en biedt nieuwe inzichten, waardoor actiegerichte perspectieven worden geboden voor de gemeenschap om de voortgang van toekomstige AI-systemen naar algemene auditieve intelligentie te verbeteren. De benchmark en code zijn beschikbaar op https://sonalkum.github.io/mmau-pro.
Multi-agent reinforcement learning (MARL) is een krachtig paradigma voor het oplossen van coöperatieve en competitieve besluitvormingsproblemen. Hoewel er veel MARL-benchmarks zijn voorgesteld, combineren slechts weinig continue toestands- en actieruimtes met uitdagende coördinatie- en planningsopgaven. Wij introduceren CAMAR, een nieuwe MARL-benchmark die expliciet is ontworpen voor multi-agent pathfinding in omgevingen met continue acties. CAMAR ondersteunt zowel coöperatieve als competitieve interacties tussen agents en draait efficiënt met tot wel 100.000 omgevingsstappen per seconde. We stellen ook een drielaags evaluatieprotocol voor om de algoritmische voortgang beter te volgen en een diepere analyse van prestaties mogelijk te maken. Daarnaast maakt CAMAR de integratie van klassieke planningsmethoden zoals RRT en RRT* in MARL-pipelines mogelijk. We gebruiken deze als standalone baselines en combineren RRT* met populaire MARL-algoritmen om hybride benaderingen te creëren. We bieden een reeks testscenario's en benchmarkingtools om reproduceerbaarheid en eerlijke vergelijking te garanderen. Experimenten tonen aan dat CAMAR een uitdagend en realistisch testbed vormt voor de MARL-gemeenschap.
Dit technisch rapport beschrijft een nieuwe aanpak voor het combineren van redeneren en retrieval-augmented generation (RAG) binnen een enkele, efficiënte taalmodelarchitectuur. Terwijl bestaande RAG-systemen doorgaans afhankelijk zijn van grootschalige modellen en externe API's, richt ons werk zich op de groeiende vraag naar performante en privacy-beschermende oplossingen die inzetbaar zijn in omgevingen met beperkte middelen of beveiligde omgevingen. Voortbouwend op recente ontwikkelingen in test-time scaling en kleinschalige redeneermodellen, ontwikkelen we een retrieval-augmented conversationele agent die complexe, domeinspecifieke queries kan interpreteren met behulp van een lichtgewicht basismodel. Ons systeem integreert een dense retriever met fijn afgestemde Qwen2.5-Instruct modellen, waarbij gebruik wordt gemaakt van synthetische querygeneratie en redeneersporen afgeleid van frontier modellen (bijvoorbeeld DeepSeek-R1) over een gecureerde corpus, in dit geval de NHS A-to-Z conditiepagina's. We onderzoeken de impact van samenvattingsgebaseerde documentcompressie, synthetische data-ontwerp en redeneringsbewuste fijnafstemming op de modelprestaties. Evaluatie tegen zowel niet-redenerende als algemene efficiënte modellen toont aan dat onze domeinspecifieke fijnafstemming aanpak aanzienlijke verbeteringen oplevert in antwoordnauwkeurigheid en consistentie, waarbij frontier-level prestaties worden benaderd terwijl het haalbaar blijft voor lokale implementatie. Alle implementatiedetails en code worden openbaar vrijgegeven om reproduceerbaarheid en aanpassing over verschillende domeinen te ondersteunen.
Bestaande videorecommendatiesystemen vertrouwen voornamelijk op door gebruikers gedefinieerde metadata of op laagniveau visuele en akoestische signalen die door gespecialiseerde encoders worden geëxtraheerd. Deze laagniveau kenmerken beschrijven wat er op het scherm te zien is, maar missen diepere semantiek zoals intentie, humor en wereldkennis die clips betekenisvol maken voor kijkers. Is een clip van 30 seconden bijvoorbeeld simpelweg een zanger op een dak, of een ironische parodie gefilmd tussen de feeënschoorstenen van Cappadocië, Turkije? Dergelijke onderscheiden zijn cruciaal voor gepersonaliseerde aanbevelingen, maar blijven onzichtbaar voor traditionele encoderingspijplijnen. In dit artikel introduceren we een eenvoudig, aanbevelingssysteem-agnostisch zero-finetuning raamwerk dat hoogwaardige semantiek injecteert in de aanbevelingspijplijn door een kant-en-klare Multimodale Grote Taal Model (MLLM) te vragen om elke clip samen te vatten in een rijke natuurlijke taal beschrijving (bijv. "een superheldenparodie met slapstick gevechten en orkestrale steken"), waardoor de kloof tussen ruwe inhoud en gebruikersintentie wordt overbrugd. We gebruiken MLLM-output met een state-of-the-art tekstencoder en voeren deze in standaard collaboratieve, inhoudsgebaseerde en generatieve aanbevelingssystemen. Op de MicroLens-100K dataset, die gebruikersinteracties met TikTok-stijl video's nabootst, overtreft ons raamwerk consequent conventionele video-, audio- en metadata-kenmerken in vijf representatieve modellen. Onze bevindingen benadrukken de belofte van het benutten van MLLM's als on-the-fly kennis extractors om meer intentiebewuste videorecommendatiesystemen te bouwen.
Grote taalmodellen (LLMs) vertonen opmerkelijke probleemoplossende vermogens, maar worstelen met complexe taken vanwege statische interne kennis. Retrieval-Augmented Generation (RAG) verbetert de toegang tot externe informatie, maar blijft beperkt in multi-hop redenering en strategisch zoeken vanwege rigide workflows. Recente vooruitgang in agent-gebaseerd diep onderzoek stelt LLMs in staat om autonoom te redeneren, te zoeken en informatie te synthetiseren. Huidige benaderingen die vertrouwen op uitkomst-gebaseerde reinforcement learning (RL) kampen echter met kritieke problemen zoals conflicterende gradienten en schaarse beloningen, wat de prestatieverbeteringen en trainings efficiëntie beperkt. Om deze problemen aan te pakken, stellen we eerst Atomic Thought voor, een nieuw LLM-denkkader dat redenering opsplitst in fijnmazige functionele eenheden. Deze eenheden worden begeleid door Reasoning Reward Models (RRMs), die Atomic Thought Rewards (ATR) bieden voor fijnmazige begeleiding. Hierop voortbouwend stellen we Atom-Searcher voor, een nieuw RL-raamwerk voor agent-gebaseerd diep onderzoek dat Atomic Thought en ATR integreert. Atom-Searcher gebruikt een curriculum-geïnspireerd beloningsschema, waarbij procesniveau ATR vroeg wordt geprioriteerd en overgaat naar uitkomstbeloningen, wat de convergentie naar effectieve redeneerpaden versnelt. Experimenten op zeven benchmarks laten consistente verbeteringen zien ten opzichte van de state-of-the-art. Belangrijke voordelen zijn: (1) Atom-Searcher schaalt de rekenkracht tijdens testen. (2) Atomic Thought biedt begeleidingsankers voor RRMs, waardoor diep onderzoekstaken en RRMs worden verbonden. (3) Atom-Searcher vertoont meer interpreteerbare, mensachtige redeneerpatronen.
Auteursrechtbescherming voor grote taalmodellen is van cruciaal belang, gezien de aanzienlijke ontwikkelingskosten, de eigendomsrechten en het potentieel voor misbruik. Bestaande overzichten hebben zich voornamelijk gericht op technieken voor het traceren van door LLM gegenereerde inhoud, namelijk tekstwatermerken, terwijl een systematische verkenning van methoden voor het beschermen van de modellen zelf (d.w.z. modelwatermerken en modelvingerafdrukken) ontbreekt. Bovendien zijn de relaties en verschillen tussen tekstwatermerken, modelwatermerken en modelvingerafdrukken nog niet uitgebreid verduidelijkt. Dit werk presenteert een uitgebreid overzicht van de huidige stand van zaken op het gebied van auteursrechtbeschermingstechnologieën voor LLM, met een focus op modelvingerafdrukken, en behandelt de volgende aspecten: (1) het verhelderen van het conceptuele verband van tekstwatermerken naar modelwatermerken en vingerafdrukken, en het hanteren van een uniforme terminologie die modelwatermerken opneemt in het bredere vingerafdrukkenkader; (2) het bieden van een overzicht en vergelijking van diverse tekstwatermerktechnieken, waarbij gevallen worden belicht waarin dergelijke methoden kunnen functioneren als modelvingerafdrukken; (3) het systematisch categoriseren en vergelijken van bestaande modelvingerafdrukbenaderingen voor LLM-auteursrechtbescherming; (4) het voor het eerst presenteren van technieken voor vingerafdrukoverdracht en vingerafdrukverwijdering; (5) het samenvatten van evaluatiemetrics voor modelvingerafdrukken, waaronder effectiviteit, onschadelijkheid, robuustheid, onopvallendheid en betrouwbaarheid; en (6) het bespreken van openstaande uitdagingen en toekomstige onderzoeksrichtingen. Dit overzicht beoogt onderzoekers een grondig inzicht te bieden in zowel tekstwatermerken als modelvingerafdruktechnologieën in het tijdperk van LLM, en zo verdere vooruitgang te bevorderen in het beschermen van hun intellectuele eigendom.
Dit werk onderzoekt de uitdaging van het overzetten van animaties tussen karakters wiens skeletale topologieën aanzienlijk verschillen. Hoewel veel technieken in decennia tijd het retargeten hebben verbeterd, blijft het overzetten van bewegingen tussen diverse topologieën minder onderzocht. Het belangrijkste obstakel ligt in de inherente topologische inconsistentie tussen bron- en doelskeletten, wat de vaststelling van rechtstreekse één-op-één botcorrespondenties beperkt. Daarnaast beperkt het huidige gebrek aan grootschalige gepaarde bewegingsdatasets die verschillende topologische structuren omvatten, de ontwikkeling van data-gedreven benaderingen ernstig. Om deze beperkingen aan te pakken, introduceren we Motion2Motion, een nieuw, trainingsvrij raamwerk. Eenvoudig maar effectief werkt Motion2Motion met slechts één of enkele voorbeeldbewegingen op het doelskelet, door toegang te krijgen tot een beperkte set botcorrespondenties tussen de bron- en doelskeletten. Door uitgebreide kwalitatieve en kwantitatieve evaluaties tonen we aan dat Motion2Motion efficiënte en betrouwbare prestaties bereikt in zowel gelijksoortige-skelet- als kruis-soortenskelet-overzetscenario's. De praktische bruikbaarheid van onze aanpak wordt verder onderstreept door de succesvolle integratie in downstream toepassingen en gebruikersinterfaces, wat het potentieel voor industriële toepassingen benadrukt. Code en data zijn beschikbaar op https://lhchen.top/Motion2Motion.
Generatieve modellen aangedreven door Large Language Models (LLMs) komen naar voren als een geïntegreerde oplossing voor zowel aanbevelings- als zoektaken. Een belangrijk ontwerpkeuze in deze modellen is hoe items worden gerepresenteerd, traditioneel via unieke identificatoren (ID's) en recenter met Semantische ID's bestaande uit discrete codes, verkregen uit embeddings. Hoewel taakspecifieke embeddingmodellen de prestaties voor individuele taken kunnen verbeteren, generaliseren ze mogelijk niet goed in een gezamenlijke setting. In dit artikel onderzoeken we hoe Semantische ID's kunnen worden geconstrueerd die goed presteren in zowel zoek- als aanbevelingstaken bij gebruik van een geïntegreerd model. We vergelijken een reeks strategieën om Semantische ID's te construeren, waarbij we kijken naar taakspecifieke en kruistakenbenaderingen, en ook of elke taak zijn eigen semantische ID-tokens zou moeten hebben in een gezamenlijk zoek- en aanbevelingsgeneratief model. Onze resultaten laten zien dat het gebruik van een bi-encodermodel dat is afgestemd op zowel zoek- als aanbevelingstaken om item-embeddings te verkrijgen, gevolgd door de constructie van een geïntegreerde Semantische ID-ruimte, een effectieve balans biedt die sterke prestaties in beide taken mogelijk maakt. We hopen dat deze bevindingen vervolgonderzoek stimuleren naar generaliseerbare, semantisch onderbouwde ID-schema's en de volgende golf van geïntegreerde generatieve aanbevelingsarchitecturen informeren.
Hoe begrijpen grote taalmodellen morele dimensies in vergelijking met mensen? Deze eerste grootschalige Bayesiaanse evaluatie van marktleidende taalmodellen geeft het antwoord. In tegenstelling tot eerder werk dat deterministische grondwaarheden gebruikt (meerderheids- of inclusieregels), modelleren we annotatoronenigheid om zowel aleatorische onzekerheid (intrinsieke menselijke onenigheid) als epistemische onzekerheid (modelgevoeligheid voor het domein) vast te leggen. We evalueren toonaangevende taalmodellen (Claude Sonnet 4, DeepSeek-V3, Llama 4 Maverick) op basis van meer dan 250K annotaties van ongeveer 700 annotators voor meer dan 100K teksten uit sociale media, nieuws en forums. Ons GPU-geoptimaliseerde Bayesiaanse framework verwerkte meer dan 1M modelquery's, wat aantoont dat AI-modellen doorgaans tot de top 25% van menselijke annotators behoren, met een veel beter-dan-gemiddelde gebalanceerde nauwkeurigheid. Belangrijk is dat we ontdekken dat AI aanzienlijk minder fout-negatieven produceert dan mensen, wat hun gevoeligere morele detectievermogen benadrukt.
De ontwikkeling van radiance fields (RF), zoals 3D Gaussian Splatting (3DGS) en Neural Radiance Fields (NeRF), heeft een revolutie teweeggebracht in interactieve fotorealistische viewsynthese en biedt enorme mogelijkheden voor XR-onderzoek en -toepassingen. Ondanks de exponentiële groei van RF-onderzoek, blijven RF-gerelateerde bijdragen aan de XR-gemeenschap echter schaars. Om dit onderzoeksgat beter te begrijpen, hebben we een systematisch overzicht uitgevoerd van de huidige RF-literatuur om te analyseren (i) hoe RF wordt gezien voor XR-toepassingen, (ii) hoe ze al zijn geïmplementeerd, en (iii) de resterende onderzoeksgaten. We hebben 365 RF-bijdragen gerelateerd aan XR verzameld uit de gemeenschappen van computervisie, computergraphics, robotica, multimedia, mens-computerinteractie en XR, om de bovenstaande onderzoeksvragen te beantwoorden. Onder de 365 papers hebben we een analyse uitgevoerd van 66 papers die al een gedetailleerd aspect van RF-onderzoek voor XR hebben behandeld. Met dit overzicht hebben we XR-specifieke RF-onderzoeksonderwerpen uitgebreid en gepositioneerd binnen het bredere RF-onderzoeksveld en bieden we een nuttige bron voor de XR-gemeenschap om zich te oriënteren binnen de snelle ontwikkeling van RF-onderzoek.
Sparse Autoencoders (SAE's) kunnen interpreteerbare kenmerken extraheren uit grote taalmmodellen (LLM's) zonder supervisie. Hun effectiviteit in downstream-stuur taken wordt echter beperkt door de noodzaak van contrastieve datasets of grote activatieopslag. Om deze beperkingen aan te pakken, stellen we CorrSteer voor, dat kenmerken selecteert door de correctheid van samples te correleren met SAE-activaties van gegenereerde tokens tijdens inferentie. Deze aanpak gebruikt alleen inferentie-activaties om relevantere kenmerken te extraheren, waardoor spurious correlaties worden vermeden. Het verkrijgt ook stuurcoëfficiënten uit gemiddelde activaties, waardoor de hele pijplijn wordt geautomatiseerd. Onze methode toont verbeterde taakprestaties op QA, bias-mitigatie, jailbreaking-preventie en redeneerbenchmarks op Gemma 2 2B en LLaMA 3.1 8B, met name een verbetering van +4,1% in MMLU-prestaties en een verbetering van +22,9% in HarmBench met slechts 4000 samples. Geselecteerde kenmerken tonen semantisch betekenisvolle patronen die aansluiten bij de vereisten van elke taak, wat de onderliggende capaciteiten onthult die de prestaties sturen. Ons werk vestigt correlatiegebaseerde selectie als een effectieve en schaalbare aanpak voor geautomatiseerd SAE-sturen in taalmodeltoepassingen.
Universele modellen voor medische beeldsegmentatie zijn naar voren gekomen als een veelbelovend paradigma vanwege hun sterke generaliseerbaarheid over diverse taken, wat een groot potentieel biedt voor een breed scala aan klinische toepassingen. Dit potentieel is deels gedreven door het succes van algemene visionmodellen zoals het Segment Anything Model (SAM), dat de ontwikkeling van verschillende fijn afgestemde varianten voor medische segmentatietaken heeft geïnspireerd. Fijn afgestemde varianten zoals MedSAM zijn echter getraind op relatief beperkte medische beeldgegevens die vaak te lijden hebben onder heterogeniteit, schaarse annotaties en distributieverschuivingen. Deze uitdagingen beperken hun vermogen om te generaliseren over een breed scala aan medische segmentatietaken. In dit opzicht stellen wij MedSAMix voor, een trainingsvrije modelmergemethode die de sterke punten van zowel generalistische modellen (bijv. SAM) als specialistische modellen (bijv. MedSAM) integreert voor medische beeldsegmentatie. In tegenstelling tot traditionele modelmergebenaderingen die afhankelijk zijn van handmatige configuratie en vaak resulteren in suboptimale uitkomsten, stellen wij een zero-order optimalisatiemethode voor om automatisch optimale laagsgewijze mergeoplossingen te ontdekken. Verder ontwikkelen wij voor klinische toepassingen twee regimes om te voldoen aan de vraag naar domeinspecificiteit en generaliseerbaarheid in verschillende scenario's, respectievelijk door single-task optimalisatie en multi-objectieve optimalisatie. Uitgebreide evaluaties op 25 medische segmentatietaken tonen aan dat MedSAMix modelbias effectief vermindert en consistent de prestaties verbetert in zowel domeinspecifieke nauwkeurigheid als generalisatie, met verbeteringen van 6,67% op gespecialiseerde taken en 4,37% op multi-task evaluaties.
Bewegingssensortijdreeksen zijn essentieel voor herkenning van menselijke activiteiten (HAR), met toepassingen in gezondheid, sport en slimme apparaten. Bestaande methoden zijn echter getraind voor vaste activiteitensets en vereisen kostbare hertraining wanneer nieuwe gedragingen of sensoropstellingen opduiken. Recente pogingen om grote taalmodelen (LLMs) te gebruiken voor HAR, meestal door signalen om te zetten in tekst of afbeeldingen, lijden onder beperkte nauwkeurigheid en een gebrek aan verifieerbare interpreteerbaarheid. Wij stellen ZARA voor, het eerste agentgebaseerde framework voor zero-shot, verklaarbare HAR rechtstreeks vanuit ruwe bewegingsgegevens. ZARA integreert een automatisch afgeleide paarsgewijze kenmerkenkennisbank die discriminerende statistieken vastlegt voor elk activiteitenpaar, een multisensor-retrievalmodule die relevante bewijzen naar voren haalt, en een hiërarchische agentpijplijn die de LLM begeleidt om iteratief kenmerken te selecteren, gebruik te maken van dit bewijs, en zowel activiteitsvoorspellingen als natuurlijketaaluitleg te produceren. ZARA maakt flexibele en interpreteerbare HAR mogelijk zonder enige fine-tuning of taakspecifieke classificatoren. Uitgebreide experimenten op 8 HAR-benchmarks tonen aan dat ZARA state-of-the-art zero-shot prestaties bereikt, met duidelijke redeneringen terwijl het de sterkste baselines met 2,53x in macro F1 overtreft. Ablatiestudies bevestigen verder de noodzaak van elke module, wat ZARA markeert als een veelbelovende stap naar betrouwbare, plug-and-play analyse van bewegingsgegevens. Onze codes zijn beschikbaar op https://github.com/zechenli03/ZARA.
We pakken de uitdaging aan om gesynthetiseerde spraak te detecteren onder distributieverschuivingen -- veroorzaakt door onbekende synthesemethoden, sprekers, talen of audiocondities -- ten opzichte van de trainingsdata. Few-shot learning-methoden zijn een veelbelovende manier om distributieverschuivingen aan te pakken door snel aan te passen op basis van een paar in-distributie voorbeelden. We stellen een zelf-attentief prototypisch netwerk voor om een robuustere few-shot aanpassing mogelijk te maken. Om onze aanpak te evalueren, vergelijken we systematisch de prestaties van traditionele zero-shot detectoren en de voorgestelde few-shot detectoren, waarbij we de trainingscondities zorgvuldig controleren om distributieverschuivingen tijdens de evaluatie te introduceren. In omstandigheden waar distributieverschuivingen de zero-shot prestaties belemmeren, kan onze voorgestelde few-shot aanpassingstechniek snel aanpassen met slechts 10 in-distributie voorbeelden -- wat resulteert in een relatieve EER-reductie van tot 32% op deepfakes in de Japanse taal en een relatieve reductie van 20% op het ASVspoof 2021 Deepfake-dataset.