Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Algemene AI-agents worden steeds meer erkend als fundamentele kaders voor de nieuwe generatie kunstmatige intelligentie, die complex redeneren, webinteractie, codering en autonome onderzoeksmogelijkheden mogelijk maken. Huidige agentsystemen zijn echter ofwel closed-source of sterk afhankelijk van een verscheidenheid aan betaalde API's en propriëtaire tools, wat de toegankelijkheid en reproduceerbaarheid voor de onderzoeksgemeenschap beperkt. In dit werk presenteren we Cognitive Kernel-Pro, een volledig open-source en (zoveel mogelijk) gratis multi-module agentframework ontworpen om de ontwikkeling en evaluatie van geavanceerde AI-agents te democratiseren. Binnen Cognitive Kernel-Pro onderzoeken we systematisch het samenstellen van hoogwaardige trainingsdata voor Agent Foundation Models, met de focus op het construeren van queries, trajecten en verifieerbare antwoorden over vier belangrijke domeinen: web, bestanden, code en algemeen redeneren. Daarnaast verkennen we nieuwe strategieën voor reflectie en stemming tijdens de testfase van agents om de robuustheid en prestaties van agents te verbeteren. We evalueren Cognitive Kernel-Pro op GAIA en behalen state-of-the-art resultaten onder open-source en gratis agents. Opmerkelijk is dat ons open-source model met 8B parameters eerdere toonaangevende systemen zoals WebDancer en WebSailor overtreft, waarmee een nieuwe prestatiestandaard wordt gevestigd voor toegankelijke, hoogwaardige AI-agents. De code is beschikbaar op https://github.com/Tencent/CognitiveKernel-Pro
Diffusion Large Language Models (DLLMs) doen zich gelden als een krachtig alternatief voor de dominante Autoregressive Large Language Models, waarbij ze efficiënte parallelle generatie en effectieve modellering van globale context bieden. De praktische toepassing van DLLMs wordt echter belemmerd door een kritieke architectonische beperking: de noodzaak van een statisch vooraf gedefinieerde generatielengte. Deze statische lengtetoewijzing leidt tot een problematische afweging: onvoldoende lengtes ondermijnen de prestaties bij complexe taken, terwijl overmatige lengtes aanzienlijke rekenkosten met zich meebrengen en soms tot prestatieverlies leiden. Hoewel het inferentiekader rigide is, observeren we dat het model zelf interne signalen bevat die correleren met de optimale responslengte voor een bepaalde taak. Om deze kloof te overbruggen, benutten we deze latente signalen en introduceren we DAEDAL, een nieuwe trainingsvrije denoisingstrategie die Dynamische Adaptieve Lengte-uitbreiding mogelijk maakt voor Diffusion Large Language Models. DAEDAL werkt in twee fasen: 1) Voor het denoisingproces begint DAEDAL met een korte initiële lengte en breidt deze iteratief uit tot een ruwe, taakgeschikte lengte, geleid door een metriek voor sequentievoltooiing. 2) Tijdens het denoisingproces grijpt DAEDAL dynamisch in door onvoldoende gegenereerde regio's te identificeren en uit te breiden via de invoeging van maskertokens, waardoor de uiteindelijke uitvoer volledig ontwikkeld is. Uitgebreide experimenten met DLLMs tonen aan dat DAEDAL prestaties bereikt die vergelijkbaar zijn, en in sommige gevallen superieur aan, zorgvuldig afgestelde vaste-lengte-baselines, terwijl tegelijkertijd de rekenkundige efficiëntie wordt verbeterd door een hogere effectieve tokenratio te behalen. Door de statische lengtebeperking op te lossen, ontsluit DAEDAL nieuw potentieel voor DLLMs, overbrugt het een kritieke kloof met hun Autoregressive tegenhangers en opent het de weg naar efficiëntere en capabelere generatie.
Het huidige succes van diffusie-transformers hangt sterk af van de gecomprimeerde latente ruimte die gevormd wordt door de vooraf getrainde variational autoencoder (VAE). Dit tweestaps-trainingsparadigma introduceert echter onvermijdelijk opgestapelde fouten en decodeerartefacten. Om de bovengenoemde problemen aan te pakken, keren onderzoekers terug naar de pixelruimte, ten koste van ingewikkelde cascade-pipelines en verhoogde tokencomplexiteit. In tegenstelling tot hun inspanningen stellen wij voor om het patch-gewijze decoderen te modelleren met een neuraal veld en presenteren we een enkelschalige, enkelfasige, efficiënte, end-to-end oplossing, genaamd pixel neural field diffusion (PixelNerd). Dankzij de efficiënte neurale veldrepresentatie in PixelNerd hebben we direct een FID van 2.15 behaald op ImageNet 256x256 en een FID van 2.84 op ImageNet 512x512, zonder enige complexe cascade-pipeline of VAE. We breiden ons PixelNerd-framework ook uit naar tekst-naar-beeldtoepassingen. Onze PixelNerd-XXL/16 behaalde een competitieve overall score van 0.73 op de GenEval-benchmark en een overall score van 80.9 op de DPG-benchmark.
Grote visueel-taalmodelen (VLMs) hebben aanzienlijke vooruitgang geboekt in 2D-visueel begripstaken, wat interesse heeft gewekt in het uitbreiden van deze mogelijkheden naar 3D-scènebegrip. Huidige 3D-VLMs hebben echter vaak moeite met robuust redeneren en generalisatie vanwege beperkingen in hoogwaardige ruimtelijke data en de statische aard van gezichtspuntaannames. Om deze uitdagingen aan te pakken, stellen we 3D-R1 voor, een fundamenteel model dat de redeneervaardigheden van 3D-VLMs verbetert. Specifiek construeren we eerst een hoogwaardige synthetische dataset met CoT, genaamd Scene-30K, waarbij we bestaande 3D-VL-datasets en een data-engine gebaseerd op Gemini 2.5 Pro benutten. Dit dient als koude-start initialisatiedata voor 3D-R1. Bovendien maken we gebruik van RLHF-beleid zoals GRPO in het reinforcement learning-trainingsproces om de redeneervaardigheden te verbeteren en introduceren we drie beloningsfuncties: een perceptiebeloning, een semantische gelijkenisbeloning en een formaatbeloning om de detectienauwkeurigheid en semantische precisie van antwoorden te behouden. Verder introduceren we een dynamische view-selectiestrategie die adaptief de meest informatieve perspectieven kiest voor 3D-scènebegrip. Uitgebreide experimenten tonen aan dat 3D-R1 een gemiddelde verbetering van 10% oplevert over verschillende 3D-scènebenchmarks, wat de effectiviteit ervan onderstreept in het verbeteren van redeneren en generalisatie in 3D-scènebegrip. Code: https://github.com/AIGeeksGroup/3D-R1. Website: https://aigeeksgroup.github.io/3D-R1.
Recente ontwikkelingen in grote taalmodel (LLM) agents hebben opmerkelijke vooruitgang geboekt in het oplossen van softwareproblemen, waarbij geavanceerde technieken zoals multi-agent samenwerking en Monte Carlo Tree Search (MCTS) worden benut. Huidige agents gedragen zich echter als geheugenloze verkenners - ze behandelen elk probleem afzonderlijk zonder kennis van eerdere reparatie-ervaringen te behouden of te hergebruiken. Dit leidt tot overbodige verkenning van mislukte trajecten en gemiste kansen om succesvolle oplossingsmethoden toe te passen op vergelijkbare problemen. Om dit probleem aan te pakken, introduceren we SWE-Exp, een ervaringsversterkte aanpak die beknopte en bruikbare ervaring destilleert uit eerdere agenttrajecten, waardoor continu leren over problemen heen mogelijk wordt. Onze methode introduceert een veelzijdige ervaringsbank die zowel geslaagde als mislukte reparatiepogingen vastlegt. Specifiek extraheert het herbruikbare kennis over probleemoplossing op verschillende niveaus - van hoogwaardige probleembegrip tot specifieke codewijzigingen. Experimenten tonen aan dat SWE-Exp een state-of-the-art oplossingspercentage (41,6% Pass@1) behaalt op SWE-bench-Verified onder open-source agentframeworks. Onze aanpak vestigt een nieuw paradigma waarin geautomatiseerde software engineering agents systematisch reparatie-expertise accumuleren en benutten, wat een fundamentele verschuiving inhoudt van trial-and-error verkenning naar strategische, ervaringsgedreven probleemoplossing.
Het evalueren van de conversatievaardigheden van grote taalmodellen (LLM's) blijft een uitdagende taak. De huidige mainstream benaderingen vertrouwen voornamelijk op het "LLM-als-rechter"-paradigma, waarbij een LLM wordt aangestuurd om als evaluator te dienen en de dialoogkwaliteit te beoordelen. Dergelijke methoden lijden echter vaak onder verschillende vormen van bias, wat de betrouwbaarheid en consistentie van de evaluatieresultaten ondermijnt. Om deze biases te verminderen, gebruiken recente methoden meerdere LLM's als rechters en aggregeren hun oordelen om de optimale beoordeling te selecteren. Hoewel effectief, brengt deze multi-rechteraanpak aanzienlijke rekenkundige overhead met zich mee tijdens de inferentie. In dit artikel stellen we een efficiënte multi-turn dialoogbeoordelaar voor die de collectieve wijsheid van meerdere LLM-rechters vastlegt door hun voorkeurskennis te aggregeren in een enkel model. Onze aanpak behoudt de voordelen van diverse multi-rechterfeedback terwijl de evaluatiekosten drastisch worden verlaagd, wat snelle en flexibele beoordeling van dialoogkwaliteit mogelijk maakt. Uitgebreide experimenten op zeven benchmarks voor enkelvoudige beoordeling en paarsgewijze vergelijking van dialoogevaluatie tonen aan dat onze methode de bestaande baselines in diverse scenario's overtreft, wat de efficiëntie en robuustheid ervan aantoont.
Multimodale verwijzende segmentatie heeft als doel om doelobjecten in visuele scènes, zoals afbeeldingen, video's en 3D-scènes, te segmenteren op basis van verwijzende uitdrukkingen in tekst- of audioformaat. Deze taak speelt een cruciale rol in praktische toepassingen die nauwkeurige objectwaarneming vereisen op basis van gebruikersinstructies. In het afgelopen decennium heeft het aanzienlijke aandacht gekregen in de multimodale gemeenschap, aangewakkerd door vooruitgang in convolutionele neurale netwerken, transformers en grote taalmodelen, die allemaal de multimodale waarnemingscapaciteiten aanzienlijk hebben verbeterd. Dit artikel biedt een uitgebreid overzicht van multimodale verwijzende segmentatie. We beginnen met het introduceren van de achtergrond van dit veld, inclusief probleemdefinities en veelgebruikte datasets. Vervolgens vatten we een uniforme meta-architectuur voor verwijzende segmentatie samen en bespreken we representatieve methoden voor drie primaire visuele scènes, waaronder afbeeldingen, video's en 3D-scènes. We gaan verder in op Generalized Referring Expression (GREx)-methoden om de uitdagingen van complexiteit in de echte wereld aan te pakken, samen met gerelateerde taken en praktische toepassingen. Uitgebreide prestatievergelijkingen op standaardbenchmarks worden ook verstrekt. We blijven gerelateerde werken volgen op https://github.com/henghuiding/Awesome-Multimodal-Referring-Segmentation.
Recente ontwikkelingen in grote taalmodellen hebben de ontwikkeling van multimodale LLM's (MLLM's) gestimuleerd, die tekst, spraak en visie integreren binnen geünificeerde frameworks. Naarmate MLLM's evolueren van smalle, eentalige, taakspecifieke systemen naar algemene instructievolgende modellen, ligt een belangrijke grens in het evalueren van hun meertalige en multimodale capaciteiten over zowel lange als korte contexten. Bestaande benchmarks schieten echter tekort in het gezamenlijk evalueren van deze dimensies: ze zijn vaak beperkt tot Engels, richten zich meestal op één enkele modaliteit tegelijk, vertrouwen op korte contexten, of ontberen menselijke annotaties — wat een uitgebreide beoordeling van modelprestaties over talen, modaliteiten en taakcomplexiteit belemmert. Om deze tekortkomingen aan te pakken, introduceren we MCIF (Multimodal Crosslingual Instruction Following), de eerste meertalige, door mensen geannoteerde benchmark gebaseerd op wetenschappelijke presentaties, die is ontworpen om instructievolging in meertalige, multimodale settings te evalueren over zowel korte als lange inputs. MCIF omvat drie kernmodaliteiten — spraak, visie en tekst — en vier diverse talen (Engels, Duits, Italiaans en Chinees), waardoor een uitgebreide evaluatie mogelijk wordt van de vaardigheden van MLLM's om instructies over talen te interpreteren en deze te combineren met multimodale contextuele informatie. MCIF is vrijgegeven onder een CC-BY 4.0 licentie om open onderzoek en vooruitgang in de ontwikkeling van MLLM's aan te moedigen.
Probleemoplossing heeft opmerkelijke vooruitgang geboekt dankzij de geavanceerde redeneervaardigheden van grote taalmodellen (LLMs). Recentelijk hebben agent-gebaseerde frameworks zoals SWE-agent deze vooruitgang verder bevorderd door autonome, tool-gebruikende agents in staat te stellen complexe software-engineeringtaken aan te pakken. Hoewel bestaande agent-gebaseerde benaderingen voor probleemoplossing voornamelijk gebaseerd zijn op onafhankelijke verkenningen door agents, komen ze vaak vast te zitten in lokale oplossingen en slagen ze er niet in probleempatronen te identificeren die verschillende delen van de codebase overspannen. Om deze beperking aan te pakken, stellen we SWE-Debate voor, een competitief multi-agent debatframework dat diverse redeneerpaden aanmoedigt en een meer geconsolideerde lokalisatie van problemen bereikt. SWE-Debate creëert eerst meerdere foutpropagatiesporen als lokalisatievoorstellen door een code-afhankelijkheidsgrafiek te doorlopen. Vervolgens organiseert het een drie-rondes debat onder gespecialiseerde agents, die elk verschillende redeneerperspectieven belichamen langs het foutpropagatiespoor. Deze gestructureerde competitie stelt agents in staat om samen te werken en te convergeren naar een geconsolideerd reparatieplan. Ten slotte wordt dit geconsolideerde reparatieplan geïntegreerd in een MCTS-gebaseerde codewijzigingsagent voor het genereren van patches. Experimenten op de SWE-bench benchmark laten zien dat SWE-Debate nieuwe state-of-the-art resultaten behaalt in open-source agentframeworks en de baseline-methoden met een grote marge overtreft.
Visuele navigatie met een afbeelding als doel is een fundamenteel en uitdagend probleem. Conventionele methoden vertrouwen ofwel op end-to-end RL-leren of op een modulair beleid met een topologische grafiek of BEV-kaart als geheugen, wat de geometrische relatie tussen de verkende 3D-omgeving en de doelafbeelding niet volledig kan modelleren. Om de doelafbeelding efficiënt en nauwkeurig in de 3D-ruimte te lokaliseren, bouwen we ons navigatiesysteem op basis van de renderbare 3D Gaussiaanse (3DGS) representatie. Echter, vanwege de rekenintensiteit van 3DGS-optimalisatie en de grote zoekruimte van de 6-DoF camerapositie, is het direct benutten van 3DGS voor beeldlokalisatie tijdens het verkenningsproces van de agent onhaalbaar inefficiënt. Daarom stellen we IGL-Nav voor, een Incrementeel 3D Gaussiaans Lokalisatiekader voor efficiënte en 3D-bewuste beelddoelnavigatie. Specifiek werken we de scène-representatie incrementeel bij naarmate nieuwe afbeeldingen binnenkomen met een feed-forward monocular voorspelling. Vervolgens lokaliseren we het doel grofweg door gebruik te maken van geometrische informatie voor discrete ruimtematchen, wat gelijk kan worden gesteld aan efficiënte 3D-convolutie. Wanneer de agent dicht bij het doel is, lossen we uiteindelijk de fijne doelpositie op via optimalisatie met differentieerbaar renderen. Het voorgestelde IGL-Nav overtreft bestaande state-of-the-art methoden met een grote marge in diverse experimentele configuraties. Het kan ook de uitdagendere free-view beelddoelinstelling aan en kan worden ingezet op een real-world robotplatform met behulp van een mobiele telefoon om de doelafbeelding vanuit een willekeurige positie vast te leggen. Projectpagina: https://gwxuan.github.io/IGL-Nav/.
Audio-gestuurde videogeneratie heeft als doel realistische video's te synthetiseren die overeenkomen met ingevoerde audio-opnames, vergelijkbaar met het menselijk vermogen om scènes te visualiseren op basis van auditieve input. Bestaande benaderingen richten zich echter voornamelijk op het verkennen van semantische informatie, zoals de klassen van geluidsbronnen in de audio, wat hun vermogen beperkt om video's met nauwkeurige inhoud en ruimtelijke compositie te genereren. In tegenstelling hiermee kunnen wij mensen niet alleen natuurlijk de semantische categorieën van geluidsbronnen identificeren, maar ook hun diep gecodeerde ruimtelijke attributen bepalen, zoals locaties en bewegingsrichtingen. Deze nuttige informatie kan worden verhelderd door specifieke ruimtelijke indicatoren te overwegen die zijn afgeleid van de inherente fysieke eigenschappen van geluid, zoals luidheid of frequentie. Omdat eerdere methoden deze factor grotendeels negeren, presenteren wij SpA2V, het eerste framework dat expliciet gebruikmaakt van deze ruimtelijke auditieve signalen uit audio om video's met een hoge semantische en ruimtelijke overeenkomst te genereren. SpA2V deelt het generatieproces op in twee fasen: 1) Audio-gestuurde videoplanning: We passen een state-of-the-art MLLM nauwkeurig aan voor een nieuwe taak om ruimtelijke en semantische signalen uit de ingevoerde audio te benutten om Video Scene Layouts (VSL's) te construeren. Dit dient als een tussenliggende representatie om de kloof tussen de audio- en videomodaliteiten te overbruggen. 2) Layout-gestuurde videogeneratie: We ontwikkelen een efficiënte en effectieve aanpak om VSL's naadloos te integreren als conditionele begeleiding in vooraf getrainde diffusiemodellen, waardoor VSL-gestuurde videogeneratie op een trainingsvrije manier mogelijk wordt. Uitgebreide experimenten tonen aan dat SpA2V uitblinkt in het genereren van realistische video's met semantische en ruimtelijke afstemming op de ingevoerde audio's.
Grote Taalmodellen (LLMs) hebben een opmerkelijke vaardigheid getoond in het genereren van tekst die sterk lijkt op menselijk geschreven tekst. Ze produceren echter vaak feitelijk onjuiste uitspraken, een probleem dat doorgaans wordt aangeduid als 'hallucinatie'. Het aanpakken van hallucinatie is cruciaal voor het verbeteren van de betrouwbaarheid en effectiviteit van LLMs. Hoewel veel onderzoek zich heeft gericht op hallucinaties in het Engels, breidt onze studie dit onderzoek uit naar conversatiegegevens in drie talen: Hindi, Farsi en Mandarijn. We bieden een uitgebreide analyse van een dataset om zowel feitelijke als linguïstische fouten in deze talen te onderzoeken voor GPT-3.5, GPT-4o, Llama-3.1, Gemma-2.0, DeepSeek-R1 en Qwen-3. We ontdekten dat LLMs zeer weinig gehallucineerde reacties produceren in het Mandarijn, maar een aanzienlijk hoger aantal hallucinaties genereren in het Hindi en Farsi.
Hoewel AI uitblinkt in het genereren van tekst, audio, afbeeldingen en video's, blijft het creëren van interactieve audiovisuele content zoals videogames een uitdaging. Huidige LLM's kunnen JavaScript-games en animaties genereren, maar hebben gebrek aan geautomatiseerde evaluatiemetrics en worstelen met complexe content die normaal gesproken teams van mensen vereist die maandenlang werken (multi-shot, multi-agents) met assets die door kunstenaars zijn gemaakt. Om deze problemen aan te pakken, hebben we een nieuwe metric en een multi-agent systeem ontwikkeld. Wij stellen AVR-Eval voor, een relatieve metric voor de kwaliteit van multimedia-content met behulp van Audio-Visuele Opnames (AVR's). Een omni-modale model (dat tekst, video en audio verwerkt) vergelijkt de AVR's van twee contentstukken, waarbij een tekstmodel de evaluaties beoordeelt om de superioriteit te bepalen. We tonen aan dat AVR-Eval correct onderscheid maakt tussen goede en gebroken of niet-overeenkomende content. We hebben AVR-Agent gebouwd, een multi-agent systeem dat JavaScript-code genereert vanuit een bank van multimedia-assets (audio, afbeeldingen, 3D-modellen). De coderende agent selecteert relevante assets, genereert meerdere initiële codes, gebruikt AVR-Eval om de beste versie te identificeren en verbetert deze iteratief via omni-modale agentfeedback vanuit de AVR. We voeren experimenten uit met games en animaties met AVR-Eval (win-rate van content A tegenover B). We ontdekken dat content gegenereerd door AVR-Agent een significant hogere win-rate heeft tegenover content die via one-shot generatie is gemaakt. Echter, modellen hebben moeite om aangepaste assets en AVR-feedback effectief te benutten, wat resulteert in geen hogere win-rate. Dit onthult een kritieke kloof: terwijl mensen profiteren van hoogwaardige assets en audiovisuele feedback, lijken huidige coderingsmodellen deze bronnen niet zo effectief te gebruiken, wat fundamentele verschillen tussen menselijke en machine-gebaseerde contentcreatie benadrukt.