Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Retrieval-Augmented Generation (RAG) verbetert de feitelijkheid van Large Language Models (LLMs) door externe kennis toe te voegen, maar schiet tekort bij problemen die multi-step inferentie vereisen; omgekeerd hallucineren of misgronden puur op redenering gerichte benaderingen vaak feiten. Dit overzicht brengt beide stromingen samen onder een verenigd redenering-retrieval perspectief. We beginnen met het in kaart brengen van hoe geavanceerde redenering elke fase van RAG optimaliseert (Reasoning-Enhanced RAG). Vervolgens laten we zien hoe opgehaalde kennis van verschillende typen ontbrekende premissen aanvult en de context voor complexe inferentie uitbreidt (RAG-Enhanced Reasoning). Ten slotte belichten we opkomende Synergized RAG-Reasoning frameworks, waarbij (agentische) LLMs iteratief zoeken en redeneren combineren om state-of-the-art prestaties te behalen op kennisintensieve benchmarks. We categoriseren methoden, datasets en open uitdagingen, en schetsen onderzoeksrichtingen naar diepere RAG-Reasoning systemen die effectiever, multimodaal-adaptief, betrouwbaarder en mensgerichter zijn. De collectie is beschikbaar op https://github.com/DavidZWZ/Awesome-RAG-Reasoning.
3D-modellering maakt de overgang van virtueel naar fysiek. Bestaande 3D-generatie legt vooral de nadruk op geometrieën en texturen, terwijl fysiek-gebaseerde modellering wordt verwaarloosd. Als gevolg hiervan negeren de gesynthetiseerde 3D-assets, ondanks de snelle ontwikkeling van 3D-generatieve modellen, vaak rijke en belangrijke fysieke eigenschappen, wat hun toepassing in de echte wereld in fysieke domeinen zoals simulatie en embodied AI belemmert. Als een eerste poging om deze uitdaging aan te pakken, stellen we PhysX voor, een end-to-end paradigma voor fysiek-gebaseerde 3D-assetgeneratie. 1) Om de kritieke kloof in fysica-geannoteerde 3D-datasets te overbruggen, presenteren we PhysXNet - de eerste fysiek-gebaseerde 3D-dataset die systematisch is geannoteerd over vijf fundamentele dimensies: absolute schaal, materiaal, affordantie, kinematica en functiebeschrijving. In het bijzonder ontwikkelen we een schaalbare human-in-the-loop annotatiepipeline gebaseerd op vision-language modellen, die efficiënte creatie van fysica-eerste assets mogelijk maakt vanuit ruwe 3D-assets. 2) Verder stellen we PhysXGen voor, een feed-forward framework voor fysiek-gebaseerde image-to-3D-assetgeneratie, dat fysieke kennis injecteert in de vooraf getrainde 3D-structurele ruimte. Specifiek maakt PhysXGen gebruik van een dual-branch architectuur om de latente correlaties tussen 3D-structuren en fysieke eigenschappen expliciet te modelleren, waardoor 3D-assets worden geproduceerd met plausibele fysieke voorspellingen terwijl de oorspronkelijke geometriekwaliteit behouden blijft. Uitgebreide experimenten valideren de superieure prestaties en veelbelovende generalisatiecapaciteit van ons framework. Alle code, data en modellen zullen worden vrijgegeven om toekomstig onderzoek in generatieve fysieke AI te faciliteren.
Optimalisatie van code-prestaties is van cruciaal belang in praktische software-engineering en essentieel voor productiesystemen. Hoewel grote taalmodellen (LLMs) indrukwekkende capaciteiten hebben getoond in codegeneratie en bugfixing, blijft hun vaardigheid in het verbeteren van code-prestaties op repositoryniveau grotendeels onontgonnen. Om deze leemte aan te pakken, introduceren we SWE-Perf, de eerste benchmark die specifiek is ontworpen om LLMs systematisch te evalueren op taken voor code-prestatieoptimalisatie binnen authentieke repositorycontexten. SWE-Perf bestaat uit 140 zorgvuldig samengestelde gevallen, elk afgeleid van prestatieverbeterende pull-requests uit populaire GitHub-repositories. Elk benchmarkgeval omvat de relevante codebase, doelgerichte functies, prestatiegerelateerde tests, door experts geschreven patches en uitvoerbare omgevingen. Door een uitgebreide evaluatie van representatieve methoden die bestandsniveau- en repositoryniveau-benaderingen omvatten (bijvoorbeeld Agentless en OpenHands), onthullen we een aanzienlijk capaciteitsgat tussen bestaande LLMs en expertniveau optimalisatieprestaties, wat belangrijke onderzoeksmogelijkheden in dit opkomende veld benadrukt.
Large Language Model (LLM)-agents hebben groot potentieel getoond voor het oplossen van real-world problemen en beloven een oplossing te zijn voor taakautomatisering in de industrie. Er zijn echter meer benchmarks nodig om automatiseringsagentsystemen systematisch te evalueren vanuit een industrieel perspectief, bijvoorbeeld in de Civiele Techniek. Daarom stellen we DrafterBench voor voor de uitgebreide evaluatie van LLM-agents in de context van technische tekeningrevisie, een representatietaak in de civiele techniek. DrafterBench bevat twaalf soorten taken die zijn samengevat uit real-world tekenbestanden, met 46 aangepaste functies/tools en in totaal 1920 taken. DrafterBench is een open-source benchmark om de vaardigheden van AI-agents rigoureus te testen in het interpreteren van complexe en langdurige contextinstructies, het benutten van voorkennis en het aanpassen aan dynamische instructiekwaliteit via impliciet beleidsbewustzijn. De toolkit beoordeelt uitgebreid verschillende vaardigheden in gestructureerde gegevensbegrip, functie-uitvoering, instructieopvolging en kritisch redeneren. DrafterBench biedt een gedetailleerde analyse van taaknauwkeurigheid en foutenstatistieken, met als doel dieper inzicht te bieden in de mogelijkheden van agents en verbeteringsdoelen te identificeren voor de integratie van LLM's in technische toepassingen. Onze benchmark is beschikbaar op https://github.com/Eason-Li-AIS/DrafterBench, met de testset gehost op https://huggingface.co/datasets/Eason666/DrafterBench.
De gemeenschap rond grote taalmodellen (LLM's) richt zich bijna uitsluitend op decoder-only taalmodellen, omdat deze gemakkelijker te gebruiken zijn voor tekstgeneratie. Een groot deel van de gemeenschap gebruikt echter nog steeds encoder-only modellen voor taken zoals classificatie of retrieval. Eerdere onderzoeken hebben geprobeerd deze architecturen te vergelijken, maar werden gedwongen om vergelijkingen te maken met modellen die verschillen in het aantal parameters, trainingsmethoden en datasets. Wij introduceren de SOTA open-data Ettin-suite van modellen: gepaarde encoder-only en decoder-only modellen variërend van 17 miljoen parameters tot 1 miljard, getraind op maximaal 2 biljoen tokens. Door hetzelfde recept te gebruiken voor zowel encoder-only als decoder-only modellen, produceren we SOTA-recepten in beide categorieën voor hun respectieve grootten, waarbij ModernBERT wordt overtroffen als encoder en Llama 3.2 en SmolLM2 als decoders. Net als in eerdere onderzoeken, vinden we dat encoder-only modellen uitblinken in classificatie- en retrievaltaken, terwijl decoders beter presteren in generatieve taken. We tonen echter aan dat het aanpassen van een decodermodel aan encodertaken (en vice versa) door middel van voortgezette training minder goed presteert in vergelijking met het gebruik van alleen het omgekeerde doel (d.w.z. een 400M encoder presteert beter dan een 1B decoder op MNLI, en vice versa voor generatieve taken). We open-sourcen alle artefacten van deze studie, inclusief trainingsdata, trainingsvolgorde gesegmenteerd per checkpoint, en meer dan 200 checkpoints, om toekomstig onderzoek in staat te stellen alle aspecten van de training te analyseren of uit te breiden.
Mensen zijn essentiële componenten van het transportsysteem, en het begrijpen van hun gedrag is cruciaal voor de ontwikkeling van veilige rijsystemen. Hoewel recente vooruitgang verschillende aspecten van menselijk gedrag heeft onderzocht—zoals beweging, trajecten en intentie—ontbreekt er nog steeds een uitgebreide benchmark voor het evalueren van het begrip van menselijk gedrag in autonoom rijden. In dit werk stellen we MMHU voor, een grootschalige benchmark voor de analyse van menselijk gedrag, met uitgebreide annotaties zoals menselijke beweging en trajecten, tekstbeschrijvingen van menselijke bewegingen, menselijke intentie en labels voor kritiek gedrag dat relevant is voor de rijveiligheid. Onze dataset omvat 57k menselijke bewegingsclips en 1,73 miljoen frames, verzameld uit diverse bronnen, waaronder gevestigde rijdatasets zoals Waymo, in-the-wild video's van YouTube en zelf verzamelde data. Een human-in-the-loop annotatiepipeline is ontwikkeld om uitgebreide gedragsbeschrijvingen te genereren. We bieden een grondige datasetanalyse en benchmarken meerdere taken—variërend van bewegingsvoorspelling tot beweginggeneratie en het beantwoorden van vragen over menselijk gedrag—waardoor we een breed evaluatiepakket aanbieden. Projectpagina: https://MMHU-Benchmark.github.io.
Het mogelijk maken voor virtuele mensen om dynamisch en realistisch te reageren op diverse auditieve stimuli blijft een belangrijke uitdaging in karakteranimatie, wat de integratie van perceptuele modellering en bewegingssynthese vereist. Ondanks het belang ervan, is deze taak grotendeels onontgonnen gebleven. De meeste eerdere werken hebben zich voornamelijk gericht op het in kaart brengen van modaliteiten zoals spraak, audio en muziek om menselijke bewegingen te genereren. Tot nu toe negeren deze modellen doorgaans de impact van ruimtelijke kenmerken die zijn gecodeerd in ruimtelijke audiosignalen op menselijke bewegingen. Om deze kloof te overbruggen en hoogwaardige modellering van menselijke bewegingen als reactie op ruimtelijke audio mogelijk te maken, introduceren we de eerste uitgebreide Spatial Audio-Driven Human Motion (SAM) dataset, die diverse en hoogwaardige ruimtelijke audio- en bewegingsgegevens bevat. Voor benchmarking ontwikkelen we een eenvoudig maar effectief op diffusie gebaseerd generatief framework voor het genereren van menselijke bewegingen aangedreven door ruimtelijke audio, genaamd MOSPA, dat de relatie tussen lichaamsbeweging en ruimtelijke audio nauwkeurig vastlegt door middel van een effectief fusiemechanisme. Eenmaal getraind, kan MOSPA diverse realistische menselijke bewegingen genereren, afhankelijk van variërende ruimtelijke audio-inputs. We voeren een grondig onderzoek uit naar de voorgestelde dataset en voeren uitgebreide experimenten uit voor benchmarking, waarbij onze methode state-of-the-art prestaties behaalt voor deze taak. Ons model en de dataset zullen worden openbaar gemaakt na acceptatie. Raadpleeg onze aanvullende video voor meer details.
We stellen Lizard voor, een linearisatieframework dat voorgetrainde Transformer-gebaseerde Large Language Models (LLMs) omzet in flexibele, subkwadratische architecturen voor generatie met oneindige context. Transformer-gebaseerde LLMs kampen met aanzienlijke geheugen- en rekenkundige knelpunten naarmate de contextlengte toeneemt, vanwege de kwadratische complexiteit van softmax-attentie en de groeiende key-value (KV)-cache. Lizard lost deze beperkingen op door een subkwadratisch aandachtmechanisme te introduceren dat softmax-attentie nauwkeurig benadert terwijl de uitvoerkwaliteit behouden blijft. In tegenstelling tot eerdere linearisatiemethoden, die vaak beperkt worden door vaste modelstructuren en daarom gatingmechanismen uitsluiten, integreert Lizard een gatingmodule geïnspireerd door recente state-of-the-art lineaire modellen. Dit maakt adaptieve geheugencontrole mogelijk, ondersteunt inferentie met constant geheugen, biedt sterke lengtegeneralizatie en zorgt voor een flexibelere modelontwerp. Lizard combineert gated lineaire aandacht voor globale contextcompressie met sliding window-attentie versterkt door meta-geheugen, waardoor een hybride mechanisme ontstaat dat zowel langeafstandsafhankelijkheden als fijnmazige lokale interacties vastlegt. Bovendien introduceren we een hardwarebewust algoritme dat de trainingssnelheid van onze modellen versnelt. Uitgebreide experimenten tonen aan dat Lizard een bijna verliesloos herstel van de prestaties van het leraarmodel bereikt bij standaard taalmodelleertaken, terwijl het aanzienlijk beter presteert dan eerdere linearisatiemethoden. Op de 5-shot MMLU-benchmark verbetert Lizard met 18 punten ten opzichte van eerdere modellen en laat het significante verbeteringen zien bij associatieve herinneringstaken.
We presenteren SpatialTrackerV2, een feedforward 3D-puntvolgmethode voor monovideo's. In tegenstelling tot modulaire pijplijnen die zijn opgebouwd uit standaardcomponenten voor 3D-volgen, verenigt onze aanpak de intrinsieke verbanden tussen puntvolgen, monoculaire diepte en camerapose-schatting in een hoogpresterende en feedforward 3D-puntvolger. Het ontbindt 3D-beweging in de wereldruimte in scènegeometrie, camera-egobeweging en pixelgewijze objectbeweging, met een volledig differentieerbare en end-to-end architectuur, waardoor schaalbare training mogelijk is over een breed scala aan datasets, waaronder synthetische sequenties, geposeerde RGB-D-video's en ongelabelde beelden uit de praktijk. Door geometrie en beweging gezamenlijk te leren van dergelijke heterogene data, overtreft SpatialTrackerV2 bestaande 3D-volgmethoden met 30% en evenaart het de nauwkeurigheid van toonaangevende dynamische 3D-reconstructiebenaderingen terwijl het 50 keer sneller werkt.
Recente ontwikkelingen hebben een nieuw machine learning-paradigma gevestigd dat gebaseerd is op het opschalen van rekenkracht tijdens zowel inferentie als training. In die lijn van onderzoek wordt een combinatie van Supervised Fine-Tuning (SFT) op synthetische demonstraties en Reinforcement Learning met Verifieerbare Beloningen (RLVR) gebruikt om Large Language Models te trainen om extra rekenkracht te besteden tijdens inferentie in de vorm van "gedachten" uitgedrukt in natuurlijke taal. In dit artikel stellen we voor om deze tokens in plaats daarvan te formatteren als een multi-turn interactietrace met een stateful tool. Bij elke beurt wordt de nieuwe staat van de tool toegevoegd aan de context van het model, dat de taak heeft om de tokens te genereren die nodig zijn om de tool te besturen via een aangepaste DSL. We evalueren deze aanpak op het probleem van het repareren van defecte Python-code en tonen aan dat deze beperkte opstelling een snellere bemonstering van ervaring en een dichter beloningssignaal mogelijk maakt, waardoor zelfs modellen met een grootte tot 3B parameters kunnen leren hoe ze extra rekenkracht op de taak kunnen besteden.
Recente vooruitgang in videogeneratie, met name in diffusiemodellen, heeft aanzienlijke vooruitgang geboekt in tekst-naar-video (T2V) en beeld-naar-video (I2V) synthese. Er blijven echter uitdagingen bestaan bij het effectief integreren van dynamische bewegingssignalen en flexibele ruimtelijke beperkingen. Bestaande T2V-methoden vertrouwen doorgaans op tekstprompts, die inherent geen precieze controle bieden over de ruimtelijke lay-out van gegenereerde inhoud. Daarentegen worden I2V-methoden beperkt door hun afhankelijkheid van echte beelden, wat de bewerkbaarheid van de gesynthetiseerde inhoud beperkt. Hoewel sommige methoden ControlNet integreren om beeldgebaseerde conditionering te introduceren, ontbreekt het hen vaak aan expliciete bewegingscontrole en vereisen ze rekenintensieve training. Om deze beperkingen aan te pakken, stellen we AnyI2V voor, een trainingsvrij framework dat elke conditionele afbeelding animeert met door de gebruiker gedefinieerde bewegingsbanen. AnyI2V ondersteunt een breder scala aan modaliteiten als de conditionele afbeelding, inclusief gegevenstypen zoals meshes en puntenwolken die niet worden ondersteund door ControlNet, waardoor flexibelere en veelzijdigere videogeneratie mogelijk wordt. Daarnaast ondersteunt het gemengde conditionele invoer en maakt het stijloverdracht en bewerking mogelijk via LoRA en tekstprompts. Uitgebreide experimenten tonen aan dat de voorgestelde AnyI2V superieure prestaties bereikt en een nieuw perspectief biedt in ruimtelijk- en bewegingsgecontroleerde videogeneratie. Code is beschikbaar op https://henghuiding.com/AnyI2V/.
De snelle evolutie van softwarebibliotheken vormt een aanzienlijke uitdaging voor codegeneratie, wat continue aanpassing vereist aan frequente versie-updates terwijl achterwaartse compatibiliteit behouden blijft. Hoewel bestaande benchmarks voor code-evolutie waardevolle inzichten bieden, ontbreekt het hen doorgaans aan uitvoeringsgebaseerde evaluatie voor het genereren van code die voldoet aan specifieke bibliotheekversies. Om dit aan te pakken, introduceren we GitChameleon, een nieuw, zorgvuldig samengesteld dataset bestaande uit 328 Python-codecompleteringsproblemen, elk afgestemd op specifieke bibliotheekversies en vergezeld van uitvoerbare unittests. GitChameleon evalueert grondig het vermogen van hedendaagse grote taalmodellen (LLMs), LLM-aangedreven agents, code-assistenten en RAG-systemen om versie-geconditioneerde codegeneratie uit te voeren die functionele nauwkeurigheid aantoont door uitvoering. Onze uitgebreide evaluaties tonen aan dat state-of-the-art systemen aanzienlijke uitdagingen ondervinden bij deze taak; bedrijfsmodellen behalen basislijnsuccespercentages in het bereik van 48-51\%, wat de complexiteit van het probleem onderstreept. Door een uitvoeringsgebaseerde benchmark aan te bieden die de dynamische aard van codebibliotheken benadrukt, stelt GitChameleon een duidelijker begrip van deze uitdaging mogelijk en helpt het bij het ontwikkelen van meer aanpasbare en betrouwbare AI-codegeneratiemethoden. We maken de dataset en evaluatiecode publiekelijk beschikbaar op https://github.com/mrcabbage972/GitChameleonBenchmark.
Reinforcement learning (RL) voor grote taalmodelen is een energie-intensieve onderneming: de training kan instabiel zijn, en het beleid kan geleidelijk afdrijven van zijn vooraf getrainde gewichten. Wij presenteren RLEP\, -- \,Reinforcement Learning with Experience rePlay\, -- \,een tweefasenraamwerk dat eerst geverifieerde trajecten verzamelt en deze vervolgens tijdens de daaropvolgende training opnieuw afspeelt. Bij elke update wordt het beleid geoptimaliseerd op mini-batches die nieuw gegenereerde rollouts combineren met deze herspeelde successen. Door hoogwaardige voorbeelden opnieuw af te spelen, stuurt RLEP het model weg van vruchteloze exploratie, richt het leren op veelbelovende redeneerpaden, en levert het zowel snellere convergentie als sterkere eindprestaties op. Op het Qwen2.5-Math-7B basismodel bereikt RLEP de basislijnpiekprecisie met aanzienlijk minder updates en overtreft het deze uiteindelijk, waarbij de nauwkeurigheid op AIME-2024 verbetert van 38,2% naar 39,9%, op AIME-2025 van 19,8% naar 22,3%, en op AMC-2023 van 77,0% naar 82,2%. Onze code, datasets en checkpoints zijn publiekelijk beschikbaar op https://github.com/Kwai-Klear/RLEP om reproduceerbaarheid en verder onderzoek te vergemakkelijken.
Dit artikel presenteert de deelname van AI Wizards aan de CLEF 2025 CheckThat! Lab Taak 1: Subjectiviteitsdetectie in nieuwsartikelen, waarbij zinnen worden geclassificeerd als subjectief/objectief in eentalige, meertalige en zero-shot instellingen. Trainings- en ontwikkelingsdatasets werden aangeboden voor Arabisch, Duits, Engels, Italiaans en Bulgaars; de finale evaluatie omvatte aanvullende onbekende talen (bijv. Grieks, Roemeens, Pools, Oekraïens) om generalisatie te beoordelen. Onze hoofdstrategie verbeterde transformer-gebaseerde classificatiemodellen door sentimentscores, afgeleid van een hulpmodel, te integreren met zinsrepresentaties, met als doel verbetering ten opzichte van standaard fine-tuning. We onderzochten deze sentiment-augmented architectuur met mDeBERTaV3-base, ModernBERT-base (Engels) en Llama3.2-1B. Om klasse-onbalans, die in alle talen voorkwam, aan te pakken, gebruikten we drempelwaarde-calibratie geoptimaliseerd op de ontwikkelset. Onze experimenten tonen aan dat de integratie van sentimentkenmerken de prestaties aanzienlijk verbetert, met name de subjectieve F1-score. Dit framework leidde tot hoge rangschikkingen, met name de 1e plaats voor Grieks (Macro F1 = 0,51).
Foundation multi-modale modellen worden vaak ontworpen door het samenvoegen van meerdere bestaande vooraf getrainde uni-modale modellen: bijvoorbeeld een beeldclassificatiemodel met een tekstmodel. Dit samenvoegingsproces wordt uitgevoerd door een verbindingsmodule te trainen die gericht is op het uitlijnen van de representatieruimtes van deze uni-modale modellen naar een multi-modale doelstelling. Gezien de complexiteit van het trainen van dergelijke verbindingsmodules op grootschalige webgebaseerde datasets, in combinatie met het steeds toenemende aantal beschikbare vooraf getrainde uni-modale modellen, wordt de taak van het selecteren van uni-modale modellen en het daaropvolgende trainen van de verbindingsmodule rekenkundig veeleisend. Om dit onderbelichte kritieke probleem aan te pakken, stellen we Hypernetwork Model Alignment (Hyma) voor, een innovatieve alles-in-één oplossing voor optimale selectie van uni-modale modellen en het trainen van verbindingsmodules door gebruik te maken van hypernetwerken. Specifiek maakt ons framework gebruik van de parameter-voorspellingscapaciteit van een hypernetwork om gezamenlijk getrainde verbindingsmodules te verkrijgen voor N keer M combinaties van uni-modale modellen. In onze experimenten reduceert Hyma de kosten van het zoeken naar het best presterende uni-modale modelpaar met een factor 10, terwijl het de rangschikking en de prestaties van de getrainde verbindingsmodule evenaart die verkregen zijn via een grid search over een reeks diverse multi-modale benchmarks.
Kennisdistillatie, als een efficiënte techniek voor kennisoverdracht, heeft opmerkelijke successen behaald in unimodale scenario's. In cross-modale settings ondervinden conventionele distillatiemethoden echter aanzienlijke uitdagingen vanwege data- en statistische heterogeniteiten, waardoor ze er niet in slagen het complementaire voorkennis in cross-modale leraarmodellen te benutten. Dit artikel legt empirisch twee kritieke problemen bloot in bestaande benaderingen: distillatiepadselectie en kennisdrift. Om deze beperkingen aan te pakken, stellen we MST-Distill voor, een nieuw cross-modale kennisdistillatieraamwerk met een mix van gespecialiseerde leraren. Onze aanpak maakt gebruik van een diverse ensemble van leraarmodellen in zowel cross-modale als multimodale configuraties, geïntegreerd met een netwerk voor instantieniveau-routering dat adaptieve en dynamische distillatie mogelijk maakt. Deze architectuur overstijgt effectief de beperkingen van traditionele methoden die afhankelijk zijn van monotone en statische leraarmodellen. Daarnaast introduceren we een plug-in maskeringsmodule, onafhankelijk getraind om modale specifieke discrepanties te onderdrukken en leraarrepresentaties te reconstrueren, waardoor kennisdrift wordt verminderd en de overdrachtseffectiviteit wordt verbeterd. Uitgebreide experimenten op vijf diverse multimodale datasets, variërend van visuele, audio- en tekstgegevens, tonen aan dat onze methode aanzienlijk beter presteert dan bestaande state-of-the-art kennisdistillatiemethoden in cross-modale distillatietaken. De broncode is beschikbaar op https://github.com/Gray-OREO/MST-Distill.