Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote Taalmodellen (LLMs) zijn een essentiële infrastructuur geworden voor Kunstmatige Algemene Intelligentie (AGI), maar het ontbreken van goed gedefinieerde geheugenbeheersystemen belemmert de ontwikkeling van langetermijnredenering, continue personalisatie en kennisconsistentie. Bestaande modellen vertrouwen voornamelijk op statische parameters en kortstondige contextuele toestanden, wat hun vermogen beperkt om gebruikersvoorkeuren bij te houden of kennis over langere perioden bij te werken. Hoewel Retrieval-Augmented Generation (RAG) externe kennis introduceert in platte tekst, blijft het een statische oplossing zonder levenscyclusbeheer of integratie met persistente representaties. Recent onderzoek heeft de trainings- en inferentiekosten van LLMs gemodelleerd vanuit een geheugenhiërarchieperspectief, waarbij wordt aangetoond dat de introductie van een expliciete geheugenlaag tussen parametergeheugen en externe retrieval deze kosten aanzienlijk kan verminderen door specifieke kennis te externaliseren. Naast computationele efficiëntie staan LLMs voor bredere uitdagingen die voortkomen uit hoe informatie over tijd en context wordt verdeeld, wat systemen vereist die in staat zijn om heterogene kennis te beheren die verschillende tijdschalen en bronnen omvat. Om deze uitdaging aan te pakken, stellen we MemOS voor, een geheugenbesturingssysteem dat geheugen behandelt als een beheersbare systeembron. Het verenigt de representatie, planning en evolutie van platte tekst, activatie-gebaseerde en parameter-niveau geheugens, waardoor kostenefficiënte opslag en retrieval mogelijk wordt. Als basiseenheid encapsuleert een MemCube zowel geheugeninhoud als metadata zoals herkomst en versiebeheer. MemCubes kunnen in de loop van de tijd worden samengesteld, gemigreerd en gefuseerd, waardoor flexibele overgangen tussen geheugentypes mogelijk worden en retrieval wordt verbonden met parameter-gebaseerd leren. MemOS vestigt een geheugengericht systeemkader dat beheersbaarheid, plasticiteit en evolueerbaarheid brengt naar LLMs, en legt de basis voor continue leren en gepersonaliseerde modellering.
Het leren van hoogwaardige tekstrepresentaties is fundamenteel voor een breed scala aan NLP-taken. Hoewel het vooraf trainen van encoders traditioneel steunde op Masked Language Modeling (MLM), suggereert recent bewijs dat decodermodellen die vooraf zijn getraind met Causal Language Modeling (CLM) effectief kunnen worden hergebruikt als encoders, en vaak traditionele encoders overtreffen op benchmarks voor tekstrepresentatie. Het blijft echter onduidelijk of deze verbeteringen een inherent voordeel van het CLM-doel reflecteren of voortkomen uit verstorende factoren zoals de schaal van het model en de data. In dit artikel gaan we deze vraag te lijf via een reeks grootschalige, zorgvuldig gecontroleerde vooraf-trainingsablaties, waarbij we in totaal 30 modellen trainen variërend van 210 miljoen tot 1 miljard parameters, en meer dan 15.000 fine-tuning- en evaluatieruns uitvoeren. We ontdekken dat hoewel trainen met MLM over het algemeen betere prestaties oplevert bij tekstrepresentatietaken, CLM-getrainde modellen data-efficiënter zijn en een verbeterde fine-tuningstabiliteit vertonen. Op basis van deze bevindingen tonen we experimenteel aan dat een bifasische trainingsstrategie die achtereenvolgens CLM en dan MLM toepast, optimale prestaties bereikt binnen een vast computationeel trainingsbudget. Bovendien laten we zien dat deze strategie aantrekkelijker wordt wanneer wordt geïnitialiseerd vanuit gemakkelijk beschikbare vooraf getrainde CLM-modellen (uit het bestaande LLM-ecosysteem), waardoor de computationele last die nodig is om topklasse encodermodellen te trainen, wordt verminderd. We maken alle projectartefacten beschikbaar op https://hf.co/MLMvsCLM om verder onderzoek te bevorderen.
Naarmate taalagentschappen steeds complexere taken aanpakken, worstelen ze met effectieve foutcorrectie en hergebruik van ervaringen over domeinen heen. Wij introduceren Agent KB, een hiërarchisch ervaringsframework dat complexe agentische probleemoplossing mogelijk maakt via een nieuwe Reason-Retrieve-Refine-pijplijn. Agent KB adresseert een kernbeperking: traditioneel kunnen agentschappen niet leren van elkaars ervaringen. Door zowel hoogwaardige strategieën als gedetailleerde uitvoeringslogboeken vast te leggen, creëert Agent KB een gedeelde kennisbank die kennisoverdracht tussen agentschappen mogelijk maakt. Geëvalueerd op de GAIA-benchmark verbetert Agent KB de slagingspercentages met tot wel 16,28 procentpunten. Bij de meest uitdagende taken verbetert Claude-3 van 38,46% naar 57,69%, terwijl GPT-4 bij intermediaire taken verbetert van 53,49% naar 73,26%. Bij SWE-bench codeherstel stelt Agent KB Claude-3 in staat om te verbeteren van 41,33% naar 53,33%. Onze resultaten suggereren dat Agent KB een modulaire, framework-agnostische infrastructuur biedt waarmee agentschappen kunnen leren van eerdere ervaringen en succesvolle strategieën kunnen generaliseren naar nieuwe taken.
Grote taalmodelen (LLMs) hebben indrukwekkende prestaties getoond op algemene taken, maar het aanpassen ervan aan specifieke domeinen blijft een uitdaging vanwege het gebrek aan hoogwaardige domeinspecifieke data. Bestaande tools voor datasynthese hebben vaak moeite om betrouwbare fine-tuning data effectief te extraheren uit heterogene documenten. Om deze beperking aan te pakken, stellen we Easy Dataset voor, een uniform raamwerk voor het synthetiseren van fine-tuning data uit ongestructureerde documenten via een intuïtieve grafische gebruikersinterface (GUI). Specifiek stelt Easy Dataset gebruikers in staat om eenvoudig tekstextractiemodellen en chunkingstrategieën te configureren om ruwe documenten om te zetten in samenhangende tekstsegmenten. Vervolgens maakt het gebruik van een persona-gestuurde promptbenadering om diverse vraag-antwoordparen te genereren met behulp van publiek beschikbare LLMs. Gedurende het hele proces vergemakkelijkt een visuele interface met menselijke betrokkenheid de beoordeling en verfijning van tussenliggende resultaten om de datakwaliteit te waarborgen. Experimenten op een financiële vraag-antwoordtaak laten zien dat het fine-tunen van LLMs op de gesynthetiseerde dataset de domeinspecifieke prestaties aanzienlijk verbetert, terwijl algemene kennis behouden blijft. De broncode en het installeerbare pakket zijn beschikbaar op https://github.com/ConardLi/easy-dataset en hebben meer dan 9.000 GitHub-sterren verzameld.
Recente ontwikkelingen in vision-language-action (VLA) modellen hebben veelbelovende resultaten laten zien bij het integreren van beeldgeneratie met actievoorspelling om generalisatie en redenering in robotmanipulatie te verbeteren. Bestaande methoden zijn echter beperkt tot uitdagende beeldgebaseerde voorspelling, die lijdt onder overbodige informatie en een gebrek aan uitgebreide en kritische wereldkennis, inclusief dynamische, ruimtelijke en semantische informatie. Om deze beperkingen aan te pakken, stellen we DreamVLA voor, een nieuw VLA-raamwerk dat uitgebreide wereldkennisvoorspelling integreert om inverse dynamische modellering mogelijk te maken, waardoor een perceptie-voorspelling-actie-lus voor manipulatietaken wordt gecreëerd. Specifiek introduceert DreamVLA een dynamisch-regio-gestuurde wereldkennisvoorspelling, geïntegreerd met ruimtelijke en semantische aanwijzingen, die compacte maar uitgebreide representaties bieden voor actieplanning. Dit ontwerp sluit aan bij hoe mensen met de wereld interacteren door eerst abstracte multimodale redeneerketens te vormen voordat ze handelen. Om interferentie tussen de dynamische, ruimtelijke en semantische informatie tijdens de training te verminderen, gebruiken we een bloksgewijze gestructureerde aandachtmechanisme dat hun onderlinge aandacht maskeert, waardoor informatielek wordt voorkomen en elke representatie schoon en ontward blijft. Bovendien gebruiken we, om de conditionele verdeling over toekomstige acties te modelleren, een op diffusie gebaseerde transformer die actierepresentaties ontwart van gedeelde latente kenmerken. Uitgebreide experimenten in zowel real-world als simulatieomgevingen tonen aan dat DreamVLA een slagingspercentage van 76,7% behaalt op real-world robot taken en een gemiddelde lengte van 4,44 op de CALVIN ABC-D benchmarks.
Het reconstrueren van snel-dynamische scènes uit multi-view video's is cruciaal voor de analyse van snelle bewegingen en realistische 4D-reconstructie. De meeste 4D-capturesystemen zijn echter beperkt tot framerates onder de 30 FPS (frames per seconde), en een directe 4D-reconstructie van snelle bewegingen uit laag-FPS-input kan leiden tot ongewenste resultaten. In dit werk stellen we een hoog-snelheid 4D-capturesysteem voor dat alleen gebruikmaakt van laag-FPS-camera's, door middel van innovatieve opname- en verwerkingsmodules. Aan de opnamekant introduceren we een asynchroon opnameschema dat de effectieve framerate verhoogt door de starttijden van de camera's te verspreiden. Door camera's te groeperen en gebruik te maken van een basis-framerate van 25 FPS, bereikt onze methode een equivalente framerate van 100-200 FPS zonder gespecialiseerde hoog-snelheidscamera's te vereisen. Aan de verwerkingskant stellen we ook een nieuw generatief model voor om artefacten te herstellen die worden veroorzaakt door 4D sparse-view-reconstructie, aangezien asynchroniteit het aantal gezichtspunten op elk tijdstip vermindert. Specifiek stellen we voor om een video-diffusiegebaseerd artefact-herstelmodel te trainen voor sparse 4D-reconstructie, dat ontbrekende details verfijnt, temporele consistentie behoudt en de algehele reconstructiekwaliteit verbetert. Experimentele resultaten tonen aan dat onze methode de hoog-snelheid 4D-reconstructie aanzienlijk verbetert in vergelijking met synchrone opname.
We bieden een nieuw perspectief op beloningsmodellering door het te formuleren als een beleidsdiscriminator, die het verschil tussen twee beleidsregels kwantificeert om een beloningssignaal te genereren, waardoor het trainingsbeleid wordt geleid naar een doelbeleid met gewenste gedragingen. Gebaseerd op dit conceptuele inzicht, stellen we een schaalbare voor-trainingsmethode voor genaamd Policy Discriminative Learning (POLAR), die een beloningsmodel (RM) traint om identieke beleidsregels te herkennen en verschillende te onderscheiden. In tegenstelling tot traditionele beloningsmodelleringsmethoden die afhankelijk zijn van absolute voorkeuren, vangt POLAR het relatieve verschil tussen één beleid en een willekeurig doelbeleid, wat een schaalbaar, hoogwaardig optimalisatiedoel is dat geschikt is voor het modelleren van generieke rangschikkingsrelaties. Gebruikmakend van het POLAR voor-trainingsparadigma, presenteren we een reeks RM's met parameterschalen van 1,8B tot 7B. Empirische resultaten tonen aan dat POLAR traditionele niet-voor-getrainde methoden aanzienlijk overtreft, waardoor de RM-prestaties aanzienlijk worden verbeterd. POLAR-7B kon bijvoorbeeld de voorkeursnauwkeurigheid verbeteren van 54,8% naar 81,0% op STEM-taken en van 57,9% naar 85,5% op creatieve schrijftaken in vergelijking met SOTA-baselines. POLAR toont ook robuuste generalisatiecapaciteiten in RLHF met behulp van Reinforcement Fine-tuning (RFT), wat betrouwbare beloningssignalen biedt en de beleidsprestaties aanzienlijk verbetert—LLaMa3.1-8B verbeterde van een gemiddelde van 47,36% naar 56,33% en Qwen2.5-32B van 64,49% naar 70,47% op 20 benchmarks. Bovendien onthullen schalingsexperimenten een duidelijke machtswetrelatie tussen rekenkracht en prestaties, ondersteund door lineaire correlatiecoëfficiënten die 0,99 naderen. De indrukwekkende prestaties, sterke generalisatie en schalingseigenschappen suggereren dat POLAR een veelbelovende richting is voor het ontwikkelen van algemene en sterke beloningsmodellen.
We introduceren RoboBrain 2.0, onze nieuwste generatie van belichaamde vision-language foundation-modellen, ontworpen om perceptie, redeneren en planning te verenigen voor complexe belichaamde taken in fysieke omgevingen. Het is beschikbaar in twee varianten: een lichtgewicht 7B-model en een volledig 32B-model, met een heterogene architectuur bestaande uit een vision-encoder en een taalmodel. Ondanks zijn compacte formaat behaalt RoboBrain 2.0 sterke prestaties op een breed scala aan belichaamde redeneertaken. Op zowel ruimtelijke als temporele benchmarks behaalt de 32B-variant toonaangevende resultaten, waarmee het eerdere open-source en propriëtaire modellen overtreft. In het bijzonder ondersteunt het essentiële real-world belichaamde AI-mogelijkheden, waaronder ruimtelijk begrip (bijv. affordance-voorspelling, ruimtelijke verwijzing, trajectvoorspelling) en temporele besluitvorming (bijv. gesloten-lus interactie, multi-agent lange-termijnplanning en scenegraph-updates). Dit rapport gaat in detail in op de modelarchitectuur, dataconstructie, meerfasige trainingsstrategieën, infrastructuur en praktische toepassingen. We hopen dat RoboBrain 2.0 onderzoek naar belichaamde AI vooruit helpt en een praktische stap vormt naar het bouwen van generalistische belichaamde agents. De code, checkpoint en benchmark zijn beschikbaar op https://superrobobrain.github.io.
Onlangs is er grote vooruitgang geboekt in tekst-naar-video (T2V)-generatie door transformer-gebaseerde diffusiemodellen op te schalen naar miljarden parameters, wat het mogelijk maakt om hoogwaardige video's te genereren. Bestaande modellen produceren echter doorgaans alleen korte clips offline, wat hun toepassingsmogelijkheden in interactieve en real-time toepassingen beperkt. Dit artikel gaat deze uitdagingen aan door StreamDiT voor te stellen, een model voor het genereren van streaming video. De training van StreamDiT is gebaseerd op flow matching door een bewegende buffer toe te voegen. We ontwerpen een gemengde training met verschillende partitieschema's van gebufferde frames om zowel inhoudelijke consistentie als visuele kwaliteit te verbeteren. De modellering van StreamDiT is gebaseerd op adaLN DiT met variërende tijdembedding en vensterattention. Om de voorgestelde methode in de praktijk te brengen, trainen we een StreamDiT-model met 4B parameters. Daarnaast stellen we een multistep-distillatiemethode voor die is toegesneden op StreamDiT. Samplingdistillatie wordt uitgevoerd in elk segment van een gekozen partitieschema. Na distillatie wordt het totale aantal functie-evaluaties (NFEs) teruggebracht tot het aantal chunks in een buffer. Uiteindelijk bereikt ons gedistilleerde model real-time prestaties met 16 FPS op één GPU, wat het mogelijk maakt om videostreams te genereren met een resolutie van 512p. We evalueren onze methode aan de hand van zowel kwantitatieve metrieken als menselijke evaluatie. Ons model maakt real-time toepassingen mogelijk, zoals streaminggeneratie, interactieve generatie en video-naar-video. We bieden videoresultaten en meer voorbeelden op onze projectwebsite: <a href="https://cumulo-autumn.github.io/StreamDiT/">deze https URL.</a>
In dit artikel introduceren we BMMR, een grootschalige, tweetalige, multimodale en multidisciplinaire redeneerdataset voor de gemeenschap om grote multimodale modellen (LMMs) te ontwikkelen en te evalueren. BMMR bestaat uit 110.000 vragen op universitair niveau, verdeeld over 300 door UNESCO gedefinieerde vakgebieden, en omvat diverse formaten zoals meerkeuzevragen, invulvragen en open vragen. De data zijn afkomstig uit zowel gedrukte als digitale media, zoals boeken, examens en quizzen. Alle gegevens zijn gecureerd en gefilterd via een schaalbaar raamwerk met menselijke betrokkenheid, en elk voorbeeld is gekoppeld aan een hoogwaardig redeneerpad. De dataset is georganiseerd in twee delen: BMMR-Eval, dat 20.458 hoogwaardige voorbeelden bevat om LMMs uitgebreid te testen op kennis en redeneren over meerdere disciplines in zowel Chinees als Engels; en BMMR-Train, dat 88.991 voorbeelden bevat om verder onderzoek en ontwikkeling te ondersteunen, waarbij de huidige focus op wiskundig redeneren wordt uitgebreid naar diverse disciplines en domeinen. Daarnaast stellen we de procesgebaseerde multidisciplinaire verifier (d.w.z. BMMR-Verifier) voor voor een nauwkeurige en fijnmazige evaluatie van redeneerpaden. Uitgebreide experimenten op 24 modellen tonen aan dat (i) zelfs state-of-the-art modellen (bijv. o3 en Gemini-2.5-Pro) aanzienlijke ruimte voor verbetering laten op BMMR-Eval; (ii) redeneermodellen disciplinebias vertonen en LMMs alleen op specifieke vakgebieden overtreffen; (iii) open-source modellen nog steeds achterlopen op hun propriëtaire tegenhangers; en (iv) fine-tuning op BMMR-Train deze kloof verkleint. Daarnaast voeren we redeneerketenanalyses uit met BMMR-Verifier en andere diepgaande studies, waarbij we de uitdagingen blootleggen waar LMMs momenteel mee te maken hebben bij multidisciplinair redeneren. We zullen de data vrijgeven en hopen dat ons werk inzichten en bijdragen kan bieden aan de gemeenschap.
De fundamentele capaciteiten van grote taalmodellen (LLMs) worden sterk beïnvloed door de kwaliteit van hun pre-trainingscorpora. Het verbeteren van de data-kwaliteit op grote schaal blijft echter een aanzienlijke uitdaging, voornamelijk vanwege de afweging tussen verfijnings-effectiviteit en verwerkings-efficiëntie. Hoewel op regels gebaseerde filtering het dominante paradigma blijft, werkt dit doorgaans op documentniveau en ontbreekt het aan de granulariteit die nodig is om specifieke inhoud binnen documenten te verfijnen. Geïnspireerd door opkomend werk zoals ProX, stellen wij RefineX voor, een nieuw raamwerk voor grootschalige, chirurgische verfijning van pre-trainingsdata via programmatische bewerkingstaken. RefineX maakt efficiënte en fijnmazige dataverfijning mogelijk, terwijl het de diversiteit en natuurlijkheid van ruwe tekst betrouwbaar behoudt. De kernkracht van RefineX ligt in het destilleren van hoogwaardige, door experts begeleide end-to-end verfijningsresultaten naar minimale, op bewerkingen gebaseerde verwijderingsprogramma's. Deze hoog-precisie destillatiepijplijn wordt gebruikt om een efficiënt en betrouwbaar verfijningsmodel te trainen dat systematisch elk exemplaar in het corpus op grote schaal kan verbeteren. We evalueren RefineX in pre-training vanaf nul op meerdere modelschalen en constateren dat het consistent beter presteert dan modellen die getraind zijn op ruwe, gefilterde of alternatief verfijnde data, over diverse downstreamtaken. Op het 750M-model levert RefineX gemiddelde winsten van 2,6%-7,2% op lighteval-taken en bereikt het vergelijkbare prestaties met aanzienlijk minder trainings-tokens. Verdere analyse toont aan dat RefineX tekstkwaliteit betrouwbaar verbetert met zowel hoge efficiëntie als precisie, en daarbij eerdere benaderingen zoals end-to-end generatie en Prox-C overtreft. Deze resultaten positioneren RefineX als een schaalbare, effectieve en betrouwbare oplossing voor het optimaliseren van pre-trainingsdata in moderne LLM-pijplijnen.
Multimodale inbeddingsmodellen zijn van cruciaal belang geweest voor het mogelijk maken van verschillende downstream taken, zoals semantische gelijkenis, informatieherwinning en clustering over verschillende modaliteiten. Bestaande multimodale inbeddingen zoals VLM2Vec, E5-V en GME zijn echter voornamelijk gericht op natuurlijke afbeeldingen, met beperkte ondersteuning voor andere visuele vormen zoals video's en visuele documenten. Dit beperkt hun toepasbaarheid in real-world scenario's, waaronder AI-agenten, multimodale zoek- en aanbevelingssystemen, en retrieval-augmented generation (RAG). Om deze kloof te dichten, stellen we VLM2Vec-V2 voor, een uniform raamwerk voor het leren van inbeddingen over diverse visuele vormen. Ten eerste introduceren we MMEB-V2, een uitgebreide benchmark die MMEB uitbreidt met vijf nieuwe taaktypen: visuele documentherwinning, videoretrieval, temporele gronding, videoclassificatie en video-vraagbeantwoording – die tekst, afbeeldingen, video's en visuele documenten omvatten. Vervolgens trainen we VLM2Vec-V2, een algemeen inbeddingsmodel dat tekst, afbeeldingen, video's en visuele documenten ondersteunt. Uitgebreide experimenten tonen aan dat VLM2Vec-V2 niet alleen sterke prestaties levert op de nieuw geïntroduceerde video- en documentherwinningstaken, maar ook verbeteringen laat zien ten opzichte van eerdere baselines op de originele afbeeldingsbenchmarks. Door middel van uitgebreide evaluatie biedt onze studie inzichten in de generaliseerbaarheid van verschillende multimodale inbeddingsmodellen en belicht het effectieve strategieën voor uniform inbeddingsleren, wat de basis legt voor meer schaalbare en aanpasbare representatieleerprocessen in zowel onderzoek als real-world toepassingen.
Speculatief decoderen vereist over het algemeen een klein, efficiënt ontwerp-model dat offline is voorgetraind of gedistilleerd voor een specifieke doelmodelreeks, zoals Llama- of Qwen-modellen. Binnen online implementatieomgevingen zijn er echter twee grote uitdagingen: 1) het gebruik van een doelmodel dat niet compatibel is met het ontwerp-model; 2) de verwachting van latentieverbeteringen tijdens gebruik en over tijd. In dit werk stellen we OmniDraft voor, een uniform raamwerk dat een enkel ontwerp-model in staat stelt te werken met elk doelmodel en zich dynamisch aan te passen aan gebruikersdata. We introduceren een online n-gram cache met hybride distillatie-finetuning om de kruiswoordenschat-mismatch tussen ontwerp- en doelmodellen aan te pakken; en verbeteren verder de decodering snelheid door adaptieve ontwerptechnieken te benutten. OmniDraft is bijzonder geschikt voor on-device LLM-toepassingen waar modelkosten, efficiëntie en gebruikersaanpassing de belangrijkste discussiepunten zijn. Dit benadrukt verder de noodzaak om de bovenstaande uitdagingen aan te pakken en motiveert het paradigma van "één ontwerper voor allen". We tonen de vaardigheid van het OmniDraft-raamwerk aan door online leren uit te voeren op taken voor wiskundig redeneren, coderen en tekstgeneratie. Opmerkelijk is dat OmniDraft een enkel Llama-68M-model in staat stelt te koppelen aan verschillende doelmodellen, waaronder Vicuna-7B, Qwen2-7B en Llama3-8B-modellen voor speculatief decoderen; en biedt daarnaast een snelheidsverbetering van tot 1,5-2x.
We onderzoeken of visuele embeddingmodellen continue, ordinale attributen vastleggen langs lineaire richtingen, die we _rankassen_ noemen. We definiëren een model als _rankbaar_ voor een attribuut als het projecteren van embeddings op zo'n as de volgorde van het attribuut behoudt. Over 7 populaire encoders en 9 datasets met attributen zoals leeftijd, menigte-aantal, hoofdpositie, esthetiek en recentheid, vinden we dat veel embeddings inherent rankbaar zijn. Verrassend genoeg is vaak een klein aantal voorbeelden, of zelfs slechts twee extreme voorbeelden, voldoende om betekenisvolle rankassen te herstellen, zonder volledige supervisie. Deze bevindingen openen nieuwe toepassingsmogelijkheden voor beeldrangschikking in vectordatabases en motiveren verder onderzoek naar de structuur en het leren van rankbare embeddings. Onze code is beschikbaar op https://github.com/aktsonthalia/rankable-vision-embeddings.
Historische documenten vormen een onschatbaar cultureel erfgoed, maar hebben in de loop der tijd aanzienlijke degradatie ondergaan door scheuren, watererosie en oxidatie. Bestaande methoden voor Historisch Documentherstel (HDR) richten zich voornamelijk op herstel van één modaliteit of beperkte omvang, waardoor ze niet aan de praktische behoeften voldoen. Om deze leemte op te vullen, presenteren we een full-page HDR-dataset (FPHDR) en een nieuwe geautomatiseerde HDR-oplossing (AutoHDR). Specifiek bestaat FPHDR uit 1.633 echte en 6.543 synthetische afbeeldingen met karakter- en lijnniveau locaties, evenals karakterannotaties in verschillende schadegraden. AutoHDR bootst de herstelwerkwijzen van historici na via een driestapsbenadering: OCR-ondersteunde schadelokalisatie, visueel-taalkundige contexttekstvoorspelling en patch-autoregressief uiterlijkherstel. De modulaire architectuur van AutoHDR maakt naadloze mens-machine samenwerking mogelijk, waardoor flexibele interventie en optimalisatie in elk herstelfase mogelijk is. Experimenten tonen de opmerkelijke prestaties van AutoHDR in HDR aan. Bij het verwerken van zwaar beschadigde documenten verbetert onze methode de OCR-nauwkeurigheid van 46,83\% naar 84,05\%, met een verdere verbetering tot 94,25\% door mens-machine samenwerking. Wij geloven dat dit werk een significante vooruitgang vertegenwoordigt in geautomatiseerd historisch documentherstel en een substantiële bijdrage levert aan het behoud van cultureel erfgoed. Het model en de dataset zijn beschikbaar op https://github.com/SCUT-DLVCLab/AutoHDR.
Recente benchmarks voor Large Language Model (LLM)-agenten richten zich voornamelijk op het evalueren van redeneer-, plannings- en uitvoeringscapaciteiten, terwijl een ander cruciaal onderdeel—geheugen, dat omvat hoe agenten informatie onthouden, bijwerken en langetermijninformatie ophalen—ondergewaardeerd blijft vanwege het gebrek aan benchmarks. We noemen agenten met geheugenmechanismen geheugenagenten. In dit artikel identificeren we vier kerncompetenties die essentieel zijn voor geheugenagenten: nauwkeurige ophaling, leren tijdens testen, begrip op lange termijn en conflictoplossing. Bestaande datasets zijn ofwel gebaseerd op beperkte contextlengtes of zijn toegesneden op statische, langetermijncontexten zoals vraag-antwoordsystemen op basis van boeken, wat niet overeenkomt met de interactieve, meerdere-turn aard van geheugenagenten die informatie geleidelijk accumuleren. Bovendien dekt geen enkele bestaande benchmark alle vier de competenties. Daarom introduceren we MemoryAgentBench, een nieuwe benchmark die specifiek is ontworpen voor geheugenagenten. Onze benchmark combineert hervormde bestaande datasets met nieuw geconstrueerde datasets, die de bovenstaande vier geheugencompetenties bestrijken, en biedt zo een systematische en uitdagende testomgeving voor het beoordelen van geheugenkwaliteit. We evalueren een diverse set van geheugenagenten, variërend van eenvoudige contextgebaseerde en retrieval-augmented generation (RAG)-systemen tot geavanceerde agenten met externe geheugenmodules en toolintegratie. Empirische resultaten tonen aan dat huidige methoden tekortschieten in het beheersen van alle vier de competenties, wat de noodzaak onderstreept van verder onderzoek naar uitgebreide geheugenmechanismen voor LLM-agenten.
Neural Radiance Field (NeRF)-gebaseerde segmentatiemethoden richten zich op object semantiek en vertrouwen uitsluitend op RGB-gegevens, waardoor intrinsieke materiaaleigenschappen ontbreken. Deze beperking belemmert een nauwkeurige materiaalperceptie, wat cruciaal is voor robotica, augmented reality, simulatie en andere toepassingen. Wij introduceren UnMix-NeRF, een raamwerk dat spectrale ontmenging integreert in NeRF, waardoor gezamenlijke hyperspectrale nieuwe weergave-synthese en onbewaakte materiaalsegmentatie mogelijk wordt. Onze methode modelleert spectrale reflectie via diffuse en spiegelende componenten, waarbij een geleerd woordenboek van globale endmembers zuivere materiaalsignaturen vertegenwoordigt, en per-punt abundanties hun distributie vastleggen. Voor materiaalsegmentatie gebruiken we spectrale signatuurvoorspellingen langs geleerde endmembers, wat onbewaakte materiaalclustering mogelijk maakt. Daarnaast maakt UnMix-NeRF scènebewerking mogelijk door geleerde endmemberwoordenboeken aan te passen voor flexibele op materiaal gebaseerde uiterlijkmanipulatie. Uitgebreide experimenten valideren onze aanpak en tonen superieure spectrale reconstructie en materiaalsegmentatie aan in vergelijking met bestaande methoden. Projectpagina: https://www.factral.co/UnMix-NeRF.
We presenteren PresentAgent, een multimodale agent die lange documenten omzet in vertelde presentatievideo's. Terwijl bestaande methoden beperkt zijn tot het genereren van statische dia's of tekstsamenvattingen, gaat onze methode verder dan deze beperkingen door volledig gesynchroniseerde visuele en gesproken content te produceren die nauw aansluit bij menselijke presentatiestijlen. Om deze integratie te bereiken, gebruikt PresentAgent een modulaire pijplijn die het invoerdocument systematisch segmenteert, dia-achtige visuele frames plant en weergeeft, contextuele gesproken narratie genereert met behulp van grote taalmodellen en Text-to-Speech-modellen, en de uiteindelijke video naadloos samenstelt met precieze audio-visuele afstemming. Gezien de complexiteit van het evalueren van dergelijke multimodale uitvoer, introduceren we PresentEval, een geïntegreerd evaluatiekader aangedreven door Vision-Language Models dat video's uitgebreid beoordeelt op drie kritische dimensies: inhoudelijke trouw, visuele helderheid en publieksbegrip via prompt-gebaseerde evaluatie. Onze experimentele validatie op een gecureerde dataset van 30 document-presentatieparen toont aan dat PresentAgent menselijke kwaliteit benadert op alle evaluatiemetrics. Deze resultaten onderstrepen het aanzienlijke potentieel van controleerbare multimodale agents in het transformeren van statische tekstuele materialen naar dynamische, effectieve en toegankelijke presentatieformaten. De code zal beschikbaar zijn op https://github.com/AIGeeksGroup/PresentAgent.
De generatieve mogelijkheden van Large Language Models (LLMs) breiden zich snel uit van statische code naar dynamische, interactieve visuele artefacten. Deze vooruitgang wordt belemmerd door een kritieke evaluatiekloof: bestaande benchmarks richten zich op algoritmische correctheid en zijn blind voor de visuele kwaliteit en interactieve integriteit die moderne gebruikerservaringen definiëren. Om deze kloof te overbruggen, introduceren we ArtifactsBench, een nieuwe benchmark en paradigma voor de geautomatiseerde, multimodale evaluatie van visuele codegeneratie. Ons framework rendert elk gegenereerd artefact programmatisch en legt het dynamische gedrag vast via temporele schermafbeeldingen. Dit visuele bewijs, samen met de broncode, wordt vervolgens beoordeeld door een Multimodal LLM (MLLM)-as-Judge, die rigoureus wordt geleid door een gedetailleerde, taakspecifieke checklist om holistische en reproduceerbare scoring te garanderen. We construeren een nieuwe benchmark van 1.825 diverse taken en evalueren meer dan 30 toonaangevende LLMs. Onze geautomatiseerde evaluatie bereikt een opmerkelijke 94,4% rangschikkingsconsistentie met WebDev Arena, de gouden standaard voor menselijke voorkeur in webontwikkeling, en meer dan 90% paarwijze overeenstemming met menselijke experts. Dit vestigt ArtifactsBench als het eerste framework dat de beoordeling van door mensen waargenomen kwaliteit op grote schaal betrouwbaar kan automatiseren. Onze analyse biedt een gedetailleerde kaart van de huidige state-of-the-art (SOTA), waaruit blijkt dat generalistische modellen vaak beter presteren dan domeinspecifieke. We open-sourcen ArtifactsBench, inclusief de benchmark, evaluatieharnas en basislijresultaten op https://artifactsbenchmark.github.io/, om de gemeenschap een schaalbaar en nauwkeurig hulpmiddel te bieden om de ontwikkeling van gebruikersgerichte generatieve modellen te versnellen.
Achtergrond: Klinische documentatie vormt een aanzienlijke belasting voor zorgverleners, waarbij artsen dagelijks tot 2 uur besteden aan administratieve taken. Recente vooruitgang in grote taalmodellen (LLM's) biedt veelbelovende oplossingen, maar privacyzorgen en rekenkundige vereisten beperken hun adoptie in zorgomgevingen. Doel: Het ontwikkelen en evalueren van een privacybeschermend, on-device medisch transcriptiesysteem met behulp van een fijn afgestemd Llama 3.2 1B-model dat gestructureerde medische notities kan genereren uit medische transcripties, terwijl volledige datasobereiniteit in de browser wordt behouden. Methoden: We hebben een Llama 3.2 1B-model fijn afgestemd met Parameter-Efficient Fine-Tuning (PEFT) met LoRA op 1.500 synthetische medische transcriptie-naar-gestructureerde notitie-paren. Het model werd geëvalueerd tegen het basis Llama 3.2 1B-model op twee datasets: 100 endocrinologie-transcripties en 140 aangepaste ACI-benchmarkgevallen. De evaluatie omvatte zowel statistische metrieken (ROUGE, BERTScore, BLEURT) als LLM-as-judge-beoordelingen over meerdere klinische kwaliteitsdimensies. Resultaten: Het fijn afgestemde OnDevice-model toonde aanzienlijke verbeteringen ten opzichte van het basismodel. Op de ACI-benchmark namen de ROUGE-1-scores toe van 0.346 naar 0.496, terwijl de BERTScore F1 verbeterde van 0.832 naar 0.866. Klinische kwaliteitsbeoordelingen toonden een duidelijke vermindering van grote hallucinaties (van 85 naar 35 gevallen) en een verbeterde feitelijke correctheid (2.81 naar 3.54 op een 5-puntsschaal). Soortgelijke verbeteringen werden waargenomen op de interne evaluatiedataset, waarbij de samengestelde scores stegen van 3.13 naar 4.43 (+41,5%). Conclusies: Het fijn afstemmen van compacte LLM's voor medische transcriptie levert klinisch betekenisvolle verbeteringen op, terwijl volledige on-device browserimplementatie mogelijk wordt gemaakt. Deze aanpak adresseert belangrijke barrières voor AI-adoptie in de gezondheidszorg: privacybescherming, kostenreductie en toegankelijkheid voor omgevingen met beperkte middelen.
Het trainen van native 3D-textuur generatieve modellen blijft een fundamenteel maar uitdagend probleem, grotendeels vanwege de beperkte beschikbaarheid van grootschalige, hoogwaardige 3D-textuurdatasets. Deze schaarste belemmert de generalisatie naar realistische scenario's. Om dit aan te pakken, finetunen de meeste bestaande methodes foundation-modellen voor beeldgeneratie om gebruik te maken van hun geleerde visuele voorkennis. Deze benaderingen genereren echter meestal alleen multi-view beelden en vertrouwen op nabewerking om UV-textuurkaarten te produceren — een essentiële representatie in moderne graphics-pipelines. Dergelijke tweestaps-pipelines lijden vaak onder foutaccumulatie en ruimtelijke inconsistenties over het 3D-oppervlak. In dit artikel introduceren we SeqTex, een nieuw end-to-end framework dat de visuele kennis die is vastgelegd in vooraf getrainde videofoundation-modellen benut om direct complete UV-textuurkaarten te genereren. In tegenstelling tot eerdere methodes die de distributie van UV-texturen geïsoleerd modelleren, herformuleert SeqTex de taak als een sequentiegeneratieprobleem, waardoor het model de gezamenlijke distributie van multi-view renderings en UV-texturen kan leren. Dit ontwerp brengt effectief de consistente beeldruimte-voorkennis van videofoundation-modellen over naar het UV-domein. Om de prestaties verder te verbeteren, stellen we verschillende architectonische innovaties voor: een ontkoppeld multi-view en UV-takontwerp, geometrie-gestuurde aandacht om cross-domein feature-uitlijning te begeleiden, en adaptieve tokenresolutie om fijne textuurdetails te behouden terwijl de rekenkundige efficiëntie behouden blijft. Samen stellen deze componenten SeqTex in staat om volledig gebruik te maken van vooraf getrainde videovoorkennis en hoogwaardige UV-textuurkaarten te synthetiseren zonder nabewerking. Uitgebreide experimenten tonen aan dat SeqTex state-of-the-art prestaties bereikt bij zowel beeld-geconditioneerde als tekst-geconditioneerde 3D-textuurgeneratietaken, met superieure 3D-consistentie, textuur-geometrie-uitlijning en generalisatie naar de echte wereld.
Relatie-extractie (RE) is een kerntaak binnen natuurlijke taalverwerking. Traditionele benaderingen behandelen RE doorgaans als een supervised learning-probleem, waarbij context direct wordt gemapt naar labels—een aanpak die vaak lijdt onder slechte generalisatie buiten het domein (OOD). Geïnspireerd door de werkwijze van menselijke annotators, herformuleren wij RE als een redeneertaak die wordt geleid door annotatierichtlijnen en introduceren we R1-RE, het eerste reinforcement learning-framework met verifieerbare beloning (RLVR) voor RE-taken. Onze methode activeert de redeneervaardigheden van kleine taalmodellen voor annotatietaken, wat resulteert in een aanzienlijk verbeterde OOD-robuustheid. We evalueren onze aanpak op de openbare Sem-2010 dataset en een privé MDKG dataset. Het R1-RE-7B model behaalt een gemiddelde OOD-nauwkeurigheid van ongeveer 70%, vergelijkbaar met toonaangevende propriëtaire modellen zoals GPT-4o. Daarnaast biedt onze uitgebreide analyse nieuwe inzichten in de trainingsdynamiek en opkomende redeneergedragingen van het RLVR-paradigma voor RE.
Dit artikel introduceert VLAI, een transformer-gebaseerd model dat de ernstniveaus van softwarekwetsbaarheden direct voorspelt op basis van tekstbeschrijvingen. Gebouwd op RoBERTa, is VLAI afgestemd op meer dan 600.000 real-world kwetsbaarheden en behaalt het een nauwkeurigheid van meer dan 82% in het voorspellen van ernstcategorieën, wat een snellere en consistentere triage mogelijk maakt vóór handmatige CVSS-scoring. Het model en de dataset zijn open-source en geïntegreerd in de Vulnerability-Lookup-service.
Recente op diffusie gebaseerde beeldbewerkingsmethoden hebben aanzienlijke vooruitgang geboekt in tekstgestuurde taken, maar hebben vaak moeite met het interpreteren van complexe, indirecte instructies. Bovendien lijden huidige modellen vaak aan slechte identiteitsbehoud, onbedoelde bewerkingen of zijn ze sterk afhankelijk van handmatige maskers. Om deze uitdagingen aan te pakken, introduceren we X-Planner, een op Multimodal Large Language Model (MLLM) gebaseerd planningssysteem dat effectief de gebruikersintentie verbindt met de mogelijkheden van bewerkingsmodellen. X-Planner maakt gebruik van keten-van-gedachte-redenering om complexe instructies systematisch te ontleden in eenvoudigere, duidelijke sub-instructies. Voor elke sub-instructie genereert X-Planner automatisch precieze bewerkingstypen en segmentatiemaskers, waardoor handmatige interventie wordt geëlimineerd en gelokaliseerde, identiteitsbehoudende bewerkingen worden gegarandeerd. Daarnaast stellen we een nieuwe geautomatiseerde pipeline voor voor het genereren van grootschalige gegevens om X-Planner te trainen, wat state-of-the-art resultaten oplevert op zowel bestaande benchmarks als onze nieuw geïntroduceerde complexe bewerkingsbenchmark.
Grote taalmodellen (LLMs) worden steeds vaker ingezet voor het aanroepen van enterprise-API's, maar ze falen regelmatig wanneer bijna-identieke tools strijden om dezelfde gebruikersintentie of wanneer vereiste argumenten onvoldoende gespecificeerd zijn. Wij introduceren DiaFORGE (Dialogue Framework for Organic Response Generation & Evaluation), een op disambiguatie gerichte, driedelige pijplijn die (i) persona-gedreven, meerzijdige dialogen synthetiseert waarin de assistent onderscheid moet maken tussen sterk gelijkende tools, (ii) supervised fine-tuning uitvoert van open-source modellen met redeneersporen over 3B - 70B parameters, en (iii) de real-world gereedheid evalueert via een dynamische suite die elk model opnieuw inzet in een live agentische lus en end-to-end doelvoltooiing rapporteert naast conventionele statische metrieken. Op onze dynamische benchmark DiaBENCH verhogen modellen getraind met DiaFORGE het succes van tool-aanroepingen met 27 procentpunt ten opzichte van GPT-4o en met 49 procentpunt ten opzichte van Claude-3.5-Sonnet, beide onder geoptimaliseerde prompting. Om verder onderzoek te stimuleren, publiceren we een open corpus van 5000 productieklare enterprise-API-specificaties, gekoppeld aan rigoureus gevalideerde, op disambiguatie gerichte dialogen, wat een praktische blauwdruk biedt voor het bouwen van betrouwbare, enterprise-ready tool-aanroepende agents.
Naarmate kunstmatige intelligentiesystemen evolueren van monolithische modellen naar ecosystemen van gespecialiseerde agents, wordt de behoefte aan gestandaardiseerde communicatieprotocollen steeds kritischer. Dit artikel introduceert MOD-X (Modular Open Decentralized eXchange), een nieuw architecturaal kader voor agentinteroperabiliteit dat belangrijke beperkingen van bestaande protocollen aanpakt. In tegenstelling tot huidige benaderingen stelt MOD-X een gelaagde architectuur voor met een Universele Message Bus, grondige staatbeheer, vertaalcapaciteiten en blockchain-gebaseerde beveiligingsmechanismen. We presenteren de architectuur van MOD-X, vergelijken deze met bestaande protocollen, en demonstreren de toepassing ervan aan de hand van een uitgewerkt voorbeeld waarin het integratie mogelijk maakt tussen heterogene specialistische agents (agents met verschillende architecturen, leveranciers, capaciteiten en kennisrepresentaties—inclusief regelgebaseerde systemen, neurale netwerken, symbolische redeneermotoren en legacy software met agentwrappers). De belangrijkste innovaties van MOD-X omvatten een publish-subscribe communicatiemodel, semantische capaciteitsontdekking en dynamische workfloworkestratie—waarbij een kader wordt geboden dat theoretische formalisme verbindt met praktische implementatie. Deze architectuur beantwoordt aan de groeiende behoefte aan echt gedecentraliseerde, interoperabele agentecosystemen die effectief kunnen schalen zonder de noodzaak van centrale coördinatie.
Grote taalmodellen (LLMs) hebben opmerkelijke prestaties getoond bij diverse taken, maar hun vermogen om toekomstige gebeurtenissen te voorspellen blijft onderbelicht. Een jaar geleden konden grote taalmodellen nog niet in de buurt komen van de nauwkeurigheid van een menselijke groep. Ik evalueer state-of-the-art LLMs op 464 voorspellingsvragen van Metaculus en vergelijk hun prestaties met die van menselijke supervoorspellers. De meest geavanceerde modellen behalen Brier-scores die ogenschijnlijk de menselijke groep overtreffen, maar ze presteren nog steeds aanzienlijk slechter dan een groep supervoorspellers.