Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We open-sourcen MiMo-VL-7B-SFT en MiMo-VL-7B-RL, twee krachtige vision-language-modellen die state-of-the-art prestaties leveren op het gebied van algemeen visueel begrip en multimodale redenering. MiMo-VL-7B-RL overtreft Qwen2.5-VL-7B op 35 van de 40 geëvalueerde taken en scoort 59.4 op OlympiadBench, waarmee het modellen met tot wel 78B parameters overstijgt. Voor GUI-grondingstoepassingen zet het een nieuwe standaard met een score van 56.1 op OSWorld-G, waarbij het zelfs gespecialiseerde modellen zoals UI-TARS overtreft. Onze training combineert vierfasen pre-training (2,4 biljoen tokens) met Mixed On-policy Reinforcement Learning (MORL) dat diverse beloningssignalen integreert. We benadrukken het belang van het opnemen van hoogwaardige redeneergegevens met lange Chain-of-Thought in de pre-trainingsfasen, en de voordelen van gemengde RL ondanks de uitdagingen bij gelijktijdige optimalisatie in meerdere domeinen. We dragen ook een uitgebreide evaluatiesuite bij die meer dan 50 taken omvat om reproduceerbaarheid te bevorderen en het vakgebied vooruit te helpen. De modelcheckpoints en de volledige evaluatiesuite zijn beschikbaar op https://github.com/XiaomiMiMo/MiMo-VL.
Geïnspireerd door de opmerkelijke redeneervaardigheden van Deepseek-R1 in complexe tekstuele taken, proberen veel werken vergelijkbare capaciteiten te stimuleren in Multimodale Grote Taalmodellen (MLLMs) door direct reinforcement learning (RL) toe te passen. Ze hebben echter nog steeds moeite om complex redeneren te activeren. In dit artikel onderzoeken we niet alleen multimodale RL in isolatie, maar duiken we in de huidige trainingspijplijnen en identificeren we drie cruciale fenomenen: 1) Effectieve cold start-initialisatie is essentieel voor het verbeteren van MLLM-redenering. Interessant genoeg ontdekken we dat initialisatie met zorgvuldig geselecteerde tekstgegevens alleen al kan leiden tot prestaties die veel recente multimodale redeneermodellen overtreffen, zelfs vóór multimodale RL. 2) Standaard GRPO toegepast op multimodale RL lijdt onder gradientstagnatie, wat de trainingsstabiliteit en prestaties aantast. 3) Vervolg RL-training met alleen tekst, na de multimodale RL-fase, verbetert de multimodale redenering verder. Deze gefaseerde trainingsaanpak balanceert effectief perceptuele verankering en cognitieve redeneerontwikkeling. Door de bovenstaande inzichten te incorporeren en problemen met multimodale RL aan te pakken, introduceren we ReVisual-R1, dat een nieuwe state-of-the-art bereikt onder open-source 7B MLLMs op uitdagende benchmarks, waaronder MathVerse, MathVision, WeMath, LogicVista, DynaMath, en de uitdagende AIME2024 en AIME2025.
Als onderdeel van een belichaamde agent worden Large Language Models (LLMs) doorgaans gebruikt voor gedragsplanning op basis van natuurlijke taal instructies van de gebruiker. Het omgaan met dubbelzinnige instructies in real-world omgevingen blijft echter een uitdaging voor LLMs. Er zijn verschillende methoden voorgesteld voor het detecteren van taakdubbelzinnigheid. Het is echter moeilijk om deze te vergelijken omdat ze op verschillende datasets worden getest en er geen universele benchmark bestaat. Om deze reden stellen we AmbiK (Ambiguous Tasks in Kitchen Environment) voor, de volledig tekstuele dataset van dubbelzinnige instructies gericht aan een robot in een keukenomgeving. AmbiK is verzameld met behulp van LLMs en is door mensen gevalideerd. Het omvat 1000 paren van dubbelzinnige taken en hun ondubbelzinnige tegenhangers, gecategoriseerd op type dubbelzinnigheid (Menselijke Voorkeuren, Algemene Kennis, Veiligheid), met omgevingsbeschrijvingen, verhelderende vragen en antwoorden, gebruikersintenties en taakplannen, in totaal 2000 taken. We hopen dat AmbiK onderzoekers in staat zal stellen om een uniforme vergelijking te maken van methoden voor het detecteren van dubbelzinnigheid. AmbiK is beschikbaar op https://github.com/cog-model/AmbiK-dataset.
Redeneermodellen hebben snelle vooruitgang geboekt op veel benchmarks die wiskunde, code en wetenschap betreffen. Toch zijn er nog veel open vragen over de beste trainingsmethoden voor redeneren, aangezien state-of-the-art modellen vaak vertrouwen op propriëtaire datasets met weinig tot geen publiek beschikbare informatie. Om dit aan te pakken, is het doel van het OpenThoughts-project om open-source datasets te creëren voor het trainen van redeneermodellen. Na eerste verkenningen leidde onze OpenThoughts2-1M dataset tot OpenThinker2-32B, het eerste model dat getraind is op publieke redeneergegevens en dat presteert op het niveau van DeepSeek-R1-Distill-32B op standaard redeneerbenchmarks zoals AIME en LiveCodeBench. Vervolgens verbeteren we onze dataset verder door systematisch elke stap van onze datageneratiepijplijn te onderzoeken met meer dan 1000 gecontroleerde experimenten, wat resulteerde in OpenThoughts3. Door de pijplijn op te schalen naar 1,2 miljoen voorbeelden en QwQ-32B als leraar te gebruiken, ontstaat ons OpenThinker3-7B model, dat state-of-the-art resultaten behaalt: 53% op AIME 2025, 51% op LiveCodeBench 06/24-01/25, en 54% op GPQA Diamond. Al onze datasets en modellen zijn beschikbaar op https://openthoughts.ai.
Het genereren van lange teksten blijft een aanzienlijke uitdaging voor grote taalmodelen (LLMs), met name wat betreft het behouden van samenhang, het waarborgen van logische consistentie en het handhaven van tekstkwaliteit naarmate de sequentielengte toeneemt. Om deze beperkingen aan te pakken, stellen we SuperWriter-Agent voor, een agent-gebaseerd framework dat is ontworpen om de kwaliteit en consistentie van het genereren van lange teksten te verbeteren. SuperWriter-Agent introduceert expliciete gestructureerde denkprocessen via plannings- en verfijningsfasen in het generatiepijplijn, waardoor het model wordt geleid om een meer doordacht en cognitief onderbouwd proces te volgen, vergelijkbaar met dat van een professionele schrijver. Op basis van dit framework construeren we een supervised fine-tuning dataset om een 7B SuperWriter-LM te trainen. We ontwikkelen verder een hiërarchische Direct Preference Optimization (DPO) procedure die Monte Carlo Tree Search (MCTS) gebruikt om eindkwaliteitsbeoordelingen door te voeren en elke generatiestap dienovereenkomstig te optimaliseren. Empirische resultaten over diverse benchmarks tonen aan dat SuperWriter-LM state-of-the-art prestaties bereikt, en zelfs grootschalige baseline-modellen overtreft in zowel automatische evaluatie als menselijke evaluatie. Bovendien demonstreren uitgebreide ablatiestudies de effectiviteit van hiërarchische DPO en benadrukken ze de waarde van het incorporeren van gestructureerde denkstappen om de kwaliteit van het genereren van lange teksten te verbeteren.
Bestaande frameworks voor het evalueren van lang-context taalmodelen (LCLM) kunnen grofweg worden onderverdeeld in real-world en synthetische taken. Ondanks hun nut, gaan beide benaderingen gepaard met bepaalde intrinsieke beperkingen. Real-world taken zijn te complex om te interpreteren of te karakteriseren en zijn gevoelig voor datavervuiling. Daarentegen nemen synthetische taken vaak het naald-in-de-hooiberg (NIAH) formaat aan, waarbij een gebrek aan samenhang tussen de "naald" en de "hooiberg" hun geldigheid als proxy's voor realistische toepassingen in gevaar brengt. Als reactie op deze uitdagingen stellen wij dat een ideaal lang-context evaluatieframework gekenmerkt zou moeten worden door drie essentiële kenmerken: naadloze context, controleerbare instelling en solide evaluatie. Deze studie introduceert LongBioBench, een nieuw benchmark dat kunstmatig gegenereerde biografieën gebruikt als een gecontroleerde omgeving voor het beoordelen van LCLM's op het gebied van begrip, redenering en betrouwbaarheid. Onze experimentele evaluatie, die in totaal 18 LCLM's omvat, toont aan dat de meeste modellen nog steeds tekortkomingen vertonen in semantisch begrip en elementaire redenering over opgehaalde resultaten en minder betrouwbaar zijn naarmate de contextlengte toeneemt. Onze verdere analyse geeft aan dat sommige ontwerpkeuzes die door bestaande synthetische benchmarks worden gebruikt, zoals contextuele niet-samenhang, numerieke naalden en het ontbreken van afleiders, hen kwetsbaar maken voor het testen van de lang-context capaciteiten van het model. Bovendien onthullen we ook dat lang-context voortgezette pretraining voornamelijk RoPE-embedding aanpast om uitgebreide contextlengtes te accommoderen. Samengevat, in vergelijking met eerdere synthetische benchmarks, bereikt LongBioBench een betere balans tussen het weerspiegelen van authentieke taaltaken en het behouden van controleerbaarheid, en is het zeer interpreteerbaar en configureerbaar.
De sequentiële structuur van video's vormt een uitdaging voor het vermogen van multimodale grote taalmodellen (MLLMs) om bewijsmateriaal over meerdere frames te lokaliseren en multimodale redenering uit te voeren. Bestaande videobenchmarks richten zich echter voornamelijk op begripstaken, waarbij modellen alleen frames die in de vraag worden genoemd (hierna aangeduid als "vraagframe") hoeven te matchen en een paar aangrenzende frames hoeven waar te nemen. Om dit gat te dichten, stellen we MMR-V voor: Een Benchmark voor Multimodale Diepe Redenering in Video's. De benchmark wordt gekenmerkt door de volgende kenmerken. (1) Langeafstandsredenering over meerdere frames: Modellen moeten bewijsframes die ver van het vraagframe kunnen liggen, afleiden en analyseren. (2) Voorbij perceptie: Vragen kunnen niet alleen worden beantwoord door directe waarneming, maar vereisen redenering over verborgen informatie. (3) Betrouwbaarheid: Alle taken zijn handmatig geannoteerd, met verwijzing naar uitgebreid begrip van echte gebruikers om aan te sluiten bij algemene percepties. (4) Verwarring: Zorgvuldig ontworpen afleidingsannotatiestrategieën om modelkortsluitingen te verminderen. MMR-V bestaat uit 317 video's en 1.257 taken. Onze experimenten tonen aan dat huidige modellen nog steeds moeite hebben met multimodale redenering; zelfs het best presterende model, o4-mini, behaalt slechts 52,5% nauwkeurigheid. Daarnaast brengen huidige redeneringsverbeteringsstrategieën (Chain-of-Thought en schaling van testtijdberekeningen) beperkte winst. Verdere analyse geeft aan dat de CoT die nodig is voor multimodale redenering verschilt van die in tekstuele redenering, wat deels de beperkte prestatieverbeteringen verklaart. We hopen dat MMR-V verder onderzoek kan inspireren naar het verbeteren van multimodale redeneervaardigheden.
De ontwikkeling van grote taalmodellen (LLMs) is afhankelijk van betrouwbare evaluatie. De meeste huidige evaluaties zijn echter gebaseerd op openbare benchmarks, die gevoelig zijn voor problemen met gegevensvervuiling die de eerlijkheid aanzienlijk aantasten. Eerdere onderzoeken hebben zich gericht op het construeren van dynamische benchmarks om vervuiling aan te pakken. Het continu bouwen van nieuwe benchmarks is echter kostbaar en cyclisch. In dit werk streven we ernaar om vervuiling aan te pakken door de mechanismen van vervuilde modellen zelf te analyseren. Door onze experimenten ontdekken we dat de overschatting van vervuilde modellen waarschijnlijk te wijten is aan parameters die tijdens de training snelkoppelingen verwerven. We stellen verder een nieuwe methode voor om snelkoppelingsneuronen te identificeren door middel van vergelijkende en causale analyse. Hierop voortbouwend introduceren we een evaluatiemethode genaamd snelkoppelingsneuronpatchen om snelkoppelingsneuronen te onderdrukken. Experimenten valideren de effectiviteit van onze aanpak bij het verminderen van vervuiling. Daarnaast vertonen onze evaluatieresultaten een sterke lineaire correlatie met MixEval, een recent vrijgegeven betrouwbare benchmark, met een Spearman-coëfficiënt (rho) van meer dan 0,95. Deze hoge correlatie geeft aan dat onze methode de ware capaciteiten van de modellen nauwkeurig onthult en betrouwbaar is. We voeren verdere experimenten uit om de generaliseerbaarheid van onze methode over verschillende benchmarks en hyperparameterinstellingen aan te tonen. Code: https://github.com/GaryStack/Trustworthy-Evaluation
Real-world toepassingen zoals videogames en virtual reality vereisen vaak het vermogen om 3D-scènes te modelleren die gebruikers kunnen verkennen langs aangepaste camerabewegingen. Hoewel er aanzienlijke vooruitgang is geboekt in het genereren van 3D-objecten uit tekst of afbeeldingen, blijft het creëren van langere, 3D-consistente, verkennbare 3D-scènes een complex en uitdagend probleem. In dit werk presenteren we Voyager, een nieuw videodiffusiekader dat wereldconsistente 3D-puntwolksequenties genereert vanuit een enkele afbeelding met een door de gebruiker gedefinieerd camerapad. In tegenstelling tot bestaande benaderingen, bereikt Voyager end-to-end scènegeneratie en -reconstructie met inherente consistentie tussen frames, waardoor de noodzaak voor 3D-reconstructiepijplijnen (bijvoorbeeld structure-from-motion of multi-view stereo) wordt geëlimineerd. Onze methode integreert drie belangrijke componenten: 1) Wereldconsistente videodiffusie: Een geïntegreerde architectuur die gezamenlijk uitgelijnde RGB- en dieptevideosequenties genereert, geconditioneerd op bestaande wereldobservaties om globale samenhang te waarborgen; 2) Langere wereldverkenning: Een efficiënte wereldcache met punteliminatie en een autoregressieve inferentie met vloeiende videobemonstering voor iteratieve scène-uitbreiding met contextbewuste consistentie; en 3) Schaalbaar data-engine: Een videoreconstructiepijplijn die camerapose-schatting en metrische dieptepredictie automatiseert voor willekeurige video's, waardoor grootschalige, diverse trainingsdatacuratie mogelijk wordt zonder handmatige 3D-annotaties. Collectief resulteren deze ontwerpen in een duidelijke verbetering ten opzichte van bestaande methoden in visuele kwaliteit en geometrische nauwkeurigheid, met veelzijdige toepassingen.
Hoewel diffusiemodellen opmerkelijke successen hebben geboekt in tekst-naar-beeldgeneratie, ondervinden ze aanzienlijke uitdagingen bij instructiegestuurde beeldbewerking. Ons onderzoek belicht een belangrijke uitdaging: deze modellen hebben vooral moeite met structureel inconsistente bewerkingen die ingrijpende lay-outwijzigingen met zich meebrengen. Om deze kloof te overbruggen, introduceren we Image Editing As Programs (IEAP), een uniform raamwerk voor beeldbewerking gebouwd op de Diffusion Transformer (DiT)-architectuur. In de kern benadert IEAP instructiegestuurde bewerking vanuit een reductionistisch perspectief, waarbij complexe bewerkingsinstructies worden opgesplitst in reeksen van atomische bewerkingen. Elke bewerking wordt geïmplementeerd via een lichtgewicht adapter die dezelfde DiT-backbone deelt en is gespecialiseerd voor een specifiek type bewerking. Geprogrammeerd door een agent gebaseerd op een vision-language model (VLM), ondersteunen deze bewerkingen gezamenlijk willekeurige en structureel inconsistente transformaties. Door bewerkingen op deze manier te modulariseren en te sequencen, generaliseert IEAP robuust over een breed scala aan bewerkingstaken, van eenvoudige aanpassingen tot ingrijpende structurele wijzigingen. Uitgebreide experimenten tonen aan dat IEAP aanzienlijk beter presteert dan state-of-the-art methoden op standaard benchmarks in diverse bewerkingsscenario's. In deze evaluaties levert ons raamwerk superieure nauwkeurigheid en semantische trouw, met name voor complexe, meerstapsinstructies. Codes zijn beschikbaar op https://github.com/YujiaHu1109/IEAP.
Grote taalmodellen (LLMs) hebben vaak moeite met visualisatietaken zoals het plotten van diagrammen en grafieken, waarbij succes afhangt van zowel de correctheid van de code als de visuele semantiek. Bestaande instructie-afstemmingsdatasets missen uitvoeringsgebaseerd toezicht en bieden beperkte ondersteuning voor iteratieve codecorrectie, wat resulteert in kwetsbare en onbetrouwbare plotgeneratie. Wij presenteren VisCode-200K, een grootschalige instructie-afstemmingsdataset voor Python-gebaseerde visualisatie en zelfcorrectie. Deze bevat meer dan 200K voorbeelden uit twee bronnen: (1) gevalideerde plotcode uit open-source repositories, gekoppeld aan natuurlijke taal-instructies en gerenderde plots; en (2) 45K multi-turn correctiedialogen van Code-Feedback, waardoor modellen foutieve code kunnen herzien met behulp van runtime-feedback. We fine-tunen Qwen2.5-Coder-Instruct op VisCode-200K om VisCoder te creëren en evalueren het op PandasPlotBench. VisCoder presteert aanzienlijk beter dan sterke open-source baselines en benadert de prestaties van propriëtaire modellen zoals GPT-4o-mini. We nemen verder een zelfdebug-evaluatieprotocol over om iteratieve reparatie te beoordelen, wat de voordelen aantoont van feedback-gestuurd leren voor het genereren van uitvoerbare, visueel accurate code.
Hoewel diffusiegebaseerde modellen hoogwaardige en hoge-resolutie videosequenties kunnen genereren op basis van tekstuele of beeldinvoer, missen ze expliciete integratie van geometrische aanwijzingen bij het beheersen van scèneverlichting en visuele verschijning over frames heen. Om deze beperking aan te pakken, stellen we IllumiCraft voor, een end-to-end diffusiekader dat drie complementaire invoeren accepteert: (1) high-dynamic-range (HDR) videokaarten voor gedetailleerde lichtregeling; (2) synthetisch herbelichte frames met willekeurige verlichtingsveranderingen (optioneel gepaard met een statische achtergrondreferentieafbeeling) om verschijningsaanwijzingen te bieden; en (3) 3D-punttracks die nauwkeurige 3D-geometrie-informatie vastleggen. Door de verlichtings-, verschijnings- en geometrische aanwijzingen te integreren binnen een geünificeerde diffusiearchitectuur, genereert IllumiCraft temporeel coherente video's die zijn afgestemd op door de gebruiker gedefinieerde prompts. Het ondersteunt achtergrond-geconditioneerde en tekst-geconditioneerde videoherbelichting en biedt een betere getrouwheid dan bestaande beheersbare videogeneratiemethoden. Projectpagina: https://yuanze-lin.me/IllumiCraft_page
We hebben gezien dat sterke LLM's zoals Qwen-Math, MiMo en Phi-4 een enorm redeneervermogen bezitten dat is overgeërfd uit de pre-trainingsfase. Met reinforcement learning (RL) kunnen deze modellen aanzienlijk verbeteren op redeneertaken. Recente studies hebben aangetoond dat zelfs RL op één enkel probleem het redeneervermogen van deze modellen kan ontketenen. RL is echter niet alleen kostbaar, maar ook instabiel. Zelfs one-shot RL vereist honderden GPU-uren. Dit roept een kritische vraag op: Is er een efficiëntere manier om het redeneervermogen van deze krachtige basis-LLM's te ontketenen? In dit werk tonen we aan dat Critique Fine-Tuning (CFT) op slechts één probleem effectief het redeneervermogen van LLM's kan ontketenen. Onze methode construeert kritiekdata door diverse modelgegenereerde oplossingen voor één probleem te verzamelen en gebruik te maken van leraar-LLM's om gedetailleerde kritiek te geven. We fine-tunen Qwen- en Llama-familie modellen, variërend van 1,5B tot 14B parameters, op de CFT-data en observeren aanzienlijke prestatieverbeteringen op diverse redeneertaken. Zo toont Qwen-Math-7B-CFT met slechts 5 GPU-uren training een gemiddelde verbetering van 15% op zes wiskundige benchmarks en 16% op drie logische redeneerbenchmarks. Deze resultaten zijn vergelijkbaar met of overtreffen zelfs de resultaten van RL met 20x minder rekenkracht. Ablatiestudies onthullen de robuustheid van one-shot CFT over verschillende promptproblemen. Deze resultaten benadrukken one-shot CFT als een eenvoudige, algemene en rekenkundig efficiënte aanpak om het redeneervermogen van moderne LLM's te ontketenen.
We introduceren Psi-Sampler, een SMC-gebaseerd framework dat pCNL-gebaseerde initiële deeltjesbemonstering incorporeert voor effectieve inferentie-tijd beloningsafstemming met een score-gebaseerd generatief model. Inferentie-tijd beloningsafstemming met score-gebaseerde generatieve modellen heeft recentelijk aanzienlijke aandacht gekregen, in navolging van een bredere paradigmaverschuiving van pre-training naar post-training optimalisatie. Centraal in deze trend staat de toepassing van Sequential Monte Carlo (SMC) op het denoising-proces. Bestaande methoden initialiseren echter typisch deeltjes vanuit de Gaussiaanse prior, wat beloningsrelevante regio's onvoldoende vastlegt en resulteert in verminderde bemonsteringsefficiëntie. We tonen aan dat initialisatie vanuit de beloningsbewuste posterior de afstemmingsprestaties aanzienlijk verbetert. Om posterior-bemonstering in hoogdimensionale latente ruimtes mogelijk te maken, introduceren we het preconditioned Crank-Nicolson Langevin (pCNL) algoritme, dat dimensie-robuste voorstellen combineert met gradient-geïnformeerde dynamiek. Deze aanpak maakt efficiënte en schaalbare posterior-bemonstering mogelijk en verbetert consistent de prestaties bij diverse beloningsafstemmingstaken, waaronder layout-naar-beeldgeneratie, hoeveelheidsbewuste generatie en esthetische-voorkeurgeneratie, zoals aangetoond in onze experimenten.
Grote Taalmodellen (LLMs) en Multimodale LLMs hebben veelbelovende mogelijkheden getoond voor SVG-verwerking, maar bestaande benchmarks lijden onder beperkte dekking van de echte wereld, een gebrek aan complexiteitsstratificatie en gefragmenteerde evaluatieparadigma's. Wij introduceren SVGenius, een uitgebreide benchmark bestaande uit 2.377 queries over drie progressieve dimensies: begrip, bewerking en generatie. Gebouwd op real-world data uit 24 toepassingsdomeinen met systematische complexiteitsstratificatie, evalueert SVGenius modellen via 8 taalcategorieën en 18 metrieken. We beoordelen 22 mainstream modellen die verschillende schalen, architecturen, trainingsparadigma's en toegankelijkheidsniveaus omvatten. Onze analyse toont aan dat, hoewel propriëtaire modellen aanzienlijk beter presteren dan open-source tegenhangers, alle modellen systematische prestatievermindering vertonen bij toenemende complexiteit, wat fundamentele beperkingen in huidige benaderingen aangeeft; echter, redenering-versterkte training blijkt effectiever te zijn dan pure schaalvergroting om deze beperkingen te overwinnen, hoewel stijloverdracht de meest uitdagende capaciteit blijft voor alle modeltypen. SVGenius stelt het eerste systematische evaluatieraamwerk voor SVG-verwerking vast, en biedt cruciale inzichten voor het ontwikkelen van krachtigere vectorafbeeldingmodellen en het bevorderen van geautomatiseerde grafische ontwerptoepassingen. Bijlage en aanvullende materialen (inclusief alle data en code) zijn beschikbaar op https://zju-real.github.io/SVGenius.
We presenteren LayerFlow, een geïntegreerde oplossing voor laagbewuste videogeneratie. Gegeven prompts per laag, genereert LayerFlow video's voor de transparante voorgrond, schone achtergrond en het samengevoegde beeld. Het ondersteunt ook veelzijdige varianten, zoals het ontleden van een samengevoegde video of het genereren van de achtergrond voor een gegeven voorgrond en vice versa. Uitgaande van een tekst-naar-video diffusietransformer, organiseren we de video's voor verschillende lagen als subclips en benutten we laaginbeddingen om elke clip en de bijbehorende laaggewijze prompts te onderscheiden. Op deze manier ondersteunen we naadloos de bovengenoemde varianten in één geïntegreerd raamwerk. Vanwege het gebrek aan hoogwaardige trainingsvideo's met laaggewijze annotaties, ontwerpen we een meerfasige trainingsstrategie om statische afbeeldingen met hoogwaardige laagannotaties te verwerken. Specifiek trainen we eerst het model met laagkwalitatieve videogegevens. Vervolgens tunen we een motion LoRA om het model compatibel te maken met statische frames. Daarna trainen we de content LoRA op een mix van beeldgegevens met hoogwaardige gelaagde afbeeldingen samen met gekopieerde videogegevens. Tijdens de inferentie verwijderen we de motion LoRA, waardoor we vloeiende video's genereren met de gewenste lagen.
Direct Preference Optimization (DPO) is recentelijk toegepast als een post-trainingsmethode voor tekst-naar-video diffusiemodellen. Om trainingsdata te verkrijgen, worden annotatoren gevraagd voorkeuren aan te geven tussen twee video's die gegenereerd zijn uit onafhankelijke ruis. Deze aanpak maakt echter gedetailleerde vergelijkingen onmogelijk, en wij wijzen erop dat het annotatoren bevooroordeelt richting clips met weinig beweging, omdat deze vaak minder visuele artefacten bevatten. In dit werk introduceren we DenseDPO, een methode die deze tekortkomingen aanpakt door drie bijdragen te leveren. Ten eerste creëren we elk videopaar voor DPO door verstoorde kopieën van een grondwaarheidvideo te denoisen. Dit resulteert in uitgelijnde paren met vergelijkbare bewegingsstructuren, terwijl ze verschillen in lokale details, waardoor de bewegingsbias effectief wordt geneutraliseerd. Ten tweede benutten we de resulterende temporele uitlijning om voorkeuren te labelen op korte segmenten in plaats van hele clips, wat een dichter en preciezer leersignaal oplevert. Met slechts een derde van de gelabelde data verbetert DenseDPO de bewegingsgeneratie aanzienlijk ten opzichte van standaard DPO, terwijl het gelijk blijft in tekstuitlijning, visuele kwaliteit en temporele consistentie. Tot slot tonen we aan dat DenseDPO automatische voorkeursannotatie mogelijk maakt met behulp van kant-en-klare Vision Language Models (VLMs): GPT voorspelt segmentniveau voorkeuren nauwkeurig, vergelijkbaar met taakspecifiek gefinetunede videobeloningsmodellen, en DenseDPO getraind op deze labels bereikt prestaties die dicht in de buurt komen van het gebruik van menselijke labels.
Onlangs hebben Large Language Models (LLM's) aanzienlijke vooruitgang geboekt in IQ-gerelateerde domeinen die zorgvuldig denken vereisen, zoals wiskunde en programmeren. Het verbeteren van de cognitieve ontwikkeling van LLM's in sociale domeinen, met name vanuit een post-trainingsperspectief, blijft echter onderbelicht. Erkennend dat de sociale wereld een apart tijdsverloop volgt en een rijkere mix van cognitieve modi vereist (van intuïtieve reacties (Systeem 1) en oppervlakkig denken tot weloverwogen denken (Systeem 2)) dan wiskunde, dat voornamelijk steunt op Systeem 2-cognitie (zorgvuldige, stapsgewijze redenering), introduceren we Temporal-aware Hierarchical Cognitive Reinforcement Learning (TimeHC-RL) om de sociale intelligentie van LLM's te verbeteren. In onze experimenten onderzoeken we systematisch het verbeteren van de sociale intelligentie van LLM's en valideren we de effectiviteit van de TimeHC-RL-methode, via vijf andere post-trainingsparadigma's en twee test-time interventieparadigma's op acht datasets met diverse datapatronen. Experimentele resultaten tonen de superioriteit van onze voorgestelde TimeHC-RL-methode aan in vergelijking met de veelgebruikte Systeem 2 RL-methode. Het geeft het 7B-backbonemodel vleugels, waardoor het de prestaties van geavanceerde modellen zoals DeepSeek-R1 en OpenAI-O3 kan evenaren. Daarnaast heeft het systematische onderzoek vanuit post-trainings- en test-time interventieperspectieven om de sociale intelligentie van LLM's te verbeteren, verschillende waardevolle inzichten aan het licht gebracht.
Efficiënte generatie van lange sequenties is een cruciale uitdaging voor grote taalmodellen. Hoewel recente sparse decoding-methoden de efficiëntie verbeteren, lijden ze onder KV-cache-misalignering, waarbij benaderingsfouten zich opstapelen en de generatiekwaliteit verslechteren. In dit werk stellen we Rectified Sparse Attention (ReSA) voor, een eenvoudige maar effectieve methode die block-sparse attention combineert met periodieke dense rectificatie. Door de KV-cache op vaste intervallen te vernieuwen met een dense forward pass, beperkt ReSA de accumulatie van fouten en behoudt het de alignering met de pretrainingsdistributie. Experimenten op het gebied van wiskundig redeneren, taalmodellering en retrieval-taken tonen aan dat ReSA bijna verliesvrije generatiekwaliteit bereikt met aanzienlijk verbeterde efficiëntie. Opmerkelijk is dat ReSA een end-to-end versnelling tot 2,42 keer biedt bij decodering met een sequentielengte van 256K, wat het een praktische oplossing maakt voor schaalbare inferentie in lange contexten. Code is beschikbaar op https://aka.ms/ReSA-LM.
Large Language Model (LLM)-agenten zijn bezig de game-industrie te hervormen, met name door intelligente en mensvriendelijke gamepersonages te introduceren. Bestaande gamebenchmarks schieten echter tekort in praktische behoeften: ze missen evaluaties van diverse LLM-capaciteiten over verschillende gamegenres, studies van agentmodules die cruciaal zijn voor complexe gameplay, en fine-tuning datasets voor het afstemmen van vooraf getrainde LLM's op gamingagenten. Om deze lacunes op te vullen, presenteren we \benchname{}, een fundamentele benchmark ontworpen om LLM-agenten te trainen en evalueren in diverse real-world videogames. In tegenstelling tot bestaande benchmarks omvat Orak 12 populaire videogames uit alle belangrijke genres, wat uitgebreide studies mogelijk maakt van LLM-capaciteiten en agentmodules die essentieel zijn voor ingewikkelde game-scenario's. Om consistente evaluatie van LLM's te ondersteunen, introduceren we een plug-and-play interface gebaseerd op het Model Context Protocol (MCP) dat LLM's naadloos laat verbinden met games en agentmodules laat manipuleren. Daarnaast stellen we een fine-tuning dataset voor, bestaande uit LLM-gameplaytrajecten over diverse gamegenres. Orak biedt een uitgebreid evaluatieraamwerk, met algemene game-score leaderboards, LLM-gevechtsarena's, en diepgaande analyses van visuele invoertoestanden, agentstrategieën en fine-tuning effecten, waarmee een basis wordt gelegd voor het bouwen van generieke gamingagenten. Code is beschikbaar op https://github.com/krafton-ai/Orak.
In dit artikel presenteren we TalkingMachines -- een efficiënt raamwerk dat voorgetrainde videogeneratiemodellen omzet in realtime, audio-gestuurde karakteranimators. TalkingMachines maakt natuurlijke gesprekservaringen mogelijk door een audio large language model (LLM) te integreren met ons videogeneratie-basismodel. Onze belangrijkste bijdragen omvatten: (1) We passen een voorgetraind SOTA image-to-video DiT-model aan tot een audio-gestuurd avatar-generatiemodel van 18 miljard parameters; (2) We maken oneindige videostreaming mogelijk zonder foutaccumulatie door asymmetrische kennisdistillatie van een bidirectioneel leraarmodel naar een spaars causaal, autoregressief studentmodel; (3) We ontwerpen een inferentiepijplijn met hoge doorvoer en lage latentie, waarin verschillende belangrijke technische optimalisaties zijn opgenomen, zoals: (a) het scheiden van de DiT en VAE-decoder over aparte apparaten, (b) efficiënte overlapping van inter-apparaatcommunicatie en -berekening met behulp van CUDA-streams, (c) het elimineren van overbodige herberekeningen om de doorvoer van framegeneratie te maximaliseren. Bekijk de demovideo's hier - https://aaxwaz.github.io/TalkingMachines/
Recente studies tonen aan dat grote taalmodellen (LLMs) zelfvoorkeursbias vertonen wanneer ze als beoordelaars fungeren, wat betekent dat ze de neiging hebben om hun eigen reacties te verkiezen boven die gegenereerd door andere modellen. Bestaande methoden meten deze bias doorgaans door het verschil te berekenen tussen de scores die een beoordelaarsmodel toekent aan zijn eigen reacties en die het toekent aan reacties van andere modellen. Deze benadering verwart echter zelfvoorkeursbias met reactiekwaliteit, aangezien hogere kwaliteit van reacties van het beoordelaarsmodel ook kan leiden tot positieve scoreverschillen, zelfs bij afwezigheid van bias. Om dit probleem aan te pakken, introduceren we gouden beoordelingen als proxies voor de werkelijke kwaliteit van reacties en stellen we de DBG-score voor, die zelfvoorkeursbias meet als het verschil tussen de scores die het beoordelaarsmodel toekent aan zijn eigen reacties en de corresponderende gouden beoordelingen. Aangezien gouden beoordelingen de werkelijke reactiekwaliteit weerspiegelen, vermindert de DBG-score het verstorende effect van reactiekwaliteit op biasmeting. Met behulp van de DBG-score voeren we uitgebreide experimenten uit om zelfvoorkeursbias te beoordelen bij LLMs van verschillende versies, groottes en redeneervaardigheden. Daarnaast onderzoeken we twee factoren die zelfvoorkeursbias beïnvloeden en helpen verminderen: de tekststijl van reacties en de post-trainingsgegevens van beoordelaarsmodellen. Tot slot verkennen we mogelijke onderliggende mechanismen van zelfvoorkeursbias vanuit een aandachtsperspectief. Onze code en gegevens zijn beschikbaar op https://github.com/zhiyuanc2001/self-preference.
Naarmate grote taalmmodellen (LLMs) zich blijven ontwikkelen, wordt de behoefte aan actuele en goed georganiseerde benchmarks steeds kritischer. Veel bestaande datasets zijn echter verspreid, moeilijk te beheren en maken het uitdagend om evaluaties uit te voeren die zijn afgestemd op specifieke behoeften of domeinen, ondanks de groeiende belangstelling voor domeinspecifieke modellen in gebieden zoals wiskunde of programmeren. In dit artikel introduceren we BenchHub, een dynamische benchmarkrepository die onderzoekers en ontwikkelaars in staat stelt om LLMs effectiever te evalueren. BenchHub aggregeert en classificeert automatisch benchmarkdatasets uit diverse domeinen, waarbij 303K vragen over 38 benchmarks worden geïntegreerd. Het is ontworpen om continue updates en schaalbare dataverwerking te ondersteunen, waardoor flexibele en aanpasbare evaluatie mogelijk wordt die is afgestemd op verschillende domeinen of use cases. Door uitgebreide experimenten met diverse LLM-families tonen we aan dat modelprestaties aanzienlijk variëren over domeinspecifieke subsets, wat het belang benadrukt van domeinbewust benchmarken. Wij geloven dat BenchHub een betere hergebruik van datasets, transparantere modelvergelijkingen en een eenvoudigere identificatie van ondervertegenwoordigde gebieden in bestaande benchmarks kan bevorderen, en biedt daarmee een cruciale infrastructuur voor het bevorderen van LLM-evaluatieonderzoek.
Recente ontwikkelingen in generatieve kunstmatige intelligentie hebben het vakgebied van stijlgeannoteerde tekst-naar-spraaksynthese (CapTTS) aanzienlijk getransformeerd. Het aanpassen van CapTTS aan real-world toepassingen blijft echter een uitdaging vanwege het ontbreken van gestandaardiseerde, uitgebreide datasets en beperkt onderzoek naar downstream taken die op CapTTS zijn gebouwd. Om deze lacunes aan te pakken, introduceren we CapSpeech, een nieuwe benchmark ontworpen voor een reeks CapTTS-gerelateerde taken, waaronder stijlgeannoteerde tekst-naar-spraaksynthese met geluidsgebeurtenissen (CapTTS-SE), accentgeannoteerde TTS (AccCapTTS), emotiegeannoteerde TTS (EmoCapTTS) en tekst-naar-spraaksynthese voor chatagents (AgentTTS). CapSpeech omvat meer dan 10 miljoen machine-geannoteerde audio-caption paren en bijna 0,36 miljoen handmatig geannoteerde audio-caption paren. Daarnaast introduceren we twee nieuwe datasets die zijn verzameld en opgenomen door een professionele stemacteur en ervaren audio-engineers, specifiek voor de AgentTTS- en CapTTS-SE taken. Naast de datasets voeren we uitgebreide experimenten uit met zowel autoregressieve als niet-autoregressieve modellen op CapSpeech. Onze resultaten tonen hoogwaardige en zeer verstaanbare spraaksynthese aan over een diverse reeks spreekstijlen. Voor zover wij weten, is CapSpeech de grootste beschikbare dataset die uitgebreide annotaties biedt voor CapTTS-gerelateerde taken. De experimenten en bevindingen bieden verder waardevolle inzichten in de uitdagingen bij het ontwikkelen van CapTTS-systemen.
Diffusiemodellen hebben recentelijk groot succes geboekt in veel generatietaken, zoals objectverwijdering. Desalniettemin worstelen bestaande methoden voor beeldontleding met het ontwarren van semi-transparante of transparante laagocclusies vanwege afhankelijkheden van maskerprioriteiten, statische objectaannames en het gebrek aan datasets. In dit artikel verdiepen we ons in een nieuwe taak: Laaggewijze Ontleding van Alpha-Samengestelde Beelden, met als doel de samenstellende lagen te herstellen uit enkele overlappende beelden onder de voorwaarde van semi-transparante/transparante alfa-laag niet-lineaire occlusie. Om uitdagingen op het gebied van laagambiguïteit, generalisatie en dataschaarste aan te pakken, introduceren we eerst AlphaBlend, de eerste grootschalige en hoogwaardige dataset voor transparante en semi-transparante laagontleding, die zes real-world subtaken ondersteunt (bijvoorbeeld verwijdering van doorschijnende lensflare, ontleding van semi-transparante cellen, ontleding van glaswerk). Op basis van deze dataset presenteren we DiffDecompose, een op diffusie-Transformers gebaseerd raamwerk dat de posterior leert over mogelijke laagontledingen, geconditioneerd op het invoerbeeld, semantische prompts en het blendtype. In plaats van alfa-matten direct te regresseren, voert DiffDecompose In-Context Ontleding uit, waardoor het model één of meerdere lagen kan voorspellen zonder per-laagsupervisie, en introduceert het Layer Position Encoding Cloning om pixelniveau-correspondentie tussen lagen te behouden. Uitgebreide experimenten op de voorgestelde AlphaBlend-dataset en de openbare LOGO-dataset bevestigen de effectiviteit van DiffDecompose. De code en dataset zullen beschikbaar worden gesteld na acceptatie van het artikel. Onze code zal beschikbaar zijn op: https://github.com/Wangzt1121/DiffDecompose.
Speculatieve decodering versnelt de inferentie van Large Language Models (LLM's) door een klein conceptmodel te gebruiken om meerdere tokens te voorspellen, en een groot doelmodel om deze tokens parallel te verifiëren. Recente studies benutten de verborgen toestand van het doelmodel om de nauwkeurigheid van de voorspellingen van het conceptmodel te verbeteren. Bestaande methoden hebben echter te kampen met een afnemende kwaliteit van de voorspelde tokens op latere posities, als gevolg van foutaccumulatie in de gegenereerde kenmerken van het conceptmodel. In dit artikel stellen we Position Specialists (PosS) voor, die bestaan uit meerdere positiegespecialiseerde conceptlagen om tokens op toegewezen posities te genereren. Position specialists verbeteren aanzienlijk de acceptatiegraad van tokens op latere posities per conceptronde, aangezien elke specialist zich alleen hoeft te richten op het omgaan met een bepaald niveau van afwijking in de kenmerken van het conceptmodel. Experimentele resultaten op Llama-3-8B-Instruct en Llama-2-13B-chat over zes datasets tonen aan dat PosS effectief verbetert ten opzichte van de basislijnen wat betreft de gemiddelde acceptatielengte en snelheidsverhouding. Onze codebase is beschikbaar op https://github.com/shrango/PosS.
Recente vooruitgang in Chain-of-Thought (CoT) redeneren heeft het begrip van complexe video's verbeterd, maar bestaande methoden hebben vaak moeite om zich aan te passen aan domeinspecifieke vaardigheden (bijvoorbeeld gebeurtenisdetectie, ruimtelijk relatiebegrip, emotiebegrip) over verschillende video-inhouden. Om dit aan te pakken, stellen we Video-Skill-CoT (ook wel Video-SKoT genoemd) voor, een raamwerk dat automatisch vaardigheidsbewuste CoT-begeleiding construeert en benut voor domeinadaptieve videoredenering. Ten eerste construeren we op vaardigheden gebaseerde CoT-annotaties: we extraheren domeinrelevante redeneervaardigheden uit trainingsvragen, clusteren deze in een gedeelde vaardigheidstaxonomie, en creëren gedetailleerde meerstaps CoT-redeneringen die zijn toegesneden op elk video-vraagpaar voor training. Ten tweede introduceren we een vaardigheidspecifiek expert-leerframework. Elke expertmodule specialiseert zich in een subset van redeneervaardigheden en wordt getraind met lichtgewicht adapters met behulp van de verzamelde CoT-begeleiding. We demonstreren de effectiviteit van de voorgestelde aanpak op drie videobegrip-benchmarks, waar Video-SKoT consistent sterke basislijnen overtreft. We bieden ook diepgaande analyses over het vergelijken van verschillende CoT-annotatiepijplijnen en geleerde vaardigheden over meerdere videodomeinen.
Adversariële invoeraanvallen kunnen een aanzienlijke verschuiving van CLIP-embeddings veroorzaken. Dit kan de robuustheid van downstream-modellen die CLIP in de pipeline integreren, beïnvloeden, zoals tekst-naar-beeld generatieve modellen of grote visuele taalmodellen. Hoewel er enige inspanningen zijn geleverd om de CLIP-beeldencoders robuust te maken, blijft de robuustheid van tekstencoders onontgonnen. In dit werk vullen we deze leemte in de literatuur aan. We stellen LEAF voor: een efficiënte adversariële fine-tuningmethode voor het tekstdomein, met de mogelijkheid om op te schalen naar grote CLIP-modellen. Onze modellen verbeteren aanzienlijk de zero-shot adversariële nauwkeurigheid in het tekstdomein, terwijl de visuele prestaties die worden geboden door robuuste beeldencoders behouden blijven. Wanneer gecombineerd met tekst-naar-beeld diffusiemodellen, kunnen we de generatiekwaliteit onder adversariële ruis verbeteren. Bij het gebruik van onze robuuste CLIP-encoders in multimodale retrievalthandelingen, verbeteren we de recall onder adversariële ruis ten opzichte van standaard CLIP-modellen. Tot slot tonen we aan dat robuuste tekstencoders een betere reconstructie van invoertekst uit de embedding mogelijk maken via directe optimalisatie.
Recente vooruitgang in reinforcement learning (RL) met numerieke feedback, zoals scalaire beloningen, heeft de complexe redeneervaardigheden van grote taalmodellen (LLMs) aanzienlijk verbeterd. Ondanks dit succes identificeren we drie belangrijke uitdagingen waar RL met uitsluitend numerieke feedback tegenaan loopt: prestatieplateaus, beperkte effectiviteit van zelfreflectie en aanhoudende fouten. Vervolgens tonen we aan dat RL-fijn afgestemde modellen, zelfs na het bereiken van prestatieplateaus, correcte verfijningen kunnen genereren voor problemen met aanhoudende fouten door gebruik te maken van natuurlijke taal feedback in de vorm van kritieken. Op basis van dit inzicht stellen we Critique-GRPO voor, een online RL-framework dat zowel natuurlijke taal als numerieke feedback integreert voor effectieve beleidsoptimalisatie. Critique-GRPO stelt LLMs in staat om te leren van initiële reacties en kritiek-gestuurde verfijningen tegelijkertijd, terwijl exploratie behouden blijft. Uitgebreide experimenten met Qwen2.5-7B-Base en Qwen3-8B-Base laten zien dat Critique-GRPO consistent beter presteert dan op supervised learning gebaseerde en RL-gebaseerde fijn afstemmingsbenaderingen over acht uitdagende wiskundige, STEM- en algemene redeneertaken, waarbij de gemiddelde pass@1-scores met respectievelijk ongeveer 4,5% en 5% verbeteren. Opmerkelijk is dat Critique-GRPO een sterke baseline overtreft die expertdemonstraties integreert binnen online RL. Verdere analyse onthult twee kritische inzichten over beleidsexploratie: (1) hogere entropie garandeert niet altijd efficiënt leren door exploratie, en (2) langere reacties leiden niet noodzakelijk tot effectievere exploratie.
Grote foundationmodellen die getraind zijn op uitgebreide datasets tonen sterke zero-shot-capaciteiten in verschillende domeinen. Om hun succes te repliceren wanneer data en modelgrootte beperkt zijn, is kennisdistillatie een gevestigd hulpmiddel geworden voor het overdragen van kennis van foundationmodellen naar kleine studentnetwerken. De effectiviteit van distillatie wordt echter kritisch beperkt door de beschikbare trainingsdata. Dit werk behandelt het veelvoorkomende praktische probleem van covariate shift in kennisdistillatie, waarbij spurious features tijdens de training verschijnen maar niet tijdens de testfase. We stellen de vraag: wanneer deze spurious features onbekend zijn, maar een robuuste leraar beschikbaar is, is het dan mogelijk voor een student om ook robuust te worden tegen deze features? We pakken dit probleem aan door een nieuwe, op diffusie gebaseerde data-augmentatiestrategie te introduceren die afbeeldingen genereert door de onenigheid tussen de leraar en de student te maximaliseren, waardoor uitdagende samples worden gecreëerd waar de student moeite mee heeft. Experimenten tonen aan dat onze aanpak de nauwkeurigheid van de slechtste groep en de gemiddelde groep significant verbetert op CelebA en SpuCo Birds, evenals de spurious mAUC op spurious ImageNet onder covariate shift, en daarbij state-of-the-art, op diffusie gebaseerde data-augmentatiebaselines overtreft.
Continual Learning (CL) streeft ernaar neurale netwerken in staat te stellen om geleidelijk nieuwe kennis te verwerven (plasticiteit) terwijl bestaande kennis behouden blijft (stabiliteit). Hoewel vooraf getrainde modellen (PTMs) een cruciale rol spelen in CL, bevriezen gangbare benaderingen de PTM-backbone om stabiliteit te behouden, wat hun plasticiteit beperkt, vooral bij het tegenkomen van aanzienlijke domeinkloven in incrementele taken. Aan de andere kant loopt het sequentieel finetunen van het gehele PTM het risico van catastrofaal vergeten van generaliseerbare kennis, wat een kritische afweging tussen stabiliteit en plasticiteit blootlegt. Om deze uitdaging aan te pakken, stellen we Adapting PTMs before the core CL process (ACL) voor, een nieuw raamwerk dat de PTM-backbone verfijnt door een plug-and-play aanpassingsfase voordat elk nieuwe taak wordt geleerd met bestaande CL-benaderingen (bijvoorbeeld prompt tuning). ACL verbetert de plasticiteit door embeddings af te stemmen op hun oorspronkelijke klasseprototypen terwijl ze worden gescheiden van andere, wat theoretisch en empirisch is aangetoond om stabiliteit en plasticiteit in balans te brengen. Uitgebreide experimenten tonen aan dat ACL de CL-prestaties aanzienlijk verbetert op benchmarks en geïntegreerde methoden, en biedt zo een veelzijdige oplossing voor PTM-gebaseerde CL.
LLM-as-a-judge is een raamwerk waarin een groot taalmodel (LLM) automatisch de output van een ander LLM evalueert. Wij stellen kwantitatieve LLM-beoordelaars voor, die de evaluatiescores van bestaande LLM-beoordelaars afstemmen op menselijke scores in een bepaald domein met behulp van regressiemodellen. De modellen worden getraind om de score van de oorspronkelijke beoordelaar te verbeteren door gebruik te maken van de tekstuele evaluatie en score van de beoordelaar. Wij presenteren vier kwantitatieve beoordelaars voor verschillende soorten absolute en relatieve feedback, wat de algemeenheid en veelzijdigheid van ons raamwerk aantoont. Ons raamwerk is computationeel efficiënter dan supervised fine-tuning en kan statistisch efficiënter zijn wanneer menselijke feedback beperkt is, wat in de meeste toepassingen van ons werk wordt verwacht. Wij valideren deze claims empirisch op vier datasets met behulp van twee basisbeoordelaars. Onze experimenten tonen aan dat kwantitatieve beoordelaars de voorspellende kracht van bestaande beoordelaars effectief kunnen verbeteren door middel van post-hoc modellering.
De ontdekking van hoogtemperatuur-supergeleidende materialen is van groot belang voor de menselijke industrie en het dagelijks leven. In recente jaren heeft onderzoek naar het voorspellen van supergeleidende overgangstemperaturen met behulp van kunstmatige intelligentie (AI) aan populariteit gewonnen, waarbij de meeste van deze tools opmerkelijke nauwkeurigheid claimen te bereiken. Het ontbreken van algemeen geaccepteerde benchmarkdatasets op dit gebied heeft echter een eerlijke vergelijking tussen verschillende AI-algoritmen ernstig belemmerd en verdere vooruitgang van deze methoden vertraagd. In dit werk presenteren we de HTSC-2025, een benchmarkdataset voor hoogtemperatuur-supergeleiding onder omgevingsdruk. Deze uitgebreide compilatie omvat theoretisch voorspelde supergeleidende materialen die door theoretisch natuurkundigen zijn ontdekt van 2023 tot 2025, gebaseerd op de BCS-supergeleidingstheorie, waaronder het bekende X_2YH_6-systeem, het perovskiet MXH_3-systeem, het M_3XH_8-systeem, kooiachtige BCN-gedoteerde metaalatomaire systemen afgeleid van de structurele evolutie van LaH_{10}, en tweedimensionale honingraatstructuren geëvolueerd uit MgB_2. De HTSC-2025-benchmark is openbaar gemaakt op https://github.com/xqh19970407/HTSC-2025 en zal continu worden bijgewerkt. Deze benchmark is van groot belang voor het versnellen van de ontdekking van supergeleidende materialen met behulp van AI-gebaseerde methoden.
Ondanks recente vooruitgang in inversie en instructiegebaseerde beeldbewerking, excelleren bestaande benaderingen vooral bij het bewerken van enkele, prominente objecten, maar hebben ze aanzienlijke moeite wanneer ze worden toegepast op complexe scènes met meerdere entiteiten. Om deze kloof te kwantificeren, introduceren we eerst RefEdit-Bench, een rigoureus real-world benchmark gebaseerd op RefCOCO, waar zelfs basismodellen die op miljoenen voorbeelden zijn getraind slecht presteren. Om deze beperking te overwinnen, introduceren we RefEdit — een instructiegebaseerd bewerkingsmodel getraind op onze schaalbare synthetische datageneratiepijplijn. Onze RefEdit, getraind op slechts 20.000 bewerkingstriplets, presteert beter dan de Flux/SD3-modelgebaseerde basismodellen die op miljoenen data zijn getraind. Uitgebreide evaluaties op verschillende benchmarks tonen aan dat ons model niet alleen uitblinkt in taken met verwijzingsexpressies, maar ook de prestaties op traditionele benchmarks verbetert, waarbij het state-of-the-art resultaten behaalt die vergelijkbaar zijn met closed-source methoden. We maken data \& checkpoint beschikbaar voor reproduceerbaarheid.
Grote taalmodellen (LLM's) worden vaak geprezen vanwege hun bijna menselijke prestaties op een breed scala aan taken en gewaardeerd om hun vermogen om een algemeen gesprek te voeren. De opkomst van agent-gebaseerde AI-systemen brengt echter een massa toepassingen met zich mee waarin taalmodellen een beperkt aantal gespecialiseerde taken repetitief en met weinig variatie uitvoeren. Hier betogen wij dat kleine taalmodellen (SLM's) krachtig genoeg zijn, inherent geschikter en noodzakelijkerwijs economischer zijn voor veel aanroepingen in agent-systemen, en daarom de toekomst vormen van agent-gebaseerde AI. Onze argumentatie is gebaseerd op het huidige niveau van capaciteiten dat SLM's tentoonspreiden, de gangbare architectuur van agent-systemen en de economie van LM-implementatie. Wij stellen verder dat in situaties waar algemene gespreksvaardigheden essentieel zijn, heterogene agent-systemen (d.w.z. agents die meerdere verschillende modellen aanroepen) de natuurlijke keuze zijn. Wij bespreken de potentiële barrières voor de adoptie van SLM's in agent-systemen en schetsen een algemeen LLM-naar-SLM agent-conversie-algoritme. Onze positie, geformuleerd als een waardestelling, benadrukt het belang van de operationele en economische impact die zelfs een gedeeltelijke verschuiving van LLM's naar SLM's zal hebben op de AI-agentindustrie. Wij streven ernaar de discussie over het effectieve gebruik van AI-bronnen te stimuleren en hopen de inspanningen om de kosten van hedendaagse AI te verlagen te bevorderen. Wij roepen zowel op tot bijdragen als tot kritiek op onze positie en verbinden ons ertoe alle correspondentie hierover te publiceren op https://research.nvidia.com/labs/lpr/slm-agents.
Stroomdiagrammen zijn een cruciaal hulpmiddel voor het visualiseren van besluitvormingsprocessen. Hun niet-lineaire structuur en complexe visueel-tekstuele relaties maken het echter uitdagend om ze te interpreteren met behulp van LLM's, aangezien vision-language modellen vaak niet-bestaande verbindingen en beslispaden hallucineren bij het analyseren van deze diagrammen. Dit leidt tot een verminderde betrouwbaarheid van geautomatiseerde verwerking van stroomdiagrammen in kritieke domeinen zoals logistiek, gezondheidszorg en techniek. We introduceren de taak van Fine-grained Flowchart Attribution, die specifieke componenten traceert die een stroomdiagram refererend LLM-antwoord onderbouwen. Flowchart Attribution zorgt voor de verifieerbaarheid van LLM-voorspellingen en verbetert de uitlegbaarheid door gegenereerde antwoorden te koppelen aan de structuur van het stroomdiagram. We stellen FlowPathAgent voor, een neurosymbolisch agent dat fijnmazige post hoc attributie uitvoert via grafisch gebaseerd redeneren. Het segment eerst het stroomdiagram, converteert het vervolgens naar een gestructureerde symbolische grafiek, en gebruikt dan een agentische aanpak om dynamisch te interageren met de grafiek, om attributiepaden te genereren. Daarnaast presenteren we FlowExplainBench, een nieuwe benchmark voor het evalueren van stroomdiagramattributies over diverse stijlen, domeinen en vraagtypen. Experimentele resultaten tonen aan dat FlowPathAgent visuele hallucinaties in LLM-antwoorden over stroomdiagram QA vermindert, en sterke baseline-methoden met 10-14% overtreft op onze voorgestelde FlowExplainBench dataset.
Pruning is recentelijk op grote schaal geadopteerd om de parameterschaal te verkleinen en de inferentie-efficiëntie van Large Language Models (LLMs) te verbeteren. Mainstream pruningtechnieken vertrouwen vaak op uniforme laaggewijze pruningstrategieën, wat kan leiden tot ernstige prestatievermindering bij hoge sparsity-niveaus. Gezien de variërende bijdragen van verschillende lagen in LLMs, hebben recente studies hun focus verlegd naar niet-uniforme laaggewijze pruning. Deze benaderingen zijn echter vaak gebaseerd op vooraf gedefinieerde waarden, wat kan resulteren in suboptimale prestaties. Om deze beperkingen te overwinnen, stellen we een nieuwe methode voor genaamd Dynamic Layerwise Pruning (DLP). Deze benadering bepaalt adaptief het relatieve belang van elke laag door modelgewichten te integreren met inputactivatie-informatie, en wijst pruningpercentages dienovereenkomstig toe. Experimentele resultaten tonen aan dat DLP effectief de modelprestaties behoudt bij hoge sparsity-niveaus over meerdere LLMs. Specifiek reduceert DLP bij 70% sparsity de perplexiteit van LLaMA2-7B met 7,79 en verbetert het de gemiddelde nauwkeurigheid met 2,7% in vergelijking met state-of-the-art methoden. Bovendien is DLP compatibel met verschillende bestaande LLM-compressietechnieken en kan het naadloos worden geïntegreerd in Parameter-Efficient Fine-Tuning (PEFT). We hebben de code vrijgegeven op https://github.com/ironartisan/DLP om toekomstig onderzoek te faciliteren.
Recente benchmarks voor het begrijpen van lange video's en taal hebben vooruitgang gestimuleerd in grote multimodale videomodelen (Video-LMMs). De schaarste aan goed geannoteerde lange video's heeft echter het trainen van uur-lange Video-LLMs onderbelicht gelaten. Om deze kloof te dichten, presenteren we VideoMarathon, een grootschalige dataset voor het volgen van instructies in uur-lange video's. Deze dataset bevat ongeveer 9.700 uur aan lange video's uit diverse domeinen, variërend van 3 tot 60 minuten per video. Specifiek bevat het 3,3 miljoen hoogwaardige vraag-antwoordparen, die zes fundamentele onderwerpen beslaan: temporaliteit, spatialiteit, object, actie, scène en gebeurtenis. In vergelijking met bestaande video-instructiedatasets, breidt VideoMarathon de trainingsvideoduur aanzienlijk uit tot 1 uur en ondersteunt het 22 diverse taken die zowel kortetermijn- als langetermijnvideobegrip vereisen. Op basis van VideoMarathon stellen we Hour-LLaVA voor, een krachtig en efficiënt Video-LMM voor uur-schaal video-taalmodellering. Het maakt training en inferentie van uur-lange video's mogelijk bij 1-FPS bemonstering door gebruik te maken van een geheugenuitbreidingsmodule, die adaptief gebruikersvraag-relevante en ruimtelijk-temporeel informatieve semantiek integreert uit een gecachete volledige videocontext. In onze experimenten behaalt Hour-LLaVA de beste prestaties op meerdere lange video-taalbenchmarks, wat de hoge kwaliteit van de VideoMarathon-dataset en de superioriteit van het Hour-LLaVA-model aantoont.
Agentische AI-systemen, gebouwd op grote taalmodellen (LLM's) en ingezet in multi-agentconfiguraties, herdefiniëren intelligente autonomie, samenwerking en besluitvorming in zowel bedrijfs- als maatschappelijke domeinen. Deze review biedt een gestructureerde analyse van Trust, Risk, en Security Management (TRiSM) in de context van LLM-gebaseerde agentische multi-agent systemen (AMAS). We beginnen met het onderzoeken van de conceptuele fundamenten van agentische AI, de architectonische verschillen met traditionele AI-agents, en de opkomende systeemontwerpen die schaalbare, tool-gebruikende autonomie mogelijk maken. De TRiSM in het agentische AI-framework wordt vervolgens gedetailleerd door vier pijlers: governance, uitlegbaarheid, ModelOps, en privacy/beveiliging, elk gecontextualiseerd voor agentische LLM's. We identificeren unieke bedreigingsvectoren en introduceren een uitgebreide risicotaxonomie voor agentische AI-toepassingen, ondersteund door casestudies die real-world kwetsbaarheden illustreren. Daarnaast onderzoekt het paper vertrouwenopbouwende mechanismen, transparantie- en toezichttechnieken, en state-of-the-art uitlegbaarheidsstrategieën in gedistribueerde LLM-agent systemen. Tevens worden metrieken voor het evalueren van vertrouwen, interpreteerbaarheid en mensgerichte prestaties besproken, naast open benchmarking-uitdagingen. Beveiliging en privacy worden behandeld via encryptie, adversariële verdediging en naleving van evoluerende AI-regelgeving. Het paper sluit af met een roadmap voor verantwoordelijke agentische AI, waarbij onderzoeksrichtingen worden voorgesteld om opkomende multi-agent systemen af te stemmen op robuuste TRiSM-principes voor veilige, verantwoordelijke en transparante inzet.
Het effectief verbeteren van de redeneervaardigheden van grote taalmodellen met behulp van reinforcement learning (RL) blijft een cruciale uitdaging. Bestaande benaderingen hanteren voornamelijk twee contrasterende granulariteiten voor voordeelschatting: Token-level methoden (bijv. PPO) streven naar fijnmazige voordeelsignalen, maar kampen met onnauwkeurige schattingen door moeilijkheden bij het trainen van een nauwkeurig criticusmodel. Aan het andere uiterste vertrouwen traject-level methoden (bijv. GRPO) uitsluitend op een grofmazig voordeelsignaal van de uiteindelijke beloning, wat leidt tot onnauwkeurige toewijzing van verdienste. Om deze beperkingen aan te pakken, stellen we Segment Policy Optimization (SPO) voor, een nieuw RL-framework dat gebruikmaakt van segment-level voordeelschatting op een tussenliggende granulariteit, waardoor een betere balans wordt bereikt door nauwkeurigere toewijzing van verdienste dan traject-level methoden en minder schattingspunten vereist dan token-level methoden, wat nauwkeurige voordeelschatting mogelijk maakt op basis van Monte Carlo (MC) zonder een criticusmodel. SPO omvat drie componenten met nieuwe strategieën: (1) flexibele segmentpartitie; (2) nauwkeurige segmentvoordeelschatting; en (3) beleidsoptimalisatie met behulp van segmentvoordelen, inclusief een nieuwe waarschijnlijkheidsmaskerstrategie. We concretiseren SPO verder voor twee specifieke scenario's: (1) SPO-chain voor korte chain-of-thought (CoT), met nieuwe partitie op basis van snijpunten en voordeelschatting op basis van ketens, wat 6-12 procentpunt verbeteringen in nauwkeurigheid oplevert ten opzichte van PPO en GRPO op GSM8K. (2) SPO-tree voor lange CoT, met nieuwe voordeelschatting op basis van bomen, wat de kosten van MC-schatting aanzienlijk verlaagt, wat 7-11 procentpunt verbeteringen oplevert ten opzichte van GRPO op MATH500 onder 2K en 4K contextevaluatie. We maken onze code openbaar beschikbaar op https://github.com/AIFrameResearch/SPO.
Object referring heeft als doel alle objecten in een afbeelding te detecteren die overeenkomen met een gegeven natuurlijke taal beschrijving. Wij stellen dat een robuust object referring model gegrond moet zijn, wat betekent dat zijn voorspellingen zowel verklaarbaar als trouw aan de visuele inhoud moeten zijn. Specifiek moet het twee belangrijke eigenschappen bezitten: 1) Verifieerbaar, door interpreteerbare redeneringen te produceren die zijn voorspellingen rechtvaardigen en deze duidelijk koppelen aan visueel bewijs; en 2) Betrouwbaar, door te leren zich te onthouden wanneer geen enkel object in de afbeelding voldoet aan de gegeven uitdrukking. De meeste methoden behandelen referring echter als een directe bounding box voorspellingstaak, wat beperkte interpreteerbaarheid biedt en moeite heeft om uitdrukkingen zonder overeenkomend object af te wijzen. In dit werk stellen we Rex-Thinker voor, een model dat object referring formuleert als een expliciete CoT redeneertaak. Gegeven een referring uitdrukking, identificeren we eerst alle kandidaat-objectinstanties die overeenkomen met de bedoelde objectcategorie. Rex-Thinker voert vervolgens stap-voor-stap redeneringen uit over elke kandidaat om te beoordelen of deze overeenkomt met de gegeven uitdrukking, voordat een definitieve voorspelling wordt gedaan. Om dit paradigma te ondersteunen, construeren we een grootschalige CoT-stijl referring dataset genaamd HumanRef-CoT door GPT-4o te prompten op de HumanRef dataset. Elke redeneersporen volgt een gestructureerd planning, actie en samenvattingsformaat, waardoor het model geleerde, interpreteerbare redeneringen over objectkandidaten kan uitvoeren. Vervolgens trainen we Rex-Thinker in twee fasen: een cold-start supervised fine-tuning fase om het model te leren hoe het gestructureerde redeneringen moet uitvoeren, gevolgd door GRPO-gebaseerd RL leren om de nauwkeurigheid en generalisatie te verbeteren. Experimenten tonen aan dat onze aanpak standaard baselines overtreft in zowel precisie als interpreteerbaarheid bij in-domein evaluatie, terwijl het ook een verbeterd vermogen toont om gehallucineerde uitvoer af te wijzen en sterke generalisatie in out-of-domein settings.
De zoektocht naar Continual Learning (CL) streeft ernaar neurale netwerken de mogelijkheid te geven om incrementeel te leren en zich aan te passen. Centraal in deze zoektocht staat het aanpakken van het stabiliteit-plasticiteit dilemma, waarbij een balans moet worden gevonden tussen twee tegenstrijdige doelstellingen: het behouden van eerder verworven kennis en het verwerven van nieuwe kennis. Hoewel talrijke CL-methoden deze afweging proberen te bereiken, negeren ze vaak de impact van netwerkarchitectuur op stabiliteit en plasticiteit, waardoor de afweging beperkt blijft tot het parameterniveau. In dit artikel verdiepen we ons in het conflict tussen stabiliteit en plasticiteit op architectuurniveau. We tonen aan dat onder een gelijke parameterbeperking diepere netwerken betere plasticiteit vertonen, terwijl bredere netwerken worden gekenmerkt door superieure stabiliteit. Om dit architectuurniveau dilemma aan te pakken, introduceren we een nieuw framework genaamd Dual-Arch, dat fungeert als een plug-in component voor CL. Dit framework benut de complementaire sterktes van twee verschillende en onafhankelijke netwerken: één gericht op plasticiteit en de ander op stabiliteit. Elk netwerk is ontworpen met een gespecialiseerde en lichtgewicht architectuur, afgestemd op het respectieve doel. Uitgebreide experimenten tonen aan dat Dual-Arch de prestaties van bestaande CL-methoden verbetert, terwijl het tot 87% compacter is wat betreft het aantal parameters.
Publicatiedatabases zijn afhankelijk van nauwkeurige metadata-extractie uit diverse webbronnen, maar variaties in webindelingen en dataformaten vormen uitdagingen voor metadata-aanbieders. Dit artikel introduceert CRAWLDoc, een nieuwe methode voor contextueel rangschikken van gelinkte webdocumenten. Uitgaande van de URL van een publicatie, zoals een digital object identifier, haalt CRAWLDoc de landingspagina en alle gelinkte webbronnen op, waaronder PDF's, ORCID-profielen en aanvullende materialen. Het integreert deze bronnen, samen met ankerteksten en de URL's, in een uniforme representatie. Voor de evaluatie van CRAWLDoc hebben we een nieuwe, handmatig gelabelde dataset gemaakt van 600 publicaties van zes toonaangevende uitgevers in de informatica. Onze methode CRAWLDoc toont een robuuste en lay-out-onafhankelijke rangschikking van relevante documenten over uitgevers en dataformaten heen. Het legt de basis voor verbeterde metadata-extractie uit webdocumenten met verschillende lay-outs en formaten. Onze broncode en dataset zijn toegankelijk op https://github.com/FKarl/CRAWLDoc.
Een manier om risico's in vision-language modellen (VLMs) te beperken, is door gevaarlijke voorbeelden uit hun trainingsdata te verwijderen. Echter, kan zo'n datamoderatie eenvoudig worden omzeild wanneer schadelijke afbeeldingen worden opgesplitst in kleine, onschuldig ogende fragmenten die verspreid zijn over vele trainingsvoorbeelden. VLMs kunnen dan leren om deze fragmenten tijdens de training samen te voegen en schadelijke reacties genereren tijdens de inferentie, zowel vanuit volledige afbeeldingen als tekstreferenties. Bijvoorbeeld, als een VLM getraind wordt op afbeeldingsfragmenten van een bloedige scène die gepaard gaan met de beschrijving "veilig", kan het model later de volledige afbeelding of een tekstreferentie naar de scène beschrijven als "veilig". Wij definiëren de kernvaardigheid van VLMs die deze aanval mogelijk maakt als visuele stitching — het vermogen om visuele informatie die verspreid is over meerdere trainingsvoorbeelden die dezelfde tekstuele beschrijvingen delen, te integreren. In ons werk demonstreren we eerst de visuele stitching-vaardigheden in veelgebruikte open-source VLMs op drie datasets waarbij elke afbeelding is gelabeld met een unieke synthetische ID: we splitsen elk (afbeelding, ID) paar op in {(fragment, ID)} paren op verschillende granulariteiten voor finetuning, en we ontdekken dat afgestemde modellen de correcte ID's kunnen verbaliseren vanuit volledige afbeeldingen of tekstreferenties. Hierop voortbouwend simuleren we het bovengenoemde scenario van adversariële datavergiftiging door fragmenten van gevaarlijke afbeeldingen te gebruiken en de ID's te vervangen door tekstbeschrijvingen zoals "veilig" of "onveilig", waarmee we aantonen hoe schadelijke inhoud moderatie in fragmenten kan omzeilen en later gereconstrueerd kan worden via visuele stitching, wat ernstige veiligheidsrisico's voor VLMs met zich meebrengt. Code is beschikbaar op https://github.com/ZHZisZZ/visual-stitching.
3D-reconstructie uit beelden in de vrije natuur blijft een uitdagende taak vanwege inconsistente belichtingsomstandigheden en tijdelijke afleiders. Bestaande methoden vertrouwen doorgaans op heuristische strategieën om om te gaan met de lage kwaliteit van de trainingsdata, wat vaak moeite heeft om stabiele en consistente reconstructies te produceren, wat resulteert in visuele artefacten. In dit werk stellen we Asymmetric Dual 3DGS voor, een nieuw raamwerk dat gebruikmaakt van de stochastische aard van deze artefacten: ze hebben de neiging te variëren tussen verschillende trainingsruns vanwege kleine willekeurigheden. Specifiek traint onze methode twee 3D Gaussian Splatting (3DGS)-modellen parallel, waarbij een consistentiebeperking wordt opgelegd die convergentie op betrouwbare scènegeometrie bevordert en inconsistente artefacten onderdrukt. Om te voorkomen dat de twee modellen in vergelijkbare foutmodi vervallen door bevestigingsbias, introduceren we een divergente maskerstrategie die twee complementaire maskers toepast: een multi-cue adaptief masker en een zelfgesuperviseerd zacht masker, wat leidt tot een asymmetrisch trainingsproces van de twee modellen, waardoor gedeelde foutmodi worden verminderd. Daarnaast introduceren we, om de efficiëntie van modeltraining te verbeteren, een lichtgewicht variant genaamd Dynamic EMA Proxy, die een van de twee modellen vervangt door een dynamisch bijgewerkte Exponentiële Voortschrijdend Gemiddelde (EMA) proxy, en een afwisselende maskerstrategie gebruikt om divergentie te behouden. Uitgebreide experimenten op uitdagende real-world datasets tonen aan dat onze methode consistent beter presteert dan bestaande benaderingen, terwijl een hoge efficiëntie wordt bereikt. Codes en getrainde modellen zullen worden vrijgegeven.
Flow-based latente generatieve modellen zoals Stable Diffusion 3 zijn in staat om afbeeldingen van opmerkelijke kwaliteit te genereren, zelfs tot het punt van fotorealistische tekst-naar-afbeelding generatie. Hun indrukwekkende prestaties suggereren dat deze modellen ook krachtige priors zouden moeten vormen voor inverse beeldvormingsproblemen, maar die aanpak heeft nog niet geleid tot vergelijkbare nauwkeurigheid. Er zijn verschillende belangrijke obstakels: (i) de codering in een lagere-dimensionale latente ruimte maakt de onderliggende (voorwaartse) afbeelding niet-lineair; (ii) de data likelihood term is meestal onhanteerbaar; en (iii) geleerde generatieve modellen hebben moeite met het herstellen van zeldzame, atypische datamodi tijdens inferentie. Wij presenteren FLAIR, een nieuw trainingsvrij variatief raamwerk dat flow-based generatieve modellen benut als prior voor inverse problemen. Hiertoe introduceren we een variatief doel voor flow matching dat agnostisch is voor het type degradatie, en combineren we dit met deterministische trajectaanpassingen om atypische modi te herstellen. Om exacte consistentie met de waargenomen data af te dwingen, ontkoppelen we de optimalisatie van de data-fidelity en regularisatietermen. Bovendien introduceren we een tijdafhankelijk kalibratieschema waarin de sterkte van de regularisatie wordt gemoduleerd op basis van off-line nauwkeurigheidsschattingen. Resultaten op standaard beeldvormingsbenchmarks tonen aan dat FLAIR consistent beter presteert dan bestaande diffusie- en flow-based methoden wat betreft reconstructiekwaliteit en steekproefdiversiteit.
Multi-staps symbolisch redeneren is cruciaal voor het verbeteren van de prestaties op financiële taken. Toch ontbreken er benchmarks om deze capaciteit systematisch te evalueren. Bestaande datasets zoals FinQA en ConvFinQA begeleiden alleen de uiteindelijke numerieke antwoorden, zonder de tussenliggende redeneerstappen te beoordelen. Om dit aan te pakken, introduceren we FinChain, de eerste symbolische benchmark die is ontworpen voor verifieerbaar Chain-of-Thought (CoT) financieel redeneren. FinChain beslaat 54 onderwerpen over 12 financiële domeinen en biedt vijf geparametriseerde sjablonen per onderwerp, elk met variërende redeneercomplexiteit en benodigde domeinkennis. Elke datasetinstantie bevat een uitvoerbaar Python-trace, waardoor automatische generatie van uitgebreide trainingsdata mogelijk is en eenvoudige aanpassing aan andere domeinen. We introduceren ook ChainEval, een nieuwe metriek voor de automatische evaluatie van zowel de uiteindelijke antwoorden als de tussenliggende redenering. Door 30 LLM's op onze dataset te benchmarken, ontdekken we dat zelfs state-of-the-art modellen aanzienlijke ruimte voor verbetering hebben in multi-staps financieel redeneren. Alle sjablonen en evaluatiemetrices voor FinChain zijn beschikbaar op https://github.com/mbzuai-nlp/finchain.
Het genereren van nauwkeurige geluiden voor complexe audio-visuele scènes is uitdagend, vooral in aanwezigheid van meerdere objecten en geluidsbronnen. In dit artikel stellen we een {\em interactief objectbewust audiogeneratiemodel} voor dat geluidsgeneratie verankert in door de gebruiker geselecteerde visuele objecten binnen afbeeldingen. Onze methode integreert objectgerichte learning in een conditioneel latent diffusiemodel, dat leert om beeldregio's te associëren met hun corresponderende geluiden via multi-modale aandacht. Tijdens de testfase maakt ons model gebruik van beeldsegmentatie om gebruikers in staat te stellen interactief geluiden te genereren op het {\em object} niveau. We valideren theoretisch dat ons aandachtmechanisme functioneel testtijdsegmentatiemaskers benadert, waardoor gegarandeerd wordt dat het gegenereerde audio overeenkomt met geselecteerde objecten. Kwantitatieve en kwalitatieve evaluaties tonen aan dat ons model de baseline-methoden overtreft, met een betere afstemming tussen objecten en hun geassocieerde geluiden. Projectpagina: https://tinglok.netlify.app/files/avobject/
Het annoteren van gegevens is een tijdrovende en kostbare taak, maar het is inherent vereist voor supervised machine learning. Actief Leren (Active Learning, AL) is een gevestigde methode die de inspanning voor menselijke labeling minimaliseert door iteratief de meest informatieve niet-gelabelde samples te selecteren voor expertannotatie, waardoor de algehele classificatieprestatie wordt verbeterd. Hoewel AL al decennia bekend is, wordt het nog steeds zelden gebruikt in praktijktoepassingen. Zoals aangegeven in twee community-webenquêtes onder de NLP-gemeenschap over AL, houden twee hoofdredenen beoefenaars nog steeds tegen om AL te gebruiken: ten eerste de complexiteit van het opzetten van AL, en ten tweede een gebrek aan vertrouwen in de effectiviteit ervan. Wij veronderstellen dat beide redenen dezelfde oorzaak hebben: de grote hyperparameterruimte van AL. Deze grotendeels onontgonnen hyperparameterruimte leidt vaak tot misleidende en niet-reproduceerbare AL-experimentresultaten. In deze studie hebben we eerst een grote hyperparameterrooster samengesteld van meer dan 4,6 miljoen hyperparametercombinaties, vervolgens de prestaties van alle combinaties vastgelegd in de tot nu toe grootste uitgevoerde AL-studie, en ten derde de impact van elke hyperparameter op de experimentresultaten geanalyseerd. Tot slot geven we aanbevelingen over de invloed van elke hyperparameter, demonstreren we de verrassende invloed van de concrete implementatie van de AL-strategie, en schetsen we een experimentele studieopzet voor reproduceerbare AL-experimenten met minimale rekeninspanning, waardoor we bijdragen aan meer reproduceerbaar en betrouwbaar AL-onderzoek in de toekomst.
Met de snelle ontwikkeling van multimodale grote taalmodellen (MLLMs) worden ze steeds vaker ingezet als autonome computergebruiksagenten die complexe computertaken kunnen uitvoeren. Er rijst echter een dringende vraag: Kunnen de veiligheidsrisicoprincipes die zijn ontworpen en afgestemd voor algemene MLLMs in dialoogscenario's effectief worden overgedragen naar real-world computergebruiksscenario's? Bestaand onderzoek naar het evalueren van de veiligheidsrisico's van MLLM-gebaseerde computergebruiksagenten kampt met verschillende beperkingen: het ontbreekt aan realistische interactieve omgevingen, of het richt zich slechts op één of een paar specifieke risicotypen. Deze beperkingen negeren de complexiteit, variabiliteit en diversiteit van real-world omgevingen, waardoor een uitgebreide risicobeoordeling voor computergebruiksagenten wordt beperkt. Daarom introduceren we RiOSWorld, een benchmark ontworpen om de potentiële risico's van MLLM-gebaseerde agenten tijdens real-world computermanipulaties te evalueren. Onze benchmark omvat 492 risicovolle taken die verschillende computerapplicaties beslaan, waaronder web, sociale media, multimedia, besturingssystemen, e-mail en kantoorsoftware. We categoriseren deze risico's in twee hoofdklassen op basis van hun risicobron: (i) door de gebruiker veroorzaakte risico's en (ii) omgevingsrisico's. Voor de evaluatie beoordelen we veiligheidsrisico's vanuit twee perspectieven: (i) risicodoelintentie en (ii) risicodoelvoltooiing. Uitgebreide experimenten met multimodale agenten op RiOSWorld tonen aan dat huidige computergebruiksagenten aanzienlijke veiligheidsrisico's ondervinden in real-world scenario's. Onze bevindingen benadrukken de noodzaak en urgentie van veiligheidsafstemming voor computergebruiksagenten in real-world computermanipulatie, en bieden waardevolle inzichten voor het ontwikkelen van betrouwbare computergebruiksagenten. Onze benchmark is publiekelijk beschikbaar op https://yjyddq.github.io/RiOSWorld.github.io/.