Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren rStar2-Agent, een 14B wiskundig redeneermodel getraind met agent-gebaseerde reinforcement learning om prestaties op het hoogste niveau te bereiken. Naast de huidige lange Chain-of-Thought (CoT) toont het model geavanceerde cognitieve gedragingen, zoals zorgvuldig nadenken voordat Python-codetools worden gebruikt en reflecteren op feedback van code-uitvoering om autonoom tussenstappen in complexe probleemoplossing te verkennen, verifiëren en verfijnen. Deze mogelijkheid wordt mogelijk gemaakt door drie belangrijke innovaties die agent-gebaseerde RL effectief maken op grote schaal: (i) een efficiënte RL-infrastructuur met een betrouwbare Python-codeomgeving die hoogwaardige uitvoering ondersteunt en de hoge rollout-kosten beperkt, waardoor training op beperkte GPU-bronnen (64 MI300X GPU's) mogelijk wordt; (ii) GRPO-RoC, een agent-gebaseerd RL-algoritme met een Resample-on-Correct rollout-strategie die de inherente omgevingsruis van codetools aanpakt, waardoor het model effectiever kan redeneren in een codeomgeving; (iii) Een efficiënt agent-trainingsrecept dat begint met niet-redenerende Supervised Fine-Tuning (SFT) en doorloopt naar multi-RL-fasen, wat geavanceerde cognitieve vaardigheden oplevert tegen minimale rekenkosten. Hierdoor wordt een vooraf getraind 14B-model in slechts 510 RL-stappen binnen één week naar de staat van de kunst gebracht, met gemiddelde pass@1-scores van 80,6% op AIME24 en 69,8% op AIME25, waarmee DeepSeek-R1 (671B) wordt overtroffen met aanzienlijk kortere antwoorden. Naast wiskunde toont rStar2-Agent-14B ook sterke generalisatie naar alignment, wetenschappelijk redeneren en agent-gebaseerde tool-gebruikstaken. Code en trainingsrecepten zijn beschikbaar op https://github.com/microsoft/rStar.
Recente ontwikkelingen benadrukken het belang van GRPO-gebaseerde reinforcement learning-methoden en benchmarking bij het verbeteren van tekst-naar-beeld (T2I) generatie. Huidige methoden die gebruikmaken van puntgewijze beloningsmodellen (RM) voor het scoren van gegenereerde beelden zijn echter vatbaar voor beloningsmanipulatie. Wij tonen aan dat dit gebeurt wanneer minimale scoreverschillen tussen beelden worden versterkt na normalisatie, wat illusoire voordelen creëert die het model ertoe aanzetten om te overoptimaliseren voor triviale winsten, wat uiteindelijk het beeldgeneratieproces destabiliseert. Om dit aan te pakken, stellen we Pref-GRPO voor, een paarsgewijze voorkeursbeloningsgebaseerde GRPO-methode die het optimalisatiedoel verschuift van scoremaximalisatie naar voorkeursafstemming, wat zorgt voor een stabielere training. In Pref-GRPO worden beelden paarsgewijs vergeleken binnen elke groep met behulp van voorkeurs-RM, en de winratio wordt gebruikt als het beloningssignaal. Uitgebreide experimenten tonen aan dat Pref-GRPO subtiele beeldkwaliteitsverschillen onderscheidt, wat zorgt voor stabielere voordelen en beloningsmanipulatie vermindert. Daarnaast worden bestaande T2I-benchmarks beperkt door grove evaluatiecriteria, wat een uitgebreide modelbeoordeling belemmert. Om dit op te lossen, introduceren we UniGenBench, een geünificeerde T2I-benchmark bestaande uit 600 prompts verdeeld over 5 hoofdthema's en 20 subthema's. Het evalueert semantische consistentie via 10 primaire en 27 subcriteria, waarbij gebruik wordt gemaakt van MLLM voor de constructie en evaluatie van de benchmark. Onze benchmarks onthullen de sterke en zwakke punten van zowel open-source als closed-source T2I-modellen en valideren de effectiviteit van Pref-GRPO.
We introduceren MCP-Bench, een benchmark voor het evalueren van grote taalmodellen (LLMs) op realistische, meerstaps taken die het gebruik van tools, coördinatie tussen tools, precieze parametercontrole en planning/redeneren vereisen om taken op te lossen. Gebouwd op het Model Context Protocol (MCP), verbindt MCP-Bench LLMs met 28 representatieve live MCP-servers die 250 tools omvatten in domeinen zoals financiën, reizen, wetenschappelijk rekenen en academisch zoeken. In tegenstelling tot eerdere API-gebaseerde benchmarks, biedt elke MCP-server een set complementaire tools die ontworpen zijn om samen te werken, waardoor de constructie van authentieke, meerstaps taken met rijke input-output koppeling mogelijk wordt. Taken in MCP-Bench testen het vermogen van agents om relevante tools te halen uit vage instructies zonder expliciete toolnamen, meerstaps uitvoeringstrajecten te plannen voor complexe doelen, reacties te verankeren in tussenliggende tooloutputs en domeinoverschrijdende workflows te orkestreren - vaardigheden die niet adequaat worden geëvalueerd door bestaande benchmarks die vertrouwen op expliciete toolspecificaties, ondiepe weinigstaps workflows en geïsoleerde domeinoperaties. We stellen een veelzijdig evaluatiekader voor dat toolniveau schema-begrip en -gebruik, trajectniveau planning en taakvoltooiing omvat. Experimenten met 20 geavanceerde LLMs onthullen aanhoudende uitdagingen in MCP-Bench. Code en data: https://github.com/Accenture/mcp-bench.
Bestaande literatuur behandelt stijlgedreven en onderwerpgedreven generatie doorgaans als twee gescheiden taken: de eerste legt de nadruk op stilistische gelijkenis, terwijl de tweede aandringt op consistentie van het onderwerp, wat resulteert in een schijnbare tegenstelling. Wij stellen dat beide doelstellingen kunnen worden verenigd onder één enkel raamwerk, omdat ze uiteindelijk gaan over het ontwarren en opnieuw samenstellen van inhoud en stijl, een lang bestaand thema in stijlgedreven onderzoek. Hiertoe presenteren wij USO, een Unified Style-Subject Optimized aanpassingsmodel. Ten eerste construeren we een grootschalige tripletdataset bestaande uit inhoudsafbeeldingen, stijlafbeeldingen en hun corresponderende gestileerde inhoudsafbeeldingen. Ten tweede introduceren we een ontward leerprogramma dat tegelijkertijd stijlkenmerken uitlijnt en inhoud van stijl ontwart door middel van twee complementaire doelstellingen: stijluitlijnings-training en inhoud-stijl-ontwarrings-training. Ten derde integreren we een stijlbeloningsleerparadigma, aangeduid als SRL, om de prestaties van het model verder te verbeteren. Tot slot brengen we USO-Bench uit, de eerste benchmark die zowel stijlgelijkheid als onderwerptrouw gezamenlijk evalueert over meerdere metrieken. Uitgebreide experimenten tonen aan dat USO state-of-the-art prestaties behaalt onder open-source modellen op zowel het gebied van onderwerpsconsistentie als stijlgelijkheid. Code en model: https://github.com/bytedance/USO
Het leren door praktijkparadigma is cruciaal voor het ontwikkelen van capabele agentieve AI-systemen, maar wordt ernstig belemmerd door inefficiënte ervaringsgeneratie, een knelpunt dat vooral duidelijk wordt in complexe benchmarks zoals GAIA. Om dit aan te pakken, introduceren we AWorld, een open-source systeem dat is ontworpen voor grootschalige interactie tussen agent en omgeving. Door taken te verdelen over een cluster, versnelt AWorld de ervaringsverzameling met een factor 14,6 in vergelijking met standaard uitvoering op één knooppunt. Deze cruciale versnelling maakt uitgebreide reinforcement learning praktisch en schaalbaar. Door gebruik te maken van deze mogelijkheid, hebben we een agent getraind op basis van Qwen3-32B die zijn basismodel aanzienlijk overtreft, waarbij de algehele nauwkeurigheid op GAIA stijgt van 21,59% naar 32,23%. Op de meest uitdagende niveaus van de benchmark behaalt onze agent een score van 16,33%, wat de prestaties van toonaangevende propriëtaire modellen overtreft. Ons open-source systeem en de resulterende agent bieden een praktisch blauwdruk voor een complete trainingspijplijn voor agentieve AI, van efficiënte interactie tot aantoonbare modelverbetering.
Het genereren van lange video's is in wezen een probleem van langetermijngeheugen: modellen moeten belangrijke gebeurtenissen over een lange periode behouden en ophalen zonder in te storten of af te dwalen. Het schalen van diffusietransformers voor het genereren van video's met een lange context wordt echter fundamenteel beperkt door de kwadratische kosten van zelf-attentie, wat geheugen en berekening onhandelbaar maakt en moeilijk te optimaliseren voor lange sequenties. Wij herformuleren het genereren van video's met een lange context als een interne informatie-ophaaltaak en stellen een eenvoudige, leerbare sparse attention routing module voor, Mixture of Contexts (MoC), als een effectieve motor voor het ophalen van langetermijngeheugen. In MoC selecteert elke query dynamisch een paar informatieve chunks plus verplichte ankers (bijschrift, lokale vensters) om aandacht aan te besteden, met causale routing die lusafsluitingen voorkomt. Naarmate we de data schalen en de routing geleidelijk verspreiden, wijst het model rekenkracht toe aan belangrijke geschiedenis, waardoor identiteiten, acties en scènes over minuten aan inhoud behouden blijven. Efficiëntie volgt als een bijproduct van het ophalen (bijna-lineaire schaling), wat praktische training en synthese mogelijk maakt, en het ontstaan van geheugen en consistentie op de schaal van minuten.
We introduceren de eerste data-gedreven multi-view 3D-puntvolger, ontworpen om willekeurige punten in dynamische scènes te volgen met behulp van meerdere camerabeelden. In tegenstelling tot bestaande monocular trackers, die moeite hebben met diepteambiguïteiten en occlusie, of eerdere multi-cameramethoden die meer dan 20 camera's en tijdrovende per-sequentie optimalisatie vereisen, voorspelt ons feed-forward model direct 3D-correspondenties met een praktisch aantal camera's (bijvoorbeeld vier), wat robuuste en nauwkeurige online tracking mogelijk maakt. Gegeven bekende cameraposities en ofwel sensor-gebaseerde of geschatte multi-view diepte, fuseert onze tracker multi-view kenmerken in een verenigd puntenwolk en past k-nearest-neighbors correlatie toe naast een transformer-gebaseerde update om betrouwbaar langeafstands 3D-correspondenties te schatten, zelfs onder occlusie. We trainen op 5K synthetische multi-view Kubric-sequenties en evalueren op twee real-world benchmarks: Panoptic Studio en DexYCB, waarbij we mediane trajectfouten van respectievelijk 3,1 cm en 2,0 cm behalen. Onze methode generaliseert goed naar diverse cameraopstellingen van 1-8 views met variërende gezichtspunten en videolengtes van 24-150 frames. Door onze tracker samen met trainings- en evaluatiedatasets vrij te geven, streven we ernaar een nieuwe standaard te zetten voor multi-view 3D-trackingonderzoek en een praktisch hulpmiddel te bieden voor real-world toepassingen. Projectpagina beschikbaar op https://ethz-vlg.github.io/mvtracker.
Diverse instructiedata is essentieel voor effectieve instructieafstemming van grote taalmodelen, omdat het het model in staat stelt te generaliseren over verschillende soorten invoer. Het opbouwen van zo'n gediversifieerd instructiedataset is een cruciale stap in dit proces. Bestaande benaderingen maken vaak gebruik van grote taalmodelen om automatisch diverse instructies te verkennen en te genereren, waardoor zowel datadiversiteit als kwaliteit worden gewaarborgd. Ze negeren echter vaak een belangrijke factor in praktische toepassingen: relevantie voor de taak. In de praktijk vereisen slechts enkele real-world toepassingen een echt algemeen model; de meeste profiteren van taakspecifieke kennis die is afgestemd op hun specifieke use case. Daarom is het van vitaal belang om instructie-augmentatiemethoden te ontwikkelen die niet alleen diversiteit behouden, maar ook geoptimaliseerd zijn voor specifieke, real-world scenario's. Wij introduceren daarom Task Centric Instruction Augmentation (TCIA), een raamwerk dat instructies systematisch uitbreidt terwijl zowel diversiteit als taakafstemming behouden blijft. Door instructies weer te geven in een discrete query-beperkingenruimte, creëert TCIA een rijke set taakrelevante instructies en stelt het modellen in staat te generaliseren naar deze taakspecifieke instructies zonder in te leveren op algehele prestaties. Experimenten tonen aan dat TCIA de prestaties van open-source LLM's met gemiddeld 8,7% verbetert over vier real-world, taakspecifieke toepassingen, en in sommige gevallen zelfs leidende closed-source modellen overtreft. Deze verbeteringen gaan niet ten koste van het algemene vermogen om instructies te volgen, waardoor TCIA een schaalbare en efficiënte oplossing is voor het aanpassen van LLM's aan real-world, taakgerichte toepassingen.
Veiligheidsafstemming in Large Language Models (LLMs) houdt vaak in dat interne representaties worden bemiddeld om schadelijke verzoeken te weigeren. Recent onderzoek heeft aangetoond dat deze veiligheidsmechanismen kunnen worden omzeild door specifieke representatierichtingen binnen het model te verwijderen of uit te schakelen. In dit artikel stellen we de tegenovergestelde aanpak voor: Rank-One Safety Injection (ROSI), een white-box methode die de veiligheidsafstemming van een model versterkt door de activeringen permanent te sturen naar de subspace die het weigeren bemiddelt. ROSI werkt als een eenvoudige, fijn-tuning-vrije rang-één gewichtsmodificatie die wordt toegepast op alle residustroom-schrijftmatrices. De vereiste veiligheidsrichting kan worden berekend aan de hand van een kleine set schadelijke en onschadelijke instructieparen. We laten zien dat ROSI consistent de veiligheidsweigeringspercentages verhoogt - zoals geëvalueerd door Llama Guard 3 - terwijl de bruikbaarheid van het model op standaardbenchmarks zoals MMLU, HellaSwag en Arc behouden blijft. Bovendien tonen we aan dat ROSI ook 'ongecensureerde' modellen opnieuw kan afstemmen door hun eigen latente veiligheidsrichtingen te versterken, wat het nut ervan aantoont als een effectieve laatste-mijl veiligheidsprocedure. Onze resultaten suggereren dat gericht, interpreteerbaar gewichtssturen een goedkope en krachtige mechanisme is om de veiligheid van LLMs te verbeteren, wat een aanvulling vormt op meer resource-intensieve fijn-tuning paradigma's.
In dit artikel introduceren we OneReward, een uniform raamwerk voor reinforcement learning dat de generatieve capaciteiten van het model verbetert over meerdere taken onder verschillende evaluatiecriteria met slechts één beloningsmodel. Door een enkel vision-language model (VLM) te gebruiken als het generatieve beloningsmodel, dat de winnaar en verliezer kan onderscheiden voor een gegeven taak en een gegeven evaluatiecriterium, kan het effectief worden toegepast op multi-task generatiemodellen, vooral in contexten met gevarieerde data en diverse taakdoelen. We passen OneReward toe voor masker-geleide beeldgeneratie, wat verder kan worden onderverdeeld in verschillende subtaken zoals beeldvulling, beelduitbreiding, objectverwijdering en tekstweergave, waarbij een binair masker wordt gebruikt als het bewerkingsgebied. Hoewel deze domeinspecifieke taken hetzelfde conditioneringsparadigma delen, verschillen ze aanzienlijk in onderliggende dataverdelingen en evaluatiemetrics. Bestaande methoden zijn vaak afhankelijk van taakspecifieke supervised fine-tuning (SFT), wat de generalisatie en trainings efficiëntie beperkt. Op basis van OneReward ontwikkelen we Seedream 3.0 Fill, een masker-geleid generatiemodel getraind via multi-task reinforcement learning direct op een vooraf getraind basismodel, waardoor taakspecifieke SFT overbodig wordt. Experimentele resultaten tonen aan dat ons uniforme bewerkmodel consistent beter presteert dan zowel commerciële als open-source concurrenten, zoals Ideogram, Adobe Photoshop en FLUX Fill [Pro], over meerdere evaluatiedimensies. Code en model zijn beschikbaar op: https://one-reward.github.io
Taalmodellen versterkt met tools, uitgerust met retrieval, geheugen of externe API's, zijn bezig AI te hervormen, maar hun theoretische voordelen blijven onderbelicht. In dit artikel gaan we in op deze vraag door de voordelen aan te tonen van in-tool leren (externe retrieval) ten opzichte van in-gewicht leren (memorisatie) voor het terugroepen van feiten. We laten zien dat het aantal feiten dat een model uitsluitend in zijn gewichten kan onthouden, fundamenteel beperkt wordt door het aantal parameters. Daarentegen bewijzen we dat het gebruik van tools onbeperkt feiten terugroepen mogelijk maakt via een eenvoudige en efficiënte circuitconstructie. Deze resultaten worden gevalideerd in gecontroleerde experimenten, waarbij modellen die tools gebruiken consistent beter presteren dan modellen die feiten onthouden. We tonen verder aan dat voor vooraf getrainde grote taalmodellen het aanleren van toolgebruik en algemene regels effectiever is dan het finetunen van feiten in het geheugen. Ons werk biedt zowel een theoretische als empirische basis, en stelt vast waarom workflows versterkt met tools niet alleen praktisch zijn, maar ook bewezen meer schaalbaar.
Grote Taalmodellen (LLMs) kunnen moeite hebben om een balans te vinden tussen geloofwaardigheid voor misinformatie en weerstand tegen geldige correcties in overtuigende dialogen, een cruciale uitdaging voor betrouwbare inzet. We introduceren DuET-PD (Dual Evaluation for Trust in Persuasive Dialogues), een raamwerk dat de dynamiek van standpuntverandering over meerdere beurten evalueert langs twee dimensies: overtuigingstype (corrigerend/misleidend) en domein (kennis via MMLU-Pro, en veiligheid via SALAD-Bench). We ontdekken dat zelfs een state-of-the-art model zoals GPT-4o slechts 27,32% nauwkeurigheid behaalt in MMLU-Pro onder aanhoudende misleidende overtuigingen. Bovendien onthullen de resultaten een zorgwekkende trend van toenemende sycophantie in nieuwere open-source modellen. Om dit aan te pakken, introduceren we Holistic DPO, een trainingsbenadering die positieve en negatieve overtuigingsvoorbeelden in balans brengt. In tegenstelling tot prompting of alleen weerstandstraining, verbetert Holistic DPO zowel de robuustheid tegen misinformatie als de ontvankelijkheid voor correcties, waardoor de nauwkeurigheid van Llama-3.1-8B-Instruct onder misleidende overtuiging in veiligheidscontexten stijgt van 4,21% naar 76,54%. Deze bijdragen bieden een weg naar de ontwikkeling van betrouwbaardere en aanpasbaardere LLMs voor dialogen over meerdere beurten. Code is beschikbaar op https://github.com/Social-AI-Studio/DuET-PD.
Recente Vision-Language-Action (VLA) modellen, gebouwd op vooraf getrainde Vision-Language Models (VLMs), vereisen uitgebreide na-training, wat resulteert in een hoge computationele overhead die schaalbaarheid en implementatie beperkt. Wij stellen CogVLA voor, een Cognition-Aligned Vision-Language-Action raamwerk dat gebruikmaakt van instructiegestuurde routering en verspilling om zowel efficiëntie als prestaties te verbeteren. CogVLA put inspiratie uit menselijke multimodale coördinatie en introduceert een 3-fasen progressieve architectuur. 1) Encoder-FiLM gebaseerde Aggregatie Routering (EFA-Routing) injecteert instructie-informatie in de visuele encoder om selectief dual-stream visuele tokens te aggregeren en comprimeren, waardoor een instructiebewuste latente representatie wordt gevormd. 2) Op basis van deze compacte visuele codering introduceert LLM-FiLM gebaseerde Snoei Routering (LFP-Routing) actie-intentie in het taalmodel door instructie-irrelevante visueel verankerde tokens te snoeien, waardoor token-level verspilling wordt bereikt. 3) Om ervoor te zorgen dat gecomprimeerde perceptie-inputs nog steeds nauwkeurige en coherente actiegeneratie kunnen ondersteunen, introduceren we V-L-A Gekoppelde Aandacht (CAtten), dat causale visie-taal aandacht combineert met bidirectionele actie parallelle decodering. Uitgebreide experimenten op de LIBERO benchmark en real-world robotica taken tonen aan dat CogVLA state-of-the-art prestaties bereikt met succespercentages van respectievelijk 97.4% en 70.0%, terwijl de trainingskosten met 2.5-voud worden verminderd en de inferentie latentie met 2.8-voud wordt verlaagd in vergelijking met OpenVLA. CogVLA is open-source en publiekelijk beschikbaar op https://github.com/JiuTian-VL/CogVLA.
We introduceren FakeParts, een nieuwe klasse van deepfakes die worden gekenmerkt door subtiele, gelokaliseerde manipulaties van specifieke ruimtelijke regio's of temporele segmenten in verder authentieke video's. In tegenstelling tot volledig synthetische inhoud, integreren deze gedeeltelijke manipulaties, variërend van aangepaste gezichtsuitdrukkingen tot objectvervangingen en achtergrondwijzigingen, naadloos met echte elementen, waardoor ze bijzonder misleidend en moeilijk te detecteren zijn. Om het kritieke gat in de detectiecapaciteiten aan te pakken, presenteren we FakePartsBench, de eerste grootschalige benchmarkdataset die specifiek is ontworpen om het volledige spectrum van gedeeltelijke deepfakes vast te leggen. Onze dataset, bestaande uit meer dan 25K video's met pixel- en framegewijze manipulatieannotaties, maakt een uitgebreide evaluatie van detectiemethoden mogelijk. Onze gebruikersstudies tonen aan dat FakeParts de menselijke detectienauwkeurigheid met meer dan 30% vermindert in vergelijking met traditionele deepfakes, met een vergelijkbare prestatievermindering bij state-of-the-art detectiemodellen. Dit werk identificeert een urgente kwetsbaarheid in huidige deepfake-detectiebenaderingen en biedt de nodige middelen om robuustere methoden te ontwikkelen voor gedeeltelijke videomanipulaties.
Het verwijderen van objecten uit video's heeft geavanceerde prestaties bereikt dankzij het recente succes van generatieve videomodellen. Wanneer echter de neveneffecten van objecten, zoals hun schaduwen en reflecties, worden aangepakt, worstelen bestaande methoden om deze effecten te elimineren vanwege het gebrek aan gepaarde videogegevens als supervisie. Dit artikel presenteert ROSE, genaamd Remove Objects with Side Effects, een raamwerk dat systematisch de effecten van objecten op de omgeving bestudeert, die kunnen worden onderverdeeld in vijf veelvoorkomende gevallen: schaduwen, reflecties, licht, transparantie en spiegels. Gezien de uitdagingen van het samenstellen van gepaarde video's die de bovengenoemde effecten vertonen, maken we gebruik van een 3D-renderingengine voor synthetische datageneratie. We hebben zorgvuldig een volledig automatische pijplijn voor datavoorbereiding geconstrueerd, die een grootschalige gepaarde dataset simuleert met diverse scènes, objecten, camerahoeken en cameratrajecten. ROSE is geïmplementeerd als een video-inpaintingmodel gebouwd op een diffusion transformer. Om alle objectgerelateerde gebieden te lokaliseren, wordt de gehele video in het model gevoerd voor referentiegebaseerd wissen. Bovendien wordt aanvullende supervisie geïntroduceerd om expliciet de gebieden te voorspellen die worden beïnvloed door neveneffecten, die kunnen worden onthuld door het differentiële masker tussen de gepaarde video's. Om de modelprestaties op verschillende neveneffectverwijderingen volledig te onderzoeken, presenteren we een nieuwe benchmark, genaamd ROSE-Bench, die zowel veelvoorkomende scenario's als de vijf speciale neveneffecten omvat voor een uitgebreide evaluatie. Experimentele resultaten tonen aan dat ROSE superieure prestaties bereikt in vergelijking met bestaande video-objectverwijdermodellen en goed generaliseert naar real-world videoscenario's. De projectpagina is https://rose2025-inpaint.github.io/.
We presenteren Dress&Dance, een videodiffusie-framework dat hoogwaardige 5 seconden durende 24 FPS virtuele pasvideo's genereert met een resolutie van 1152x720, waarin een gebruiker gewenste kledingstukken draagt en beweegt volgens een gegeven referentievideo. Onze aanpak vereist een enkele gebruikersafbeelding en ondersteunt een reeks bovenkleding, onderkleding en één-delige kledingstukken, evenals het gelijktijdig passen van boven- en onderkleding in één stap. Kern van ons framework is CondNet, een nieuw conditioneringnetwerk dat aandacht gebruikt om multi-modale invoer (tekst, afbeeldingen en video's) te verenigen, waardoor de kledingregistratie en bewegingsgetrouwheid worden verbeterd. CondNet wordt getraind op heterogene trainingsgegevens, waarbij beperkte videogegevens en een groter, gemakkelijker beschikbaar afbeeldingsdataset worden gecombineerd, in een meerfasige progressieve aanpak. Dress&Dance overtreft bestaande open source en commerciële oplossingen en biedt een hoogwaardige en flexibele paservaring.
3D-inhoud omvat van nature multi-modale kenmerken en kan worden geprojecteerd in verschillende modaliteiten (bijv. RGB-afbeeldingen, RGBD en puntenwolken). Elke modaliteit vertoont duidelijke voordelen bij het modelleren van 3D-assets: RGB-afbeeldingen bevatten levendige 3D-texturen, terwijl puntenwolken fijnmazige 3D-geometrieën definiëren. De meeste bestaande 3D-native generatieve architecturen werken echter voornamelijk binnen enkelvoudige modaliteitsparadigma's, waardoor ze de complementaire voordelen van multi-modale data over het hoofd zien, of beperken zich tot 3D-structuren, waardoor de reikwijdte van beschikbare trainingsdatasets wordt beperkt. Om multi-modaliteiten holistisch te benutten voor 3D-modellering, presenteren we TriMM, het eerste feed-forward 3D-native generatieve model dat leert van basis multi-modaliteiten (bijv. RGB, RGBD en puntenwolk). Specifiek: 1) TriMM introduceert eerst collaboratieve multi-modale codering, die modaliteit-specifieke kenmerken integreert terwijl hun unieke representatieve sterktes behouden blijven. 2) Bovendien worden aanvullende 2D- en 3D-supervisie geïntroduceerd om de robuustheid en prestaties van multi-modale codering te verhogen. 3) Op basis van de ingebedde multi-modale code gebruikt TriMM een triplane latent diffusiemodel om 3D-assets van superieure kwaliteit te genereren, waardoor zowel de textuur als de geometrische detaillering worden verbeterd. Uitgebreide experimenten op meerdere bekende datasets tonen aan dat TriMM, door effectief gebruik te maken van multi-modaliteit, competitieve prestaties bereikt met modellen die op grootschalige datasets zijn getraind, ondanks het gebruik van een kleine hoeveelheid trainingsdata. Daarnaast voeren we aanvullende experimenten uit op recente RGB-D datasets, waarmee de haalbaarheid van het integreren van andere multi-modale datasets in 3D-generatie wordt geverifieerd.
Naarmate meeromvattende dialogen met grote taalmodellen (LLMs) langer en complexer worden, hoe kunnen gebruikers de voortgang van hun gespreksdoelen beter evalueren en beoordelen? Wij presenteren OnGoal, een LLM-chatinterface die gebruikers helpt om doelvoortgang beter te beheren. OnGoal biedt realtime feedback over doelafstemming via LLM-ondersteunde evaluatie, uitleg van evaluatieresultaten met voorbeelden, en overzichten van doelvoortgang over tijd, waardoor gebruikers complexe dialogen effectiever kunnen navigeren. Via een studie met 20 deelnemers aan een schrijftaak evalueren we OnGoal tegenover een baseline-chatinterface zonder doelvolgsysteem. Met OnGoal besteedden deelnemers minder tijd en moeite om hun doelen te bereiken, terwijl ze nieuwe promptstrategieën verkenden om miscommunicatie te overwinnen, wat suggereert dat het volgen en visualiseren van doelen betrokkenheid en veerkracht in LLM-dialogen kan vergroten. Onze bevindingen inspireerden ontwerpimplicaties voor toekomstige LLM-chatinterfaces die doelcommunicatie verbeteren, cognitieve belasting verminderen, interactiviteit vergroten en feedback mogelijk maken om LLM-prestaties te verbeteren.
Menselijk sociaal gedrag is van nature multimodaal, wat de ontwikkeling van krachtige audiovisuele modellen voor de waarneming ervan noodzakelijk maakt. In dit artikel presenteren we Social-MAE, onze vooraf getrainde audiovisuele Masked Autoencoder, gebaseerd op een uitgebreide versie van de Contrastive Audio-Visual Masked Auto-Encoder (CAV-MAE), die vooraf is getraind op audiovisuele sociale data. Specifiek passen we CAV-MAE aan om een groter aantal frames als invoer te ontvangen en trainen we het vooraf op een grote dataset van menselijke sociale interactie (VoxCeleb2) op een zelfgesuperviseerde manier. We demonstreren de effectiviteit van dit model door het model te finetunen en te evalueren op verschillende sociale en affectieve downstream taken, namelijk emotieherkenning, lachdetectie en schijnbare persoonlijkheidsinschatting. Het model behaalt state-of-the-art resultaten op multimodale emotieherkenning en lachherkenning en competitieve resultaten voor schijnbare persoonlijkheidsinschatting, wat de effectiviteit van domeinspecifieke zelfgesuperviseerde voorafgaande training aantoont. Code en modelgewichten zijn beschikbaar op https://github.com/HuBohy/SocialMAE.