Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Het verbeteren van bestaande modellen met nieuwe kennis is een cruciaal aspect van AI-ontwikkeling. Dit artikel introduceert een nieuwe methode voor het integreren van een nieuwe taal in een groot taalmodel (LLM). Onze aanpak voegt succesvol een voorheen onbekende doeltaal toe aan een bestaand LLM zonder het eerdere kennisniveau aan te tasten. We hebben een klein model met 1,5 miljard parameters, genaamd Kuwain, getraind door de Arabische taal te injecteren in een klein open-source model dat voornamelijk in het Engels was getraind. Onze methode toont aanzienlijke verbeteringen in de prestaties van de Arabische taal, met een gemiddelde verbetering van 8% op verschillende benchmarks, terwijl de bestaande kennis van het model behouden blijft met een minimale hoeveelheid van de oorspronkelijke modelgegevens. Dit biedt een kosteneffectief alternatief voor het trainen van een uitgebreid model in zowel Engels als Arabisch. De resultaten benadrukken het potentieel voor efficiënte, gerichte uitbreiding van taalmodelle zonder uitgebreide hertraining of resource-intensieve processen.
Dit artikel onderzoekt Reinforcement Learning (RL) op data zonder expliciete labels voor redeneertaken in Large Language Models (LLMs). De kernuitdaging van het probleem is het schatten van beloningen tijdens inferentie zonder toegang tot grondwaarheid-informatie. Hoewel deze setting moeilijk lijkt, ontdekken we dat gangbare praktijken in Test-Time Scaling (TTS), zoals meerderheidsstemming, verrassend effectieve beloningen opleveren die geschikt zijn voor het aansturen van RL-training. In dit werk introduceren we Test-Time Reinforcement Learning (TTRL), een nieuwe methode voor het trainen van LLMs met RL op ongelabelde data. TTRL maakt zelf-evolutie van LLMs mogelijk door gebruik te maken van de voorkennis in de vooraf getrainde modellen. Onze experimenten tonen aan dat TTRL consistent betere prestaties levert over een verscheidenheid aan taken en modellen. Opmerkelijk is dat TTRL de pass@1-prestatie van Qwen-2.5-Math-7B met ongeveer 159% verbetert op de AIME 2024 met alleen ongelabelde testdata. Bovendien, hoewel TTRL alleen wordt begeleid door de Maj@N-metric, heeft TTRL aangetoond consistent de bovengrens van het initiële model te overschrijden en de prestaties te benaderen van modellen die direct zijn getraind op testdata met grondwaarheid-labels. Onze experimentele bevindingen valideren de algemene effectiviteit van TTRL over verschillende taken en benadrukken het potentieel van TTRL voor bredere taken en domeinen. GitHub: https://github.com/PRIME-RL/TTRL
Naarmate grote taalmodellen (LLM's) blijven vooruitgaan in hun linguïstische mogelijkheden, is robuuste meertalige evaluatie essentieel geworden voor het bevorderen van billijke technologische vooruitgang. Dit position paper onderzoekt meer dan 2.000 meertalige (niet-Engelstalige) benchmarks uit 148 landen, gepubliceerd tussen 2021 en 2024, om eerdere, huidige en toekomstige praktijken in meertalige benchmarking te evalueren. Onze bevindingen tonen aan dat, ondanks aanzienlijke investeringen van tientallen miljoenen dollars, Engels nog steeds aanzienlijk oververtegenwoordigd is in deze benchmarks. Bovendien baseren de meeste benchmarks zich op originele taalinhoud in plaats van vertalingen, waarbij het merendeel afkomstig is uit landen met veel middelen, zoals China, India, Duitsland, het VK en de VS. Daarnaast laat een vergelijking van benchmarkprestaties met menselijke beoordelingen opmerkelijke verschillen zien. STEM-gerelateerde taken vertonen sterke correlaties met menselijke evaluaties (0,70 tot 0,85), terwijl traditionele NLP-taken zoals vraagbeantwoording (bijv. XQuAD) veel zwakkere correlaties laten zien (0,11 tot 0,30). Bovendien blijkt het vertalen van Engelstalige benchmarks naar andere talen onvoldoende, aangezien gelokaliseerde benchmarks aanzienlijk beter aansluiten bij lokale menselijke beoordelingen (0,68) dan hun vertaalde tegenhangers (0,47). Dit onderstreept het belang van het creëren van cultureel en linguïstisch toegesneden benchmarks in plaats van uitsluitend te vertrouwen op vertalingen. Door deze uitgebreide analyse belichten we zes belangrijke beperkingen in huidige meertalige evaluatiepraktijken, stellen we de bijbehorende leidende principes voor effectieve meertalige benchmarking voor, en schetsen we vijf kritieke onderzoeksrichtingen om vooruitgang in het veld te bevorderen. Tot slot roepen we op tot een wereldwijde samenwerking om menselijk afgestemde benchmarks te ontwikkelen die prioriteit geven aan real-world toepassingen.
Het genereren van gedetailleerde en nauwkeurige beschrijvingen voor specifieke regio's in afbeeldingen en video's blijft een fundamentele uitdaging voor visie-taalmodellen. We introduceren het Describe Anything Model (DAM), een model ontworpen voor gedetailleerde gelokaliseerde bijschriften (DLC). DAM behoudt zowel lokale details als globale context door twee belangrijke innovaties: een focale prompt, die zorgt voor een hoge-resolutie codering van doelregio's, en een gelokaliseerde visie-backbone, die precieze lokalisatie integreert met de bredere context. Om het gebrek aan hoogwaardige DLC-gegevens aan te pakken, stellen we een Semi-supervised learning (SSL)-gebaseerde Data Pipeline (DLC-SDP) voor. DLC-SDP begint met bestaande segmentatiedatasets en breidt uit naar ongelabelde webafbeeldingen met behulp van SSL. We introduceren DLC-Bench, een benchmark ontworpen om DLC te evalueren zonder te vertrouwen op referentiebijschriften. DAM vestigt nieuwe state-of-the-art resultaten op 7 benchmarks die zich uitstrekken over trefwoordniveau, zinsniveau en gedetailleerde, meerdere zinnen omvattende gelokaliseerde afbeelding- en videobijschriften.
Het schalen van berekeningen tijdens inferentie heeft de redeneervaardigheden van taalmodellen aanzienlijk verbeterd. Bestaande methoden hebben echter belangrijke beperkingen: geserialiseerde chain-of-thought-benaderingen genereren te lange uitvoer, wat leidt tot verhoogde latentie en uitgeputte contextvensters, terwijl parallelle methoden zoals self-consistency lijden onder onvoldoende coördinatie, wat resulteert in redundante berekeningen en beperkte prestatieverbeteringen. Om deze tekortkomingen aan te pakken, stellen we Adaptive Parallel Reasoning (APR) voor, een nieuw redeneerkader dat taalmodellen in staat stelt om zowel geserialiseerde als parallelle berekeningen end-to-end te coördineren. APR generaliseert bestaande redeneermethoden door adaptieve multi-threaded inferentie mogelijk te maken met behulp van spawn()- en join()-operaties. Een belangrijke innovatie is onze end-to-end reinforcement learning-strategie, die zowel bovenliggende als onderliggende inferentiedraden optimaliseert om de taakslagingskans te vergroten zonder vooraf gedefinieerde redeneerstructuren te vereisen. Experimenten op de Countdown-redeneertaak demonstreren aanzienlijke voordelen van APR: (1) hogere prestaties binnen hetzelfde contextvenster (83,4% vs. 60,0% bij 4k context); (2) superieure schaalbaarheid bij verhoogde berekening (80,1% vs. 66,6% bij 20k totale tokens); (3) verbeterde nauwkeurigheid bij equivalente latentie (75,2% vs. 57,3% bij ongeveer 5.000ms). APR vertegenwoordigt een stap in de richting van het mogelijk maken van taalmodelen om hun redeneerprocessen autonoom te optimaliseren door adaptieve toewijzing van berekening.
Recente grote videotaalmodellen (Video LLM's) zijn vaak afhankelijk van kostbare menselijke annotaties of propriëtaire model-API's (bijv. GPT-4o) om trainingsdata te genereren, wat hun training op grote schaal beperkt. In dit artikel onderzoeken we grootschalige training voor Video LLM's met goedkope automatische spraakherkenning (ASR)-transcripten. Specifiek stellen we een nieuwe streaming-trainingsmethode voor die de ASR-woorden en videobeelden dicht op elkaar afwisselt volgens hun tijdstempels. In vergelijking met eerdere studies in visie-taalrepresentatie met ASR, past onze methode zich natuurlijk aan de streamingkenmerken van ASR aan, waardoor het model tijdelijk uitgelijnde, fijnmazige visie-taalmodellering kan leren. Om het trainingsalgoritme te ondersteunen, introduceren we een dataproductiepijplijn om YouTube-video's en hun ondertiteling (CC, hetzelfde als ASR) te verwerken, wat resulteert in de Live-CC-5M-dataset voor pre-training en de Live-WhisperX-526K-dataset voor hoogwaardige supervised fine-tuning (SFT). Opmerkelijk is dat zelfs zonder SFT het alleen met ASR getrainde LiveCC-7B-Base-model competitieve algemene video-QA-prestaties vertoont en een nieuwe mogelijkheid toont in real-time videocommentaar. Om dit te evalueren, hebben we zorgvuldig een nieuwe LiveSports-3K-benchmark ontworpen, waarbij we LLM-as-a-judge gebruiken om het vrijgevormde commentaar te meten. Experimenten tonen aan dat ons uiteindelijke LiveCC-7B-Instruct-model geavanceerde 72B-modellen (Qwen2.5-VL-72B-Instruct, LLaVA-Video-72B) kan overtreffen in commentaarkwaliteit, zelfs wanneer het in real-time werkt. Tegelijkertijd behaalt het state-of-the-art resultaten op de 7B/8B-schaal op populaire video-QA-benchmarks zoals VideoMME en OVOBench, wat de brede generaliseerbaarheid van onze aanpak aantoont. Alle bronnen van dit artikel zijn vrijgegeven op https://showlab.github.io/livecc.
Recente vooruitgang in grote taalmodellen (LLMs) heeft sociale simulatie mogelijk gemaakt via multi-agent systemen. Eerdere inspanningen richten zich op agentsamenlevingen die vanaf nul worden gecreëerd, waarbij agents worden voorzien van nieuw gedefinieerde persona's. Het simuleren van gevestigde fictieve werelden en personages blijft echter grotendeels onontgonnen, ondanks de aanzienlijke praktische waarde ervan. In dit artikel introduceren we BookWorld, een uitgebreid systeem voor het construeren en simuleren van op boeken gebaseerde multi-agent samenlevingen. Het ontwerp van BookWorld omvat uitgebreide real-world complexiteiten, waaronder diverse en dynamische personages, fictieve wereldbeelden, geografische beperkingen en veranderingen, enz. BookWorld maakt diverse toepassingen mogelijk, waaronder verhalengeneratie, interactieve spellen en sociale simulatie, en biedt nieuwe manieren om geliefde fictieve werken uit te breiden en te verkennen. Door uitgebreide experimenten tonen we aan dat BookWorld creatieve, hoogwaardige verhalen genereert terwijl het trouw blijft aan de bronboeken, en daarmee eerdere methoden overtreft met een winstpercentage van 75,36%. De code van dit artikel is te vinden op de projectpagina: https://bookworld2025.github.io/.
Bestaande evaluatieframeworks voor Multimodale Grote Taalmodellen (MLLMs) richten zich voornamelijk op beeldredenering of algemene videobegriptaken, waarbij de significante rol van beeldcontext in videobegrip grotendeels over het hoofd wordt gezien. Om deze kloof te overbruggen, stellen we IV-Bench voor, de eerste uitgebreide benchmark voor het evalueren van Beeldgebaseerde Videowaarneming en Redenering. IV-Bench bestaat uit 967 video's, gekoppeld aan 2.585 zorgvuldig geannoteerde beeld-tekstvragen over 13 taken (7 waarnemingstaken en 6 redeneertaken) en 5 representatieve categorieën. Uitgebreide evaluaties van state-of-the-art open-source (bijv. InternVL2.5, Qwen2.5-VL) en closed-source (bijv. GPT-4o, Gemini2-Flash en Gemini2-Pro) MLLM's tonen aan dat huidige modellen aanzienlijk onderpresteren in beeldgebaseerde videowaarneming en redenering, met een nauwkeurigheid van maximaal 28,9%. Verdere analyse onthult belangrijke factoren die de modelprestaties op IV-Bench beïnvloeden, waaronder het inferentiepatroon, het aantal frames en de resolutie. Daarnaast demonstreren we door middel van een eenvoudige datasynthesemethode dat de uitdagingen van IV-Bench verder reiken dan alleen het afstemmen van het dataformaat in het trainingsproces. Deze bevindingen bieden gezamenlijk waardevolle inzichten voor toekomstig onderzoek. Onze codes en data zijn vrijgegeven op https://github.com/multimodal-art-projection/IV-Bench.
Het succes van Large Language Models (LLM's) heeft interesse gewekt in diverse agent-gebaseerde toepassingen. Een belangrijke hypothese is dat LLM's, door gebruik te maken van gezond verstand en Chain-of-Thought (CoT) redenering, effectief complexe domeinen kunnen verkennen en efficiënt kunnen oplossen. Echter, is gebleken dat LLM-agenten last hebben van suboptimale verkenning en de 'knowing-doing gap', het onvermogen om effectief te handelen op basis van kennis die in het model aanwezig is. In dit werk bestuderen we systematisch waarom LLM's suboptimaal presteren in besluitvormingsscenario's. In het bijzonder onderzoeken we drie veelvoorkomende faalmodes: hebzucht, frequentiebias en de 'knowing-doing gap'. We stellen een aanpak voor om deze tekortkomingen te mitigeren door fine-tuning via Reinforcement Learning (RL) op zelf gegenereerde CoT-redeneringen. Onze experimenten met multi-armed bandits, contextuele bandits en Tic-tac-toe tonen aan dat RL-fine-tuning de besluitvormingsvaardigheden van LLM's verbetert door verkenning te vergroten en de 'knowing-doing gap' te verkleinen. Tot slot bestuderen we zowel klassieke verkenningstechnieken, zoals epsilon-greedy, als LLM-specifieke benaderingen, zoals zelfcorrectie en zelfconsistentie, om een effectievere fine-tuning van LLM's voor besluitvorming mogelijk te maken.
Recente vooruitgang in grote taalmodel(len) heeft de effectiviteit van lengteschaling tijdens post-training aangetoond, maar het potentieel ervan in pre-training blijft onderbelicht. Wij presenteren de Parallel Hidden Decoding Transformer (PHD-Transformer), een nieuw framework dat efficiënte lengteschaling tijdens pre-training mogelijk maakt terwijl de inferentie-efficiëntie behouden blijft. De PHD-Transformer bereikt dit door een innovatieve KV-cachebeheerstrategie die onderscheid maakt tussen originele tokens en verborgen decodeertokens. Door alleen de KV-cache van originele tokens te behouden voor langeafstandsafhankelijkheden en verborgen decodeertokens direct na gebruik te verwijderen, behoudt onze aanpak dezelfde KV-cachegrootte als de standaard transformer terwijl effectieve lengteschaling mogelijk wordt gemaakt. Om de prestaties verder te verbeteren, introduceren we twee geoptimaliseerde varianten: PHD-SWA maakt gebruik van sliding window attention om lokale afhankelijkheden te behouden, terwijl PHD-CSWA chunk-wise sliding window attention implementeert om lineaire groei in pre-fillingtijd te elimineren. Uitgebreide experimenten tonen consistente verbeteringen aan over meerdere benchmarks.
Kunnen we nauwkeurige wereldmodellen bouwen op basis van grote taalmodellen (LLM's)? Hoe kunnen wereldmodellen LLM-agenten ten goede komen? De kloof tussen de voorkennis van LLM's en de dynamiek van een specifieke omgeving vormt meestal een knelpunt voor de prestaties van LLM's als wereldmodellen. Om deze kloof te overbruggen, stellen we een trainingsvrije "werelduitlijning" voor die symbolische kennis over een omgeving leert die complementair is aan LLM's. Deze symbolische kennis omvat actieregels, kennisgrafieken en scènegrafieken, die door LLM's worden geëxtraheerd uit verkenningspaden en worden gecodeerd in uitvoerbare code om het beleid van LLM-agenten te reguleren. We introduceren verder een RL-vrije, modelgebaseerde agent "WALL-E 2.0" via het model-predictive control (MPC)-raamwerk. In tegenstelling tot klassieke MPC, die kostbare optimalisatie op het moment zelf vereist, gebruiken we een LLM-agent als een efficiënte vooruitkijkende optimalisator van toekomstige acties door interactie met het neurosymbolische wereldmodel. Terwijl de sterke heuristiek van de LLM-agent het een efficiënte planner maakt in MPC, wordt de kwaliteit van de geplande acties ook gewaarborgd door de nauwkeurige voorspellingen van het uitgelijnde wereldmodel. Samen verbeteren ze aanzienlijk de leer efficiëntie in een nieuwe omgeving. Bij open-werelduitdagingen in Mars (Minecraft-achtig) en ALFWorld (belichaamde binnenomgevingen) presteert WALL-E 2.0 aanzienlijk beter dan bestaande methoden, bijvoorbeeld door de basislijnen in Mars te overtreffen met 16,1%-51,6% succespercentage en met minstens 61,7% in score. In ALFWorld behaalt het een nieuw record van 98% succespercentage na slechts 4 iteraties.
Gepersonaliseerde beeldgeneratie is naar voren gekomen als een cruciale toepassing binnen tekst-naar-beeldgeneratie, waardoor het mogelijk wordt om afbeeldingen te creëren met specifieke onderwerpen in diverse contexten. Hoewel diffusiemodellen dit domein hebben gedomineerd, blijven autoregressieve modellen, met hun uniforme architectuur voor tekst- en beeldmodellering, onderbelicht voor gepersonaliseerde beeldgeneratie. Dit artikel onderzoekt het potentieel van het optimaliseren van autoregressieve modellen voor gepersonaliseerde beeldgeneratie, waarbij gebruik wordt gemaakt van hun inherente multimodale mogelijkheden om deze taak uit te voeren. We stellen een tweefasige trainingsstrategie voor die de optimalisatie van tekstembeddingen combineert met het finetunen van transformer-lagen. Onze experimenten met het autoregressieve model laten zien dat deze methode vergelijkbare onderwerptrouw en promptvolging bereikt als de toonaangevende diffusiegebaseerde personalisatiemethoden. De resultaten benadrukken de effectiviteit van autoregressieve modellen in gepersonaliseerde beeldgeneratie en bieden een nieuwe richting voor toekomstig onderzoek op dit gebied.
Mensen kunnen interne wereldmodellen ontwikkelen die gezond verstand coderen, hen vertellen hoe de wereld werkt en de gevolgen van hun acties voorspellen. Dit concept is naar voren gekomen als een veelbelovende richting voor het ontwikkelen van algemene machine learning-modellen in recente voorlopige werken, bijvoorbeeld voor visuele representatie leren. In dit artikel presenteren we CheXWorld, de eerste poging tot een zelf-superviserend wereldmodel voor radiografische afbeeldingen. Specifiek ontwikkelt ons werk een geïntegreerd framework dat gelijktijdig drie aspecten van medische kennis modelleert die essentieel zijn voor gekwalificeerde radiologen, waaronder 1) lokale anatomische structuren die de fijnmazige kenmerken van lokale weefsels beschrijven (bijv. architectuur, vormen en texturen); 2) globale anatomische lay-outs die de globale organisatie van het menselijk lichaam beschrijven (bijv. lay-outs van organen en skeletten); en 3) domeinvariaties die CheXWorld aanmoedigen om de overgangen tussen verschillende verschijningsdomeinen van radiografieën te modelleren (bijv. variërende helderheid, contrast en belichting veroorzaakt door het verzamelen van radiografieën van verschillende ziekenhuizen, apparaten of patiënten). Empirisch ontwerpen we op maat gemaakte kwalitatieve en kwantitatieve analyses, die aantonen dat CheXWorld met succes deze drie dimensies van medische kennis vastlegt. Bovendien laten transfer learning-experimenten over acht medische beeldclassificatie- en segmentatiebenchmarks zien dat CheXWorld aanzienlijk beter presteert dan bestaande SSL-methoden en grootschalige medische foundation-modellen. Code en vooraf getrainde modellen zijn beschikbaar op https://github.com/LeapLabTHU/CheXWorld.
Recente tekst-naar-beeld diffusiemodellen bereiken indrukwekkende visuele kwaliteit door uitgebreide schaalvergroting van trainingsdata en modelparameters, maar ze hebben vaak moeite met complexe scènes en fijngranulaire details. Geïnspireerd door de zelfreflectiecapaciteiten die opkomen in grote taalmodellen, stellen we ReflectionFlow voor, een inferentietijd-framework dat diffusiemodellen in staat stelt om iteratief te reflecteren op en hun uitvoer te verfijnen. ReflectionFlow introduceert drie complementaire schaalassen tijdens inferentie: (1) ruisniveau-schaling om de latente initialisatie te optimaliseren; (2) promptniveau-schaling voor precieze semantische begeleiding; en vooral (3) reflectieniveau-schaling, die expliciet bruikbare reflecties biedt om eerdere generaties iteratief te beoordelen en te corrigeren. Om reflectieniveau-schaling te faciliteren, construeren we GenRef, een grootschalige dataset bestaande uit 1 miljoen triplets, elk met een reflectie, een gebrekkige afbeelding en een verbeterde afbeelding. Door gebruik te maken van deze dataset, voeren we efficiënt reflectie-afstemming uit op de state-of-the-art diffusietransformer, FLUX.1-dev, door multimodale inputs gezamenlijk te modelleren binnen een uniform framework. Experimentele resultaten tonen aan dat ReflectionFlow aanzienlijk beter presteert dan naïeve ruisniveau-schalingmethoden, en biedt een schaalbare en rekenkundig efficiënte oplossing voor hogere kwaliteit beeld-synthese bij uitdagende taken.
Mensen delen van nature informatie met degenen met wie ze verbonden zijn, en video is een van de dominante media geworden voor communicatie en expressie op het internet. Om de creatie van hoogwaardige grootschalige video-inhoud te ondersteunen, vereist een moderne pipeline een uitgebreid begrip van zowel de ruwe invoermaterialen (bijvoorbeeld de onbewerkte beelden die door camera's zijn vastgelegd) als de bewerkingscomponenten (bijvoorbeeld visuele effecten). In video-bewerkingsscenario's moeten modellen meerdere modaliteiten verwerken (bijvoorbeeld visie, audio, tekst) met een sterke achtergrondkennis en omgaan met flexibele invoerlengtes (bijvoorbeeld urenlange ruwe video's), wat aanzienlijke uitdagingen vormt voor traditionele modellen. In dit rapport introduceren we Vidi, een familie van Large Multimodal Models (LMMs) voor een breed scala aan video-begrip- en bewerkingsscenario's. De eerste release richt zich op temporele retrieval, dat wil zeggen het identificeren van de tijdsbereiken binnen de invoervideo's die overeenkomen met een gegeven tekstquery, wat een cruciale rol speelt in intelligente bewerking. Het model is in staat om urenlange video's te verwerken met een sterk temporeel begripsvermogen, bijvoorbeeld het ophalen van tijdsbereiken voor bepaalde queries. Om een uitgebreide evaluatie in real-world scenario's te ondersteunen, presenteren we ook de VUE-TR benchmark, die vijf belangrijke verbeteringen introduceert. 1) Videoduur: aanzienlijk langer dan bestaande temporele retrieval-datasets, 2) Audio-ondersteuning: omvat audio-gebaseerde queries, 3) Query-formaat: diverse query-lengtes/formaten, 4) Annotatiekwaliteit: grondwaarheid-tijdsbereiken zijn handmatig geannoteerd. 5) Evaluatiemetriek: een verfijnde IoU-metriek om evaluatie over meerdere tijdsbereiken te ondersteunen. Opmerkelijk is dat Vidi aanzienlijk beter presteert dan toonaangevende propriëtaire modellen, zoals GPT-4o en Gemini, bij de temporele retrieval-taak, wat zijn superioriteit in video-bewerkingsscenario's aangeeft.
Beheersbare karakteranimatie blijft een uitdagend probleem, met name bij het omgaan met zeldzame houdingen, gestileerde karakters, interacties tussen karakters en objecten, complexe belichting en dynamische scènes. Om deze problemen aan te pakken, heeft eerder werk zich vooral gericht op het injecteren van houdings- en uiterlijkbegeleiding via uitgebreide bypass-netwerken, maar vaak blijkt het moeilijk om te generaliseren naar open-wereldscenario's. In dit artikel stellen we een nieuw perspectief voor: zolang het basismodel krachtig genoeg is, kunnen eenvoudige modelaanpassingen met flexibele fine-tuningstrategieën de bovenstaande uitdagingen grotendeels aanpakken, wat een stap zet richting beheersbare karakteranimatie in de praktijk. Specifiek introduceren we RealisDance-DiT, gebouwd op het Wan-2.1 videobasismodel. Onze grondige analyse toont aan dat het veelgebruikte Reference Net-ontwerp suboptimaal is voor grootschalige DiT-modellen. In plaats daarvan laten we zien dat minimale aanpassingen aan de architectuur van het basismodel een verrassend sterke basislijn opleveren. We stellen verder de low-noise warmup en de "grote batches en kleine iteraties"-strategieën voor om de modelconvergentie tijdens het fine-tunen te versnellen, terwijl de voorkennis van het basismodel maximaal behouden blijft. Daarnaast introduceren we een nieuwe testdataset die diverse real-world uitdagingen vastlegt, als aanvulling op bestaande benchmarks zoals de TikTok-dataset en de UBC-fashionvideodataset, om de voorgestelde methode uitgebreid te evalueren. Uitgebreide experimenten tonen aan dat RealisDance-DiT bestaande methoden met een grote marge overtreft.
LLM-agents zijn een opkomende vorm van AI-systemen waarbij grote taalmodellen (LLM's) als centrale component fungeren, waarbij ze gebruikmaken van een diverse set tools om door gebruikers toegewezen taken uit te voeren. Ondanks hun grote potentieel brengen LLM-agents aanzienlijke beveiligingsrisico's met zich mee. Bij interactie met de externe wereld kunnen ze kwaadaardige commando's van aanvallers tegenkomen, wat kan leiden tot het uitvoeren van gevaarlijke acties. Een veelbelovende manier om dit aan te pakken is door het principe van minimale rechten toe te passen: alleen essentiële acties voor taakvoltooiing toestaan, terwijl onnodige acties worden geblokkeerd. Het bereiken hiervan is echter uitdagend, omdat het diverse agentscenario's moet dekken terwijl zowel beveiliging als functionaliteit behouden blijven. We introduceren Progent, het eerste privilegecontrolemechanisme voor LLM-agents. De kern ervan bestaat uit een domeinspecifieke taal voor het flexibel uitdrukken van privilegecontrolebeleid dat wordt toegepast tijdens de uitvoering van de agent. Dit beleid biedt gedetailleerde beperkingen voor toolaanroepen, bepaalt wanneer toolaanroepen zijn toegestaan en specificeert fallbacks als dit niet het geval is. Hierdoor kunnen agentontwikkelaars en gebruikers geschikt beleid voor hun specifieke use cases opstellen en dit deterministisch afdwingen om beveiliging te garanderen. Dankzij het modulaire ontwerp verandert de integratie van Progent de interne werking van de agent niet en zijn slechts minimale wijzigingen aan de implementatie van de agent nodig, wat de praktische bruikbaarheid en het potentieel voor brede adoptie vergroot. Om het schrijven van beleid te automatiseren, maken we gebruik van LLM's om beleid te genereren op basis van gebruikersvragen, dat vervolgens dynamisch wordt bijgewerkt voor verbeterde beveiliging en functionaliteit. Onze uitgebreide evaluatie toont aan dat het sterke beveiliging mogelijk maakt terwijl hoge functionaliteit behouden blijft in drie verschillende scenario's of benchmarks: AgentDojo, ASB en AgentPoison. Bovendien voeren we een diepgaande analyse uit, waarin de effectiviteit van de kerncomponenten en de veerkracht van de geautomatiseerde beleidsgeneratie tegen adaptieve aanvallen worden gedemonstreerd.
Wij stellen MR. Video voor, een agentisch raamwerk voor het begrijpen van lange video's dat het eenvoudige maar effectieve MapReduce-principe demonstreert voor het verwerken van lange video's: (1) Map: het onafhankelijk en dicht waarnemen van korte videofragmenten, en (2) Reduce: het gezamenlijk aggregeren van informatie uit alle fragmenten. In vergelijking met sequence-to-sequence vision-language modellen (VLMs) voert MR. Video gedetailleerde waarneming van korte video's uit zonder beperkt te worden door de contextlengte. In vergelijking met bestaande video-agents die doorgaans vertrouwen op sequentiële selectie van sleutelsegmenten, maakt de Map-operatie een eenvoudigere en schaalbaardere parallelle waarneming van korte videosegmenten mogelijk. De Reduce-stap maakt een uitgebreidere contextaggregatie en redenering mogelijk, wat expliciete ophalen van sleutelsegmenten overtreft. Dit MapReduce-principe is toepasbaar op zowel VLMs als video-agents, en we gebruiken LLM-agents om de effectiviteit ervan te valideren. In de praktijk gebruikt MR. Video twee MapReduce-fasen: (A) Captioning: het genereren van bijschriften voor korte videofragmenten (map), gevolgd door het standaardiseren van herhaalde personages en objecten naar gedeelde namen (reduce); (B) Analyse: voor elke gebruikersvraag, het analyseren van relevante informatie uit individuele korte video's (map), en het integreren ervan in een definitief antwoord (reduce). MR. Video behaalt een nauwkeurigheidsverbetering van meer dan 10% op de uitdagende LVBench in vergelijking met state-of-the-art VLMs en video-agents. Code is beschikbaar op: https://github.com/ziqipang/MR-Video
Het herkennen en redeneren over verborgen (gedeeltelijk of volledig verstopte) objecten is essentieel voor het begrijpen van visuele scènes, aangezien occlusies vaak voorkomen in realistische omgevingen en als obstakels fungeren voor ruimtelijk begrip. Om het vermogen van modellen te testen om over meerdere verborgen objecten te redeneren, introduceren we een nieuwe taak, Counting Amodally for Patterns Through Unseen REgions (CAPTURe), waarbij een model objecten die in een patroon zijn gerangschikt moet tellen door af te leiden hoe het patroon zich achter een occluder (een object dat delen van de scène blokkeert) voortzet. CAPTURe vereist zowel het herkennen van visuele patronen als redeneren, waardoor het een nuttige testomgeving is voor het evalueren van vision-language modellen (VLMs) op hun begrip van verborgen patronen en ruimtelijke inzichtvaardigheden. Door modellen te verplichten te redeneren over verborgen objecten, test CAPTURe ook het vermogen van VLMs om wereldmodellen te vormen die hen in staat stellen ontbrekende informatie in te vullen. CAPTURe bestaat uit twee delen: (1) CAPTURe-real, met handmatig gefilterde afbeeldingen van echte objecten in patronen, en (2) CAPTURe-synthetic, een gecontroleerde diagnostische test met gegenereerde gepatroonde afbeeldingen. We evalueren vier sterke VLMs (GPT-4o, Intern-VL2, Molmo en Qwen2-VL) op CAPTURe en constateren dat modellen moeite hebben met tellen in zowel verborgen als niet-verborgen patronen. Cruciaal is dat we ontdekken dat modellen slechter presteren bij occlusie, wat suggereert dat VLMs ook tekortschieten in het afleiden van onzichtbare ruimtelijke relaties: zelfs de sterkste VLMs zoals GPT-4o falen bij het tellen met occlusie. Daarentegen constateren we dat mensen zeer weinig fouten maken bij CAPTURe. We vinden ook dat het verstrekken van aanvullende informatie over de locaties van verborgen objecten de prestaties verbetert, wat benadrukt dat de modelfouten zowel voortkomen uit een onvermogen om met occlusie om te gaan als uit moeilijkheden met tellen in afbeeldingen.
Intellectueel Eigendom (IE) is een uniek domein dat technische en juridische kennis integreert, waardoor het van nature complex en kennisintensief is. Naarmate grote taalmodellen (LLM's) zich blijven ontwikkelen, tonen ze groot potentieel voor het verwerken van IE-taken, wat efficiëntere analyse, begrip en generatie van IE-gerelateerde inhoud mogelijk maakt. Bestaande datasets en benchmarks richten zich echter ofwel smal op patenten of dekken slechts beperkte aspecten van het IE-domein, waardoor ze niet aansluiten bij realistische scenario's. Om deze kloof te overbruggen, introduceren we de eerste uitgebreide taxonomie voor IE-taken en een grote, diverse tweetalige benchmark, IPBench, die 8 IE-mechanismen en 20 taken omvat. Deze benchmark is ontworpen om LLM's te evalueren in realistische toepassingen van intellectueel eigendom, zowel op het gebied van begrip als generatie. We testen 16 LLM's, variërend van algemene modellen tot domeinspecifieke modellen, en constateren dat zelfs het best presterende model slechts 75,8% nauwkeurigheid behaalt, wat aanzienlijke ruimte voor verbetering laat zien. Opvallend is dat open-source IE- en rechtsgerichte modellen achterblijven bij gesloten algemene modellen. We maken alle data en code van IPBench openbaar en zullen deze blijven bijwerken met aanvullende IE-gerelateerde taken om de uitdagingen in het domein van intellectueel eigendom beter te weerspiegelen.
Dit onderzoek introduceert een nieuw en interpreteerbaar model, DiffVox, voor het matchen van vocale effecten in muziekproductie. DiffVox, kort voor "Differentiable Vocal Fx", integreert parametrische equalisatie, dynamische bereikregeling, delay en reverb met efficiënte differentieerbare implementaties om op gradiënten gebaseerde optimalisatie voor parameterbepaling mogelijk te maken. Vocale presets worden opgehaald uit twee datasets, bestaande uit 70 nummers van MedleyDB en 365 nummers uit een privécollectie. Analyse van parametercorrelaties benadrukt sterke relaties tussen effecten en parameters, zoals de high-pass en low-shelf filters die vaak samenwerken om het lage frequentiebereik vorm te geven, en de delaytijd die correleert met de intensiteit van de vertraagde signalen. Hoofdcomponentenanalyse onthult verbanden met McAdams' timbredimensies, waarbij de belangrijkste component de waargenomen ruimtelijkheid moduleert en de secundaire componenten de spectrale helderheid beïnvloeden. Statistische tests bevestigen de niet-Gaussische aard van de parameterverdeling, wat de complexiteit van de ruimte van vocale effecten benadrukt. Deze eerste bevindingen over de parameterverdelingen leggen de basis voor toekomstig onderzoek naar modellering van vocale effecten en automatische mixing. Onze broncode en datasets zijn toegankelijk op https://github.com/SonyResearch/diffvox.