ChatPaper.aiChatPaper.ai
Home

arXiv

HuggingFace

PrijzenAccountWerkruimte

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

1

Kuwain 1.5B: Een Arabisch SLM via Taalinjectie
Kuwain 1.5B: An Arabic SLM via Language Injection

Apr 21
ByKhalil Hennara, Sara Chrouf, Mohamed Motaism Hamed, Zeina Aldallal, Omar Hadid, Safwan AlModhayan
121
8

Het verbeteren van bestaande modellen met nieuwe kennis is een cruciaal aspect van AI-ontwikkeling. Dit artikel introduceert een nieuwe methode voor het integreren van een nieuwe taal in een groot taalmodel (LLM). Onze aanpak voegt succesvol een voorheen onbekende doeltaal toe aan een bestaand LLM zonder het eerdere kennisniveau aan te tasten. We hebben een klein model met 1,5 miljard parameters, genaamd Kuwain, getraind door de Arabische taal te injecteren in een klein open-source model dat voornamelijk in het Engels was getraind. Onze methode toont aanzienlijke verbeteringen in de prestaties van de Arabische taal, met een gemiddelde verbetering van 8% op verschillende benchmarks, terwijl de bestaande kennis van het model behouden blijft met een minimale hoeveelheid van de oorspronkelijke modelgegevens. Dit biedt een kosteneffectief alternatief voor het trainen van een uitgebreid model in zowel Engels als Arabisch. De resultaten benadrukken het potentieel voor efficiënte, gerichte uitbreiding van taalmodelle zonder uitgebreide hertraining of resource-intensieve processen.

2

TTRL: Reinforcement Learning tijdens Testtijd
TTRL: Test-Time Reinforcement Learning

Apr 22
ByYuxin Zuo, Kaiyan Zhang, Shang Qu, Li Sheng, Xuekai Zhu, Biqing Qi, Youbang Sun, Ganqu Cui, Ning Ding, Bowen Zhou
120
4

Dit artikel onderzoekt Reinforcement Learning (RL) op data zonder expliciete labels voor redeneertaken in Large Language Models (LLMs). De kernuitdaging van het probleem is het schatten van beloningen tijdens inferentie zonder toegang tot grondwaarheid-informatie. Hoewel deze setting moeilijk lijkt, ontdekken we dat gangbare praktijken in Test-Time Scaling (TTS), zoals meerderheidsstemming, verrassend effectieve beloningen opleveren die geschikt zijn voor het aansturen van RL-training. In dit werk introduceren we Test-Time Reinforcement Learning (TTRL), een nieuwe methode voor het trainen van LLMs met RL op ongelabelde data. TTRL maakt zelf-evolutie van LLMs mogelijk door gebruik te maken van de voorkennis in de vooraf getrainde modellen. Onze experimenten tonen aan dat TTRL consistent betere prestaties levert over een verscheidenheid aan taken en modellen. Opmerkelijk is dat TTRL de pass@1-prestatie van Qwen-2.5-Math-7B met ongeveer 159% verbetert op de AIME 2024 met alleen ongelabelde testdata. Bovendien, hoewel TTRL alleen wordt begeleid door de Maj@N-metric, heeft TTRL aangetoond consistent de bovengrens van het initiële model te overschrijden en de prestaties te benaderen van modellen die direct zijn getraind op testdata met grondwaarheid-labels. Onze experimentele bevindingen valideren de algemene effectiviteit van TTRL over verschillende taken en benadrukken het potentieel van TTRL voor bredere taken en domeinen. GitHub: https://github.com/PRIME-RL/TTRL

3

De Bittere Les Getrokken uit Meer dan 2.000 Meertalige Benchmarks
The Bitter Lesson Learned from 2,000+ Multilingual Benchmarks

Apr 22
ByMinghao Wu, Weixuan Wang, Sinuo Liu, Huifeng Yin, Xintong Wang, Yu Zhao, Chenyang Lyu, Longyue Wang, Weihua Luo, Kaifu Zhang
64
2

Naarmate grote taalmodellen (LLM's) blijven vooruitgaan in hun linguïstische mogelijkheden, is robuuste meertalige evaluatie essentieel geworden voor het bevorderen van billijke technologische vooruitgang. Dit position paper onderzoekt meer dan 2.000 meertalige (niet-Engelstalige) benchmarks uit 148 landen, gepubliceerd tussen 2021 en 2024, om eerdere, huidige en toekomstige praktijken in meertalige benchmarking te evalueren. Onze bevindingen tonen aan dat, ondanks aanzienlijke investeringen van tientallen miljoenen dollars, Engels nog steeds aanzienlijk oververtegenwoordigd is in deze benchmarks. Bovendien baseren de meeste benchmarks zich op originele taalinhoud in plaats van vertalingen, waarbij het merendeel afkomstig is uit landen met veel middelen, zoals China, India, Duitsland, het VK en de VS. Daarnaast laat een vergelijking van benchmarkprestaties met menselijke beoordelingen opmerkelijke verschillen zien. STEM-gerelateerde taken vertonen sterke correlaties met menselijke evaluaties (0,70 tot 0,85), terwijl traditionele NLP-taken zoals vraagbeantwoording (bijv. XQuAD) veel zwakkere correlaties laten zien (0,11 tot 0,30). Bovendien blijkt het vertalen van Engelstalige benchmarks naar andere talen onvoldoende, aangezien gelokaliseerde benchmarks aanzienlijk beter aansluiten bij lokale menselijke beoordelingen (0,68) dan hun vertaalde tegenhangers (0,47). Dit onderstreept het belang van het creëren van cultureel en linguïstisch toegesneden benchmarks in plaats van uitsluitend te vertrouwen op vertalingen. Door deze uitgebreide analyse belichten we zes belangrijke beperkingen in huidige meertalige evaluatiepraktijken, stellen we de bijbehorende leidende principes voor effectieve meertalige benchmarking voor, en schetsen we vijf kritieke onderzoeksrichtingen om vooruitgang in het veld te bevorderen. Tot slot roepen we op tot een wereldwijde samenwerking om menselijk afgestemde benchmarks te ontwikkelen die prioriteit geven aan real-world toepassingen.

4

Beschrijf Alles: Gedetailleerde Gelokaliseerde Beeld- en Videobeschrijving
Describe Anything: Detailed Localized Image and Video Captioning

Apr 22
ByLong Lian, Yifan Ding, Yunhao Ge, Sifei Liu, Hanzi Mao, Boyi Li, Marco Pavone, Ming-Yu Liu, Trevor Darrell, Adam Yala, Yin Cui
63
4

Het genereren van gedetailleerde en nauwkeurige beschrijvingen voor specifieke regio's in afbeeldingen en video's blijft een fundamentele uitdaging voor visie-taalmodellen. We introduceren het Describe Anything Model (DAM), een model ontworpen voor gedetailleerde gelokaliseerde bijschriften (DLC). DAM behoudt zowel lokale details als globale context door twee belangrijke innovaties: een focale prompt, die zorgt voor een hoge-resolutie codering van doelregio's, en een gelokaliseerde visie-backbone, die precieze lokalisatie integreert met de bredere context. Om het gebrek aan hoogwaardige DLC-gegevens aan te pakken, stellen we een Semi-supervised learning (SSL)-gebaseerde Data Pipeline (DLC-SDP) voor. DLC-SDP begint met bestaande segmentatiedatasets en breidt uit naar ongelabelde webafbeeldingen met behulp van SSL. We introduceren DLC-Bench, een benchmark ontworpen om DLC te evalueren zonder te vertrouwen op referentiebijschriften. DAM vestigt nieuwe state-of-the-art resultaten op 7 benchmarks die zich uitstrekken over trefwoordniveau, zinsniveau en gedetailleerde, meerdere zinnen omvattende gelokaliseerde afbeelding- en videobijschriften.

5

Adaptief Parallel Redeneren Leren met Taalmodellen
Learning Adaptive Parallel Reasoning with Language Models

Apr 21
ByJiayi Pan, Xiuyu Li, Long Lian, Charlie Snell, Yifei Zhou, Adam Yala, Trevor Darrell, Kurt Keutzer, Alane Suhr
44
2

Het schalen van berekeningen tijdens inferentie heeft de redeneervaardigheden van taalmodellen aanzienlijk verbeterd. Bestaande methoden hebben echter belangrijke beperkingen: geserialiseerde chain-of-thought-benaderingen genereren te lange uitvoer, wat leidt tot verhoogde latentie en uitgeputte contextvensters, terwijl parallelle methoden zoals self-consistency lijden onder onvoldoende coördinatie, wat resulteert in redundante berekeningen en beperkte prestatieverbeteringen. Om deze tekortkomingen aan te pakken, stellen we Adaptive Parallel Reasoning (APR) voor, een nieuw redeneerkader dat taalmodellen in staat stelt om zowel geserialiseerde als parallelle berekeningen end-to-end te coördineren. APR generaliseert bestaande redeneermethoden door adaptieve multi-threaded inferentie mogelijk te maken met behulp van spawn()- en join()-operaties. Een belangrijke innovatie is onze end-to-end reinforcement learning-strategie, die zowel bovenliggende als onderliggende inferentiedraden optimaliseert om de taakslagingskans te vergroten zonder vooraf gedefinieerde redeneerstructuren te vereisen. Experimenten op de Countdown-redeneertaak demonstreren aanzienlijke voordelen van APR: (1) hogere prestaties binnen hetzelfde contextvenster (83,4% vs. 60,0% bij 4k context); (2) superieure schaalbaarheid bij verhoogde berekening (80,1% vs. 66,6% bij 20k totale tokens); (3) verbeterde nauwkeurigheid bij equivalente latentie (75,2% vs. 57,3% bij ongeveer 5.000ms). APR vertegenwoordigt een stap in de richting van het mogelijk maken van taalmodelen om hun redeneerprocessen autonoom te optimaliseren door adaptieve toewijzing van berekening.

6

LiveCC: Video LLM leren met streaming spraaktranscriptie op grote schaal
LiveCC: Learning Video LLM with Streaming Speech Transcription at Scale

Apr 22
ByJoya Chen, Ziyun Zeng, Yiqi Lin, Wei Li, Zejun Ma, Mike Zheng Shou
36
2

Recente grote videotaalmodellen (Video LLM's) zijn vaak afhankelijk van kostbare menselijke annotaties of propriëtaire model-API's (bijv. GPT-4o) om trainingsdata te genereren, wat hun training op grote schaal beperkt. In dit artikel onderzoeken we grootschalige training voor Video LLM's met goedkope automatische spraakherkenning (ASR)-transcripten. Specifiek stellen we een nieuwe streaming-trainingsmethode voor die de ASR-woorden en videobeelden dicht op elkaar afwisselt volgens hun tijdstempels. In vergelijking met eerdere studies in visie-taalrepresentatie met ASR, past onze methode zich natuurlijk aan de streamingkenmerken van ASR aan, waardoor het model tijdelijk uitgelijnde, fijnmazige visie-taalmodellering kan leren. Om het trainingsalgoritme te ondersteunen, introduceren we een dataproductiepijplijn om YouTube-video's en hun ondertiteling (CC, hetzelfde als ASR) te verwerken, wat resulteert in de Live-CC-5M-dataset voor pre-training en de Live-WhisperX-526K-dataset voor hoogwaardige supervised fine-tuning (SFT). Opmerkelijk is dat zelfs zonder SFT het alleen met ASR getrainde LiveCC-7B-Base-model competitieve algemene video-QA-prestaties vertoont en een nieuwe mogelijkheid toont in real-time videocommentaar. Om dit te evalueren, hebben we zorgvuldig een nieuwe LiveSports-3K-benchmark ontworpen, waarbij we LLM-as-a-judge gebruiken om het vrijgevormde commentaar te meten. Experimenten tonen aan dat ons uiteindelijke LiveCC-7B-Instruct-model geavanceerde 72B-modellen (Qwen2.5-VL-72B-Instruct, LLaVA-Video-72B) kan overtreffen in commentaarkwaliteit, zelfs wanneer het in real-time werkt. Tegelijkertijd behaalt het state-of-the-art resultaten op de 7B/8B-schaal op populaire video-QA-benchmarks zoals VideoMME en OVOBench, wat de brede generaliseerbaarheid van onze aanpak aantoont. Alle bronnen van dit artikel zijn vrijgegeven op https://showlab.github.io/livecc.

7

BookWorld: Van Romans naar Interactieve Agentensamenlevingen voor Creatieve Verhaalgeneratie
BookWorld: From Novels to Interactive Agent Societies for Creative Story Generation

Apr 20
ByYiting Ran, Xintao Wang, Tian Qiu, Jiaqing Liang, Yanghua Xiao, Deqing Yang
30
2

Recente vooruitgang in grote taalmodellen (LLMs) heeft sociale simulatie mogelijk gemaakt via multi-agent systemen. Eerdere inspanningen richten zich op agentsamenlevingen die vanaf nul worden gecreëerd, waarbij agents worden voorzien van nieuw gedefinieerde persona's. Het simuleren van gevestigde fictieve werelden en personages blijft echter grotendeels onontgonnen, ondanks de aanzienlijke praktische waarde ervan. In dit artikel introduceren we BookWorld, een uitgebreid systeem voor het construeren en simuleren van op boeken gebaseerde multi-agent samenlevingen. Het ontwerp van BookWorld omvat uitgebreide real-world complexiteiten, waaronder diverse en dynamische personages, fictieve wereldbeelden, geografische beperkingen en veranderingen, enz. BookWorld maakt diverse toepassingen mogelijk, waaronder verhalengeneratie, interactieve spellen en sociale simulatie, en biedt nieuwe manieren om geliefde fictieve werken uit te breiden en te verkennen. Door uitgebreide experimenten tonen we aan dat BookWorld creatieve, hoogwaardige verhalen genereert terwijl het trouw blijft aan de bronboeken, en daarmee eerdere methoden overtreft met een winstpercentage van 75,36%. De code van dit artikel is te vinden op de projectpagina: https://bookworld2025.github.io/.

8

IV-Bench: Een Benchmark voor Beeldgebaseerde Video Waarneming en Redenering in Multimodale LLM's
IV-Bench: A Benchmark for Image-Grounded Video Perception and Reasoning in Multimodal LLMs

Apr 21
ByDavid Ma, Yuanxing Zhang, Jincheng Ren, Jarvis Guo, Yifan Yao, Zhenlin Wei, Zhenzhu Yang, Zhongyuan Peng, Boyu Feng, Jun Ma, Xiao Gu, Zhoufutu Wen, King Zhu, Yancheng He, Meng Cao, Shiwen Ni, Jiaheng Liu, Wenhao Huang, Ge Zhang, Xiaojie Jin
23
2

Bestaande evaluatieframeworks voor Multimodale Grote Taalmodellen (MLLMs) richten zich voornamelijk op beeldredenering of algemene videobegriptaken, waarbij de significante rol van beeldcontext in videobegrip grotendeels over het hoofd wordt gezien. Om deze kloof te overbruggen, stellen we IV-Bench voor, de eerste uitgebreide benchmark voor het evalueren van Beeldgebaseerde Videowaarneming en Redenering. IV-Bench bestaat uit 967 video's, gekoppeld aan 2.585 zorgvuldig geannoteerde beeld-tekstvragen over 13 taken (7 waarnemingstaken en 6 redeneertaken) en 5 representatieve categorieën. Uitgebreide evaluaties van state-of-the-art open-source (bijv. InternVL2.5, Qwen2.5-VL) en closed-source (bijv. GPT-4o, Gemini2-Flash en Gemini2-Pro) MLLM's tonen aan dat huidige modellen aanzienlijk onderpresteren in beeldgebaseerde videowaarneming en redenering, met een nauwkeurigheid van maximaal 28,9%. Verdere analyse onthult belangrijke factoren die de modelprestaties op IV-Bench beïnvloeden, waaronder het inferentiepatroon, het aantal frames en de resolutie. Daarnaast demonstreren we door middel van een eenvoudige datasynthesemethode dat de uitdagingen van IV-Bench verder reiken dan alleen het afstemmen van het dataformaat in het trainingsproces. Deze bevindingen bieden gezamenlijk waardevolle inzichten voor toekomstig onderzoek. Onze codes en data zijn vrijgegeven op https://github.com/multimodal-art-projection/IV-Bench.

9

WALL-E 2.0: Werelduitlijning via NeuroSymbolisch Leren verbetert Wereldmodel-gebaseerde LLM-agenten
WALL-E 2.0: World Alignment by NeuroSymbolic Learning improves World Model-based LLM Agents

Apr 22
BySiyu Zhou, Tianyi Zhou, Yijun Yang, Guodong Long, Deheng Ye, Jing Jiang, Chengqi Zhang
22
4

Kunnen we nauwkeurige wereldmodellen bouwen op basis van grote taalmodellen (LLM's)? Hoe kunnen wereldmodellen LLM-agenten ten goede komen? De kloof tussen de voorkennis van LLM's en de dynamiek van een specifieke omgeving vormt meestal een knelpunt voor de prestaties van LLM's als wereldmodellen. Om deze kloof te overbruggen, stellen we een trainingsvrije "werelduitlijning" voor die symbolische kennis over een omgeving leert die complementair is aan LLM's. Deze symbolische kennis omvat actieregels, kennisgrafieken en scènegrafieken, die door LLM's worden geëxtraheerd uit verkenningspaden en worden gecodeerd in uitvoerbare code om het beleid van LLM-agenten te reguleren. We introduceren verder een RL-vrije, modelgebaseerde agent "WALL-E 2.0" via het model-predictive control (MPC)-raamwerk. In tegenstelling tot klassieke MPC, die kostbare optimalisatie op het moment zelf vereist, gebruiken we een LLM-agent als een efficiënte vooruitkijkende optimalisator van toekomstige acties door interactie met het neurosymbolische wereldmodel. Terwijl de sterke heuristiek van de LLM-agent het een efficiënte planner maakt in MPC, wordt de kwaliteit van de geplande acties ook gewaarborgd door de nauwkeurige voorspellingen van het uitgelijnde wereldmodel. Samen verbeteren ze aanzienlijk de leer efficiëntie in een nieuwe omgeving. Bij open-werelduitdagingen in Mars (Minecraft-achtig) en ALFWorld (belichaamde binnenomgevingen) presteert WALL-E 2.0 aanzienlijk beter dan bestaande methoden, bijvoorbeeld door de basislijnen in Mars te overtreffen met 16,1%-51,6% succespercentage en met minstens 61,7% in score. In ALFWorld behaalt het een nieuw record van 98% succespercentage na slechts 4 iteraties.

10

LLM's zijn hebberige agenten: Effecten van RL-finetuning op besluitvormingsvaardigheden
LLMs are Greedy Agents: Effects of RL Fine-tuning on Decision-Making Abilities

Apr 22
ByThomas Schmied, Jörg Bornschein, Jordi Grau-Moya, Markus Wulfmeier, Razvan Pascanu
21
4

Het succes van Large Language Models (LLM's) heeft interesse gewekt in diverse agent-gebaseerde toepassingen. Een belangrijke hypothese is dat LLM's, door gebruik te maken van gezond verstand en Chain-of-Thought (CoT) redenering, effectief complexe domeinen kunnen verkennen en efficiënt kunnen oplossen. Echter, is gebleken dat LLM-agenten last hebben van suboptimale verkenning en de 'knowing-doing gap', het onvermogen om effectief te handelen op basis van kennis die in het model aanwezig is. In dit werk bestuderen we systematisch waarom LLM's suboptimaal presteren in besluitvormingsscenario's. In het bijzonder onderzoeken we drie veelvoorkomende faalmodes: hebzucht, frequentiebias en de 'knowing-doing gap'. We stellen een aanpak voor om deze tekortkomingen te mitigeren door fine-tuning via Reinforcement Learning (RL) op zelf gegenereerde CoT-redeneringen. Onze experimenten met multi-armed bandits, contextuele bandits en Tic-tac-toe tonen aan dat RL-fine-tuning de besluitvormingsvaardigheden van LLM's verbetert door verkenning te vergroten en de 'knowing-doing gap' te verkleinen. Tot slot bestuderen we zowel klassieke verkenningstechnieken, zoals epsilon-greedy, als LLM-specifieke benaderingen, zoals zelfcorrectie en zelfconsistentie, om een effectievere fine-tuning van LLM's voor besluitvorming mogelijk te maken.

11

Efficiënte schaalbaarheid van voorafgaande training
Efficient Pretraining Length Scaling

Apr 21
ByBohong Wu, Shen Yan, Sijun Zhang, Jianqiao Lu, Yutao Zeng, Ya Wang, Xun Zhou
20
2

Recente vooruitgang in grote taalmodel(len) heeft de effectiviteit van lengteschaling tijdens post-training aangetoond, maar het potentieel ervan in pre-training blijft onderbelicht. Wij presenteren de Parallel Hidden Decoding Transformer (PHD-Transformer), een nieuw framework dat efficiënte lengteschaling tijdens pre-training mogelijk maakt terwijl de inferentie-efficiëntie behouden blijft. De PHD-Transformer bereikt dit door een innovatieve KV-cachebeheerstrategie die onderscheid maakt tussen originele tokens en verborgen decodeertokens. Door alleen de KV-cache van originele tokens te behouden voor langeafstandsafhankelijkheden en verborgen decodeertokens direct na gebruik te verwijderen, behoudt onze aanpak dezelfde KV-cachegrootte als de standaard transformer terwijl effectieve lengteschaling mogelijk wordt gemaakt. Om de prestaties verder te verbeteren, introduceren we twee geoptimaliseerde varianten: PHD-SWA maakt gebruik van sliding window attention om lokale afhankelijkheden te behouden, terwijl PHD-CSWA chunk-wise sliding window attention implementeert om lineaire groei in pre-fillingtijd te elimineren. Uitgebreide experimenten tonen consistente verbeteringen aan over meerdere benchmarks.

12

Gepersonaliseerde tekst-naar-beeldgeneratie met auto-regressieve modellen
Personalized Text-to-Image Generation with Auto-Regressive Models

Apr 17
ByKaiyue Sun, Xian Liu, Yao Teng, Xihui Liu
18
3

Gepersonaliseerde beeldgeneratie is naar voren gekomen als een cruciale toepassing binnen tekst-naar-beeldgeneratie, waardoor het mogelijk wordt om afbeeldingen te creëren met specifieke onderwerpen in diverse contexten. Hoewel diffusiemodellen dit domein hebben gedomineerd, blijven autoregressieve modellen, met hun uniforme architectuur voor tekst- en beeldmodellering, onderbelicht voor gepersonaliseerde beeldgeneratie. Dit artikel onderzoekt het potentieel van het optimaliseren van autoregressieve modellen voor gepersonaliseerde beeldgeneratie, waarbij gebruik wordt gemaakt van hun inherente multimodale mogelijkheden om deze taak uit te voeren. We stellen een tweefasige trainingsstrategie voor die de optimalisatie van tekstembeddingen combineert met het finetunen van transformer-lagen. Onze experimenten met het autoregressieve model laten zien dat deze methode vergelijkbare onderwerptrouw en promptvolging bereikt als de toonaangevende diffusiegebaseerde personalisatiemethoden. De resultaten benadrukken de effectiviteit van autoregressieve modellen in gepersonaliseerde beeldgeneratie en bieden een nieuwe richting voor toekomstig onderzoek op dit gebied.

13

CheXWorld: Onderzoek naar Image World Modeling voor Radiografische Representatie Leren
CheXWorld: Exploring Image World Modeling for Radiograph Representation Learning

Apr 18
ByYang Yue, Yulin Wang, Chenxin Tao, Pan Liu, Shiji Song, Gao Huang
16
2

Mensen kunnen interne wereldmodellen ontwikkelen die gezond verstand coderen, hen vertellen hoe de wereld werkt en de gevolgen van hun acties voorspellen. Dit concept is naar voren gekomen als een veelbelovende richting voor het ontwikkelen van algemene machine learning-modellen in recente voorlopige werken, bijvoorbeeld voor visuele representatie leren. In dit artikel presenteren we CheXWorld, de eerste poging tot een zelf-superviserend wereldmodel voor radiografische afbeeldingen. Specifiek ontwikkelt ons werk een geïntegreerd framework dat gelijktijdig drie aspecten van medische kennis modelleert die essentieel zijn voor gekwalificeerde radiologen, waaronder 1) lokale anatomische structuren die de fijnmazige kenmerken van lokale weefsels beschrijven (bijv. architectuur, vormen en texturen); 2) globale anatomische lay-outs die de globale organisatie van het menselijk lichaam beschrijven (bijv. lay-outs van organen en skeletten); en 3) domeinvariaties die CheXWorld aanmoedigen om de overgangen tussen verschillende verschijningsdomeinen van radiografieën te modelleren (bijv. variërende helderheid, contrast en belichting veroorzaakt door het verzamelen van radiografieën van verschillende ziekenhuizen, apparaten of patiënten). Empirisch ontwerpen we op maat gemaakte kwalitatieve en kwantitatieve analyses, die aantonen dat CheXWorld met succes deze drie dimensies van medische kennis vastlegt. Bovendien laten transfer learning-experimenten over acht medische beeldclassificatie- en segmentatiebenchmarks zien dat CheXWorld aanzienlijk beter presteert dan bestaande SSL-methoden en grootschalige medische foundation-modellen. Code en vooraf getrainde modellen zijn beschikbaar op https://github.com/LeapLabTHU/CheXWorld.

14

Van Reflectie naar Perfectie: Schaalvergroting van Inferentie-Tijd Optimalisatie voor Tekst-naar-Beeld Diffusiemodellen via Reflectie Afstemming
From Reflection to Perfection: Scaling Inference-Time Optimization for Text-to-Image Diffusion Models via Reflection Tuning

Apr 22
ByLe Zhuo, Liangbing Zhao, Sayak Paul, Yue Liao, Renrui Zhang, Yi Xin, Peng Gao, Mohamed Elhoseiny, Hongsheng Li
15
2

Recente tekst-naar-beeld diffusiemodellen bereiken indrukwekkende visuele kwaliteit door uitgebreide schaalvergroting van trainingsdata en modelparameters, maar ze hebben vaak moeite met complexe scènes en fijngranulaire details. Geïnspireerd door de zelfreflectiecapaciteiten die opkomen in grote taalmodellen, stellen we ReflectionFlow voor, een inferentietijd-framework dat diffusiemodellen in staat stelt om iteratief te reflecteren op en hun uitvoer te verfijnen. ReflectionFlow introduceert drie complementaire schaalassen tijdens inferentie: (1) ruisniveau-schaling om de latente initialisatie te optimaliseren; (2) promptniveau-schaling voor precieze semantische begeleiding; en vooral (3) reflectieniveau-schaling, die expliciet bruikbare reflecties biedt om eerdere generaties iteratief te beoordelen en te corrigeren. Om reflectieniveau-schaling te faciliteren, construeren we GenRef, een grootschalige dataset bestaande uit 1 miljoen triplets, elk met een reflectie, een gebrekkige afbeelding en een verbeterde afbeelding. Door gebruik te maken van deze dataset, voeren we efficiënt reflectie-afstemming uit op de state-of-the-art diffusietransformer, FLUX.1-dev, door multimodale inputs gezamenlijk te modelleren binnen een uniform framework. Experimentele resultaten tonen aan dat ReflectionFlow aanzienlijk beter presteert dan naïeve ruisniveau-schalingmethoden, en biedt een schaalbare en rekenkundig efficiënte oplossing voor hogere kwaliteit beeld-synthese bij uitdagende taken.

15

Vidi: Grote Multimodale Modellen voor Videobegrip en -bewerking
Vidi: Large Multimodal Models for Video Understanding and Editing

Apr 22
ByVidi Team, Celong Liu, Chia-Wen Kuo, Dawei Du, Fan Chen, Guang Chen, Jiamin Yuan, Lingxi Zhang, Lu Guo, Lusha Li, Longyin Wen, Qingyu Chen, Rachel Deng, Sijie Zhu, Stuart Siew, Tong Jin, Wei Lu, Wen Zhong, Xiaohui Shen, Xin Gu, Xing Mei, Xueqiong Qu
14
2

Mensen delen van nature informatie met degenen met wie ze verbonden zijn, en video is een van de dominante media geworden voor communicatie en expressie op het internet. Om de creatie van hoogwaardige grootschalige video-inhoud te ondersteunen, vereist een moderne pipeline een uitgebreid begrip van zowel de ruwe invoermaterialen (bijvoorbeeld de onbewerkte beelden die door camera's zijn vastgelegd) als de bewerkingscomponenten (bijvoorbeeld visuele effecten). In video-bewerkingsscenario's moeten modellen meerdere modaliteiten verwerken (bijvoorbeeld visie, audio, tekst) met een sterke achtergrondkennis en omgaan met flexibele invoerlengtes (bijvoorbeeld urenlange ruwe video's), wat aanzienlijke uitdagingen vormt voor traditionele modellen. In dit rapport introduceren we Vidi, een familie van Large Multimodal Models (LMMs) voor een breed scala aan video-begrip- en bewerkingsscenario's. De eerste release richt zich op temporele retrieval, dat wil zeggen het identificeren van de tijdsbereiken binnen de invoervideo's die overeenkomen met een gegeven tekstquery, wat een cruciale rol speelt in intelligente bewerking. Het model is in staat om urenlange video's te verwerken met een sterk temporeel begripsvermogen, bijvoorbeeld het ophalen van tijdsbereiken voor bepaalde queries. Om een uitgebreide evaluatie in real-world scenario's te ondersteunen, presenteren we ook de VUE-TR benchmark, die vijf belangrijke verbeteringen introduceert. 1) Videoduur: aanzienlijk langer dan bestaande temporele retrieval-datasets, 2) Audio-ondersteuning: omvat audio-gebaseerde queries, 3) Query-formaat: diverse query-lengtes/formaten, 4) Annotatiekwaliteit: grondwaarheid-tijdsbereiken zijn handmatig geannoteerd. 5) Evaluatiemetriek: een verfijnde IoU-metriek om evaluatie over meerdere tijdsbereiken te ondersteunen. Opmerkelijk is dat Vidi aanzienlijk beter presteert dan toonaangevende propriëtaire modellen, zoals GPT-4o en Gemini, bij de temporele retrieval-taak, wat zijn superioriteit in video-bewerkingsscenario's aangeeft.

16

RealisDance-DiT: Eenvoudig maar krachtig uitgangspunt voor beheerbare karakteranimatie in de praktijk
RealisDance-DiT: Simple yet Strong Baseline towards Controllable Character Animation in the Wild

Apr 21
ByJingkai Zhou, Yifan Wu, Shikai Li, Min Wei, Chao Fan, Weihua Chen, Wei Jiang, Fan Wang
10
2

Beheersbare karakteranimatie blijft een uitdagend probleem, met name bij het omgaan met zeldzame houdingen, gestileerde karakters, interacties tussen karakters en objecten, complexe belichting en dynamische scènes. Om deze problemen aan te pakken, heeft eerder werk zich vooral gericht op het injecteren van houdings- en uiterlijkbegeleiding via uitgebreide bypass-netwerken, maar vaak blijkt het moeilijk om te generaliseren naar open-wereldscenario's. In dit artikel stellen we een nieuw perspectief voor: zolang het basismodel krachtig genoeg is, kunnen eenvoudige modelaanpassingen met flexibele fine-tuningstrategieën de bovenstaande uitdagingen grotendeels aanpakken, wat een stap zet richting beheersbare karakteranimatie in de praktijk. Specifiek introduceren we RealisDance-DiT, gebouwd op het Wan-2.1 videobasismodel. Onze grondige analyse toont aan dat het veelgebruikte Reference Net-ontwerp suboptimaal is voor grootschalige DiT-modellen. In plaats daarvan laten we zien dat minimale aanpassingen aan de architectuur van het basismodel een verrassend sterke basislijn opleveren. We stellen verder de low-noise warmup en de "grote batches en kleine iteraties"-strategieën voor om de modelconvergentie tijdens het fine-tunen te versnellen, terwijl de voorkennis van het basismodel maximaal behouden blijft. Daarnaast introduceren we een nieuwe testdataset die diverse real-world uitdagingen vastlegt, als aanvulling op bestaande benchmarks zoals de TikTok-dataset en de UBC-fashionvideodataset, om de voorgestelde methode uitgebreid te evalueren. Uitgebreide experimenten tonen aan dat RealisDance-DiT bestaande methoden met een grote marge overtreft.

17

Progent: Programmeerbaar Privilegebeheer voor LLM-agenten
Progent: Programmable Privilege Control for LLM Agents

Apr 16
ByTianneng Shi, Jingxuan He, Zhun Wang, Linyu Wu, Hongwei Li, Wenbo Guo, Dawn Song
6
2

LLM-agents zijn een opkomende vorm van AI-systemen waarbij grote taalmodellen (LLM's) als centrale component fungeren, waarbij ze gebruikmaken van een diverse set tools om door gebruikers toegewezen taken uit te voeren. Ondanks hun grote potentieel brengen LLM-agents aanzienlijke beveiligingsrisico's met zich mee. Bij interactie met de externe wereld kunnen ze kwaadaardige commando's van aanvallers tegenkomen, wat kan leiden tot het uitvoeren van gevaarlijke acties. Een veelbelovende manier om dit aan te pakken is door het principe van minimale rechten toe te passen: alleen essentiële acties voor taakvoltooiing toestaan, terwijl onnodige acties worden geblokkeerd. Het bereiken hiervan is echter uitdagend, omdat het diverse agentscenario's moet dekken terwijl zowel beveiliging als functionaliteit behouden blijven. We introduceren Progent, het eerste privilegecontrolemechanisme voor LLM-agents. De kern ervan bestaat uit een domeinspecifieke taal voor het flexibel uitdrukken van privilegecontrolebeleid dat wordt toegepast tijdens de uitvoering van de agent. Dit beleid biedt gedetailleerde beperkingen voor toolaanroepen, bepaalt wanneer toolaanroepen zijn toegestaan en specificeert fallbacks als dit niet het geval is. Hierdoor kunnen agentontwikkelaars en gebruikers geschikt beleid voor hun specifieke use cases opstellen en dit deterministisch afdwingen om beveiliging te garanderen. Dankzij het modulaire ontwerp verandert de integratie van Progent de interne werking van de agent niet en zijn slechts minimale wijzigingen aan de implementatie van de agent nodig, wat de praktische bruikbaarheid en het potentieel voor brede adoptie vergroot. Om het schrijven van beleid te automatiseren, maken we gebruik van LLM's om beleid te genereren op basis van gebruikersvragen, dat vervolgens dynamisch wordt bijgewerkt voor verbeterde beveiliging en functionaliteit. Onze uitgebreide evaluatie toont aan dat het sterke beveiliging mogelijk maakt terwijl hoge functionaliteit behouden blijft in drie verschillende scenario's of benchmarks: AgentDojo, ASB en AgentPoison. Bovendien voeren we een diepgaande analyse uit, waarin de effectiviteit van de kerncomponenten en de veerkracht van de geautomatiseerde beleidsgeneratie tegen adaptieve aanvallen worden gedemonstreerd.

18

MR. Video: "MapReduce" is het principe voor het begrijpen van lange video's
MR. Video: "MapReduce" is the Principle for Long Video Understanding

Apr 22
ByZiqi Pang, Yu-Xiong Wang
5
2

Wij stellen MR. Video voor, een agentisch raamwerk voor het begrijpen van lange video's dat het eenvoudige maar effectieve MapReduce-principe demonstreert voor het verwerken van lange video's: (1) Map: het onafhankelijk en dicht waarnemen van korte videofragmenten, en (2) Reduce: het gezamenlijk aggregeren van informatie uit alle fragmenten. In vergelijking met sequence-to-sequence vision-language modellen (VLMs) voert MR. Video gedetailleerde waarneming van korte video's uit zonder beperkt te worden door de contextlengte. In vergelijking met bestaande video-agents die doorgaans vertrouwen op sequentiële selectie van sleutelsegmenten, maakt de Map-operatie een eenvoudigere en schaalbaardere parallelle waarneming van korte videosegmenten mogelijk. De Reduce-stap maakt een uitgebreidere contextaggregatie en redenering mogelijk, wat expliciete ophalen van sleutelsegmenten overtreft. Dit MapReduce-principe is toepasbaar op zowel VLMs als video-agents, en we gebruiken LLM-agents om de effectiviteit ervan te valideren. In de praktijk gebruikt MR. Video twee MapReduce-fasen: (A) Captioning: het genereren van bijschriften voor korte videofragmenten (map), gevolgd door het standaardiseren van herhaalde personages en objecten naar gedeelde namen (reduce); (B) Analyse: voor elke gebruikersvraag, het analyseren van relevante informatie uit individuele korte video's (map), en het integreren ervan in een definitief antwoord (reduce). MR. Video behaalt een nauwkeurigheidsverbetering van meer dan 10% op de uitdagende LVBench in vergelijking met state-of-the-art VLMs en video-agents. Code is beschikbaar op: https://github.com/ziqipang/MR-Video

19

CAPTURe: Evaluatie van ruimtelijk redeneren in visuele taalmodellen via het tellen van verborgen objecten
CAPTURe: Evaluating Spatial Reasoning in Vision Language Models via Occluded Object Counting

Apr 21
ByAtin Pothiraj, Elias Stengel-Eskin, Jaemin Cho, Mohit Bansal
4
2

Het herkennen en redeneren over verborgen (gedeeltelijk of volledig verstopte) objecten is essentieel voor het begrijpen van visuele scènes, aangezien occlusies vaak voorkomen in realistische omgevingen en als obstakels fungeren voor ruimtelijk begrip. Om het vermogen van modellen te testen om over meerdere verborgen objecten te redeneren, introduceren we een nieuwe taak, Counting Amodally for Patterns Through Unseen REgions (CAPTURe), waarbij een model objecten die in een patroon zijn gerangschikt moet tellen door af te leiden hoe het patroon zich achter een occluder (een object dat delen van de scène blokkeert) voortzet. CAPTURe vereist zowel het herkennen van visuele patronen als redeneren, waardoor het een nuttige testomgeving is voor het evalueren van vision-language modellen (VLMs) op hun begrip van verborgen patronen en ruimtelijke inzichtvaardigheden. Door modellen te verplichten te redeneren over verborgen objecten, test CAPTURe ook het vermogen van VLMs om wereldmodellen te vormen die hen in staat stellen ontbrekende informatie in te vullen. CAPTURe bestaat uit twee delen: (1) CAPTURe-real, met handmatig gefilterde afbeeldingen van echte objecten in patronen, en (2) CAPTURe-synthetic, een gecontroleerde diagnostische test met gegenereerde gepatroonde afbeeldingen. We evalueren vier sterke VLMs (GPT-4o, Intern-VL2, Molmo en Qwen2-VL) op CAPTURe en constateren dat modellen moeite hebben met tellen in zowel verborgen als niet-verborgen patronen. Cruciaal is dat we ontdekken dat modellen slechter presteren bij occlusie, wat suggereert dat VLMs ook tekortschieten in het afleiden van onzichtbare ruimtelijke relaties: zelfs de sterkste VLMs zoals GPT-4o falen bij het tellen met occlusie. Daarentegen constateren we dat mensen zeer weinig fouten maken bij CAPTURe. We vinden ook dat het verstrekken van aanvullende informatie over de locaties van verborgen objecten de prestaties verbetert, wat benadrukt dat de modelfouten zowel voortkomen uit een onvermogen om met occlusie om te gaan als uit moeilijkheden met tellen in afbeeldingen.

20

IPBench: Het benchmarken van de kennis van grote taalmodellen op het gebied van intellectueel eigendom
IPBench: Benchmarking the Knowledge of Large Language Models in Intellectual Property

Apr 22
ByQiyao Wang, Guhong Chen, Hongbo Wang, Huaren Liu, Minghui Zhu, Zhifei Qin, Linwei Li, Yilin Yue, Shiqiang Wang, Jiayan Li, Yihang Wu, Ziqiang Liu, Longze Chen, Run Luo, Liyang Fan, Jiaming Li, Lei Zhang, Kan Xu, Hongfei Lin, Hamid Alinejad-Rokny, Shiwen Ni, Yuan Lin, Min Yang
3
2

Intellectueel Eigendom (IE) is een uniek domein dat technische en juridische kennis integreert, waardoor het van nature complex en kennisintensief is. Naarmate grote taalmodellen (LLM's) zich blijven ontwikkelen, tonen ze groot potentieel voor het verwerken van IE-taken, wat efficiëntere analyse, begrip en generatie van IE-gerelateerde inhoud mogelijk maakt. Bestaande datasets en benchmarks richten zich echter ofwel smal op patenten of dekken slechts beperkte aspecten van het IE-domein, waardoor ze niet aansluiten bij realistische scenario's. Om deze kloof te overbruggen, introduceren we de eerste uitgebreide taxonomie voor IE-taken en een grote, diverse tweetalige benchmark, IPBench, die 8 IE-mechanismen en 20 taken omvat. Deze benchmark is ontworpen om LLM's te evalueren in realistische toepassingen van intellectueel eigendom, zowel op het gebied van begrip als generatie. We testen 16 LLM's, variërend van algemene modellen tot domeinspecifieke modellen, en constateren dat zelfs het best presterende model slechts 75,8% nauwkeurigheid behaalt, wat aanzienlijke ruimte voor verbetering laat zien. Opvallend is dat open-source IE- en rechtsgerichte modellen achterblijven bij gesloten algemene modellen. We maken alle data en code van IPBench openbaar en zullen deze blijven bijwerken met aanvullende IE-gerelateerde taken om de uitdagingen in het domein van intellectueel eigendom beter te weerspiegelen.

21

DiffVox: Een Differentieerbaar Model voor het Vastleggen en Analyseren van Professionele Effectenverdelingen
DiffVox: A Differentiable Model for Capturing and Analysing Professional Effects Distributions

Apr 20
ByChin-Yun Yu, Marco A. Martínez-Ramírez, Junghyun Koo, Ben Hayes, Wei-Hsiang Liao, György Fazekas, Yuki Mitsufuji
1
2

Dit onderzoek introduceert een nieuw en interpreteerbaar model, DiffVox, voor het matchen van vocale effecten in muziekproductie. DiffVox, kort voor "Differentiable Vocal Fx", integreert parametrische equalisatie, dynamische bereikregeling, delay en reverb met efficiënte differentieerbare implementaties om op gradiënten gebaseerde optimalisatie voor parameterbepaling mogelijk te maken. Vocale presets worden opgehaald uit twee datasets, bestaande uit 70 nummers van MedleyDB en 365 nummers uit een privécollectie. Analyse van parametercorrelaties benadrukt sterke relaties tussen effecten en parameters, zoals de high-pass en low-shelf filters die vaak samenwerken om het lage frequentiebereik vorm te geven, en de delaytijd die correleert met de intensiteit van de vertraagde signalen. Hoofdcomponentenanalyse onthult verbanden met McAdams' timbredimensies, waarbij de belangrijkste component de waargenomen ruimtelijkheid moduleert en de secundaire componenten de spectrale helderheid beïnvloeden. Statistische tests bevestigen de niet-Gaussische aard van de parameterverdeling, wat de complexiteit van de ruimte van vocale effecten benadrukt. Deze eerste bevindingen over de parameterverdelingen leggen de basis voor toekomstig onderzoek naar modellering van vocale effecten en automatische mixing. Onze broncode en datasets zijn toegankelijk op https://github.com/SonyResearch/diffvox.

Apr 22
Apr 23
Apr 24