AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Wanneer Minder Genoeg Is: Adaptieve Tokenreductie voor Efficiënte Beeldrepresentatie
When Less is Enough: Adaptive Token Reduction for Efficient Image Representation

Mar 20

ByEduard Allakhverdov, Elizaveta Goncharova, Andrey Kuznetsov

Vision encoders genereren doorgaans een groot aantal visuele tokens, die informatie-rijke representaties bieden maar de rekenkundige eisen aanzienlijk verhogen. Dit roept de vraag op of alle gegenereerde tokens even waardevol zijn of dat sommige ervan kunnen worden verwijderd om de rekenkosten te verlagen zonder de kwaliteit aan te tasten. In dit artikel introduceren we een nieuwe methode om de bruikbaarheid van features te bepalen, gebaseerd op het idee dat minder waardevolle features kunnen worden gereconstrueerd uit meer waardevolle. We implementeren dit concept door een autoencoder te integreren met een Gumbel-Softmax-selectiemechanisme, waarmee de meest informatieve visuele tokens kunnen worden geïdentificeerd en behouden. Om onze aanpak te valideren, vergeleken we de prestaties van het LLaVA-NeXT-model, waarbij features werden geselecteerd met onze methode, met willekeurig geselecteerde features. We ontdekten dat bij OCR-gebaseerde taken meer dan 50% van de visuele context kan worden verwijderd met minimaal prestatieverlies, terwijl het willekeurig verwijderen van dezelfde hoeveelheid features de modelcapaciteiten aanzienlijk beïnvloedt. Bovendien behaalt bij algemene taken zelfs het willekeurig behouden van slechts 30% van de tokens prestaties die vergelijkbaar zijn met het gebruik van de volledige set visuele tokens. Onze resultaten wijzen op een veelbelovende richting naar adaptief en efficiënt multimodaal snoeien, wat schaalbare en low-overhead inferentie mogelijk maakt zonder in te leveren op prestaties.

MAPS: Een Multi-Agent Framework Gebaseerd op de Big Seven Persoonlijkheid en Socratische Begeleiding voor Multimodaal Wetenschappelijk Probleemoplossen
MAPS: A Multi-Agent Framework Based on Big Seven Personality and Socratic Guidance for Multimodal Scientific Problem Solving

Mar 21

ByJian Zhang, Zhiyuan Wang, Zhangqi Wang, Xinyu Zhang, Fangzhi Xu, Qika Lin, Rui Mao, Erik Cambria, Jun Liu

Multimodale wetenschappelijke problemen (MSPs) omvatten complexe vraagstukken die de integratie van meerdere modaliteiten vereisen, zoals tekst en diagrammen, wat een aanzienlijke uitdaging vormt binnen kunstmatige intelligentie. Hoewel er vooruitgang is geboekt bij het aanpakken van traditionele wetenschappelijke problemen, kampen MSPs nog steeds met twee primaire kwesties: de uitdaging van multimodale alomvattende redenering bij het oplossen van wetenschappelijke problemen en het ontbreken van reflectieve en herbezinningscapaciteiten. Om deze kwesties aan te pakken, introduceren we een Multi-Agent framework gebaseerd op de Big Seven Persoonlijkheid en Socratische begeleiding (MAPS). Dit framework maakt gebruik van zeven verschillende agents die feedbackmechanismen en de Socratische methode inzetten om de oplossing van MSPs te begeleiden. Voor de eerste kwestie stellen we een progressieve vier-agent oplossingsstrategie voor, waarbij elke agent zich richt op een specifieke fase van het probleemoplossingsproces. Voor de tweede kwestie introduceren we een Critic-agent, geïnspireerd door Socratisch vragen stellen, die kritisch denken stimuleert en autonoom leren aanmoedigt. We voeren uitgebreide experimenten uit op de EMMA, Olympiad en MathVista datasets, waarbij we veelbelovende resultaten behalen die de huidige SOTA-model met 15,84% overtreffen voor alle taken. Tegelijkertijd bevestigen de aanvullende analytische experimenten ook de vooruitgang en het generalisatievermogen van het model.

Een Uitgebreid Overzicht van Taalmodellering met Lange Context
A Comprehensive Survey on Long Context Language Modeling

Mar 20

ByJiaheng Liu, Dawei Zhu, Zhiqi Bai, Yancheng He, Huanxuan Liao, Haoran Que, Zekun Wang, Chenchen Zhang, Ge Zhang, Jiebin Zhang, Yuanxing Zhang, Zhuo Chen, Hangyu Guo, Shilong Li, Ziqiang Liu, Yong Shan, Yifan Song, Jiayi Tian, Wenhao Wu, Zhejian Zhou, Ruijie Zhu, Junlan Feng, Yang Gao, Shizhu He, Zhoujun Li, Tianyu Liu, Fanyu Meng, Wenbo Su, Yingshui Tan, Zili Wang, Jian Yang, Wei Ye, Bo Zheng, Wangchunshu Zhou, Wenhao Huang, Sujian Li, Zhaoxiang Zhang

Efficiënte verwerking van lange contexten is een voortdurend streven in Natural Language Processing. Met het groeiende aantal lange documenten, dialogen en andere tekstuele gegevens, is het belangrijk om Long Context Language Models (LCLMs) te ontwikkelen die uitgebreide invoer op een effectieve en efficiënte manier kunnen verwerken en analyseren. In dit artikel presenteren we een uitgebreid overzicht van recente vooruitgang in lange-contextmodellering voor grote taalmodellen. Ons overzicht is gestructureerd rond drie kernaspecten: hoe effectieve en efficiënte LCLMs te verkrijgen, hoe LCLMs efficiënt te trainen en in te zetten, en hoe LCLMs uitgebreid te evalueren en analyseren. Voor het eerste aspect bespreken we datastrategieën, architectonische ontwerpen en workflowbenaderingen gericht op lange context verwerking. Voor het tweede aspect bieden we een gedetailleerd onderzoek van de infrastructuur die nodig is voor LCLM-training en -inferentie. Voor het derde aspect presenteren we evaluatieparadigma's voor lange-contextbegrip en lange-vormgeneratie, evenals gedragsanalyse en mechanisme-interpretatie van LCLMs. Naast deze drie kernaspecten verkennen we grondig de diverse toepassingsscenario's waarin bestaande LCLMs zijn ingezet en schetsen we veelbelovende toekomstige ontwikkelingsrichtingen. Dit overzicht biedt een actuele review van de literatuur over lange-context LLMs, die we willen laten dienen als een waardevolle bron voor zowel onderzoekers als ingenieurs. Een geassocieerde GitHub-repository die de nieuwste papers en repos verzamelt, is beschikbaar op: https://github.com/LCLM-Horizon/A-Comprehensive-Survey-For-Long-Context-Language-Modeling{\color[RGB]{175,36,67}{LCLM-Horizon}}.

MARS: Een Multi-Agent Framework met Socratische Begeleiding voor Geautomatiseerde Promptoptimalisatie
MARS: A Multi-Agent Framework Incorporating Socratic Guidance for Automated Prompt Optimization

Mar 21

ByJian Zhang, Zhangqi Wang, Haiping Zhu, Jun Liu, Qika Lin, Erik Cambria

Het basis vraag-antwoordformaat van grote taalmodellen omvat het invoeren van een prompt en het ontvangen van een reactie, waarbij de kwaliteit van de prompt direct van invloed is op de effectiviteit van het antwoord. Automatische Promptoptimalisatie (APO) streeft ernaar om los te komen van de cognitieve vooroordelen van handmatig ontworpen prompts en verkent een breder ontwerpgebied voor prompts. Bestaande APO-methoden kampen echter met beperkte flexibiliteit van vaste sjablonen en inefficiënte zoekacties in promptruimtes als belangrijke problemen. Daarom stellen we een Multi-Agent framework Incorporating Socratic guidance (MARS) voor, dat multi-agentfusietechnologie gebruikt voor automatische planning, met geleidelijke continue optimalisatie en evaluatie. Specifiek bestaat MARS uit zeven agents, elk met verschillende functionaliteiten, die autonoom de Planner gebruiken om een optimalisatiepad te bedenken dat flexibiliteit waarborgt. Daarnaast wordt een Teacher-Critic-Student Socratisch dialoogpatroon gebruikt om de prompts iteratief te optimaliseren terwijl effectief wordt gezocht. We voeren uitgebreide experimenten uit op verschillende datasets om de effectiviteit van onze methode te valideren, en voeren aanvullende analytische experimenten uit om de vooruitgang van het model evenals de interpreteerbaarheid te beoordelen.

RoboFactory: Onderzoek naar Samenwerking tussen Belichaamde Agents met Compositionele Beperkingen
RoboFactory: Exploring Embodied Agent Collaboration with Compositional Constraints

Mar 20

ByYiran Qin, Li Kang, Xiufeng Song, Zhenfei Yin, Xiaohong Liu, Xihui Liu, Ruimao Zhang, Lei Bai

Het ontwerpen van effectieve belichaamde multi-agent systemen is cruciaal voor het oplossen van complexe taken in de echte wereld, over verschillende domeinen heen. Vanwege de complexiteit van belichaamde multi-agent systemen slagen bestaande methoden er niet in om automatisch veilige en efficiënte trainingsdata voor dergelijke systemen te genereren. Daarom introduceren we het concept van compositionele beperkingen voor belichaamde multi-agent systemen, waarmee we de uitdagingen aanpakken die voortkomen uit de samenwerking tussen belichaamde agents. We ontwerpen verschillende interfaces die zijn afgestemd op verschillende soorten beperkingen, waardoor naadloze interactie met de fysieke wereld mogelijk wordt. Door gebruik te maken van compositionele beperkingen en specifiek ontworpen interfaces, ontwikkelen we een geautomatiseerd framework voor dataverzameling voor belichaamde multi-agent systemen en introduceren we de eerste benchmark voor belichaamde multi-agent manipulatie, RoboFactory. Op basis van de RoboFactory benchmark passen we de methode van imitatieleren aan en evalueren we de prestaties ervan in taken met verschillende moeilijkheidsgraden voor agents. Bovendien onderzoeken we de architecturen en trainingsstrategieën voor multi-agent imitatieleren, met als doel het bouwen van veilige en efficiënte belichaamde multi-agent systemen.

Aanpassen van grote taalmodel na training voor diverse creatieve schrijftoepassingen
Modifying Large Language Model Post-Training for Diverse Creative Writing

Mar 21

ByJohn Joon Young Chung, Vishakh Padmakumar, Melissa Roemmele, Yuqian Sun, Max Kreminski

Omdat creatieve schrijftaken geen eenduidige correcte antwoorden hebben, zouden grote taalmmodellen (LLM's) die zijn getraind om deze taken uit te voeren, in staat moeten zijn om diverse geldige uitvoer te genereren. Echter richt post-training van LLM's zich vaak op het verbeteren van de generatiekwaliteit, maar wordt er weinig aandacht besteed aan het bevorderen van uitvoerdiversiteit. Daarom onderzoeken we in creatieve schrijftaalgeneratie post-trainingbenaderingen om zowel uitvoerdiversiteit als kwaliteit te bevorderen. Onze kernidee is om afwijking – de mate van verschil tussen een trainingsvoorbeeld en alle andere voorbeelden met dezelfde prompt – op te nemen in het trainingsdoel om het leren van zeldzame hoogwaardige instanties te vergemakkelijken. Door onze benadering toe te passen op direct preference optimization (DPO) en odds ratio preference optimization (ORPO), laten we zien dat we de uitvoerdiversiteit van getrainde modellen kunnen bevorderen terwijl de kwaliteit minimaal afneemt. Ons beste model met 8B parameters kon een vergelijkbare diversiteit bereiken als een door mensen gemaakte dataset, terwijl de uitvoerkwaliteit vergelijkbaar was met de best onderzochte instructie-getunede modellen, GPT-4o en DeepSeek-R1. We valideren onze benaderingen verder met een humane evaluatie, een ablatie en een vergelijking met een bestaande diversificatiebenadering, DivPO.

Overbruggen van continue en discrete tokens voor autoregressieve visuele generatie
Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation

Mar 20

ByYuqing Wang, Zhijie Lin, Yao Teng, Yuanzhi Zhu, Shuhuai Ren, Jiashi Feng, Xihui Liu

Autoregressieve visuele generatiemodellen vertrouwen doorgaans op tokenizers om afbeeldingen te comprimeren in tokens die sequentieel kunnen worden voorspeld. Er bestaat een fundamenteel dilemma in tokenrepresentatie: discrete tokens maken eenvoudige modellering mogelijk met standaard kruisentropieverlies, maar lijden onder informatieverlies en instabiliteit tijdens het trainen van de tokenizer; continue tokens behouden visuele details beter, maar vereisen complexe distributiemodellering, wat de generatiepijplijn compliceert. In dit artikel stellen we TokenBridge voor, dat deze kloof overbrugt door de sterke representatiecapaciteit van continue tokens te behouden terwijl de eenvoud van modellering met discrete tokens wordt bewaard. Om dit te bereiken, ontkoppelen we discretisatie van het tokenizertrainingsproces door middel van post-trainingskwantisatie die direct discrete tokens verkrijgt uit continue representaties. Specifiek introduceren we een dimensiegewijze kwantiseringsstrategie die elke kenmerkdimensie onafhankelijk discretiseert, gepaard met een lichtgewicht autoregressief voorspellingsmechanisme dat de resulterende grote tokenruimte efficiënt modelleert. Uitgebreide experimenten tonen aan dat onze aanpak reconstructie- en generatiekwaliteit bereikt die vergelijkbaar is met continue methoden, terwijl standaard categorische voorspelling wordt gebruikt. Dit werk toont aan dat het overbruggen van discrete en continue paradigma's de sterke punten van beide benaderingen effectief kan benutten, wat een veelbelovende richting biedt voor hoogwaardige visuele generatie met eenvoudige autoregressieve modellering. Projectpagina: https://yuqingwang1029.github.io/TokenBridge.

TaoAvatar: Real-time levensechte full-body sprekende avatars voor augmented reality via 3D Gaussian Splatting
TaoAvatar: Real-Time Lifelike Full-Body Talking Avatars for Augmented Reality via 3D Gaussian Splatting

Mar 21

ByJianchuan Chen, Jingchuan Hu, Gaige Wang, Zhonghua Jiang, Tiansong Zhou, Zhiwen Chen, Chengfei Lv

Realistische 3D full-body pratende avatars hebben groot potentieel in AR, met toepassingen variërend van e-commerce livestreaming tot holografische communicatie. Ondanks vooruitgang in 3D Gaussian Splatting (3DGS) voor levensechte avatarcreatie, worstelen bestaande methoden met fijnmazige controle van gezichtsuitdrukkingen en lichaamsbewegingen in full-body pratende taken. Bovendien bieden ze vaak onvoldoende details en kunnen ze niet in real-time draaien op mobiele apparaten. Wij presenteren TaoAvatar, een hoogwaardige, lichtgewicht, 3DGS-gebaseerde full-body pratende avatar die wordt aangestuurd door diverse signalen. Onze aanpak begint met het creëren van een gepersonaliseerd gekleed menselijk parametrisch sjabloon dat Gaussians bindt om uiterlijk te representeren. Vervolgens pre-trainen we een StyleUnet-gebaseerd netwerk om complexe pose-afhankelijke niet-rigide vervorming te verwerken, wat hoogfrequente uiterlijkdetails kan vastleggen maar te resource-intensief is voor mobiele apparaten. Om dit te overwinnen, "bakken" we de niet-rigide vervormingen in een lichtgewicht MLP-gebaseerd netwerk met behulp van een distillatietechniek en ontwikkelen we blend shapes om details te compenseren. Uitgebreide experimenten tonen aan dat TaoAvatar state-of-the-art renderkwaliteit bereikt terwijl het in real-time draait op diverse apparaten, met een snelheid van 90 FPS op hoogwaardige stereo-apparaten zoals de Apple Vision Pro.

OpenVLThinker: Een vroege verkenning van complexe visueel-taalkundige redenering via iteratieve zelfverbetering
OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement

Mar 21

ByYihe Deng, Hritik Bansal, Fan Yin, Nanyun Peng, Wei Wang, Kai-Wei Chang

Recente vooruitgang aangetoond door DeepSeek-R1 heeft laten zien dat complexe redeneervaardigheden in grote taalmodelen (LLMs), waaronder geavanceerd gedrag zoals zelfverificatie en zelfcorrectie, kunnen worden bereikt door Reinforcement Learning (RL) met verifieerbare beloningen, wat de modelprestaties aanzienlijk verbetert op uitdagende taken zoals AIME. Gemotiveerd door deze bevindingen onderzoekt onze studie of vergelijkbare redeneervaardigheden succesvol kunnen worden geïntegreerd in grote visie-taalmodelen (LVLMs) en beoordeelt hun impact op uitdagende multimodale redeneertaken. We overwegen een aanpak die iteratief gebruikmaakt van supervised fine-tuning (SFT) op lichtgewicht trainingsdata en Reinforcement Learning (RL) om de modelgeneralisatie verder te verbeteren. In eerste instantie werden redeneervaardigheden gedistilleerd uit pure-tekst R1-modellen door redeneerstappen te genereren met behulp van hoogwaardige bijschriften van afbeeldingen afkomstig uit diverse visuele datasets. Vervolgens verbeterde iteratieve RL-training de redeneervaardigheden verder, waarbij het door RL verbeterde model van elke iteratie verfijnde SFT-datasets genereerde voor de volgende ronde. Dit iteratieve proces resulteerde in OpenVLThinker, een LVLM dat consistente verbeteringen in redeneerprestaties laat zien op uitdagende benchmarks zoals MathVista, MathVerse en MathVision, wat het potentieel van onze strategie voor robuuste visie-taalredenering aantoont. De code, het model en de data zijn beschikbaar op https://github.com/yihedeng9/OpenVLThinker.

MathFlow: Het verbeteren van de perceptuele flow van MLLMs voor visuele wiskundige problemen
MathFlow: Enhancing the Perceptual Flow of MLLMs for Visual Mathematical Problems

Mar 19

ByFelix Chen, Hangjie Yuan, Yunqiu Xu, Tao Feng, Jun Cen, Pengwei Liu, Zeying Huang, Yi Yang

Ondanks indrukwekkende prestaties op diverse taken, hebben Multimodale Grote Taalmodellen (MLLMs) hun potentieel in visueel wiskundig probleemoplossen nog niet volledig kunnen aantonen, met name in het nauwkeurig waarnemen en interpreteren van diagrammen. Geïnspireerd door typische processen van mensen, stellen we de hypothese dat de perceptiecapaciteiten om betekenisvolle informatie uit diagrammen te extraheren cruciaal zijn, aangezien dit een directe invloed heeft op de daaropvolgende redeneerprocessen. Om deze hypothese te valideren, hebben we FlowVerse ontwikkeld, een uitgebreide benchmark die alle informatie die tijdens het probleemoplossen wordt gebruikt, categoriseert in vier componenten, die vervolgens worden gecombineerd tot zes probleemversies voor evaluatie. Onze voorlopige resultaten op FlowVerse onthullen dat bestaande MLLMs aanzienlijke beperkingen vertonen bij het extraheren van essentiële informatie en redeneereigenschappen uit diagrammen en bij het uitvoeren van complexe redeneringen op basis van deze visuele inputs. Als reactie hierop introduceren we MathFlow, een modulaire probleemoplossingspipeline die perceptie en redenering ontkoppelt in afzonderlijke fasen, waardoor elk afzonderlijk wordt geoptimaliseerd. Gezien de waargenomen perceptuele beperkingen in huidige MLLMs, hebben we MathFlow-P-7B getraind als een toegewijd perceptiemodel. Experimentele resultaten tonen aan dat MathFlow-P-7B aanzienlijke prestatieverbeteringen oplevert wanneer het wordt geïntegreerd met verschillende closed-source en open-source redeneermodellen. Dit demonstreert de effectiviteit van de MathFlow-pipeline en de compatibiliteit ervan met diverse redeneerkaders. De FlowVerse-benchmark en code zijn beschikbaar op https://github.com/MathFlow-zju/MathFlow.

Het mogelijk maken van veelzijdige besturingen voor videodiffusiemodellen
Enabling Versatile Controls for Video Diffusion Models

Mar 21

ByXu Zhang, Hao Zhou, Haoming Qin, Xiaobin Lu, Jiaxing Yan, Guanzhong Wang, Zeyu Chen, Yi Liu

Ondanks aanzienlijke vooruitgang in tekst-naar-video-generatie, blijft het bereiken van precieze en flexibele controle over fijnmazige spatiotemporele attributen een belangrijke onopgeloste uitdaging in onderzoek naar videogeneratie. Om deze beperkingen aan te pakken, introduceren we VCtrl (ook wel PP-VCtrl genoemd), een nieuw framework ontworpen om fijnmazige controle over vooraf getrainde videodiffusiemodellen op een uniforme manier mogelijk te maken. VCtrl integreert diverse door de gebruiker gespecificeerde controlesignalen—zoals Canny edges, segmentatiemaskers en menselijke keypoints—in vooraf getrainde videodiffusiemodellen via een generaliseerbare conditionele module die in staat is om meerdere typen hulpsignalen uniform te coderen zonder de onderliggende generator aan te passen. Daarnaast ontwerpen we een uniforme pijplijn voor het coderen van controlesignalen en een mechanisme voor sparse residuele verbindingen om controle-representaties efficiënt te incorporeren. Uitgebreide experimenten en menselijke evaluaties tonen aan dat VCtrl de beheersbaarheid en generatiekwaliteit effectief verbetert. De broncode en vooraf getrainde modellen zijn publiekelijk beschikbaar en geïmplementeerd met behulp van het PaddlePaddle-framework op http://github.com/PaddlePaddle/PaddleMIX/tree/develop/ppdiffusers/examples/ppvctrl.

Enkele Afbeelding Iteratieve Onderwerp-gedreven Generatie en Bewerking
Single Image Iterative Subject-driven Generation and Editing

Mar 20

ByYair Shpitzer, Gal Chechik, Idan Schwartz

Het personaliseren van beeldgeneratie en -bewerking is bijzonder uitdagend wanneer we slechts een paar afbeeldingen van het onderwerp hebben, of zelfs maar één afbeelding. Een veelgebruikte aanpak voor personalisatie is concept learning, dat het onderwerp relatief snel kan integreren in bestaande modellen, maar beelden produceert waarvan de kwaliteit snel achteruitgaat wanneer het aantal afbeeldingen van het onderwerp klein is. De kwaliteit kan worden verbeterd door een encoder voor te trainen, maar training beperkt de generatie tot de trainingsdistributie en is tijdrovend. Het blijft een moeilijke uitdaging om beeldgeneratie en -bewerking te personaliseren vanuit één enkele afbeelding zonder training. Hier presenteren we SISO, een nieuwe, trainingsvrije aanpak gebaseerd op het optimaliseren van een gelijkenisscore met een invoerafbeelding van het onderwerp. Meer specifiek genereert SISO iteratief afbeeldingen en optimaliseert het model op basis van het verlies aan gelijkenis met de gegeven onderwerpafbeelding totdat een bevredigend niveau van gelijkenis is bereikt, waardoor plug-and-play optimalisatie voor elke beeldgenerator mogelijk wordt. We evalueerden SISO in twee taken, beeldbewerking en beeldgeneratie, met behulp van een diverse dataset van persoonlijke onderwerpen, en laten aanzienlijke verbeteringen zien ten opzichte van bestaande methoden in beeldkwaliteit, onderwerptrouw en achtergrondbehoud.

ETVA: Evaluatie van Text-naar-Video Aligning via Fijnmazige Vraaggeneratie en Beantwoording
ETVA: Evaluation of Text-to-Video Alignment via Fine-grained Question Generation and Answering

Mar 21

ByKaisi Guan, Zhengfeng Lai, Yuchong Sun, Peng Zhang, Wei Liu, Kieran Liu, Meng Cao, Ruihua Song

Het nauwkeurig evalueren van semantische afstemming tussen tekstprompts en gegenereerde video's blijft een uitdaging in Text-to-Video (T2V) Generatie. Bestaande tekst-naar-video afstemmingsmetrieken zoals CLIPScore genereren alleen grofkorrelige scores zonder gedetailleerde afstemmingsinformatie, wat niet overeenkomt met menselijke voorkeuren. Om deze beperking aan te pakken, stellen we ETVA voor, een nieuwe Evaluatiemethode voor Text-to-Video Afstemming via fijnmazige vraaggeneratie en beantwoording. Eerst parseert een multi-agent systeem prompts in semantische scènegrafieken om atomische vragen te genereren. Vervolgens ontwerpen we een kennis-augmented multi-staps redeneerframework voor vraagbeantwoording, waarbij een hulp-LLM eerst relevante algemene kennis (bijv. natuurkundige wetten) ophaalt, en daarna beantwoordt de video-LLM de gegenereerde vragen via een multi-staps redeneermechanisme. Uitgebreide experimenten tonen aan dat ETVA een Spearman's correlatiecoëfficiënt van 58,47 bereikt, wat een veel hogere correlatie met menselijk oordeel laat zien dan bestaande metrieken die slechts 31,0 halen. We construeren ook een uitgebreide benchmark specifiek ontworpen voor tekst-naar-video afstemmingsevaluatie, met 2k diverse prompts en 12k atomische vragen verdeeld over 10 categorieën. Door een systematische evaluatie van 15 bestaande tekst-naar-video modellen, identificeren we hun belangrijkste capaciteiten en beperkingen, wat de weg vrijmaakt voor de volgende generatie T2V-generatie.

FastCuRL: Curriculum Reinforcement Learning met Progressieve Contextuitbreiding voor Efficiënte Training van R1-achtige Redeneermodellen
FastCuRL: Curriculum Reinforcement Learning with Progressive Context Extension for Efficient Training R1-like Reasoning Models

Mar 21

ByMingyang Song, Mao Zheng, Zheng Li, Wenjie Yang, Xuan Luo, Yue Pan, Feng Zhang

In dit artikel introduceren we \textsc{FastCuRL}, een eenvoudige maar efficiënte aanpak voor Curriculum Reinforcement Learning met een strategie voor het uitbreiden van het contextvenster om de trainings efficiëntie van R1-achtige redeneermodellen te versnellen, terwijl hun prestaties bij complexe redeneertaken met lange ketens van gedachten worden verbeterd, met name bij een taalmodel met 1,5B parameters. \textsc{FastCuRL} bestaat uit twee hoofdprocedures: lengtebewuste segmentatie van trainingsdata en training met uitbreiding van het contextvenster. Specifiek splitst de eerste procedure de originele trainingsdata in drie verschillende niveaus op basis van de lengte van de invoerprompt, waarna de tweede procedure gebruikmaakt van gesegmenteerde trainingsdatasets met een geleidelijk toenemende contextvensterlengte om het redeneermodel te trainen. Experimentele resultaten tonen aan dat \textsc{FastCuRL}-1.5B-Preview DeepScaleR-1.5B-Preview overtreft op alle vijf datasets (inclusief MATH 500, AIME 2024, AMC 2023, Minerva Math en OlympiadBench) terwijl slechts 50\% van de trainingsstappen wordt gebruikt. Bovendien worden alle trainingsfasen voor FastCuRL-1.5B-Preview voltooid met slechts één node met 8 GPU's.

Kunnen grote visueel-taalkundige modellen kaarten lezen zoals een mens?
Can Large Vision Language Models Read Maps Like a Human?

Mar 18

ByShuo Xing, Zezhou Sun, Shuangyu Xie, Kaiyuan Chen, Yanjia Huang, Yuping Wang, Jiachen Li, Dezhen Song, Zhengzhong Tu

In dit artikel introduceren we MapBench - de eerste dataset die specifiek is ontworpen voor mensleesbare, pixelgebaseerde buitenomgevingnavigatie, samengesteld uit complexe padzoek-scenario's. MapBench omvat meer dan 1600 padzoekproblemen in de pixelruimte, afkomstig van 100 diverse kaarten. In MapBench genereren LVLM's (Large Vision-Language Models) taalgebaseerde navigatie-instructies op basis van een kaartafbeelding en een query met begin- en eindlandmarken. Voor elke kaart biedt MapBench een Map Space Scene Graph (MSSG) als een indexerende datastructuur om te converteren tussen natuurlijke taal en om LVLM-gegenereerde resultaten te evalueren. We tonen aan dat MapBench state-of-the-art LVLM's aanzienlijk uitdaagt, zowel bij zero-shot prompting als bij een Chain-of-Thought (CoT) versterkt redeneerkader dat kaartnavigatie opsplitst in sequentiële cognitieve processen. Onze evaluatie van zowel open-source als closed-source LVLM's benadrukt de aanzienlijke moeilijkheidsgraad van MapBench, wat kritieke beperkingen in hun ruimtelijk redeneervermogen en gestructureerde besluitvormingscapaciteiten aan het licht brengt. We maken alle code en de dataset beschikbaar op https://github.com/taco-group/MapBench.

Van Hoof tot Staart: Naar een Gebalanceerde Representatie in Grote Visie-Taalmodellen via Adaptieve Datakalibratie
From Head to Tail: Towards Balanced Representation in Large Vision-Language Models through Adaptive Data Calibration

Mar 17

ByMingyang Song, Xiaoye Qu, Jiawei Zhou, Yu Cheng

Grote Vision-Taalmodellen (LVLMs) hebben aanzienlijke vooruitgang geboekt in het combineren van visueel begrip met taalgeneratie. Ondanks dit succes lijdt de trainingsdata van LVLMs nog steeds aan Long-Tail (LT) problemen, waarbij de dataverdeling sterk onevenwichtig is. Eerdere werken hebben zich voornamelijk gericht op traditionele VLM-architecturen, zoals CLIP of ViT, en specifieke taken zoals herkenning en classificatie. Desalniettemin blijft de verkenning van LVLM (bijv. LLaVA) en meer algemene taken (bijv. Visuele Vraagbeantwoording en Visueel Redeneren) onderbelicht. In dit artikel voeren we eerst een diepgaande analyse uit van de LT-problemen in LVLMs en identificeren we twee kernoorzaken: de overrepresentatie van hoofdconcepten en de onderrepresentatie van staartconcepten. Op basis van deze observatie stellen we een Adaptief Dataverfijningsraamwerk (ADR) voor, dat uit twee fasen bestaat: Dataherbalancering (DR) en Datasynthese (DS). In de DR-fase balanceren we de redundante data adaptief op basis van entiteitsverdelingen, terwijl we in de DS-fase Denoising Diffusion Probabilistic Models (DDPMs) en schaarse afbeeldingen gebruiken om ondervertegenwoordigde delen aan te vullen. Door middel van uitgebreide evaluaties over elf benchmarks blijkt dat ons voorgestelde ADR effectief het long-tail probleem in de trainingsdata vermindert, waardoor de gemiddelde prestaties van LLaVA 1.5 relatief met 4,36% verbeteren, zonder het volume van de trainingsdata te vergroten.

Impliciete vooroordeelachtige patronen in redeneermodellen
Implicit Bias-Like Patterns in Reasoning Models

Mar 14

ByMessi H. J. Lee, Calvin K. Lai

Impliciete bias verwijst naar automatische of spontane mentale processen die percepties, oordelen en gedrag beïnvloeden. Eerder onderzoek naar 'impliciete bias' in grote taalmodellen (LLM's) heeft het fenomeen vaak anders benaderd dan hoe het bij mensen wordt bestudeerd, door zich voornamelijk te richten op modeloutputs in plaats van op modelverwerking. Om modelverwerking te onderzoeken, presenteren we een methode genaamd de Reasoning Model Implicit Association Test (RM-IAT) voor het bestuderen van impliciete bias-achtige patronen in redeneermodellen: LLM's die stapsgewijs redeneren gebruiken om complexe taken op te lossen. Met deze methode ontdekken we dat redeneermodellen meer tokens nodig hebben bij het verwerken van associatie-incompatibele informatie vergeleken met associatie-compatibele informatie. Deze bevindingen suggereren dat AI-systemen patronen in informatieverwerking vertonen die analoog zijn aan menselijke impliciete bias. We bespreken de implicaties van deze impliciete bias-achtige patronen voor hun inzet in real-world toepassingen.

PVChat: Gepersonaliseerde Videochat met One-Shot Learning
PVChat: Personalized Video Chat with One-Shot Learning

Mar 21

ByYufei Shi, Weilong Yan, Gang Xu, Yumeng Li, Yuchen Li, Zhenxi Li, Fei Richard Yu, Ming Li, Si Yong Yeo

Video large language models (ViLLMs) blinken uit in algemeen videobegrip, zoals het herkennen van activiteiten zoals praten en eten, maar hebben moeite met identiteitsbewust begrip, zoals "Wilson ondergaat chemotherapie" of "Tom bespreekt iets met Sarah", wat hun toepasbaarheid in slimme gezondheidszorg en slimme thuissituaties beperkt. Om deze beperking aan te pakken, stellen wij een one-shot learning framework voor, genaamd PVChat, de eerste gepersonaliseerde ViLLM die subjectbewuste vraag-antwoord (QA) mogelijk maakt op basis van een enkele video per subject. Onze aanpak optimaliseert een Mixture-of-Heads (MoH) verbeterde ViLLM op een synthetisch aangevulde video-QA dataset, gebruikmakend van een progressieve beeld-naar-video leerstrategie. Specifiek introduceren wij een geautomatiseerde augmentatiepijplijn die identiteitsbehoudende positieve samples synthetiseert en moeilijke negatieven ophaalt uit bestaande videocorpora, waardoor een diverse trainingsdataset wordt gegenereerd met vier QA- typen: bestaan, uiterlijk, actie en locatievragen. Om subjectspecifiek leren te verbeteren, stellen wij een ReLU Routing MoH aandachtmechanisme voor, samen met twee nieuwe doelstellingen: (1) Smooth Proximity Regularization voor progressief leren door exponentiële afstandsschaal en (2) Head Activation Enhancement voor gebalanceerde aandachtroutering. Ten slotte hanteren wij een tweestaps trainingsstrategie, waarbij wordt overgegaan van beeldvoorbereiding naar video fine-tuning, waardoor een geleidelijk leerproces van statische attributen naar dynamische representaties mogelijk wordt. Wij evalueren PVChat op diverse datasets die medische scenario's, tv-series, anime en real-world beelden omvatten, en tonen zijn superioriteit aan in gepersonaliseerd kenmerkbegrip na het leren van een enkele video, vergeleken met state-of-the-art ViLLMs.

GAEA: Een Geografisch Bewust Conversatiemodel
GAEA: A Geolocation Aware Conversational Model

Mar 20

ByRon Campos, Ashmal Vayani, Parth Parag Kulkarni, Rohit Gupta, Aritra Dutta, Mubarak Shah

Beeldgeolokalisatie, waarbij traditioneel een AI-model de precieze GPS-coördinaten van een afbeelding voorspelt, is een uitdagende taak met veel downstreamtoepassingen. De gebruiker kan het model echter niet benutten om zijn kennis verder uit te breiden dan de GPS-coördinaat; het model mist een begrip van de locatie en het conversatievermogen om met de gebruiker te communiceren. De laatste tijd, met de enorme vooruitgang van grote multimodale modellen (LMMs), hebben zowel propriëtaire als open-source onderzoekers geprobeerd afbeeldingen te geolokaliseren via LMMs. De problemen blijven echter onopgelost; naast algemene taken, worstelen LMMs met meer gespecialiseerde downstreamtaken, waarvan geolokalisatie er één is. In dit werk stellen we voor om dit probleem op te lossen door een conversatiemodel, GAEA, te introduceren dat informatie kan verstrekken over de locatie van een afbeelding, zoals door de gebruiker gevraagd. Er bestaat geen grootschalige dataset die het trainen van zo'n model mogelijk maakt. Daarom stellen we een uitgebreide dataset, GAEA, voor met 800K afbeeldingen en ongeveer 1.6M vraag-antwoordparen, geconstrueerd door gebruik te maken van OpenStreetMap (OSM) attributen en geografische contextuele aanwijzingen. Voor kwantitatieve evaluatie stellen we een divers benchmark voor, bestaande uit 4K afbeelding-tekstparen, om conversatievaardigheden te evalueren die zijn uitgerust met diverse vraagtypen. We beschouwen 11 state-of-the-art open-source en propriëtaire LMMs en tonen aan dat GAEA het beste open-source model, LLaVA-OneVision, significant overtreft met 25.69% en het beste propriëtaire model, GPT-4o, met 8.28%. Onze dataset, model en codes zijn beschikbaar.

Wanneer Voorkeuren Uiteenlopen: Het Afstemmen van Diffusiemodellen met Minderheidsbewuste Adaptieve DPO
When Preferences Diverge: Aligning Diffusion Models with Minority-Aware Adaptive DPO

Mar 21

ByLingfan Zhang, Chen Liu, Chengming Xu, Kai Hu, Donghao Luo, Chengjie Wang, Yanwei Fu, Yuan Yao

De afgelopen jaren heeft het vakgebied van beeldgeneratie aanzienlijke vooruitgang geboekt, met name op het gebied van fine-tuningmethoden die modellen afstemmen op universele menselijke voorkeuren. Dit artikel onderzoekt de cruciale rol van voorkeursgegevens in het trainingsproces van diffusiemodellen, met name in de context van Diffusion-DPO en de daaropvolgende aanpassingen. We onderzoeken de complexiteit rond universele menselijke voorkeuren bij beeldgeneratie, waarbij we de subjectieve aard van deze voorkeuren en de uitdagingen die worden veroorzaakt door minderheidsvoorbeelden in voorkeursdatasets belichten. Door middel van pilotexperimenten tonen we het bestaan van minderheidsvoorbeelden en hun nadelige effecten op modelprestaties aan. We stellen Adaptive-DPO voor — een nieuwe benadering die een minderheidsgevoelige metriek integreert in het DPO-doel. Deze metriek, die intra-annotatorbetrouwbaarheid en inter-annotatorstabiliteit omvat, onderscheidt meerderheids- en minderheidsvoorbeelden. We introduceren een Adaptive-DPO-verliesfunctie die de DPO-verliesfunctie op twee manieren verbetert: het verbeteren van het leren van meerderheidslabels door het model, terwijl de negatieve impact van minderheidsvoorbeelden wordt geminimaliseerd. Onze experimenten tonen aan dat deze methode effectief omgaat met zowel synthetische minderheidsgegevens als voorkeursgegevens uit de praktijk, wat de weg vrijmaakt voor effectievere trainingsmethodologieën bij beeldgeneratietaken.

Gegeneraliseerde Few-shot 3D-puntenwolksegmentatie met Vision-Language Model
Generalized Few-shot 3D Point Cloud Segmentation with Vision-Language Model

Mar 20

ByZhaochong An, Guolei Sun, Yun Liu, Runjia Li, Junlin Han, Ender Konukoglu, Serge Belongie

Gegeneraliseerde few-shot 3D-puntenwolksegmentatie (GFS-PCS) past modellen aan aan nieuwe klassen met weinig steunmonsters, terwijl de segmentatie van basisklassen behouden blijft. Bestaande GFS-PCS-methoden verbeteren prototypes door interactie met steun- of querykenmerken, maar blijven beperkt door de schaarse kennis uit few-shot-monsters. Tegelijkertijd bevatten 3D-visie-taalmodelen (3D VLMs), die generaliseren over open-wereld nieuwe klassen, rijke maar ruisachtige kennis over nieuwe klassen. In dit werk introduceren we een GFS-PCS-raamwerk dat dichte maar ruisachtige pseudo-labels van 3D VLMs combineert met precieze maar schaarse few-shot-monsters om de sterke punten van beide te maximaliseren, genaamd GFS-VL. Specifiek presenteren we een prototype-gestuurde pseudo-labelselectie om regio's van lage kwaliteit te filteren, gevolgd door een adaptieve invulstrategie die kennis combineert uit pseudo-labelcontexten en few-shot-monsters om de gefilterde, ongelabelde gebieden adaptief te labelen. Daarnaast ontwerpen we een novel-base mix-strategie om few-shot-monsters in trainingsscènes in te bedden, waardoor essentiële context behouden blijft voor verbeterd leren van nieuwe klassen. Bovendien, erkennend de beperkte diversiteit in huidige GFS-PCS-benchmarks, introduceren we twee uitdagende benchmarks met diverse nieuwe klassen voor uitgebreide generalisatie-evaluatie. Experimenten valideren de effectiviteit van ons raamwerk over modellen en datasets heen. Onze aanpak en benchmarks bieden een solide basis voor het bevorderen van GFS-PCS in de echte wereld. De code is te vinden op https://github.com/ZhaochongAn/GFS-VL.

FFaceNeRF: Few-shot Face Bewerking in Neural Radiance Velden
FFaceNeRF: Few-shot Face Editing in Neural Radiance Fields

Mar 21

ByKwan Yun, Chaelin Kim, Hangyeul Shin, Junyong Noh

Recente 3D-gezichtsbewerkingsmethoden die maskers gebruiken, hebben hoogwaardige bewerkte afbeeldingen geproduceerd door gebruik te maken van Neural Radiance Fields (NeRF). Ondanks hun indrukwekkende prestaties bieden bestaande methoden vaak beperkte gebruikerscontrole vanwege het gebruik van vooraf getrainde segmentatiemaskers. Om maskers met een gewenste lay-out te kunnen gebruiken, is een uitgebreide trainingsdataset nodig, wat moeilijk te verzamelen is. Wij presenteren FFaceNeRF, een NeRF-gebaseerde gezichtsbewerkingstechniek die de uitdaging van beperkte gebruikerscontrole door het gebruik van vaste maskerlay-outs kan overwinnen. Onze methode maakt gebruik van een geometrie-adapter met feature-injectie, waardoor effectieve manipulatie van geometrie-attributen mogelijk is. Daarnaast passen we latent mixing toe voor tri-plane-augmentatie, wat training met weinig samples mogelijk maakt. Dit vergemakkelijkt snelle modelaanpassing aan gewenste maskerlay-outs, wat cruciaal is voor toepassingen in gebieden zoals gepersonaliseerde medische beeldvorming of creatieve gezichtsbewerking. Onze vergelijkende evaluaties tonen aan dat FFaceNeRF bestaande masker-gebaseerde gezichtsbewerkingsmethoden overtreft op het gebied van flexibiliteit, controle en gegenereerde beeldkwaliteit, wat de weg vrijmaakt voor toekomstige vooruitgang in gepersonaliseerde en hoogwaardige 3D-gezichtsbewerking. De code is beschikbaar op de {https://kwanyun.github.io/FFaceNeRF_page/{project-page}}.

AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Wanneer Minder Genoeg Is: Adaptieve Tokenreductie voor Efficiënte Beeldrepresentatie
When Less is Enough: Adaptive Token Reduction for Efficient Image Representation

Mar 20

ByEduard Allakhverdov, Elizaveta Goncharova, Andrey Kuznetsov

MAPS: Een Multi-Agent Framework Gebaseerd op de Big Seven Persoonlijkheid en Socratische Begeleiding voor Multimodaal Wetenschappelijk Probleemoplossen
MAPS: A Multi-Agent Framework Based on Big Seven Personality and Socratic Guidance for Multimodal Scientific Problem Solving

Mar 21

ByJian Zhang, Zhiyuan Wang, Zhangqi Wang, Xinyu Zhang, Fangzhi Xu, Qika Lin, Rui Mao, Erik Cambria, Jun Liu

Een Uitgebreid Overzicht van Taalmodellering met Lange Context
A Comprehensive Survey on Long Context Language Modeling

Mar 20

MARS: Een Multi-Agent Framework met Socratische Begeleiding voor Geautomatiseerde Promptoptimalisatie
MARS: A Multi-Agent Framework Incorporating Socratic Guidance for Automated Prompt Optimization

Mar 21

ByJian Zhang, Zhangqi Wang, Haiping Zhu, Jun Liu, Qika Lin, Erik Cambria

RoboFactory: Onderzoek naar Samenwerking tussen Belichaamde Agents met Compositionele Beperkingen
RoboFactory: Exploring Embodied Agent Collaboration with Compositional Constraints

Mar 20

ByYiran Qin, Li Kang, Xiufeng Song, Zhenfei Yin, Xiaohong Liu, Xihui Liu, Ruimao Zhang, Lei Bai

Aanpassen van grote taalmodel na training voor diverse creatieve schrijftoepassingen
Modifying Large Language Model Post-Training for Diverse Creative Writing

Mar 21

ByJohn Joon Young Chung, Vishakh Padmakumar, Melissa Roemmele, Yuqian Sun, Max Kreminski

Overbruggen van continue en discrete tokens voor autoregressieve visuele generatie
Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation

Mar 20

ByYuqing Wang, Zhijie Lin, Yao Teng, Yuanzhi Zhu, Shuhuai Ren, Jiashi Feng, Xihui Liu

TaoAvatar: Real-time levensechte full-body sprekende avatars voor augmented reality via 3D Gaussian Splatting
TaoAvatar: Real-Time Lifelike Full-Body Talking Avatars for Augmented Reality via 3D Gaussian Splatting

Mar 21

ByJianchuan Chen, Jingchuan Hu, Gaige Wang, Zhonghua Jiang, Tiansong Zhou, Zhiwen Chen, Chengfei Lv

OpenVLThinker: Een vroege verkenning van complexe visueel-taalkundige redenering via iteratieve zelfverbetering
OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement

Mar 21

ByYihe Deng, Hritik Bansal, Fan Yin, Nanyun Peng, Wei Wang, Kai-Wei Chang

MathFlow: Het verbeteren van de perceptuele flow van MLLMs voor visuele wiskundige problemen
MathFlow: Enhancing the Perceptual Flow of MLLMs for Visual Mathematical Problems

Mar 19

ByFelix Chen, Hangjie Yuan, Yunqiu Xu, Tao Feng, Jun Cen, Pengwei Liu, Zeying Huang, Yi Yang

Het mogelijk maken van veelzijdige besturingen voor videodiffusiemodellen
Enabling Versatile Controls for Video Diffusion Models

Mar 21

ByXu Zhang, Hao Zhou, Haoming Qin, Xiaobin Lu, Jiaxing Yan, Guanzhong Wang, Zeyu Chen, Yi Liu

Enkele Afbeelding Iteratieve Onderwerp-gedreven Generatie en Bewerking
Single Image Iterative Subject-driven Generation and Editing

Mar 20

ByYair Shpitzer, Gal Chechik, Idan Schwartz

ETVA: Evaluatie van Text-naar-Video Aligning via Fijnmazige Vraaggeneratie en Beantwoording
ETVA: Evaluation of Text-to-Video Alignment via Fine-grained Question Generation and Answering

Mar 21

ByKaisi Guan, Zhengfeng Lai, Yuchong Sun, Peng Zhang, Wei Liu, Kieran Liu, Meng Cao, Ruihua Song

FastCuRL: Curriculum Reinforcement Learning met Progressieve Contextuitbreiding voor Efficiënte Training van R1-achtige Redeneermodellen
FastCuRL: Curriculum Reinforcement Learning with Progressive Context Extension for Efficient Training R1-like Reasoning Models

Mar 21

ByMingyang Song, Mao Zheng, Zheng Li, Wenjie Yang, Xuan Luo, Yue Pan, Feng Zhang

Kunnen grote visueel-taalkundige modellen kaarten lezen zoals een mens?
Can Large Vision Language Models Read Maps Like a Human?

Mar 18

ByShuo Xing, Zezhou Sun, Shuangyu Xie, Kaiyuan Chen, Yanjia Huang, Yuping Wang, Jiachen Li, Dezhen Song, Zhengzhong Tu

Van Hoof tot Staart: Naar een Gebalanceerde Representatie in Grote Visie-Taalmodellen via Adaptieve Datakalibratie
From Head to Tail: Towards Balanced Representation in Large Vision-Language Models through Adaptive Data Calibration

Mar 17

ByMingyang Song, Xiaoye Qu, Jiawei Zhou, Yu Cheng

Wanneer Voorkeuren Uiteenlopen: Het Afstemmen van Diffusiemodellen met Minderheidsbewuste Adaptieve DPO
When Preferences Diverge: Aligning Diffusion Models with Minority-Aware Adaptive DPO

Mar 21

ByLingfan Zhang, Chen Liu, Chengming Xu, Kai Hu, Donghao Luo, Chengjie Wang, Yanwei Fu, Yuan Yao

Gegeneraliseerde Few-shot 3D-puntenwolksegmentatie met Vision-Language Model
Generalized Few-shot 3D Point Cloud Segmentation with Vision-Language Model

Mar 20

ByZhaochong An, Guolei Sun, Yun Liu, Runjia Li, Junlin Han, Ender Konukoglu, Serge Belongie

FFaceNeRF: Few-shot Face Bewerking in Neural Radiance Velden
FFaceNeRF: Few-shot Face Editing in Neural Radiance Fields

Mar 21

ByKwan Yun, Chaelin Kim, Hangyeul Shin, Junyong Noh