ChatPaper.aiChatPaper.ai
Home

arXiv

HuggingFace

PrijzenAccountWerkruimte

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

1

2,5 Jaar in de Klas: Een Multimodaal Leerboek voor Visie-Taal Voorafgaande Training
2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining

Jan 1
ByWenqi Zhang, Hang Zhang, Xin Li, Jiashuo Sun, Yongliang Shen, Weiming Lu, Deli Zhao, Yueting Zhuang, Lidong Bing
107
7

In vergelijking met beeld-tekst-paar data stellen geïnterlinieerde corpora Vision-Language Modellen (VLM's) in staat om de wereld op een meer natuurlijke manier te begrijpen, zoals mensen dat doen. Echter, bestaande datasets worden verzameld van webpagina's en staan voor uitdagingen zoals een lage kennisdichtheid, losse beeld-tekst relaties en een zwakke logische samenhang tussen afbeeldingen. Aan de andere kant herbergt het internet uitgebreide instructievideo's (bijv. online meetkundecursussen) die veelvuldig worden gebruikt door mensen om basisvakken te leren, maar deze waardevolle bronnen blijven onderbenut in VLM-training. In dit artikel introduceren we een hoogwaardig multimodaal tekstboekencorpus met rijkere basisinformatie voor VLM-vooraftraining. Het verzamelt meer dan 2,5 jaar aan instructievideo's, met in totaal 22.000 lesuren. We gebruiken eerst een door LLM voorgestelde taxonomie om systematisch instructievideo's te verzamelen. Vervolgens extraheren en verfijnen we progressief visuele (sleutelframes), audio (ASR) en tekstuele kennis (OCR) uit de video's, en organiseren deze als een geïnterlinieerd beeld-tekstcorpus op basis van temporele volgorde. In vergelijking met zijn tegenhangers biedt ons video-gecentreerde tekstboek meer coherente context, rijkere kennis en betere afstemming tussen beeld en tekst. Experimenten tonen zijn uitstekende vooraftrainingsprestaties aan, met name in kennis- en redeneringsintensieve taken zoals ScienceQA en MathVista. Bovendien vertonen VLM's die vooraf zijn getraind op ons tekstboek een uitstekend bewustzijn van geïnterlinieerde context, waarbij ze visuele en tekstuele aanwijzingen benutten in hun context met weinig gegevens voor taakoplossing. Onze code is beschikbaar op \url{https://github.com/DAMO-NLP-SG/multimodal_textbook}.

2

VideoAnydoor: Video-objectinvoeging met hoge nauwkeurigheid en precieze bewegingsbesturing
VideoAnydoor: High-fidelity Video Object Insertion with Precise Motion Control

Jan 2
ByYuanpeng Tu, Hao Luo, Xi Chen, Sihui Ji, Xiang Bai, Hengshuang Zhao
54
3

Ondanks aanzienlijke vooruitgang in videogeneratie, blijft het invoegen van een gegeven object in video's een uitdagende taak. De moeilijkheid ligt in het behouden van de uiterlijke details van het referentieobject en tegelijkertijd nauwkeurig modelleren van coherente bewegingen. In dit artikel stellen we VideoAnydoor voor, een zero-shot video-objectinvoerframework met behoud van details van hoge kwaliteit en precieze bewegingscontrole. Vertrekkend vanuit een tekst-naar-video model, gebruiken we een ID-extractor om de globale identiteit in te voegen en maken we gebruik van een boxsequentie om de algehele beweging te controleren. Om het gedetailleerde uiterlijk te behouden en tegelijkertijd fijnmazige bewegingscontrole te ondersteunen, ontwerpen we een pixelwarper. Deze neemt de referentieafbeelding met willekeurige sleutelpunten en de overeenkomstige sleutelpunttrajecten als invoer. Het vervormt de pixeldetails volgens de trajecten en fuseert de vervormde kenmerken met de diffusie U-Net, waardoor de detailbehoud verbetert en gebruikers ondersteunt bij het manipuleren van de bewegingstrajecten. Bovendien stellen we een trainingsstrategie voor die zowel video's als statische afbeeldingen omvat met een herwegingsreconstructieverlies om de invoegkwaliteit te verbeteren. VideoAnydoor toont aanzienlijke superioriteit ten opzichte van bestaande methoden en ondersteunt op natuurlijke wijze verschillende downstream-toepassingen (bijv. generatie van pratende hoofden, virtueel passen van video's, bewerking van meerdere regio's) zonder taakspecifieke fijnafstemming.

3

CodeElo: Benchmarking van het genereren van code op competitieniveau van LLM's met Elo-beoordelingen vergelijkbaar met mensen.
CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings

Jan 2
ByShanghaoran Quan, Jiaxi Yang, Bowen Yu, Bo Zheng, Dayiheng Liu, An Yang, Xuancheng Ren, Bofei Gao, Yibo Miao, Yunlong Feng, Zekun Wang, Jian Yang, Zeyu Cui, Yang Fan, Yichang Zhang, Binyuan Hui, Junyang Lin
52
6

Met de toenemende redeneervermogens van bestaande grote taalmodellen (LLM's) en doorbraken in redeneermodellen zoals OpenAI o1 en o3, is er een groeiende behoefte om uitdagendere en uitgebreidere benchmarks te ontwikkelen die effectief hun geavanceerde programmeervaardigheden op competitieniveau testen. Bestaande benchmarks, zoals LiveCodeBench en USACO, schieten tekort vanwege de niet-beschikbaarheid van privé-testcases, het gebrek aan ondersteuning voor speciale judges en niet-uitgelijnde uitvoeringsomgevingen. Om deze kloof te overbruggen, introduceren we CodeElo, een gestandaardiseerde benchmark voor codegeneratie op competitieniveau die voor het eerst al deze uitdagingen effectief aanpakt. De CodeElo-benchmark is voornamelijk gebaseerd op het officiële CodeForces-platform en probeert zo veel mogelijk op dit platform aan te sluiten. We compileren de recente zes maanden aan wedstrijdproblemen op CodeForces met gedetailleerde informatie zoals wedstrijddivisies, moeilijkheidsgraden van problemen en algoritmetags van problemen. We introduceren een unieke beoordelingsmethode waarbij problemen rechtstreeks naar het platform worden ingediend en ontwikkelen een betrouwbaar Elo-beoordelingssysteem dat aansluit bij het platform en vergelijkbaar is met menselijke deelnemers maar met een lagere variantie. Door te testen op onze CodeElo, verstrekken we voor het eerst de Elo-beoordelingen van 30 bestaande populaire open-source en 3 eigen LLM's. De resultaten tonen aan dat o1-mini en QwQ-32B-Preview significant opvallen, met Elo-beoordelingen van respectievelijk 1578 en 1261, terwijl andere modellen zelfs moeite hebben met de gemakkelijkste problemen en zich in de laagste 20 procent van alle menselijke deelnemers bevinden. Gedetailleerde analyse-experimenten worden ook uitgevoerd om inzicht te bieden in prestaties over algoritmen en vergelijkingen tussen het gebruik van C++ en Python, wat richtingen voor toekomstige studies kan suggereren.

4

VideoRefer Suite: Vooruitgang in ruimtelijk-temporele objectherkenning met Video LLM
VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM

Dec 31
ByYuqian Yuan, Hang Zhang, Wentong Li, Zesen Cheng, Boqiang Zhang, Long Li, Xin Li, Deli Zhao, Wenqiao Zhang, Yueting Zhuang, Jianke Zhu, Lidong Bing
47
2

Video Large Language Models (Video LLM's) hebben recentelijk opmerkelijke capaciteiten getoond op het gebied van algemeen begrip van video's. Echter, ze richten zich voornamelijk op holistisch begrip en hebben moeite met het vastleggen van gedetailleerde ruimtelijke en temporele informatie. Bovendien belemmert het gebrek aan hoogwaardige objectniveau video-instructiedata en een uitgebreide benchmark hun vooruitgang. Om deze uitdagingen aan te pakken, introduceren we de VideoRefer Suite om Video LLM te versterken voor een fijnmaziger ruimtelijk-temporeel begrip van video's, oftewel het mogelijk maken van perceptie en redenering over objecten gedurende de hele video. Specifiek ontwikkelen we de VideoRefer Suite grondig over drie essentiële aspecten: dataset, model en benchmark. Allereerst introduceren we een multi-agent data-engine om zorgvuldig een grootschalige, hoogwaardige objectniveau video-instructiedataset samen te stellen, genaamd VideoRefer-700K. Vervolgens presenteren we het VideoRefer-model, dat is uitgerust met een veelzijdige ruimtelijk-temporele objectencoder om precieze regionale en sequentiële representaties vast te leggen. Tot slot creëren we zorgvuldig een VideoRefer-Bench om de ruimtelijk-temporele begripscapaciteit van een Video LLM uitgebreid te beoordelen, waarbij we het evalueren op verschillende aspecten. Uitgebreide experimenten en analyses tonen aan dat ons VideoRefer-model niet alleen veelbelovende prestaties behaalt op videoverwijsbenchmarks, maar ook algemene videobegripscapaciteiten vergemakkelijkt.

5

LTX-Video: Realtime Video Latente Diffusie
LTX-Video: Realtime Video Latent Diffusion

Dec 30
ByYoav HaCohen, Nisan Chiprut, Benny Brazowski, Daniel Shalem, Dudu Moshe, Eitan Richardson, Eran Levin, Guy Shiran, Nir Zabari, Ori Gordon, Poriya Panet, Sapir Weissbuch, Victor Kulikov, Yaki Bitterman, Zeev Melumian, Ofir Bibi
47
4

We introduceren LTX-Video, een op transformer gebaseerd latent diffusiemodel dat een holistische benadering van videogeneratie hanteert door naadloos de verantwoordelijkheden van de Video-VAE en de denoising transformer te integreren. In tegenstelling tot bestaande methoden, die deze componenten als onafhankelijk behandelen, streeft LTX-Video ernaar hun interactie te optimaliseren voor verbeterde efficiëntie en kwaliteit. In de kern ervan bevindt zich een zorgvuldig ontworpen Video-VAE die een hoge compressieverhouding van 1:192 bereikt, met spatiotemporele schaling van 32 x 32 x 8 pixels per token, mogelijk gemaakt door de patchificatie-operatie te verplaatsen van de invoer van de transformer naar de invoer van de VAE. Door te werken in deze sterk gecomprimeerde latente ruimte kan de transformer efficiënt volledige spatiotemporele zelfaandacht uitvoeren, wat essentieel is voor het genereren van video's met hoge resolutie en temporele consistentie. Echter, de hoge compressie beperkt inherent de representatie van fijne details. Om dit aan te pakken, krijgt onze VAE-decoder de taak zowel van latente-naar-pixel conversie als van de uiteindelijke denoising stap, waarbij het schone resultaat direct in pixelruimte wordt geproduceerd. Deze benadering behoudt het vermogen om fijne details te genereren zonder de runtime-kosten van een aparte upsampling-module. Ons model ondersteunt diverse toepassingen, waaronder tekst-naar-video en afbeelding-naar-video generatie, waarbij beide mogelijkheden gelijktijdig worden getraind. Het bereikt een snellere-dan-real-time generatie, waarbij het in slechts 2 seconden 5 seconden video van 24 fps genereert op een Nvidia H100 GPU met een resolutie van 768x512, waarbij het alle bestaande modellen van vergelijkbare schaal overtreft. De broncode en vooraf getrainde modellen zijn openbaar beschikbaar, waarmee een nieuwe maatstaf wordt gezet voor toegankelijke en schaalbare videogeneratie.

6

Reconstructie versus Generatie: Het Temmen van het Optimalisatie Dilemma in Latente Diffusie Modellen
Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models

Jan 2
ByJingfeng Yao, Xinggang Wang
42
2

Latente diffusiemodellen met Transformer-architecturen blinken uit in het genereren van hoogwaardige afbeeldingen. Recent onderzoek onthult echter een optimalisatiedilemma in dit tweestapsontwerp: het verhogen van de kenmerkdimensie per token in visuele tokenizers verbetert de reconstructiekwaliteit, maar vereist aanzienlijk grotere diffusiemodellen en meer trainingsiteraties om vergelijkbare generatieprestaties te bereiken. Als gevolg hiervan kiezen bestaande systemen vaak voor suboptimale oplossingen, waarbij ze ofwel visuele artefacten produceren door informatieverlies binnen tokenizers, ofwel niet volledig convergeren vanwege hoge berekeningskosten. Wij stellen dat dit dilemma voortkomt uit de inherente moeilijkheid van het leren van onbeperkte hoogdimensionale latente ruimtes. Om dit aan te pakken, stellen we voor om de latente ruimte af te stemmen op vooraf getrainde vision foundation-modellen bij het trainen van de visuele tokenizers. Ons voorgestelde VA-VAE (Vision foundation model Aligned Variational AutoEncoder) breidt aanzienlijk de reconstructie-generatiegrens van latente diffusiemodellen uit, waardoor een snellere convergentie van Diffusion Transformers (DiT) in hoogdimensionale latente ruimtes mogelijk is. Om het volledige potentieel van VA-VAE te benutten, bouwen we een verbeterde DiT-baseline met verbeterde trainingsstrategieën en architectuurontwerpen, genaamd LightningDiT. Het geïntegreerde systeem behaalt state-of-the-art (SOTA) prestaties op ImageNet 256x256 generatie met een FID-score van 1.35, terwijl het opmerkelijke trainingsefficiëntie aantoont door een FID-score van 2.11 te bereiken in slechts 64 epochs - wat een meer dan 21 keer snellere convergentie vertegenwoordigt in vergelijking met de oorspronkelijke DiT. Modellen en codes zijn beschikbaar op: https://github.com/hustvl/LightningDiT.

7

MLLM-als-rechter voor beeldveiligheid zonder menselijke labeling
MLLM-as-a-Judge for Image Safety without Human Labeling

Dec 31
ByZhenting Wang, Shuming Hu, Shiyu Zhao, Xiaowen Lin, Felix Juefei-Xu, Zhuowei Li, Ligong Han, Harihar Subramanyam, Li Chen, Jianfa Chen, Nan Jiang, Lingjuan Lyu, Shiqing Ma, Dimitris N. Metaxas, Ankit Jain
31
2

Het waarborgen van de veiligheid van beeldinhoud is een aanzienlijke uitdaging geworden met de opkomst van visuele media op online platforms. Ondertussen, in het tijdperk van door AI gegenereerde inhoud (AIGC), zijn veel beeldgeneratiemodellen in staat om schadelijke inhoud te produceren, zoals afbeeldingen met seksueel of gewelddadig materiaal. Daarom is het cruciaal om dergelijke onveilige afbeeldingen te identificeren op basis van vastgestelde veiligheidsregels. Vooraf getrainde Multimodale Grote Taalmodellen (MLLM's) bieden potentieel op dit gebied, gezien hun sterke patroonherkenningsvermogen. Bestaande benaderingen passen MLLM's doorgaans aan met door mensen gelabelde datasets, wat echter een reeks nadelen met zich meebrengt. Ten eerste is het vertrouwen op menselijke annotatoren om gegevens te labelen volgens ingewikkelde en gedetailleerde richtlijnen zowel duur als arbeidsintensief. Bovendien moeten gebruikers van veiligheidsoordeelsystemen mogelijk veiligheidsregels vaak bijwerken, waardoor fijnafstemming op op annotatie gebaseerde menselijke input uitdagender wordt. Dit roept de onderzoeksvraag op: Kunnen we onveilige afbeeldingen detecteren door MLLM's te bevragen in een zero-shot setting met behulp van een vooraf gedefinieerde veiligheidsgrondwet (een set veiligheidsregels)? Ons onderzoek toonde aan dat eenvoudigweg MLLM's bevragen geen bevredigende resultaten oplevert. Dit gebrek aan effectiviteit komt voort uit factoren zoals de subjectiviteit van veiligheidsregels, de complexiteit van uitgebreide grondwetten en de inherente vooroordelen in de modellen. Om deze uitdagingen aan te pakken, stellen we een op MLLM gebaseerde methode voor die het objectiveren van veiligheidsregels omvat, het beoordelen van de relevantie tussen regels en afbeeldingen, het maken van snelle oordelen op basis van gedebiasde tokenkansen met logisch volledige maar vereenvoudigde voorwaardeketens voor veiligheidsregels, en het uitvoeren van meer diepgaande redeneringen met gekoppelde gedachteprocessen indien nodig. Experimentele resultaten tonen aan dat onze methode zeer effectief is voor zero-shot taken voor het beoordelen van de veiligheid van afbeeldingen.

8

ProgCo: Programma Helpt Bij Zelfcorrectie van Grote Taalmodellen
ProgCo: Program Helps Self-Correction of Large Language Models

Jan 2
ByXiaoshuai Song, Yanan Wu, Weixun Wang, Jiaheng Liu, Wenbo Su, Bo Zheng
26
2

Zelfcorrectie heeft tot doel om grote taalmodellen (LLM's) in staat te stellen zichzelf te controleren en hun initiële antwoorden te verfijnen zonder externe feedback. LLM's falen echter vaak in effectieve zelfcontrole en genereren juiste feedback, wat leidt tot misleiding bij de verfijning en uiteindelijk tot het falen van zelfcorrectie, vooral bij complexe redeneertaken. In dit artikel stellen we Programma-gedreven Zelfcorrectie (ProgCo) voor. Allereerst bereikt programma-gedreven verificatie (ProgVe) complexe verificatielogica en uitgebreide validatie door zelf gegenereerde, zelf uitvoerende verificatie pseudo-programma's. Vervolgens ontvangt programma-gedreven verfijning (ProgRe) feedback van ProgVe, voert dubbele reflectie en verfijning uit op zowel antwoorden als verificatieprogramma's om misleidende incorrecte feedback bij complexe redeneertaken te verminderen. Experimenten op drie instructievolg- en wiskundige benchmarks tonen aan dat ProgCo effectieve zelfcorrectie bereikt en de prestaties verder kan verbeteren wanneer gecombineerd met echte programma-tools.

9

MapEval: Een op kaarten gebaseerde evaluatie van geo-ruimtelijk redeneren in fundamentele modellen
MapEval: A Map-Based Evaluation of Geo-Spatial Reasoning in Foundation Models

Dec 31
ByMahir Labib Dihan, Md Tanvir Hassan, Md Tanvir Parvez, Md Hasebul Hasan, Md Almash Alam, Muhammad Aamir Cheema, Mohammed Eunus Ali, Md Rizwan Parvez
23
2

Recente ontwikkelingen in foundation modellen hebben de mogelijkheden van AI-systemen verbeterd op het gebied van autonoom gereedschapsgebruik en redeneren. Echter is hun vermogen in locatie- of kaartgebaseerd redeneren - wat het dagelijks leven verbetert door navigatie te optimaliseren, het ontdekken van bronnen te vergemakkelijken en logistiek te stroomlijnen - nog niet systematisch bestudeerd. Om deze kloof te overbruggen, introduceren we MapEval, een benchmark ontworpen om diverse en complexe kaartgebaseerde gebruikersvragen te beoordelen met geo-ruimtelijk redeneren. MapEval omvat drie soorten taken (tekstueel, op API gebaseerd en visueel) die het verzamelen van wereldinformatie via kaarttools vereisen, het verwerken van heterogene geo-ruimtelijke contexten (bijv. genoemde entiteiten, reisafstanden, gebruikersrecensies of beoordelingen, afbeeldingen) en compositorisch redeneren, wat allemaal uitdagend is voor state-of-the-art foundation modellen. Bestaande uit 700 unieke meerkeuzevragen over locaties in 180 steden en 54 landen, evalueert MapEval de mogelijkheid van foundation modellen om ruimtelijke relaties, kaartinfographics, reisplanning en navigatie-uitdagingen aan te pakken. Met behulp van MapEval hebben we een uitgebreide evaluatie uitgevoerd van 28 prominente foundation modellen. Hoewel geen enkel model uitblonk in alle taken, behaalden Claude-3.5-Sonnet, GPT-4o en Gemini-1.5-Pro over het algemeen een competitieve prestatie. Echter, aanzienlijke prestatieverschillen kwamen naar voren, met name in MapEval, waar agenten met Claude-3.5-Sonnet GPT-4o en Gemini-1.5-Pro overtroffen met respectievelijk 16% en 21%, en de verschillen werden nog meer vergroot in vergelijking met open-source LLMs. Onze gedetailleerde analyses bieden inzicht in de sterke en zwakke punten van huidige modellen, hoewel alle modellen nog steeds gemiddeld meer dan 20% onder de menselijke prestatie presteren, worstelend met complexe kaartafbeeldingen en rigoureus geo-ruimtelijk redeneren. Deze kloof benadrukt de cruciale rol van MapEval bij het bevorderen van foundation modellen met een sterker geo-ruimtelijk begrip.

10

A3: Android Agent Arena voor Mobiele GUI-agenten
A3: Android Agent Arena for Mobile GUI Agents

Jan 2
ByYuxiang Chai, Hanhao Li, Jiayu Zhang, Liang Liu, Guozhi Wang, Shuai Ren, Siyuan Huang, Hongsheng Li
22
3

AI-agenten zijn de afgelopen jaren steeds gebruikelijker geworden, gedreven door significante vooruitgang in het veld van grote taalmodellen (LLM's). Mobiele GUI-agenten, een subset van AI-agenten, zijn ontworpen om autonoom taken uit te voeren op mobiele apparaten. Hoewel talrijke studies agenten, datasets en benchmarks hebben geïntroduceerd om onderzoek naar mobiele GUI-agenten te bevorderen, richten veel bestaande datasets zich op statische frame-evaluaties en bieden ze geen uitgebreid platform voor het beoordelen van prestaties op taken in de echte wereld. Om deze lacune aan te pakken, presenteren we Android Agent Arena (A3), een nieuw evaluatieplatform. In tegenstelling tot bestaande systemen in de echte wereld, biedt A3: (1) betekenisvolle en praktische taken, zoals real-time online informatie ophalen en operationele instructies; (2) een grotere, meer flexibele actieruimte, waardoor compatibiliteit met agenten getraind op elke dataset mogelijk is; en (3) een geautomatiseerd bedrijfsniveau LLM-gebaseerd evaluatieproces. A3 omvat 21 veelgebruikte algemene apps van derden en 201 taken die representatief zijn voor veelvoorkomende gebruikersscenario's, waardoor een solide basis wordt geboden voor het evalueren van mobiele GUI-agenten in situaties in de echte wereld en een nieuw autonoom evaluatieproces voor minder menselijke arbeid en programmeerexpertise. Het project is beschikbaar op https://yuxiangchai.github.io/Android-Agent-Arena/.

11

Het verenigen van gespecialiseerde visuele encoders voor video-taalmodellen
Unifying Specialized Visual Encoders for Video Language Models

Jan 2
ByJihoon Chung, Tyler Zhu, Max Gonzalez Saez-Diez, Juan Carlos Niebles, Honglu Zhou, Olga Russakovsky
21
2

De recente opkomst van Grote Taalmodellen (LLM's) heeft geavanceerde redeneervermogens naar het domein van video gebracht via Video Grote Taalmodellen (VideoLLM's). Echter, VideoLLM's vertrouwen momenteel op een enkele visuele encoder voor al hun visuele verwerking, wat de hoeveelheid en het type visuele informatie beperkt die aan de LLM kan worden overgebracht. Onze methode, MERV, Multi-Encoder Representatie van Video's, maakt in plaats daarvan gebruik van meerdere bevroren visuele encoders om een ​​geünificeerde representatie van een video te creëren, waardoor de VideoLLM wordt voorzien van een uitgebreide set gespecialiseerde visuele kennis. Door de kenmerken van elke encoder ruimtelijk en temporeel op elkaar af te stemmen, kunnen we een breder scala aan open en meerkeuze video begripsvragen aanpakken en beter presteren dan eerdere state-of-the-art werken. MERV is tot 3,7% nauwkeuriger dan Video-LLaVA op de standaard suite video begripsbenchmarks, en heeft ook een betere Video-ChatGPT-score. We verbeteren ook SeViLA, de vorige beste in zero-shot Perceptietestnauwkeurigheid, met 2,2%. MERV introduceert minimale extra parameters en traint sneller dan equivalente single-encoder methoden, terwijl het visuele verwerkingsproces wordt geparelliseerd. Tot slot bieden we kwalitatief bewijs dat MERV succesvol domeinkennis vastlegt van elke van zijn encoders. Onze resultaten bieden veelbelovende richtingen voor het benutten van meerdere visuele encoders voor een uitgebreid begrip van video's.

12

Dynamische Schaling van Unit Tests voor Code Reward Modellering
Dynamic Scaling of Unit Tests for Code Reward Modeling

Jan 2
ByZeyao Ma, Xiaokang Zhang, Jing Zhang, Jifan Yu, Sijia Luo, Jie Tang
17
2

Huidige grote taalmodellen (LLM's) hebben vaak moeite om nauwkeurige antwoorden te produceren bij de eerste poging voor complexe redeneertaken zoals codegeneratie. Eerdere onderzoeken pakken deze uitdaging aan door meerdere mogelijke oplossingen te genereren en deze te valideren met door LLM gegenereerde eenheidstests. De uitvoeringsresultaten van de eenheidstests dienen als beloningssignalen om de juiste oplossingen te identificeren. Omdat LLM's altijd zelfverzekerd fouten maken, zijn deze eenheidstests niet betrouwbaar, waardoor de kwaliteit van de beloningssignalen afneemt. Gemotiveerd door de observatie dat het opschalen van het aantal oplossingen de prestaties van LLM verbetert, onderzoeken we de impact van het opschalen van eenheidstests om de kwaliteit van beloningssignalen te verbeteren. Ons baanbrekende experiment onthult een positieve correlatie tussen het aantal eenheidstests en de kwaliteit van beloningssignalen, waarbij grotere voordelen worden waargenomen bij meer uitdagende problemen. Op basis van deze inzichten stellen we CodeRM-8B voor, een lichtgewicht maar effectieve eenheidstestgenerator die efficiënte en hoogwaardige opschaling van eenheidstests mogelijk maakt. Daarnaast implementeren we een dynamisch schalingsmechanisme dat het aantal eenheidstests aanpast op basis van de moeilijkheidsgraad van het probleem, wat de efficiëntie verder verbetert. Experimentele resultaten tonen aan dat onze aanpak de prestaties aanzienlijk verbetert bij verschillende modellen op drie benchmarks (bijv. met winsten van 18,43% voor Llama3-8B en 3,42% voor GPT-4o-mini op HumanEval Plus).

13

SeedVR: Het zaaien van oneindigheid in de Diffusion Transformer voor Generieke Videoherstelling.
SeedVR: Seeding Infinity in Diffusion Transformer Towards Generic Video Restoration

Jan 2
ByJianyi Wang, Zhijie Lin, Meng Wei, Yang Zhao, Ceyuan Yang, Chen Change Loy, Lu Jiang
12
2

Videorestauratie stelt niet-triviale uitdagingen bij het behouden van de nauwkeurigheid terwijl tegelijkertijd consistentie in de tijd wordt hersteld van onbekende degradaties in het wild. Ondanks recente vooruitgang in diffusie-gebaseerde restauratie, worden deze methoden vaak geconfronteerd met beperkingen in generatiecapaciteit en bemonsteringsefficiëntie. In dit werk presenteren we SeedVR, een diffusietransformator ontworpen om videorestauratie in de echte wereld aan te pakken met willekeurige lengte en resolutie. De kern van SeedVR ligt in de verschoven vensteraandacht die effectieve restauratie mogelijk maakt op lange videosequenties. SeedVR ondersteunt verder variabel-grote vensters nabij de grens van zowel de ruimtelijke als de temporele dimensies, waardoor de resolutiebeperkingen van traditionele vensteraandacht worden overwonnen. Uitgerust met hedendaagse praktijken, waaronder causale video-autoencoder, gemengde beeld- en videotraining, en progressieve training, behaalt SeedVR een zeer competitieve prestatie op zowel synthetische als echte benchmarks, evenals door AI gegenereerde video's. Uitgebreide experimenten tonen de superioriteit van SeedVR aan ten opzichte van bestaande methoden voor generieke videorestauratie.

14

Geneste Aandacht: Semantisch-bewuste Aandachtswaarden voor Conceptpersonalisatie
Nested Attention: Semantic-aware Attention Values for Concept Personalization

Jan 2
ByOr Patashnik, Rinon Gal, Daniil Ostashev, Sergey Tulyakov, Kfir Aberman, Daniel Cohen-Or
11
2

Het personaliseren van tekst-naar-afbeelding modellen om afbeeldingen van specifieke onderwerpen te genereren binnen diverse scènes en stijlen is een zich snel ontwikkelend vakgebied. Huidige benaderingen worden vaak geconfronteerd met uitdagingen bij het handhaven van een balans tussen identiteitsbehoud en afstemming op de invoertekstprompt. Sommige methoden vertrouwen op een enkel tekstueel token om een onderwerp te vertegenwoordigen, wat de expressiviteit beperkt, terwijl andere rijkere representaties gebruiken maar het model's eerdere prompt verstoren, waardoor promptafstemming afneemt. In dit werk introduceren we Nested Attention, een nieuw mechanisme dat een rijke en expressieve afbeeldingsrepresentatie injecteert in de bestaande cross-attention lagen van het model. Ons belangrijkste idee is om op query gebaseerde onderwerpwaarden te genereren, afgeleid van geneste aandachtslagen die leren om relevante onderwerpkenmerken te selecteren voor elk gebied in de gegenereerde afbeelding. We integreren deze geneste lagen in een op encoder gebaseerde personalisatiemethode, en tonen aan dat ze een hoge identiteitsbehoud mogelijk maken terwijl ze zich houden aan de invoertekstprompt. Onze benadering is algemeen en kan worden getraind op verschillende domeinen. Bovendien maakt de voorafgaande behoud ons in staat om meerdere gepersonaliseerde onderwerpen uit verschillende domeinen te combineren in één afbeelding.

15

MapQaTor: Een systeem voor efficiënte annotatie van kaartquery-datasets
MapQaTor: A System for Efficient Annotation of Map Query Datasets

Dec 30
ByMahir Labib Dihan, Mohammed Eunus Ali, Md Rizwan Parvez
10
2

Mapping- en navigatiediensten zoals Google Maps, Apple Maps en OpenStreetMaps zijn essentieel voor het verkrijgen van verschillende op locatie gebaseerde gegevens, maar hebben vaak moeite met het verwerken van natuurlijke taal georuimtelijke vragen. Recente ontwikkelingen in Grote Taalmodellen (LLM's) tonen veelbelovende resultaten op het gebied van vraag-antwoordsystemen (QA), maar het blijft uitdagend om betrouwbare georuimtelijke QA-datasets te creëren vanuit kaartservices. Wij introduceren MapQaTor, een webapplicatie die het creëren van reproduceerbare, traceerbare op kaarten gebaseerde QA-datasets stroomlijnt. Met zijn plug-and-play architectuur maakt MapQaTor naadloze integratie met elke kaarten-API mogelijk, waardoor gebruikers gegevens kunnen verzamelen en visualiseren vanuit diverse bronnen met minimale configuratie. Door het cachen van API-responsen zorgt het platform voor consistente grondwaarheid, waardoor de betrouwbaarheid van de gegevens wordt verbeterd, zelfs wanneer real-world informatie evolueert. MapQaTor centraliseert gegevensverzameling, annotatie en visualisatie binnen één platform, wat een unieke kans biedt om de huidige stand van LLM-gebaseerde georuimtelijke redenering te evalueren en hun mogelijkheden te verbeteren voor een beter begrip van georuimtelijke informatie. Evaluatiemetrics tonen aan dat MapQaTor het annotatieproces met minstens 30 keer versnelt in vergelijking met handmatige methoden, waarbij de potentie ervan voor het ontwikkelen van georuimtelijke bronnen, zoals complexe kaartredeneerdatabases, wordt benadrukt. De website is live op: https://mapqator.github.io/ en een demovideo is beschikbaar op: https://youtu.be/7_aV9Wmhs6Q.

16

Het begrijpen en verminderen van knelpunten van toestandsruimtemodellen door de lens van recentheid en overgladstrijken.
Understanding and Mitigating Bottlenecks of State Space Models through the Lens of Recency and Over-smoothing

Dec 31
ByPeihao Wang, Ruisi Cai, Yuehao Wang, Jiajun Zhu, Pragya Srivastava, Zhangyang Wang, Pan Li
7
2

Gestructureerde toestandsruimtemodellen (SSM's) zijn naar voren gekomen als alternatieven voor transformers. Hoewel SSM's vaak worden beschouwd als effectief in het vastleggen van lange sequentie-afhankelijkheden, tonen we rigoureus aan dat ze inherent beperkt zijn door sterke recente vooringenomenheid. Onze empirische studies onthullen ook dat deze vooringenomenheid de modellen belemmert om verre informatie te onthouden en robuustheidsproblemen introduceert. Onze schalingsexperimenten hebben vervolgens ontdekt dat diepere structuren in SSM's het leren van lange contexten kunnen vergemakkelijken. Echter, daaropvolgende theoretische analyse onthult dat naarmate SSM's in diepte toenemen, ze een andere onvermijdelijke neiging vertonen naar overmatig gladstrijken, bijvoorbeeld, tokenrepresentaties steeds moeilijker te onderscheiden worden. Dit fundamentele dilemma tussen recente vooringenomenheid en overmatig gladstrijken belemmert de schaalbaarheid van bestaande SSM's. Geïnspireerd door onze theoretische bevindingen stellen we voor om twee kanalen van de toestandsovergangsmatrices in SSM's te polariseren, door ze respectievelijk op nul en één in te stellen, waardoor zowel de recente vooringenomenheid als het overmatig gladstrijken tegelijkertijd worden aangepakt. Experimenten tonen aan dat onze polarisatietechniek consequent de associatieve herroepingsnauwkeurigheid van verre tokens verbetert en SSM's ontgrendelt om verder te profiteren van diepere architecturen. Alle broncodes zijn vrijgegeven op https://github.com/VITA-Group/SSM-Bottleneck.

17

Populatiebewuste diffusie voor het genereren van tijdreeksen
Population Aware Diffusion for Time Series Generation

Jan 1
ByYang Li, Han Meng, Zhenyu Bi, Ingolv T. Urnes, Haipeng Chen
6
2

Diffusiemodellen hebben een veelbelovend vermogen getoond om hoogwaardige tijdreeks (TS) gegevens te genereren. Ondanks het aanvankelijke succes richten bestaande werken zich voornamelijk op de authenticiteit van gegevens op individueel niveau, maar besteden minder aandacht aan het behouden van de eigenschappen op populatieniveau van de gehele dataset. Dergelijke populatieniveau eigenschappen omvatten waardeverdelingen voor elke dimensie en de verdelingen van bepaalde functionele afhankelijkheden (bijv. kruiscorrelatie, CC) tussen verschillende dimensies. Bijvoorbeeld, bij het genereren van TS-gegevens over energieverbruik in huizen, moeten de waardeverdelingen van de buitentemperatuur en de keukentemperatuur behouden blijven, evenals de verdeling van CC tussen hen. Het behouden van dergelijke TS populatieniveau eigenschappen is cruciaal om de statistische inzichten van de datasets te behouden, modelbias te verminderen en downstream taken zoals TS-voorspelling te verbeteren. Toch wordt dit vaak over het hoofd gezien door bestaande modellen. Daarom vertonen gegevens die door bestaande modellen worden gegenereerd vaak verdelingsverschuivingen van de originele gegevens. Wij stellen Population-aware Diffusion for Time Series (PaD-TS) voor, een nieuw TS-generatiemodel dat de populatieniveau eigenschappen beter behoudt. De belangrijkste vernieuwingen van PaD-TS omvatten 1) een nieuwe trainingsmethode die expliciet TS populatieniveau eigenschappen behoudt, en 2) een nieuwe architectuur van een dubbelkanaals encodermodel dat de structuur van de TS-gegevens beter vastlegt. Empirische resultaten in belangrijke benchmarkdatasets tonen aan dat PaD-TS de gemiddelde CC-verdelingsverschuiving tussen echte en synthetische gegevens met 5,9x kan verbeteren, terwijl het een prestatie vergelijkbaar met state-of-the-art modellen behoudt op het niveau van individuele authenticiteit.

18

Heroverweging van Adressering in Taalmodellen via Gecontextualiseerde Equivalentie-Positionele Codering
Rethinking Addressing in Language Models via Contexualized Equivariant Positional Encoding

Jan 1
ByJiajun Zhu, Peihao Wang, Ruisi Cai, Jason D. Lee, Pan Li, Zhangyang Wang
6
4

Transformers vertrouwen op zowel inhoudsgebaseerde als positiegebaseerde adresseringsmechanismen om voorspellingen te doen, maar bestaande positionele encoderingstechnieken verminderen vaak de effectiviteit van positiegebaseerde adressering. Veel huidige methoden leggen rigide patronen op in aandachtskaarten, waardoor de mogelijkheid om langeafhankelijkheden te modelleren en zich aan te passen aan diverse taken wordt beperkt. Bovendien worden de meeste positionele encoderingen geleerd als algemene vooroordelen, wat de specialisatie mist die nodig is voor verschillende instanties binnen een dataset. Om dit aan te pakken, stellen we conTextualized equivariAnt Position Embedding (TAPE) voor, een nieuw raamwerk dat positionele encoderingen verbetert door sequentie-inhoud over lagen heen op te nemen. TAPE introduceert dynamische, contextbewuste positionele encoderingen, waardoor de beperkingen van traditionele vaste patronen worden overwonnen. Door permutatie en orthogonale equivariantie af te dwingen, zorgt TAPE voor de stabiliteit van positionele encoderingen tijdens updates, wat de robuustheid en aanpasbaarheid verbetert. Onze methode kan eenvoudig worden geïntegreerd in vooraf getrainde transformers, met parameter-efficiënte fine-tuning met minimale overhead. Uitgebreide experimenten tonen aan dat TAPE superieure prestaties behaalt bij taalmodellering, rekenkundige redenering en taken voor het ophalen van lange context in vergelijking met bestaande positionele encoderingstechnieken.

19

SeFAR: Semi-begeleide fijnmazige actieherkenning met tijdelijke verstoring en leerstabilisatie
SeFAR: Semi-supervised Fine-grained Action Recognition with Temporal Perturbation and Learning Stabilization

Jan 2
ByYongle Huang, Haodong Chen, Zhenbang Xu, Zihan Jia, Haozhou Sun, Dian Shao
5
2

Het begrip van menselijke acties is cruciaal voor de vooruitgang van multimodale systemen. Terwijl recente ontwikkelingen, aangedreven door krachtige grote taalmodellen (LLM's), gericht zijn op algemeenheid om een breed scala aan categorieën te bestrijken, zien ze vaak de behoefte aan meer specifieke mogelijkheden over het hoofd. In dit werk richten we ons op de uitdagendere taak van Fijnmazige Actieherkenning (FAR), die zich richt op gedetailleerde semantische labels binnen kortere tijdsduur (bijv. "salto achterwaarts met 1 draai"). Gezien de hoge kosten van het annoteren van fijnmazige labels en de aanzienlijke hoeveelheid data die nodig is voor het verfijnen van LLM's, stellen we voor om semi-supervised learning (SSL) te gebruiken. Ons raamwerk, SeFAR, bevat verschillende innovatieve ontwerpen om deze uitdagingen aan te gaan. Specifiek, om voldoende visuele details vast te leggen, construeren we Dubbele temporele elementen als effectievere representaties, op basis waarvan we een nieuwe sterke augmentatiestrategie ontwerpen voor het leerparadigma van Leraar-Leerling door matige temporele verstoring te betrekken. Verder stellen we voor om de Adaptieve Regulatie te gebruiken om de hoge onzekerheid binnen de voorspellingen van het leraarmodel voor FAR aan te pakken en het leerproces te stabiliseren. Experimenten tonen aan dat SeFAR state-of-the-art prestaties behaalt op twee FAR-datasets, FineGym en FineDiving, over verschillende datumbereiken. Het overtreft ook andere semi-supervised methoden op twee klassieke grofmazige datasets, UCF101 en HMDB51. Verdere analyse en ablatiestudies bevestigen de effectiviteit van onze ontwerpen. Bovendien tonen we aan dat de functies geëxtraheerd door onze SeFAR grotendeels de mogelijkheid van multimodale basismodellen kunnen bevorderen om fijnmazige en domeinspecifieke semantiek te begrijpen.

Jan 2
Jan 3
Jan 6