ChatPaper.aiChatPaper.ai
Home

arXiv

HuggingFace

PrijzenAccountWerkruimte

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

1

Animate-X: Universele karakterafbeeldingsanimatie met verbeterde bewegingsrepresentatie
Animate-X: Universal Character Image Animation with Enhanced Motion Representation

Oct 14
ByShuai Tan, Biao Gong, Xiang Wang, Shiwei Zhang, Dandan Zheng, Ruobing Zheng, Kecheng Zheng, Jingdong Chen, Ming Yang
56
5

Karakterbeeldanimatie, die hoogwaardige video's genereert vanuit een referentiebeeld en een doelhoudingreeks, heeft de afgelopen jaren aanzienlijke vooruitgang geboekt. De meeste bestaande methoden zijn echter alleen van toepassing op menselijke figuren, die meestal niet goed generaliseren naar antropomorfe karakters die veel worden gebruikt in sectoren zoals gaming en entertainment. Onze diepgaande analyse suggereert dat deze beperking kan worden toegeschreven aan hun ontoereikende modellering van beweging, die niet in staat is om het bewegingspatroon van de sturende video te begrijpen en daarom star een houdingreeks oplegt aan het doelkarakter. Daarom stelt dit artikel Animate-X voor, een universeel animatiekader gebaseerd op LDM voor verschillende karaktertypen (gezamenlijk aangeduid als X), inclusief antropomorfe karakters. Om de bewegingsrepresentatie te verbeteren, introduceren we de Pose Indicator, die een uitgebreid bewegingspatroon van de sturende video vastlegt op zowel impliciete als expliciete wijze. De eerste maakt gebruik van CLIP visuele kenmerken van een sturende video om de essentie van de beweging te extraheren, zoals het algemene bewegingspatroon en de temporele relaties tussen bewegingen, terwijl de laatste de generalisatie van LDM versterkt door mogelijke invoer vooraf te simuleren die zich tijdens inferentie kunnen voordoen. Bovendien introduceren we een nieuwe Geanimeerde Antropomorfe Benchmark (A^2Bench) om de prestaties van Animate-X op universele en breed toepasbare animatiebeelden te evalueren. Uitgebreide experimenten tonen de superioriteit en effectiviteit van Animate-X aan in vergelijking met state-of-the-art methoden.

2

LOKI: Een uitgebreide benchmark voor het detecteren van synthetische data met behulp van grote multimodale modellen
LOKI: A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models

Oct 13
ByJunyan Ye, Baichuan Zhou, Zilong Huang, Junan Zhang, Tianyi Bai, Hengrui Kang, Jun He, Honglin Lin, Zihao Wang, Tong Wu, Zhizheng Wu, Yiping Chen, Dahua Lin, Conghui He, Weijia Li
54
5

Met de snelle ontwikkeling van door AI gegenereerde inhoud kan de toekomstige internet overspoeld worden met synthetische gegevens, waardoor het steeds uitdagender wordt om authentieke en geloofwaardige multimodale gegevens te onderscheiden. Het detecteren van synthetische gegevens heeft daarom veel aandacht gekregen, en de prestaties van grote multimodale modellen (LMM's) in deze taak hebben aanzienlijke interesse gewekt. LMM's kunnen natuurlijke taalverklaringen geven voor hun authenticiteitsbeoordelingen, waardoor de verklaringsmogelijkheden van synthetische inhoudsdetectie worden verbeterd. Tegelijkertijd test de taak om echt en synthetische gegevens te onderscheiden effectief de perceptie, kennis en redeneervermogen van LMM's. Als reactie introduceren we LOKI, een nieuw benchmark ontworpen om de mogelijkheid van LMM's om synthetische gegevens over meerdere modaliteiten te detecteren te evalueren. LOKI omvat video, afbeelding, 3D, tekst en audio modaliteiten, bestaande uit 18K zorgvuldig samengestelde vragen over 26 subcategorieën met duidelijke moeilijkheidsgraden. De benchmark bevat grofkorrelige beoordelingen en meerkeuzevragen, evenals taken voor het selecteren van fijnkorrelige anomalieën en uitleg, waardoor een uitgebreide analyse van LMM's mogelijk is. We hebben 22 open-source LMM's en 6 gesloten-bronmodellen geëvalueerd op LOKI, waarbij hun potentieel als synthetische gegevensdetectoren werd benadrukt en ook enkele beperkingen in de ontwikkeling van LMM-capaciteiten aan het licht werden gebracht. Meer informatie over LOKI is te vinden op https://opendatalab.github.io/LOKI/

3

MMIE: Massieve Multimodale Onderlinge Begripsbenchmark voor Grote Visie-Taalmodellen
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models

Oct 14
ByPeng Xia, Siwei Han, Shi Qiu, Yiyang Zhou, Zhaoyang Wang, Wenhao Zheng, Zhaorun Chen, Chenhang Cui, Mingyu Ding, Linjie Li, Lijuan Wang, Huaxiu Yao
51
4

Onderlinge multimodale begrip en generatie, waardoor modellen zowel afbeeldingen als tekst in willekeurige volgordes kunnen produceren en interpreteren, zijn een cruciaal gebied geworden in multimodaal leren. Ondanks aanzienlijke vooruitgang blijft de evaluatie van deze capaciteit ontoereikend. Bestaande benchmarks kampen met beperkingen op het gebied van datagrootte, reikwijdte en evaluatiediepte, terwijl huidige evaluatiemetrics vaak kostbaar of vooringenomen zijn, en betrouwbaarheid missen voor praktische toepassingen. Om deze uitdagingen aan te pakken, introduceren we MMIE, een grootschalige kennisintensieve benchmark voor het evalueren van onderlinge multimodale begrip en generatie in Grote Visie-Taalmodellen (GVLM's). MMIE omvat 20K zorgvuldig samengestelde multimodale vragen, die 3 categorieën, 12 velden en 102 subvelden bestrijken, waaronder wiskunde, codering, natuurkunde, literatuur, gezondheid en kunst. Het ondersteunt zowel onderlinge invoer als uitvoer, en biedt een mix van meerkeuze- en open vraagformaten om diverse competenties te evalueren. Bovendien stellen we een betrouwbare geautomatiseerde evaluatiemetric voor, waarbij gebruik wordt gemaakt van een scoremodel dat is verfijnd met door mensen geannoteerde gegevens en systematische evaluatiecriteria, met als doel vooringenomenheid te verminderen en de evaluatienauwkeurigheid te verbeteren. Uitgebreide experimenten tonen de effectiviteit van onze benchmark en metrics aan bij het bieden van een uitgebreide evaluatie van onderlinge GVLM's. Specifiek evalueren we acht GVLM's, waarbij blijkt dat zelfs de beste modellen aanzienlijke ruimte voor verbetering laten zien, waarbij de meeste slechts matige resultaten behalen. We zijn van mening dat MMIE verdere vooruitgang zal stimuleren in de ontwikkeling van onderlinge GVLM's. We maken onze benchmark en code openbaar beschikbaar op https://mmie-bench.github.io/.

4

Naar Algemene Instructievolgalignering voor Generatie met Toegevoegde Ophaling
Toward General Instruction-Following Alignment for Retrieval-Augmented Generation

Oct 12
ByGuanting Dong, Xiaoshuai Song, Yutao Zhu, Runqi Qiao, Zhicheng Dou, Ji-Rong Wen
48
3

Het volgen van natuurlijke instructies is cruciaal voor de effectieve toepassing van Retrieval-Augmented Generation (RAG) systemen. Ondanks recente ontwikkelingen in Large Language Models (LLMs) blijft onderzoek naar het beoordelen en verbeteren van instructievolging (IF) binnen het RAG-domein beperkt. Om dit probleem aan te pakken, stellen we VIF-RAG voor, de eerste geautomatiseerde, schaalbare en verifieerbare synthetische pijplijn voor instructievolging in RAG systemen. We beginnen met het handmatig samenstellen van een minimaal aantal atomaire instructies (<100) en het ontwikkelen van combinatieregels om complexe instructies te synthetiseren en verifiëren voor een initiële set. Vervolgens gebruiken we begeleide modellen voor instructieherschrijving terwijl we tegelijkertijd code genereren om de kwaliteit van de instructies te automatiseren via een Python-uitvoerder. Ten slotte integreren we deze instructies met uitgebreide RAG- en algemene gegevensmonsters, opschalend naar een hoogwaardige VIF-RAG-QA dataset (>100k) via geautomatiseerde processen. Om de kloof in zelfevaluatie van instructievolging voor RAG systemen verder te overbruggen, introduceren we de FollowRAG Benchmark, die ongeveer 3K testmonsters bevat, die 22 categorieën van algemene instructiebeperkingen en vier op kennis gebaseerde QA datasets bestrijken. Dankzij het robuuste ontwerp van de pijplijn kan FollowRAG naadloos integreren met verschillende RAG benchmarks. Door gebruik te maken van FollowRAG en acht veelgebruikte IF- en fundamentele vaardigheden benchmarks voor LLMs, tonen we aan dat VIF-RAG aanzienlijk de prestaties van LLMs verbetert over een breed scala van algemene instructiebeperkingen, terwijl het effectief gebruik maakt van zijn mogelijkheden in RAG scenario's. Verder onderzoek biedt praktische inzichten voor het bereiken van IF-alignment in RAG systemen. Onze code en datasets zijn beschikbaar op https://FollowRAG.github.io.

5

MEGA-Bench: Schaalvergroting van multimodale evaluatie naar meer dan 500 taken in de echte wereld
MEGA-Bench: Scaling Multimodal Evaluation to over 500 Real-World Tasks

Oct 14
ByJiacheng Chen, Tianhao Liang, Sherman Siu, Zhengqing Wang, Kai Wang, Yubo Wang, Yuansheng Ni, Wang Zhu, Ziyan Jiang, Bohan Lyu, Dongfu Jiang, Xuan He, Yuan Liu, Hexiang Hu, Xiang Yue, Wenhu Chen
37
3

We presenteren MEGA-Bench, een evaluatiesuite die multimodale evaluatie schaalt naar meer dan 500 real-world taken, om de zeer heterogene dagelijkse gebruiksscenario's van eindgebruikers aan te pakken. Ons doel is om te optimaliseren voor een set van hoogwaardige gegevensmonsters die een zeer diverse en rijke set multimodale taken bestrijken, terwijl we kosteneffectieve en nauwkeurige model evaluatie mogelijk maken. In het bijzonder hebben we 505 realistische taken verzameld die meer dan 8.000 monsters omvatten van 16 expert annotatoren om het multimodale takenlandschap uitgebreid te bestrijken. In plaats van deze problemen te unificeren in standaard meerkeuzevragen (zoals MMMU, MMBench en MMT-Bench), omarmen we een breed scala aan outputformaten zoals getallen, zinnen, code, \LaTeX, coördinaten, JSON, vrije vorm, enz. Om deze formaten te accommoderen, hebben we meer dan 40 metrieken ontwikkeld om deze taken te evalueren. In tegenstelling tot bestaande benchmarks, biedt MEGA-Bench een gedetailleerd capaciteitsrapport over meerdere dimensies (bijv. toepassing, invoertype, outputformaat, vaardigheid), waardoor gebruikers diepgaand kunnen interacteren met en visualiseren van modelcapaciteiten. We evalueren een breed scala aan voorhoede visie-taalmodellen op MEGA-Bench om hun capaciteiten over deze dimensies te begrijpen.

6

Omni-MATH: Een Universele Wiskundige Benchmark op Olympiadeniveau voor Grote Taalmodellen
Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models

Oct 10
ByBofei Gao, Feifan Song, Zhe Yang, Zefan Cai, Yibo Miao, Qingxiu Dong, Lei Li, Chenghao Ma, Liang Chen, Runxin Xu, Zhengyang Tang, Benyou Wang, Daoguang Zan, Shanghaoran Quan, Ge Zhang, Lei Sha, Yichang Zhang, Xuancheng Ren, Tianyu Liu, Baobao Chang
32
3

Recente ontwikkelingen in grote taalmodellen (LLM's) hebben geleid tot aanzienlijke doorbraken in wiskundige redeneervaardigheden. Bestaande benchmarks zoals GSM8K of MATH worden echter nu met een hoge nauwkeurigheid opgelost (bijv. OpenAI o1 behaalt 94,8% op het MATH-dataset), wat wijst op hun ontoereikendheid om deze modellen echt uit te dagen. Om deze kloof te overbruggen, stellen we een uitgebreide en uitdagende benchmark voor die specifiek is ontworpen om de wiskundige redeneervaardigheden van LLM's op Olympiade-niveau te beoordelen. In tegenstelling tot bestaande benchmarks gerelateerd aan Olympiades, richt onze dataset zich uitsluitend op wiskunde en omvat een uitgebreide verzameling van 4428 problemen op competitieniveau met rigoureuze menselijke annotatie. Deze problemen zijn zorgvuldig gecategoriseerd in meer dan 33 subdomeinen en beslaan meer dan 10 verschillende moeilijkheidsniveaus, waardoor een holistische beoordeling van de modelprestaties in Olympische wiskundige redenering mogelijk is. Bovendien hebben we een diepgaande analyse uitgevoerd op basis van deze benchmark. Onze experimentele resultaten tonen aan dat zelfs de meest geavanceerde modellen, OpenAI o1-mini en OpenAI o1-preview, moeite hebben met zeer uitdagende Olympiade-niveau problemen, met respectievelijk 60,54% en 52,55% nauwkeurigheid, waarbij significante uitdagingen in Olympiade-niveau wiskundige redenering worden benadrukt.

7

Semantische beeldomkering en bewerking met behulp van rechtgetrokken stochastische differentiaalvergelijkingen.
Semantic Image Inversion and Editing using Rectified Stochastic Differential Equations

Oct 14
ByLitu Rout, Yujia Chen, Nataniel Ruiz, Constantine Caramanis, Sanjay Shakkottai, Wen-Sheng Chu
31
3

Generatieve modellen transformeren willekeurig geluid in afbeeldingen; hun inversie heeft tot doel afbeeldingen terug te transformeren naar gestructureerd geluid voor herstel en bewerking. Dit artikel behandelt twee belangrijke taken: (i) inversie en (ii) bewerking van een echte afbeelding met behulp van stochastische equivalenten van gestroomlijnde stroommodellen (zoals Flux). Hoewel Diffusiemodellen (DM's) recentelijk de generatieve modelleringswereld voor afbeeldingen hebben gedomineerd, presenteren hun inversies uitdagingen op het gebied van nauwkeurigheid en bewerkbaarheid als gevolg van niet-lineariteiten in drift en diffusie. Bestaande state-of-the-art DM inversiebenaderingen vertrouwen op training van extra parameters of optimalisatie van latente variabelen op testtijd; beide zijn in de praktijk kostbaar. Gestroomlijnde stromen (RF's) bieden een veelbelovend alternatief voor diffusiemodellen, maar hun inversie is onderbelicht gebleven. We stellen RF inversie voor met behulp van dynamische optimale controle afgeleid via een lineaire kwadratische regelaar. We bewijzen dat het resulterende vectorveld equivalent is aan een gestroomlijnde stochastische differentiaalvergelijking. Bovendien breiden we ons kader uit om een stochastische sampler te ontwerpen voor Flux. Onze inversiemethode maakt state-of-the-art prestaties mogelijk in inversie en bewerking zonder voorafgaande training, waarbij eerdere werken worden overtroffen in slag-naar-afbeelding synthese en semantische afbeeldingsbewerking, met grootschalige menselijke evaluaties die gebruikersvoorkeur bevestigen.

8

VisRAG: Visie-gebaseerde Ophaling-versterkte Generatie op Multi-modaliteit Documenten
VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents

Oct 14
ByShi Yu, Chaoyue Tang, Bokai Xu, Junbo Cui, Junhao Ran, Yukun Yan, Zhenghao Liu, Shuo Wang, Xu Han, Zhiyuan Liu, Maosong Sun
29
3

Retrieval-augmented generation (RAG) is een effectieve techniek die grote taalmodellen (LLMs) in staat stelt externe kennisbronnen te gebruiken voor generatie. Huidige RAG-systemen zijn echter uitsluitend gebaseerd op tekst, waardoor het onmogelijk is om visuele informatie zoals lay-out en afbeeldingen te gebruiken die een cruciale rol spelen in multi-modaliteitsdocumenten in de echte wereld. In dit artikel introduceren we VisRAG, dat dit probleem aanpakt door een vision-language model (VLM)-gebaseerde RAG-pijplijn op te zetten. In deze pijplijn wordt het document niet eerst geparseerd om tekst te verkrijgen, maar wordt het document direct ingebed met behulp van een VLM als een afbeelding en vervolgens opgehaald om de generatie van een VLM te verbeteren. In vergelijking met traditionele tekstgebaseerde RAG maximaliseert VisRAG het behoud en gebruik van de gegevensinformatie in de originele documenten, waardoor informatieverlies dat wordt geïntroduceerd tijdens het parseerproces wordt geëlimineerd. We verzamelen zowel open-source als synthetische gegevens om de ophaler in VisRAG te trainen en verkennen verschillende generatiemethoden. Experimenten tonen aan dat VisRAG beter presteert dan traditionele RAG in zowel de ophaal- als generatiestadia, met een prestatiewinst van 25-39% van begin tot eind ten opzichte van de traditionele tekstgebaseerde RAG-pijplijn. Verder onderzoek onthult dat VisRAG effectief is in het gebruik van trainingsgegevens en sterke generalisatiecapaciteiten aantoont, waardoor het een veelbelovende oplossing is voor RAG op multi-modaliteitsdocumenten. Onze code en gegevens zijn beschikbaar op https://github.com/openbmb/visrag.

9

LiveXiv - Een multi-modale live benchmark gebaseerd op de inhoud van Arxiv papers.
LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content

Oct 14
ByNimrod Shabtay, Felipe Maia Polo, Sivan Doveh, Wei Lin, M. Jehanzeb Mirza, Leshem Chosen, Mikhail Yurochkin, Yuekai Sun, Assaf Arbelle, Leonid Karlinsky, Raja Giryes
26
2

Het grootschalig trainen van multimodale modellen op gegevens verzameld van het web heeft een uitstekende bruikbaarheid aangetoond bij het verrijken van deze modellen met de benodigde wereldkennis om effectief te presteren op verschillende taken. Een nadeel van het verzamelen van gegevens van het web kan echter het potentiële verlies van de benchmarks zijn waarop de vaardigheden van deze modellen vaak worden geëvalueerd. Om te beschermen tegen besmetting van testgegevens en om daadwerkelijk de vaardigheden van deze basismodellen te testen, stellen we LiveXiv voor: een schaalbare evoluerende live benchmark gebaseerd op wetenschappelijke ArXiv-artikelen. LiveXiv heeft toegang tot domeinspecifieke manuscripten op elk willekeurig tijdstip en stelt voor om automatisch visuele vraag-antwoordparen (VQA) te genereren. Dit gebeurt zonder enige menselijke tussenkomst, met behulp van de multimodale inhoud in de manuscripten, zoals grafieken, diagrammen en tabellen. Bovendien introduceren we een efficiënte evaluatiebenadering die de prestaties van alle modellen op de evoluerende benchmark schat door evaluaties van slechts een subset van modellen. Dit vermindert de algehele evaluatiekosten aanzienlijk. We evalueren meerdere open en eigendomsrechtelijke Grote Multimodale Modellen (LMM's) op de eerste versie van onze benchmark, waarbij de uitdagende aard ervan wordt aangetoond en de ware vaardigheden van de modellen worden blootgelegd, zonder besmetting. Ten slotte hebben we, in ons streven naar hoge kwaliteit, een handmatig geverifieerde subset verzameld en geëvalueerd. Door de algehele resultaten te vergelijken met onze automatische annotaties, hebben we vastgesteld dat de prestatievariatie inderdaad minimaal is (<2,5%). Onze dataset is online beschikbaar op HuggingFace, en onze code zal hier beschikbaar zijn.

10

Cavia: Camera-bestuurbare Multi-view Videoverspreiding met Geïntegreerde Aandacht per Weergave
Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention

Oct 14
ByDejia Xu, Yifan Jiang, Chen Huang, Liangchen Song, Thorsten Gernoth, Liangliang Cao, Zhangyang Wang, Hao Tang
25
4

In de afgelopen jaren zijn er opmerkelijke doorbraken geweest op het gebied van beeld-naar-video generatie. Echter, de 3D consistentie en camera bestuurbaarheid van gegenereerde frames zijn onopgelost gebleven. Recente studies hebben geprobeerd camera besturing in het generatieproces op te nemen, maar hun resultaten zijn vaak beperkt tot eenvoudige trajecten of missen de mogelijkheid om consistente video's te genereren vanuit meerdere verschillende camerapaden voor dezelfde scène. Om deze beperkingen aan te pakken, introduceren we Cavia, een nieuw raamwerk voor camera-bestuurbare, multi-view video generatie, dat in staat is om een invoerbeeld om te zetten in meerdere ruimtelijk-temporeel consistente video's. Ons raamwerk breidt de ruimtelijke en temporele aandachtsmodules uit naar view-geïntegreerde aandachtsmodules, waardoor zowel het gezichtspunt als de temporele consistentie verbeteren. Dit flexibele ontwerp maakt gezamenlijke training mogelijk met diverse samengestelde gegevensbronnen, waaronder statische video's op scène-niveau, synthetische multi-view dynamische video's op objectniveau, en monoculaire dynamische video's uit de echte wereld. Voor zover wij weten, is Cavia de eerste in zijn soort die de gebruiker in staat stelt om camera beweging nauwkeurig te specificeren terwijl objectbeweging wordt verkregen. Uitgebreide experimenten tonen aan dat Cavia state-of-the-art methoden overtreft op het gebied van geometrische consistentie en waargenomen kwaliteit. Projectpagina: https://ir1d.github.io/Cavia/

11

Denkende LLM's: Algemene Instructieopvolging met Gedachtengeneratie
Thinking LLMs: General Instruction Following with Thought Generation

Oct 14
ByTianhao Wu, Janice Lan, Weizhe Yuan, Jiantao Jiao, Jason Weston, Sainbayar Sukhbaatar
20
4

LLM's worden doorgaans getraind om gebruikersvragen te beantwoorden of instructies op te volgen op een vergelijkbare manier als hoe menselijke experts reageren. Echter, in het standaard afstemmingskader ontbreekt het hen aan het basisvermogen van expliciet denken voordat ze antwoorden. Denken is belangrijk voor complexe vragen die redenering en planning vereisen - maar kan worden toegepast op elke taak. We stellen een trainingsmethode voor om bestaande LLM's uit te rusten met dergelijke denkvermogens voor algemene instructieopvolging zonder gebruik van aanvullende menselijke gegevens. Dit bereiken we door een iteratieve zoek- en optimalisatieprocedure die de ruimte van mogelijke gedachtengeneraties verkent, waardoor het model kan leren hoe te denken zonder direct toezicht. Voor elke instructie worden de gedachte-kandidaten beoordeeld met behulp van een beoordelingsmodel om alleen hun antwoorden te evalueren, en vervolgens geoptimaliseerd via voorkeurs-optimalisatie. We tonen aan dat deze procedure leidt tot superieure prestaties op AlpacaEval en Arena-Hard, en voordelen laat zien van denken bij niet-redenerende categorieën zoals marketing, gezondheid en algemene kennis, naast meer traditionele redeneer- en probleemoplostaken.

12

Heroverweging van Gegevensselectie op Schaal: Willekeurige Selectie is Vrijwel Alles Wat Je Nodig Hebt
Rethinking Data Selection at Scale: Random Selection is Almost All You Need

Oct 12
ByTingyu Xia, Bowen Yu, Kai Dang, An Yang, Yuan Wu, Yuan Tian, Yi Chang, Junyang Lin
16
3

Het toezicht houden op fijntuning (SFT) is cruciaal voor het afstemmen van Grote Taalmodellen (LLMs) op menselijke instructies. Het primaire doel tijdens SFT is het selecteren van een klein maar representatief subset van trainingsdata uit de grotere pool, zodat fijntuning met deze subset resultaten oplevert die vergelijkbaar zijn met of zelfs beter zijn dan die verkregen met behulp van de volledige dataset. De meeste bestaande technieken voor gegevensselectie zijn echter ontworpen voor datapoelen op kleine schaal, die niet voldoen aan de eisen van SFT-scenario's in de echte wereld. In dit artikel hebben we verschillende zelfscorende methoden gerepliceerd die niet afhankelijk zijn van externe modelassistentie op datasets op de schaal van twee miljoen, en ontdekten dat bijna alle methoden moeite hadden om aanzienlijk beter te presteren dan willekeurige selectie bij het omgaan met dergelijke datapoelen op grote schaal. Bovendien suggereren onze vergelijkingen dat, tijdens SFT, diversiteit in gegevensselectie belangrijker is dan simpelweg te focussen op gegevens van hoge kwaliteit. We hebben ook de beperkingen van verschillende huidige benaderingen geanalyseerd, waarbij we uitleggen waarom ze slecht presteren op datasets op grote schaal en waarom ze ongeschikt zijn voor dergelijke contexten. Ten slotte ontdekten we dat het filteren van gegevens op tokenlengte een stabiele en efficiënte methode biedt om resultaten te verbeteren. Deze aanpak, met name bij het trainen op lange tekstgegevens, blijkt zeer gunstig te zijn voor relatief zwakkere basismodellen, zoals Llama3.

13

TemporalBench: Benchmarking van fijnmazig temporeel begrip voor multimodale videomodellen
TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models

Oct 14
ByMu Cai, Reuben Tan, Jianrui Zhang, Bocheng Zou, Kai Zhang, Feng Yao, Fangrui Zhu, Jing Gu, Yiwu Zhong, Yuzhang Shang, Yao Dou, Jaden Park, Jianfeng Gao, Yong Jae Lee, Jianwei Yang
16
2

Het begrijpen van fijnmazige temporele dynamiek is cruciaal voor multimodale videobegrip en -generatie. Vanwege het gebrek aan fijnmazige temporele annotaties lijken bestaande videobenchmarks voornamelijk op statische beeldbenchmarks en zijn ze niet competent om modellen voor temporeel begrip te evalueren. In dit artikel introduceren we TemporalBench, een nieuwe benchmark die is gewijd aan het evalueren van fijnmazig temporeel begrip in video's. TemporalBench bestaat uit ~10K video vraag-antwoordparen, afgeleid van ~2K hoogwaardige menselijke annotaties die de temporele dynamiek in videoclips beschrijven. Als gevolg hiervan biedt onze benchmark een uniek testplatform voor het evalueren van verschillende temporele begrips- en redeneervaardigheden zoals actiefrequentie, bewegingsmagnitude, gebeurtenisvolgorde, enz. Bovendien maakt het evaluaties mogelijk voor verschillende taken zoals zowel video-vraagbeantwoording als bijschriften, zowel begrip van korte als lange video's, evenals verschillende modellen zoals multimodale video-embeddingmodellen en tekstgeneratiemodellen. Resultaten tonen aan dat state-of-the-art modellen zoals GPT-4o slechts 38,5% nauwkeurigheid behalen bij het beantwoorden van vragen op TemporalBench, wat een aanzienlijk verschil (~30%) aantoont tussen mensen en AI in temporeel begrip. Bovendien merken we een kritisch struikelblok op voor meerkeuzevragen waarbij LLM's de subtiele veranderingen in negatieve bijschriften kunnen detecteren en een gecentraliseerde beschrijving als aanwijzing voor hun voorspelling kunnen gebruiken, waarbij we Multiple Binary Accuracy (MBA) voorstellen om een dergelijke vooringenomenheid te corrigeren. We hopen dat TemporalBench onderzoek kan stimuleren naar het verbeteren van de temporele redeneervaardigheden van modellen. Zowel de dataset als de evaluatiecode zullen beschikbaar worden gesteld.

14

LongMemEval: Beoordeling van Chatassistenten op Langdurig Interactief Geheugen
LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory

Oct 14
ByDi Wu, Hongwei Wang, Wenhao Yu, Yuwei Zhang, Kai-Wei Chang, Dong Yu
14
2

Recente grote taalmodel (GTM)-gestuurde chatassistent systemen hebben geheugencomponenten geïntegreerd om gebruiker-assistent chatgeschiedenissen bij te houden, waardoor nauwkeurigere en gepersonaliseerde reacties mogelijk zijn. Echter, hun langetermijngeheugencapaciteiten in voortdurende interacties blijven onderbelicht. Dit artikel introduceert LongMemEval, een uitgebreide benchmark ontworpen om vijf kern langetermijngeheugen vaardigheden van chatassistenten te evalueren: informatie-extractie, multi-sessie redenering, temporale redenering, kennisupdates, en onthouding. Met 500 nauwkeurig samengestelde vragen ingebed in vrij schaalbare gebruiker-assistent chatgeschiedenissen, stelt LongMemEval een aanzienlijke uitdaging aan bestaande langetermijngeheugensystemen, waarbij commerciële chatassistenten en lang-context GTM's een nauwkeurigheidsdaling van 30% tonen bij het onthouden van informatie over voortdurende interacties. Vervolgens presenteren we een verenigd kader dat het langetermijngeheugendesign opsplitst in vier ontwerpkeuzes over de indexering, opvraging, en leesfasen. Gebaseerd op belangrijke experimentele inzichten stellen we verschillende geheugendesigns voor, waaronder sessie-decompositie voor het optimaliseren van de waardegranulariteit, feit-verrijkte sleuteluitbreiding voor het verbeteren van de indexstructuur, en tijd-bewuste zoekopdrachtuitbreiding voor het verfijnen van het zoekbereik. Experimentresultaten tonen aan dat deze optimalisaties zowel het geheugenherroepen als de daaropvolgende vraagbeantwoording op LongMemEval aanzienlijk verbeteren. Over het algemeen biedt onze studie waardevolle middelen en richtlijnen voor het verbeteren van de langetermijngeheugencapaciteiten van op GTM gebaseerde chatassistenten, waarmee de weg wordt vrijgemaakt naar meer gepersonaliseerde en betrouwbare conversatie-AI.

15

MMCOMPOSITIE: Het heroverwegen van de Compositie van Vooraf getrainde Visie-Taal Modellen
MMCOMPOSITION: Revisiting the Compositionality of Pre-trained Vision-Language Models

Oct 13
ByHang Hua, Yunlong Tang, Ziyun Zeng, Liangliang Cao, Zhengyuan Yang, Hangfeng He, Chenliang Xu, Jiebo Luo
8
2

De opkomst van grote Vision-Language Modellen (VLM's) heeft de multimodale begripsvorming aanzienlijk bevorderd, waardoor een meer geavanceerde en nauwkeurige integratie van visuele en tekstuele informatie mogelijk is geworden over verschillende taken, waaronder het bijschriften van afbeeldingen en video's, visueel vraagbeantwoording en cross-modale opvraging. Ondanks de superieure capaciteiten van VLM's, ontbreekt het onderzoekers aan een alomvattend begrip van hun compositionele vermogen - het vermogen om nieuwe combinaties van bekende visuele en tekstuele componenten te begrijpen en te produceren. Voorafgaande benchmarks bieden slechts een relatief ruwe evaluatie van compositioneel vermogen vanuit het perspectief van objecten, relaties en attributen, terwijl dieper redeneren over objectinteracties, tellen en complexe composities wordt verwaarloosd. Echter, compositioneel vermogen is een essentiële vaardigheid die coherente redenering en begrip over modaliteiten vergemakkelijkt voor VLM's. Om deze beperking aan te pakken, stellen we MMCOMPOSITION voor, een nieuw menselijk-geannoteerde benchmark voor het uitgebreid en nauwkeurig evalueren van de compositionele vermogens van VLM's. Onze voorgestelde benchmark dient als aanvulling op deze eerdere werken. Met MMCOMPOSITION kunnen we de compositionele vermogens van de gangbare VLM's kwantificeren en verkennen. Verrassend genoeg vinden we dat de compositionele vermogens van GPT-4o inferieur zijn aan het beste open-source model, en we analyseren de onderliggende redenen. Onze experimentele analyse onthult de beperkingen van VLM's in fijnmazige compositionele waarneming en redenering, en wijst op gebieden voor verbetering in het ontwerp en de training van VLM's. Bronnen beschikbaar op: https://hanghuacs.github.io/MMComposition/

16

Probleemboom: Het verbeteren van gestructureerd probleemoplossen met samenstelbaarheid
Tree of Problems: Improving structured problem solving with compositionality

Oct 9
ByArmel Zebaze, Benoît Sagot, Rachel Bawden
8
2

Grote Taalmodellen (LLM's) hebben opmerkelijke prestaties laten zien bij verschillende taken door middel van leren in context. Voor complexe redeneertaken die stapsgewijs denken vereisen, heeft Chain-of-Thought (CoT) prompting indrukwekkende resultaten opgeleverd, vooral wanneer gecombineerd met zelfconsistentie. Desalniettemin blijven sommige taken bijzonder moeilijk voor LLM's om op te lossen. Tree of Thoughts (ToT) en Graph of Thoughts (GoT) zijn naar voren gekomen als alternatieven, waarbij het complexe probleem wordt opgedeeld in paden van deelproblemen. In dit artikel stellen we Tree of Problems (ToP) voor, een eenvoudigere versie van ToT, waarvan we vermoeden dat deze beter kan werken voor complexe taken die kunnen worden opgedeeld in identieke subtaken. Onze empirische resultaten tonen aan dat onze benadering beter presteert dan ToT en GoT, en bovendien beter presteert dan CoT bij complexe redeneertaken. Alle code voor dit artikel is openbaar beschikbaar op: https://github.com/ArmelRandy/tree-of-problems.

17

Generaliseerbare Mensachtige Manipulatie met Verbeterde 3D Diffusiebeleidsregels
Generalizable Humanoid Manipulation with Improved 3D Diffusion Policies

Oct 14
ByYanjie Ze, Zixuan Chen, Wenhao Wang, Tianyi Chen, Xialin He, Ying Yuan, Xue Bin Peng, Jiajun Wu
7
2

Humanoid robots die in staat zijn tot autonome werking in diverse omgevingen zijn al lang een doel voor robotici. Echter, autonome manipulatie door humanoïde robots is grotendeels beperkt gebleven tot één specifieke scène, voornamelijk vanwege de moeilijkheid om generaliseerbare vaardigheden te verwerven. Recente ontwikkelingen in 3D visuomotor beleidslijnen, zoals het 3D Diffusiebeleid (DP3), hebben belofte getoond in het uitbreiden van deze mogelijkheden naar wildere omgevingen. Echter, 3D visuomotor beleidslijnen vertrouwen vaak op camerakalibratie en puntwolksegmentatie, die uitdagingen met zich meebrengen voor implementatie op mobiele robots zoals humanoïden. In dit werk introduceren we het Verbeterde 3D Diffusiebeleid (iDP3), een nieuw 3D visuomotor beleid dat deze beperkingen elimineert door gebruik te maken van egocentrische 3D visuele representaties. We tonen aan dat iDP3 een levensgrote humanoïde robot in staat stelt om autonoom vaardigheden uit te voeren in diverse real-world scenario's, met alleen gegevens verzameld in het laboratorium. Video's zijn beschikbaar op: https://humanoid-manipulation.github.io

18

DuoAandacht: Efficiënte inferentie van LLM met lange context met ophaal- en streaming-headers
DuoAttention: Efficient Long-Context LLM Inference with Retrieval and Streaming Heads

Oct 14
ByGuangxuan Xiao, Jiaming Tang, Jingwei Zuo, Junxian Guo, Shang Yang, Haotian Tang, Yao Fu, Song Han
7
2

Het implementeren van lang-context grote taalmodellen (LLMs) is essentieel maar brengt aanzienlijke computationele en geheugen uitdagingen met zich mee. Het cachen van alle Sleutel en Waarde (KV) states over alle aandachtskoppen heen vereist aanzienlijk geheugen. Bestaande KV cache snoeimethoden beschadigen ofwel de lang-context capaciteiten van LLMs of bieden slechts beperkte efficiëntieverbeteringen. In dit artikel identificeren we dat slechts een fractie van aandachtskoppen, ook wel Retrieval Heads genoemd, cruciaal zijn voor het verwerken van lange contexten en volledige aandacht vereisen over alle tokens. Daarentegen vereisen alle andere koppen, die zich voornamelijk richten op recente tokens en aandachtspunten - aangeduid als Streaming Heads - geen volledige aandacht. Op basis van deze inzichten introduceren we DuoAttention, een framework dat alleen een volledige KV-cache toepast op retrieval heads, terwijl het een lichtgewicht, constante lengte KV-cache gebruikt voor streaming heads, wat zowel het decoderen als het vooraf vullen van het geheugen en de latentie van LLM's vermindert zonder de lang-context capaciteiten in gevaar te brengen. DuoAttention maakt gebruik van een lichtgewicht, optimalisatie-gebaseerd algoritme met synthetische data om retrieval heads nauwkeurig te identificeren. Onze methode vermindert de inferentiegeheugen voor lange context aanzienlijk met maximaal 2,55x voor MHA en 1,67x voor GQA-modellen, terwijl het decoderen versneld wordt met maximaal 2,18x en 1,50x en het vooraf vullen versneld wordt met maximaal 1,73x en 1,63x voor respectievelijk MHA en GQA-modellen, met minimaal verlies aan nauwkeurigheid in vergelijking met volledige aandacht. Opmerkelijk is dat DuoAttention in combinatie met kwantisatie Llama-3-8B decodering met een contextlengte van 3,3 miljoen mogelijk maakt op een enkele A100 GPU. De code is beschikbaar op https://github.com/mit-han-lab/duo-attention.

19

TVBench: Het opnieuw ontwerpen van Video-Taal Evaluatie
TVBench: Redesigning Video-Language Evaluation

Oct 10
ByDaniel Cores, Michael Dorkenwald, Manuel Mucientes, Cees G. M. Snoek, Yuki M. Asano
6
2

Grote taalmodellen hebben indrukwekkende prestaties aangetoond wanneer ze geïntegreerd worden met visiemodellen, zelfs waardoor videobegrip mogelijk wordt. Het evalueren van deze videomodellen brengt echter unieke uitdagingen met zich mee, waarvoor verschillende benchmarks zijn voorgesteld. In dit artikel tonen we aan dat de momenteel meest gebruikte video-taal benchmarks kunnen worden opgelost zonder veel temporale redenering te vereisen. We hebben drie belangrijke problemen geïdentificeerd in bestaande datasets: (i) statische informatie van enkele frames is vaak voldoende om de taken op te lossen, (ii) de tekst van de vragen en kandidaat-antwoorden is overdreven informatief, waardoor modellen correct kunnen antwoorden zonder te vertrouwen op visuele input, (iii) alleen wereldkennis kan veel van de vragen beantwoorden, waardoor de benchmarks een test van kennisreplicatie in plaats van visuele redenering zijn. Bovendien hebben we ontdekt dat open vraag-en-antwoord benchmarks voor videobegrip te kampen hebben met vergelijkbare problemen, terwijl het automatische evaluatieproces met LLM's onbetrouwbaar is, waardoor het een ongeschikt alternatief is. Als oplossing stellen we TVBench voor, een nieuw open-source videomeerkeuzevraag-en-antwoord benchmark, en tonen we aan door uitgebreide evaluaties dat het een hoog niveau van temporale begrip vereist. Verrassend genoeg vinden we dat de meeste recente state-of-the-art video-taalmodellen vergelijkbaar presteren met willekeurige prestaties op TVBench, waarbij alleen Gemini-Pro en Tarsier duidelijk deze basislijn overtreffen.

20

Hetzelfde maar toch anders: Structurele overeenkomsten en verschillen in meertalige taalmodellering.
The Same But Different: Structural Similarities and Differences in Multilingual Language Modeling

Oct 11
ByRuochen Zhang, Qinan Yu, Matianyu Zang, Carsten Eickhoff, Ellie Pavlick
5
2

We maken gebruik van nieuwe tools uit mechanistische interpreteerbaarheid om te onderzoeken of de interne structuur van grote taalmodellen (LLM's) overeenkomt met de linguïstische structuren die aan de talen ten grondslag liggen waarop ze zijn getraind. In het bijzonder stellen we de volgende vragen: (1) wanneer twee talen dezelfde morfosyntactische processen gebruiken, behandelen LLM's deze dan met gedeelde interne schakelingen? en (2) wanneer twee talen verschillende morfosyntactische processen vereisen, behandelen LLM's deze dan met verschillende interne schakelingen? Met behulp van Engelse en Chinese meertalige en eentalige modellen analyseren we de interne schakelingen die betrokken zijn bij twee taken. We vinden bewijs dat modellen dezelfde schakeling gebruiken om hetzelfde syntactische proces te behandelen, ongeacht de taal waarin het voorkomt, en dat dit zelfs het geval is voor eentalige modellen die volledig onafhankelijk zijn getraind. Bovendien tonen we aan dat meertalige modellen taalspecifieke componenten (aandachtsmechanismen en feedforward-netwerken) gebruiken wanneer dat nodig is om linguïstische processen (bijv. morfologische markering) te behandelen die alleen in sommige talen voorkomen. Samen bieden onze resultaten nieuwe inzichten in hoe LLM's een afweging maken tussen het benutten van gemeenschappelijke structuren en het behouden van linguïstische verschillen wanneer ze belast zijn met het modelleren van meerdere talen tegelijk.

21

Latente Actie Vooraftraining van Video's
Latent Action Pretraining from Videos

Oct 15
BySeonghyeon Ye, Joel Jang, Byeongguk Jeon, Sejune Joo, Jianwei Yang, Baolin Peng, Ajay Mandlekar, Reuben Tan, Yu-Wei Chao, Bill Yuchen Lin, Lars Liden, Kimin Lee, Jianfeng Gao, Luke Zettlemoyer, Dieter Fox, Minjoon Seo
3
2

We introduceren Latente Actie Pretraining voor algemene Actiemodellen (LAPA), een ongesuperviseerde methode voor het vooraf trainen van Vision-Language-Action (VLA) modellen zonder grondwaarheid robotactielabels. Bestaande Vision-Language-Action modellen vereisen actielabels die doorgaans worden verzameld door menselijke teleoperators tijdens de voorafgaande training, wat de mogelijke gegevensbronnen en schaal aanzienlijk beperkt. In dit werk stellen we een methode voor om te leren van internet-schaal video's die geen robotactielabels hebben. We trainen eerst een actiekwantisatiemodel dat gebruikmaakt van een VQ-VAE-gebaseerd doel om discrete latente acties tussen beeldframes te leren, vervolgens pretrainen we een latente VLA-model om deze latente acties te voorspellen uit observaties en taakbeschrijvingen, en finetunen we ten slotte de VLA op kleine schaal robotmanipulatiegegevens om van latente naar robotacties te mappen. Experimentele resultaten tonen aan dat onze methode aanzienlijk beter presteert dan bestaande technieken die robotmanipulatiebeleid trainen vanuit grootschalige video's. Bovendien presteert het beter dan het state-of-the-art VLA-model dat is getraind met robotactielabels op manipulatietaken in de echte wereld die taalconditionering vereisen, generalisatie naar ongeziene objecten, en semantische generalisatie naar ongeziene instructies. Training alleen op menselijke manipulatievideo's toont ook positieve overdracht, waardoor het potentieel ontstaat om web-schaal gegevens te benutten voor robotica foundation model.

22

ReLU's Revival: Over de entropische overbelasting in normalisatievrije grote taalmodellen
ReLU's Revival: On the Entropic Overload in Normalization-Free Large Language Models

Oct 12
ByNandan Kumar Jha, Brandon Reagen
3
2

LayerNorm is een essentieel onderdeel in moderne grote taalmodellen (LLM's) om de training te stabiliseren en een soepele optimalisatie te garanderen. Het introduceert echter aanzienlijke uitdagingen op het gebied van mechanismische interpreteerbaarheid, onderdrukking van uitschieters, trouwe signaalpropagatie, en de complexiteit op het gebied van berekening en communicatie van privé-inferentie. Dit onderzoek verkent wenselijke activatiefuncties in normalisatievrije decoder-only LLM's. In tegenstelling tot de conventionele voorkeur voor de GELU in op transformatoren gebaseerde modellen, tonen onze empirische bevindingen een tegenovergestelde trend - ReLU presteert aanzienlijk beter dan GELU in modellen zonder LayerNorm, wat leidt tot een 8,2% verbetering in perplexiteit. We ontdekken een belangrijk probleem met GELU, waarbij vroege lagen te maken hebben met entropische overbelasting, wat leidt tot onderbenutting van de representatiecapaciteit van aandachtsmechanismen. Dit benadrukt dat zachtere activaties zoals GELU niet geschikt zijn voor architecturen zonder LayerNorm, terwijl de geometrische eigenschappen van ReLU - specialisatie in de invoerruimte en intra-klasse selectiviteit - leiden tot verbeterde leerdynamiek en betere informatiebehoud in afwezigheid van LayerNorm. Dit onderzoek biedt belangrijke inzichten voor het optimaliseren van transformer-architecturen waar LayerNorm aanzienlijke uitdagingen met zich meebrengt.

Oct 14
Oct 15
Oct 16