ChatPaper.aiChatPaper.ai
Home

arXiv

HuggingFace

PrijzenAccountWerkruimte

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

1

Grote taalmodellen kunnen zichzelf verbeteren in redeneren met lange contexten.
Large Language Models Can Self-Improve in Long-context Reasoning

Nov 12
BySiheng Li, Cheng Yang, Zesen Cheng, Lemao Liu, Mo Yu, Yujiu Yang, Wai Lam
66
4

Grote taalmodellen (LLM's) hebben aanzienlijke vooruitgang geboekt in het verwerken van lange contexten, maar worstelen nog steeds met redeneren over lange contexten. Bestaande benaderingen omvatten doorgaans het fijnafstemmen van LLM's met synthetische gegevens, die afhankelijk zijn van annotaties van menselijke experts of geavanceerde modellen zoals GPT-4, waardoor verdere vooruitgang wordt beperkt. Om dit probleem aan te pakken, onderzoeken we het potentieel voor LLM's om zichzelf te verbeteren in redeneren over lange contexten en stellen we \ours voor, een benadering die specifiek is ontworpen voor dit doel. Deze benadering is eenvoudig: we monsteren meerdere uitvoerresultaten voor elke vraag, scoren ze met Minimum Bayes Risk, en passen vervolgens begeleid fijnafstemmen of voorkeursoptimalisatie toe op basis van deze resultaten. Uitgebreide experimenten met verschillende toonaangevende LLM's tonen de effectiviteit van \ours aan, met een absolute verbetering van 4,2 punten voor Llama-3.1-8B-Instruct. Bovendien behaalt \ours superieure prestaties in vergelijking met eerdere benaderingen die afhankelijk zijn van gegevens die zijn geproduceerd door menselijke experts of geavanceerde modellen. We verwachten dat dit werk nieuwe wegen zal openen voor zelfverbeteringstechnieken in scenario's met lange context, die essentieel zijn voor de voortdurende vooruitgang van LLM's.

2

EgoVid-5M: Een grootschalige video-actiedataset voor het genereren van egocentrische video's.
EgoVid-5M: A Large-Scale Video-Action Dataset for Egocentric Video Generation

Nov 13
ByXiaofeng Wang, Kang Zhao, Feng Liu, Jiayu Wang, Guosheng Zhao, Xiaoyi Bao, Zheng Zhu, Yingya Zhang, Xingang Wang
26
3

Videogeneratie is naar voren gekomen als een veelbelovend instrument voor wereldsimulatie, waarbij visuele gegevens worden ingezet om echte omgevingen na te bootsen. Binnen deze context heeft egocentrische videogeneratie, die zich richt op het menselijk perspectief, aanzienlijk potentieel om toepassingen in virtual reality, augmented reality en gaming te verbeteren. De generatie van egocentrische video's brengt echter aanzienlijke uitdagingen met zich mee vanwege de dynamische aard van egocentrische gezichtspunten, de complexe diversiteit van handelingen en de gevarieerde scènes die worden aangetroffen. Bestaande datasets zijn ontoereikend om deze uitdagingen effectief aan te pakken. Om deze kloof te overbruggen, presenteren we EgoVid-5M, het eerste hoogwaardige dataset specifiek samengesteld voor egocentrische videogeneratie. EgoVid-5M omvat 5 miljoen egocentrische videoclips en is verrijkt met gedetailleerde actie-annotaties, waaronder fijnmazige kinematische controle en hoogwaardige tekstuele beschrijvingen. Om de integriteit en bruikbaarheid van de dataset te waarborgen, implementeren we een geavanceerde gegevensreinigingspipeline die is ontworpen om frameconsistentie, actiecoherentie en bewegingssmoothness onder egocentrische omstandigheden te handhaven. Bovendien introduceren we EgoDreamer, die in staat is om egocentrische video's te genereren die gelijktijdig worden aangestuurd door actiebeschrijvingen en kinematische controle signalen. De EgoVid-5M dataset, bijbehorende actie-annotaties en alle gegevensreinigingsmetadata zullen worden vrijgegeven ter bevordering van onderzoek op het gebied van egocentrische videogeneratie.

3

Directe voorkeurs optimalisatie met behulp van schaarse kenmerkniveau beperkingen.
Direct Preference Optimization Using Sparse Feature-Level Constraints

Nov 12
ByQingyu Yin, Chak Tou Leong, Hongbo Zhang, Minjun Zhu, Hanqi Yan, Qiang Zhang, Yulan He, Wenjie Li, Jun Wang, Yue Zhang, Linyi Yang
17
3

De afstemming van grote taalmodellen (LLM's) op menselijke voorkeuren blijft een belangrijke uitdaging. Hoewel post-trainingstechnieken zoals Versterkend Leren van Menselijke Feedback (RLHF) en Directe Voorkeursoptimalisatie (DPO) opmerkelijk succes hebben behaald, introduceren ze vaak computationele inefficiënties en trainingsinstabiliteit. In dit artikel stellen we Feature-level geconstraineerde Voorkeursoptimalisatie (FPO) voor, een nieuw methode ontworpen om het afstemmingsproces te vereenvoudigen terwijl stabiliteit wordt gewaarborgd. FPO maakt gebruik van vooraf getrainde Schaarse Auto-encoders (SAE's) en introduceert beperkingen op het niveau van kenmerken, waardoor efficiënte, spaarzaam afgedwongen afstemming mogelijk is. Onze benadering geniet efficiëntie door gebruik te maken van spaarzame kenmerken geactiveerd in een goed getrainde spaarzame auto-encoder en de kwaliteit van sequentiële KL-divergentie door gebruik te maken van het kenmerkniveau offline referentie. Experimentele resultaten op benchmark datasets tonen aan dat FPO een absoluut verbetering van 5,08% in winstpercentage behaalt met aanzienlijk lagere computationele kosten in vergelijking met state-of-the-art baselines, waardoor het een veelbelovende oplossing is voor efficiënte en controleerbare LLM-afstemmingen.

4

CamemBERT 2.0: Een Slimmer Frans Taalmodel Gerijpt tot in de Perfectie
CamemBERT 2.0: A Smarter French Language Model Aged to Perfection

Nov 13
ByWissam Antoun, Francis Kulumba, Rian Touchent, Éric de la Clergerie, Benoît Sagot, Djamé Seddah
13
9

Franse taalmodellen, zoals CamemBERT, zijn wijdverspreid overgenomen in verschillende sectoren voor natuurlijke taalverwerkingstaken (NLP), waarbij modellen zoals CamemBERT maandelijks meer dan 4 miljoen downloads zien. Echter, deze modellen worden geconfronteerd met uitdagingen als gevolg van temporale conceptdrift, waar verouderde trainingsgegevens leiden tot een afname in prestaties, vooral bij het tegenkomen van nieuwe onderwerpen en terminologie. Dit probleem benadrukt de noodzaak van bijgewerkte modellen die de huidige taaltrends weerspiegelen. In dit artikel introduceren we twee nieuwe versies van het CamemBERT basismodel - CamemBERTav2 en CamemBERTv2 - ontworpen om deze uitdagingen aan te pakken. CamemBERTav2 is gebaseerd op de DeBERTaV3-architectuur en maakt gebruik van de Replaced Token Detection (RTD) doelstelling voor een beter contextueel begrip, terwijl CamemBERTv2 is gebouwd op RoBERTa, dat de Masked Language Modeling (MLM) doelstelling gebruikt. Beide modellen zijn getraind op een aanzienlijk grotere en recentere dataset met een langere contextlengte en een bijgewerkte tokenizer die de tokenisatieprestaties voor het Frans verbetert. We evalueren de prestaties van deze modellen op zowel algemene NLP-taken als domeinspecifieke toepassingen, zoals medische taken, waarbij we hun veelzijdigheid en effectiviteit laten zien in een reeks gebruiksscenario's. Onze resultaten tonen aan dat deze bijgewerkte modellen aanzienlijk beter presteren dan hun voorgangers, waardoor ze waardevolle tools zijn voor moderne NLP-systemen. Al onze nieuwe modellen, evenals tussenliggende controlepunten, zijn openlijk beschikbaar gesteld op Huggingface.

5

Kunnen schaarse auto-encoders worden gebruikt om stuurvectoren te ontbinden en interpreteren?
Can sparse autoencoders be used to decompose and interpret steering vectors?

Nov 13
ByHarry Mayne, Yushi Yang, Adam Mahdi
8
2

Stuurvectoren zijn een veelbelovende benadering om het gedrag van grote taalmodellen te controleren. De onderliggende mechanismen ervan blijven echter slecht begrepen. Hoewel schaarse auto-encoders (SAE's) een potentieel interpretatiemiddel kunnen bieden voor stuurvectoren, tonen recente bevindingen aan dat SAE-herbouwde vectoren vaak de sturende eigenschappen van de oorspronkelijke vectoren missen. Dit artikel onderzoekt waarom het rechtstreeks toepassen van SAE's op stuurvectoren leidt tot misleidende decomposities, waarbij twee redenen worden geïdentificeerd: (1) stuurvectoren vallen buiten de invoerdistributie waarvoor SAE's zijn ontworpen, en (2) stuurvectoren kunnen betekenisvolle negatieve projecties hebben in eigenschapsrichtingen, waarvoor SAE's niet zijn ontworpen om te accommoderen. Deze beperkingen belemmeren het directe gebruik van SAE's voor het interpreteren van stuurvectoren.

6

PerceiverS: Een Multi-Scale Perceiver met Effectieve Segmentatie voor Langdurige Expressieve Symbolische Muziekgeneratie
PerceiverS: A Multi-Scale Perceiver with Effective Segmentation for Long-Term Expressive Symbolic Music Generation

Nov 13
ByYungang Yi, Weihua Li, Matthew Kuo, Quan Bai
7
2

Muziekgeneratie heeft aanzienlijke vooruitgang geboekt, vooral op het gebied van audiogeneratie. Het genereren van symbolische muziek die zowel lang gestructureerd als expressief is, blijft echter een grote uitdaging. In dit artikel stellen we PerceiverS (Segmentatie en Schaal) voor, een nieuw architectuur ontworpen om dit probleem aan te pakken door zowel Effectieve Segmentatie als Multi-Scale aandachtsmechanismen te benutten. Onze aanpak verbetert de generatie van symbolische muziek door tegelijkertijd lange structurele afhankelijkheden en korte expressieve details te leren. Door cross-aandacht en zelfaandacht te combineren in een Multi-Scale setting, legt PerceiverS de langeafstands muzikale structuur vast terwijl het uitvoeringsnuances behoudt. Het voorgestelde model, geëvalueerd op datasets zoals Maestro, toont verbeteringen in het genereren van coherente en diverse muziek met zowel structurele consistentie als expressieve variatie. De projectdemonstraties en de gegenereerde muziekvoorbeelden zijn te vinden via de link: https://perceivers.github.io.

7

Bewegingsbesturing voor verbeterde generatie van complexe actievideo's
Motion Control for Enhanced Complex Action Video Generation

Nov 13
ByQiang Zhou, Shaofeng Zhang, Nianzu Yang, Ye Qian, Hao Li
5
2

Bestaande tekst-naar-video (T2V) modellen hebben vaak moeite met het genereren van video's met voldoende uitgesproken of complexe acties. Een belangrijke beperking ligt in het onvermogen van de tekstprompt om nauwkeurig ingewikkelde bewegingsdetails over te brengen. Om dit aan te pakken, stellen wij een nieuw raamwerk voor, MVideo, ontworpen om langdurige video's te produceren met precieze, vloeiende acties. MVideo overwint de beperkingen van tekstprompts door maskersequenties op te nemen als een aanvullende bewegingsconditie-input, wat zorgt voor een duidelijkere, nauwkeurigere representatie van beoogde acties. Door gebruik te maken van fundamentele visiemodellen zoals GroundingDINO en SAM2, genereert MVideo automatisch maskersequenties, wat zowel de efficiëntie als de robuustheid verbetert. Onze resultaten tonen aan dat MVideo na training effectief tekstprompts afstemt op bewegingscondities om video's te produceren die tegelijkertijd aan beide criteria voldoen. Dit dubbele controlemechanisme maakt een meer dynamische videoproductie mogelijk door aanpassingen mogelijk te maken aan zowel de tekstprompt als de bewegingsconditie onafhankelijk van elkaar, of beide tegelijk. Bovendien ondersteunt MVideo het bewerken en samenstellen van bewegingscondities, wat de generatie van video's met complexere acties vergemakkelijkt. MVideo bevordert zo de T2V-bewegingsgeneratie en stelt een sterke benchmark voor verbeterde actieafbeelding in huidige videodiffusiemodellen. Onze projectpagina is beschikbaar op https://mvideo-v1.github.io/.

Nov 13
Nov 14
Nov 15