ChatPaper.aiChatPaper.ai
Home

arXiv

HuggingFace

PrijzenAccountWerkruimte

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

1

Loopy: Het Temmen van Audio-Gestuurde Portret Avatars met Langetermijn Bewegingsafhankelijkheid
Loopy: Taming Audio-Driven Portrait Avatar with Long-Term Motion Dependency

Sep 4
ByJianwen Jiang, Chao Liang, Jiaqi Yang, Gaojie Lin, Tianyun Zhong, Yanbo Zheng
97
13

Met de introductie van diffusiegebaseerde videogeneratietechnieken heeft audio-gestuurde menselijke videogeneratie recentelijk aanzienlijke doorbraken bereikt in zowel de natuurlijkheid van beweging als de synthese van portretdetails. Vanwege de beperkte controle van audiosignalen bij het aansturen van menselijke bewegingen, voegen bestaande methoden vaak aanvullende ruimtelijke signalen toe om bewegingen te stabiliseren, wat de natuurlijkheid en vrijheid van beweging kan aantasten. In dit artikel stellen we een end-to-end audio-gestuurd videodiffusiemodel genaamd Loopy voor. Specifiek hebben we een inter- en intra-clip temporele module en een audio-naar-latents module ontworpen, waardoor het model langetermijnbewegingsinformatie uit de data kan benutten om natuurlijke bewegingspatronen te leren en de correlatie tussen audio en portretbeweging te verbeteren. Deze methode elimineert de noodzaak van handmatig gespecificeerde ruimtelijke bewegingssjablonen die in bestaande methoden worden gebruikt om beweging tijdens inferentie te beperken. Uitgebreide experimenten tonen aan dat Loopy recente audio-gestuurde portretdiffusiemodellen overtreft en meer levensechte en hoogwaardige resultaten levert in diverse scenario's.

2

LongLLaVA: Schaalvergroting van multimodale LLM's naar 1000 afbeeldingen efficiënt via hybride architectuur
LongLLaVA: Scaling Multi-modal LLMs to 1000 Images Efficiently via Hybrid Architecture

Sep 4
ByXidong Wang, Dingjie Song, Shunian Chen, Chen Zhang, Benyou Wang
54
2

Het uitbreiden van de lange-contextmogelijkheden van Multi-modale Grote Taalmodellen (MLLMs) is cruciaal voor videobegrip, begrip van hoge-resolutiebeelden en multi-modale agents. Dit omvat een reeks systematische optimalisaties, waaronder modelarchitectuur, dataconstructie en trainingsstrategie, met name het aanpakken van uitdagingen zoals verminderde prestaties bij meer afbeeldingen en hoge rekenkosten. In dit artikel passen we de modelarchitectuur aan naar een hybride van Mamba- en Transformer-blokken, benaderen we dataconstructie met zowel temporele als ruimtelijke afhankelijkheden tussen meerdere afbeeldingen en gebruiken we een progressieve trainingsstrategie. Het vrijgegeven model LongLLaVA (Long-Context Large Language and Vision Assistant) is het eerste hybride MLLM, dat een betere balans bereikt tussen efficiëntie en effectiviteit. LongLLaVA behaalt niet alleen competitieve resultaten op verschillende benchmarks, maar behoudt ook een hoge doorvoersnelheid en een laag geheugengebruik. Met name kan het bijna duizend afbeeldingen verwerken op een enkele A100 80GB GPU, wat veelbelovende toepassingsmogelijkheden laat zien voor een breed scala aan taken.

3

LongCite: Het mogelijk maken voor LLM's om gedetailleerde citaties te genereren in lange-context vraag-antwoordsystemen
LongCite: Enabling LLMs to Generate Fine-grained Citations in Long-context QA

Sep 4
Byjiajie Zhang, Yushi Bai, Xin Lv, Wanjun Gu, Danqing Liu, Minhao Zou, Shulin Cao, Lei Hou, Yuxiao Dong, Ling Feng, Juanzi Li
47
3

Hoewel huidige large language models (LLM's) met lange context indrukwekkende capaciteiten hebben getoond in het beantwoorden van gebruikersvragen op basis van uitgebreide teksten, maakt het ontbreken van citaten in hun antwoorden het voor gebruikers moeilijk om deze te verifiëren. Dit leidt tot zorgen over hun betrouwbaarheid vanwege hun potentiële hallucinaties. In dit werk streven we ernaar om LLM's met lange context in staat te stellen reacties te genereren met fijnmazige, op zinsniveau gemaakte citaten, waardoor hun geloofwaardigheid en verifieerbaarheid worden verbeterd. We introduceren eerst LongBench-Cite, een geautomatiseerde benchmark voor het beoordelen van de prestaties van huidige LLM's in Long-Context Question Answering with Citations (LQAC), wat aanzienlijke ruimte voor verbetering aan het licht brengt. Hiertoe stellen we CoF (Coarse to Fine) voor, een innovatieve pijplijn die gebruikmaakt van kant-en-klare LLM's om automatisch QA-instanties met lange context te genereren met precieze citaten op zinsniveau, en gebruiken we deze pijplijn om LongCite-45k te construeren, een grootschalig SFT-dataset voor LQAC. Ten slotte trainen we LongCite-8B en LongCite-9B met behulp van de LongCite-45k dataset, waardoor ze succesvol in staat zijn om nauwkeurige antwoorden en fijnmazige citaten op zinsniveau te genereren in één uitvoer. De evaluatieresultaten op LongBench-Cite tonen aan dat onze getrainde modellen state-of-the-art citatenkwaliteit bereiken, en daarmee geavanceerde propriëtaire modellen, waaronder GPT-4o, overtreffen.

4

MMMU-Pro: Een robuustere benchmark voor multidisciplinair multimodaal begrip
MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark

Sep 4
ByXiang Yue, Tianyu Zheng, Yuansheng Ni, Yubo Wang, Kai Zhang, Shengbang Tong, Yuxuan Sun, Ming Yin, Botao Yu, Ge Zhang, Huan Sun, Yu Su, Wenhu Chen, Graham Neubig
31
3

Dit artikel introduceert MMMU-Pro, een robuuste versie van de Massive Multi-discipline Multimodal Understanding and Reasoning (MMMU) benchmark. MMMU-Pro beoordeelt op strenge wijze het ware begrip en redeneervermogen van multimodale modellen via een driedelig proces gebaseerd op MMMU: (1) het filteren van vragen die door tekstmodellen kunnen worden beantwoord, (2) het uitbreiden van kandidaatopties, en (3) het introduceren van een visueel-only invoerinstelling waarbij vragen in afbeeldingen zijn ingebed. Deze instelling daagt AI uit om daadwerkelijk tegelijkertijd te "zien" en "lezen", wat een fundamentele menselijke cognitieve vaardigheid test om visuele en tekstuele informatie naadloos te integreren. De resultaten tonen aan dat de modelprestaties aanzienlijk lager zijn op MMMU-Pro dan op MMMU, variërend van 16,8% tot 26,9% over de modellen. We onderzoeken de impact van OCR-prompten en Chain of Thought (CoT) redenering, waarbij we vaststellen dat OCR-prompten een minimaal effect hebben, terwijl CoT over het algemeen de prestaties verbetert. MMMU-Pro biedt een strenger evaluatie-instrument, dat realistische scenario's nauwkeurig nabootst en waardevolle richtingen biedt voor toekomstig onderzoek in multimodale AI.

5

Affordance-gestuurde Robotmanipulatie met Flow Matching
Affordance-based Robot Manipulation with Flow Matching

Sep 2
ByFan Zhang, Michael Gienger
20
2

We presenteren een raamwerk voor ondersteunende robotmanipulatie, dat zich richt op twee fundamentele uitdagingen: ten eerste, het efficiënt aanpassen van grootschalige modellen aan downstream taken voor het begrijpen van scene-affordances, vooral in dagelijkse leefscenario's waar het verzamelen van multi-task data met betrekking tot mensen veel inspanning vergt; ten tweede, het effectief leren van robot trajecten door het visuele affordance model te verankeren. We pakken de eerste uitdaging aan door een parameter-efficiënte prompt tuning methode te gebruiken die leerbare tekstprompts toevoegt aan het bevroren visiemodel om manipulatie-affordances in multi-task scenario's te voorspellen. Vervolgens stellen we voor om robot trajecten te leren die worden geleid door affordances in een gesuperviseerde Flow Matching methode. Flow matching vertegenwoordigt een robot visuomotor beleid als een conditioneel proces van het laten stromen van willekeurige waypoints naar gewenste robot trajecten. Tot slot introduceren we een real-world dataset met 10 taken uit het dagelijks leven om ons raamwerk te testen. Onze uitgebreide evaluatie benadrukt dat de voorgestelde prompt tuning methode voor het leren van manipulatie-affordances met een taalprompter competitieve prestaties behaalt en zelfs andere finetuning protocollen overtreft over verschillende dataschaal, terwijl parameter efficiëntie wordt gewaarborgd. Het leren van multi-task robot trajecten met een enkel flow matching beleid leidt ook tot consistent betere prestaties dan alternatieve behavior cloning methoden, vooral gezien multimodale robot actie distributies. Ons raamwerk verenigt naadloos het leren van affordance modellen en traject generatie met flow matching voor robotmanipulatie.

6

Arctic-SnowCoder: Het ontrafelen van hoogwaardige data in codepretraining
Arctic-SnowCoder: Demystifying High-Quality Data in Code Pretraining

Sep 3
ByYuxiang Wei, Hojae Han, Rajhans Samdani
19
2

Recente studies tonen steeds vaker aan dat hoogwaardige data cruciaal is voor effectieve voorafgaande training van taalmodelen. De precieze definitie van "hoogwaardig" blijft echter onderbelicht. Met de focus op het code-domein introduceren we Arctic-SnowCoder-1.3B, een data-efficiënt basiscodemodel dat vooraf is getraind op 555B tokens via drie fasen van progressief verfijnde data: (1) algemene voorafgaande training met 500B standaardkwaliteit code-tokens, voorbewerkt door basis filtering, deduplicatie en ontgifting, (2) voortgezette training met 50B hoogwaardige tokens, geselecteerd uit fase één door een BERT-stijl kwaliteitsannotator die is getraind om goede code te onderscheiden van willekeurige data, met behulp van positieve voorbeelden uit hoogwaardige codebestanden, samen met instructiedata van Magicoder en StarCoder2-Instruct, en (3) verbeterde training met 5B synthetische data gegenereerd door Llama-3.1-70B met fase twee data als zaden, waarbij de Magicoder-benadering is aangepast voor voorafgaande training. Ondanks de beperkte dataset waarop het is getraind, behaalt Arctic-SnowCoder state-of-the-art prestaties op BigCodeBench, een codeerbenchmark die zich richt op praktische en uitdagende programmeertaken, vergeleken met vergelijkbaar grote modellen die zijn getraind op niet meer dan 1T tokens, en overtreft het Phi-1.5-1.3B met 36%. Op alle geëvalueerde benchmarks overtreft Arctic-SnowCoder-1.3B StarCoderBase-3B, dat is getraind op 1T tokens. Daarnaast evenaart het de prestaties van toonaangevende kleine basiscodemodellen die zijn getraind op biljoenen tokens. Arctic-SnowCoder-1.3B overtreft bijvoorbeeld StarCoder2-3B, getraind op meer dan 3.3T tokens, op HumanEval+, een benchmark die functieniveau codegeneratie evalueert, en blijft competitief op BigCodeBench. Onze evaluatie biedt een uitgebreide analyse die verschillende ontwerpkeuzes voor Arctic-SnowCoder rechtvaardigt. Het belangrijkste is dat we ontdekken dat de sleutel tot hoogwaardige data de afstemming is op de verdeling van downstream toepassingen.

7

POLITIEK DEBAT: Efficiënte Zero-shot en Few-shot Classificatoren voor Politieke Teksten
Political DEBATE: Efficient Zero-shot and Few-shot Classifiers for Political Text

Sep 3
ByMichael Burnham, Kayla Kahn, Ryan Yank Wang, Rachel X. Peng
11
3

Sociale wetenschappers hebben snel grote taalmodellen omarmd vanwege hun vermogen om documenten te annoteren zonder begeleide training, een vaardigheid die bekend staat als zero-shot learning. Echter, vanwege hun rekenkundige eisen, kosten en vaak propriëtaire aard, staan deze modellen vaak haaks op replicatie en open wetenschapsnormen. Dit artikel introduceert de Political DEBATE (DeBERTa Algorithm for Textual Entailment) taalmodellen voor zero-shot en few-shot classificatie van politieke documenten. Deze modellen zijn niet alleen even goed, of beter dan, state-of-the-art grote taalmodellen bij zero-shot en few-shot classificatie, maar zijn ook vele malen efficiënter en volledig open source. Door de modellen te trainen op een eenvoudige willekeurige steekproef van 10-25 documenten, kunnen ze begeleide classificatoren die getraind zijn op honderden of duizenden documenten en state-of-the-art generatieve modellen met complexe, geconstrueerde prompts overtreffen. Daarnaast publiceren we de PolNLI dataset die gebruikt is om deze modellen te trainen – een corpus van meer dan 200.000 politieke documenten met zeer nauwkeurige labels voor meer dan 800 classificatietaken.

8

FastVoiceGrad: Eénstaps stemconversie op basis van diffusie met adversarial conditionele diffusiedistillatie
FastVoiceGrad: One-step Diffusion-Based Voice Conversion with Adversarial Conditional Diffusion Distillation

Sep 3
ByTakuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Yuto Kondo
10
2

Diffusiegebaseerde stemconversie (VC) technieken zoals VoiceGrad hebben aandacht getrokken vanwege hun hoge VC-prestaties op het gebied van spraakkwaliteit en sprekersgelijkenis. Een opvallende beperking is echter de trage inferentie veroorzaakt door de multi-stap omgekeerde diffusie. Daarom stellen we FastVoiceGrad voor, een nieuwe één-stap diffusiegebaseerde VC die het aantal iteraties van tientallen terugbrengt naar één, terwijl de hoge VC-prestaties van de multi-stap diffusiegebaseerde VC behouden blijven. We verkrijgen het model door middel van adversarial conditionele diffusiedistillatie (ACDD), waarbij we gebruikmaken van de mogelijkheden van generatieve adversariële netwerken en diffusiemodellen, terwijl we de initiële toestanden in de sampling heroverwegen. Evaluaties van one-shot any-to-any VC tonen aan dat FastVoiceGrad VC-prestaties bereikt die superieur of vergelijkbaar zijn met die van eerdere multi-stap diffusiegebaseerde VC, terwijl de inferentiesnelheid wordt verbeterd. Audiovoorbeelden zijn beschikbaar op https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/fastvoicegrad/.

Sep 4
Sep 5
Sep 6