ChatPaper.aiChatPaper.ai
Home

arXiv

HuggingFace

PrijzenAccountWerkruimte

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

1

Verklarende Instructies: Naar Een Gezamenlijk Begrip van Visuele Taken en Nul-shot Generalisatie
Explanatory Instructions: Towards Unified Vision Tasks Understanding and Zero-shot Generalization

Dec 24
ByYang Shen, Xiu-Shen Wei, Yifan Sun, Yuxin Song, Tao Yuan, Jian Jin, Heyang Xu, Yazhou Yao, Errui Ding
74
2

Computer Vision (CV) heeft nog niet volledig de zero-shot taakgeneralisatie bereikt die wordt waargenomen in Natural Language Processing (NLP), ondanks het volgen van veel van de mijlpalen die zijn vastgesteld in NLP, zoals grote transformermodellen, uitgebreide voorafgaande training, en het auto-regressie paradigma, onder andere. In dit artikel verkennen we het idee dat CV discrete en terminologische taakdefinities aanneemt (bijv., "beeldsegmentatie"), wat een belangrijke barrière kan vormen voor zero-shot taakgeneralisatie. Onze hypothese is dat zonder echt begrip van eerder geziene taken - vanwege deze terminologische definities - diepe modellen moeite hebben om te generaliseren naar nieuwe taken. Om dit te verifiëren, introduceren we Verklarende Instructies, die een intuïtieve manier bieden om CV-taakdoelstellingen te definiëren door gedetailleerde linguïstische transformaties van invoerbeelden naar uitvoer. We creëren een grootschalige dataset bestaande uit 12 miljoen "beeldinvoer naar verklarende instructie naar uitvoer" triplets, en trainen een op auto-regressie gebaseerd visie-taalmodel (AR-gebaseerd VLM) dat zowel beelden als verklarende instructies als invoer neemt. Door te leren deze instructies te volgen, bereikt het AR-gebaseerde VLM instructieniveau zero-shot mogelijkheden voor eerder geziene taken en toont het sterke zero-shot generalisatie voor ongeziene CV-taken. Code en dataset zullen openlijk beschikbaar zijn op ons GitHub repository.

2

Over de Compositie van Generalisatie van Multimodale LLM's voor Medische Beeldvorming
On the Compositional Generalization of Multimodal LLMs for Medical Imaging

Dec 28
ByZhenyang Cai, Junying Chen, Rongsheng Wang, Weihong Wang, Yonglin Deng, Dingjie Song, Yize Chen, Zixu Zhang, Benyou Wang
42
4

Multimodale grote taalmodellen (MLLM's) hebben aanzienlijk potentieel in het medische veld, maar hun mogelijkheden worden vaak beperkt door onvoldoende gegevens in bepaalde medische domeinen, waarbij de noodzaak wordt benadrukt om te begrijpen welke soorten afbeeldingen door MLLM's kunnen worden gebruikt voor generalisatie. Huidig onderzoek suggereert dat multi-taak training beter presteert dan enkelvoudige taaktraining omdat verschillende taken elkaar kunnen helpen, maar ze zien vaak de interne relaties binnen deze taken over het hoofd, waardoor er beperkte richtlijnen worden gegeven voor het selecteren van datasets om specifieke taken te verbeteren. Om dit fenomeen te analyseren, hebben we geprobeerd om compositorische generalisatie (CG) - het vermogen van modellen om nieuwe combinaties te begrijpen door geleerde elementen opnieuw te combineren - te gebruiken als een leidraad. Aangezien medische afbeeldingen nauwkeurig kunnen worden gedefinieerd door Modaliteit, Anatomisch gebied en Taak, bieden ze van nature een omgeving voor het verkennen van CG. Daarom hebben we 106 medische datasets samengesteld om Med-MAT te creëren voor uitgebreide experimenten. De experimenten bevestigden dat MLLM's CG kunnen gebruiken om ongeziene medische afbeeldingen te begrijpen en identificeerden CG als een van de belangrijkste drijfveren van de generalisatie die wordt waargenomen bij multi-taak training. Bovendien toonden verdere studies aan dat CG effectief datasets met beperkte gegevens ondersteunt en consistente prestaties levert over verschillende backbones, waarbij de veelzijdigheid en brede toepasbaarheid ervan worden benadrukt. Med-MAT is openbaar beschikbaar op https://github.com/FreedomIntelligence/Med-MAT.

3

Objecten tot leven brengen: 4D-generatie van 3D-objecten
Bringing Objects to Life: 4D generation from 3D objects

Dec 29
ByOhad Rahamim, Ori Malca, Dvir Samuel, Gal Chechik
41
2

Recente ontwikkelingen in generatieve modellering maken nu de creatie van 4D-inhoud (bewegende 3D-objecten) mogelijk die wordt aangestuurd met tekstprompts. 4D-generatie heeft veel potentieel in toepassingen zoals virtuele werelden, media en gaming, maar bestaande methoden bieden beperkte controle over het uiterlijk en de geometrie van gegenereerde inhoud. In dit werk introduceren we een methode voor het animeren van door de gebruiker verstrekte 3D-objecten door te conditioneren op tekstuele prompts om 4D-generatie te begeleiden, waardoor aangepaste animaties mogelijk zijn terwijl de identiteit van het oorspronkelijke object behouden blijft. We zetten eerst een 3D-mesh om in een "statische" 4D Neural Radiance Field (NeRF) die de visuele kenmerken van het invoerobject behoudt. Vervolgens animeren we het object met behulp van een Image-to-Video-diffusiemodel aangestuurd door tekst. Om de bewegingsrealiteit te verbeteren, introduceren we een incrementeel gezichtspuntselectieprotocol voor het monsteren van perspectieven om levensechte beweging te bevorderen, en een gemaskerd Score Distillation Sampling (SDS) verlies, dat aandachtskaarten benut om optimalisatie te richten op relevante regio's. We evalueren ons model op het gebied van temporele coherentie, naleving van prompts en visuele getrouwheid en constateren dat onze methode beter presteert dan baselines die zijn gebaseerd op andere benaderingen, met tot wel drievoudige verbeteringen in identiteitsbehoud gemeten met LPIPS-scores, en effectief balanceren van visuele kwaliteit met dynamische inhoud.

4

Denk NIET te veel na over 2+3=? Over het overmatig nadenken van o1-achtige LLM's.
Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs

Dec 30
ByXingyu Chen, Jiahao Xu, Tian Liang, Zhiwei He, Jianhui Pang, Dian Yu, Linfeng Song, Qiuzhi Liu, Mengfei Zhou, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu
40
2

De opmerkelijke prestaties van modellen zoals de OpenAI o1 kunnen worden toegeschreven aan hun vermogen om mensachtig langdurig denken na te bootsen tijdens inferentie. Deze modellen maken gebruik van uitgebreide ketens-van-denkprocessen (CoT), waarbij meerdere strategieën worden verkend om de probleemoplossende capaciteiten te verbeteren. Een cruciale vraag blijft echter: Hoe kunnen computationele middelen tijdens testen intelligent en efficiënt worden geschaald. Dit artikel presenteert de eerste uitgebreide studie over het veelvoorkomende probleem van overmatig nadenken in deze modellen, waarbij overmatige computationele middelen worden toegewezen voor eenvoudige problemen met minimale voordelen. We introduceren nieuwe efficiëntiemetingen van zowel uitkomst- als procesperspectieven om het rationele gebruik van computationele middelen door o1-achtige modellen te evalueren. Met behulp van een zelf-trainingsparadigma stellen we strategieën voor om overmatig nadenken te verminderen, waarbij redeneerprocessen worden gestroomlijnd zonder de nauwkeurigheid in gevaar te brengen. Experimentele resultaten tonen aan dat onze aanpak met succes de computationele overhead vermindert, terwijl de modelprestaties behouden blijven over een reeks testsets met variërende moeilijkheidsgraden, zoals GSM8K, MATH500, GPQA en AIME.

5

Efficiënte Bediening van LLM Redeneerprogramma's met Certaindex
Efficiently Serving LLM Reasoning Programs with Certaindex

Dec 30
ByYichao Fu, Junda Chen, Siqi Zhu, Zheyu Fu, Zhongdongming Dai, Aurick Qiao, Hao Zhang
36
2

De snelle evolutie van grote taalmodellen (LLM's) heeft hun mogelijkheden ontsloten in geavanceerde redeneertaken zoals wiskundige probleemoplossing, codegeneratie en juridische analyse. Centraal in deze vooruitgang staan redeneeralgoritmes op inferentietijd, die uitvoer verfijnen door meerdere oplossingspaden te verkennen, ten koste van toenemende rekeneisen en responstijden. Bestaande bedieningssystemen slagen er niet in zich aan te passen aan de schaalbaarheid van deze algoritmes of de variërende moeilijkheidsgraad van vragen, wat leidt tot inefficiënt gebruik van middelen en niet nagekomen latentiedoelen. We presenteren Dynasor, een systeem dat inferentietijdrekenkracht optimaliseert voor LLM-redeneervragen. In tegenstelling tot traditionele engines volgt en plant Dynasor verzoeken binnen redeneervragen en gebruikt het Certaindex, een proxy die statistische redeneervoortgang meet op basis van modelzekerheid, om rekenkracht dynamisch te sturen. Dynasor past planning aan op redeneervoortgang: het wijst meer rekenkracht toe aan moeilijke vragen, vermindert rekenkracht voor eenvoudigere vragen en beëindigt veelbelovende vragen vroegtijdig, waarbij nauwkeurigheid, latentie en kosten in balans worden gehouden. Op diverse datasets en algoritmes vermindert Dynasor rekenkracht tot 50% bij batchverwerking en handhaaft het 3,3x hogere vraagsnelheden of 4,7x strakkere latentie-SLO's bij online bediening.

6

Het trainen van Software Engineering-agenten en verifiers met SWE-Gym.
Training Software Engineering Agents and Verifiers with SWE-Gym

Dec 30
ByJiayi Pan, Xingyao Wang, Graham Neubig, Navdeep Jaitly, Heng Ji, Alane Suhr, Yizhe Zhang
25
2

Wij presenteren SWE-Gym, de eerste omgeving voor het trainen van software engineering (SWE) agenten in de echte wereld. SWE-Gym bevat 2.438 real-world Python taakvoorbeelden, elk bestaande uit een codebase met een uitvoerbaar runtime-omgeving, unit tests, en een taak gespecificeerd in natuurlijke taal. We gebruiken SWE-Gym om op taalmodel gebaseerde SWE agenten te trainen, waarbij we tot 19% absolute winst behalen in oplossingssnelheid op de populaire SWE-Bench Verified en Lite testsets. We experimenteren ook met schaalvergroting op inferentietijd door verifiers te trainen op agenttrajecten afkomstig van SWE-Gym. Wanneer gecombineerd met onze fijn afgestemde SWE agenten, behalen we respectievelijk 32,0% en 26,0% op SWE-Bench Verified en Lite, wat een nieuwe state-of-the-art weerspiegelt voor open-weight SWE agenten. Om verder onderzoek te vergemakkelijken, stellen we SWE-Gym, modellen en agenttrajecten openbaar beschikbaar.

7

TangoFlux: Supersnelle en Nauwkeurige Tekst-naar-Audio Generatie met Flow-Matching en Voorkeursoptimalisatie op Basis van Klappen-Rangschikking
TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization

Dec 30
ByChia-Yu Hung, Navonil Majumder, Zhifeng Kong, Ambuj Mehrish, Rafael Valle, Bryan Catanzaro, Soujanya Poria
24
4

We introduceren TangoFlux, een efficiënt Tekst-naar-Audio (TNA) generatief model met 515 miljoen parameters, in staat om tot 30 seconden 44,1 kHz audio te genereren in slechts 3,7 seconden op een enkele A40 GPU. Een belangrijke uitdaging bij het afstemmen van TNA-modellen ligt in de moeilijkheid om voorkeursparen te creëren, aangezien TNA geen gestructureerde mechanismen heeft zoals controleerbare beloningen of goudstandaard antwoorden die beschikbaar zijn voor Grote Taalmodellen (GTM's). Om dit aan te pakken, stellen we CLAP-Gerangschikte VoorkeursOptimalisatie (CRVO) voor, een nieuw raamwerk dat iteratief voorkeursgegevens genereert en optimaliseert om de afstemming van TNA te verbeteren. We tonen aan dat de audiopreferentiedataset die is gegenereerd met CRVO beter presteert dan bestaande alternatieven. Met dit raamwerk behaalt TangoFlux state-of-the-art prestaties op zowel objectieve als subjectieve benchmarks. We stellen alle code en modellen open source om verder onderzoek naar TNA-generatie te ondersteunen.

8

Edicho: Consistente Beeldbewerking in het Wild
Edicho: Consistent Image Editing in the Wild

Dec 30
ByQingyan Bai, Hao Ouyang, Yinghao Xu, Qiuyu Wang, Ceyuan Yang, Ka Leong Cheng, Yujun Shen, Qifeng Chen
22
2

Als een bevestigde behoefte blijft consistente bewerking over afbeeldingen in het wild een technische uitdaging vanwege verschillende onbeheersbare factoren, zoals objectposities, lichtomstandigheden en fotografieomgevingen. Edicho biedt een oplossing zonder training op basis van diffusiemodellen, met als fundamenteel ontwerpprincipe het gebruik van expliciete beeldovereenkomsten om bewerkingen te sturen. Belangrijke onderdelen zijn een aandachtsmanipulatiemodule en een zorgvuldig verfijnde begeleidingsstrategie zonder classifier (CFG) voor ruisvermindering, die beide rekening houden met de vooraf geschatte overeenkomst. Een dergelijk algoritme op inferentietijd heeft een plug-and-play karakter en is compatibel met de meeste op diffusie gebaseerde bewerkingsmethoden, zoals ControlNet en BrushNet. Uitgebreide resultaten tonen de doeltreffendheid van Edicho aan bij consistente bewerking tussen afbeeldingen onder diverse omstandigheden. We zullen de code vrijgeven om toekomstige studies te vergemakkelijken.

9

PERSE: Gepersonaliseerde 3D Generatieve Avatars vanuit een Enkel Portret
PERSE: Personalized 3D Generative Avatars from A Single Portrait

Dec 30
ByHyunsoo Cha, Inhee Lee, Hanbyul Joo
19
3

We presenteren PERSE, een methode voor het bouwen van een animeerbaar gepersonaliseerd generatief avatar vanuit een referentieportret. Ons avatarmodel maakt het bewerken van gezichtskenmerken mogelijk in een continue en ontkoppeld latente ruimte om elk gezichtskenmerk te controleren, terwijl de identiteit van het individu behouden blijft. Om dit te bereiken, begint onze methode met het synthetiseren van grootschalige synthetische 2D video datasets, waarbij elke video consistente veranderingen in de gezichtsuitdrukking en het gezichtspunt bevat, gecombineerd met een variatie in een specifiek gezichtskenmerk van de oorspronkelijke invoer. We stellen een nieuw proces voor om hoogwaardige, fotorealistische 2D video's te produceren met bewerking van gezichtskenmerken. Door gebruik te maken van deze synthetische attribuutdataset, presenteren we een methode voor het creëren van gepersonaliseerde avatars op basis van de 3D Gaussische Splatting, waarbij een continue en ontkoppelde latente ruimte wordt geleerd voor intuïtieve manipulatie van gezichtskenmerken. Om soepele overgangen in deze latente ruimte af te dwingen, introduceren we een techniek voor regulering van de latente ruimte door gebruik te maken van geïnterpoleerde 2D gezichten als supervisie. In vergelijking met eerdere benaderingen tonen we aan dat PERSE hoogwaardige avatars genereert met geïnterpoleerde kenmerken, terwijl de identiteit van de referentiepersoon behouden blijft.

10

Het vergemakkelijken van de aanpassing van grote taalmodellen aan het Russisch met Learned Embedding Propagation.
Facilitating large language model Russian adaptation with Learned Embedding Propagation

Dec 30
ByMikhail Tikhomirov, Daniil Chernyshev
18
2

De snelle vooruitgang van grote taalmodel (LLM) technologieën heeft geleid tot de introductie van krachtige open-source instructie-aangepaste LLMs die dezelfde tekstgeneratiekwaliteit hebben als de toonaangevende tegenhangers zoals GPT-4. Terwijl het opkomen van dergelijke modellen de adoptie van LLM-technologieën versnelt in gevoelige-informatieomgevingen, onthullen de auteurs van dergelijke modellen niet de trainingsgegevens die nodig zijn voor de replicatie van de resultaten, waardoor de prestaties model-exclusief worden. Aangezien deze open-source modellen ook meertalig zijn, vermindert dit op zijn beurt de voordelen van het trainen van op taal gerichte LLMs, aangezien verbeterde inferentie-rekenkracht efficiëntie het enige gegarandeerde voordeel van een dergelijke kostbare procedure wordt. Meer kosteneffectieve opties zoals woordenschatuitbreiding en daaropvolgende voortgezette pre-training worden ook belemmerd door het gebrek aan toegang tot hoogwaardige instructie-aanpassingsgegevens, aangezien dit de belangrijkste factor is achter de resulterende LLM-taakoplossingsmogelijkheden. Om de beperkingen aan te pakken en de kosten van het taalaanpassingsproces te verlagen, stellen we Learned Embedding Propagation (LEP) voor. In tegenstelling tot bestaande benaderingen heeft onze methode lagere trainingsgegevensvereisten vanwege minimale impact op bestaande LLM-kennis, die we versterken met behulp van een nieuw ad-hoc embedding propagatieprocedure die ons in staat stelt de instructie-aanpassingsstap over te slaan en in plaats daarvan de nieuwe taalkennis rechtstreeks in elke bestaande instructie-aangepaste variant te implanteren. We hebben vier Russische woordenschatadaptaties voor LLaMa-3-8B en Mistral-7B geëvalueerd, waarbij we aantoonden dat LEP concurrerend is met traditionele instructie-aanpassingsmethoden, prestaties behaalt die vergelijkbaar zijn met OpenChat 3.5 en LLaMa-3-8B-Instruct, met verdere verbeteringen via zelfkalibratie en voortgezette afstemming die de taakoplossingsmogelijkheden verbeteren.

11

OneKE: Een Dockerized Schema-Guided LLM Agent-gebaseerd Kennisextractiesysteem
OneKE: A Dockerized Schema-Guided LLM Agent-based Knowledge Extraction System

Dec 28
ByYujie Luo, Xiangyuan Ru, Kangwei Liu, Lin Yuan, Mengshu Sun, Ningyu Zhang, Lei Liang, Zhiqiang Zhang, Jun Zhou, Lanning Wei, Da Zheng, Haofen Wang, Huajun Chen
17
2

We introduceren OneKE, een gedockeriseerd schema-geleid kennisextractiesysteem, dat kennis kan extraheren uit het web en ruwe PDF-boeken, en ondersteuning biedt voor verschillende domeinen (wetenschap, nieuws, enz.). Specifiek ontwerpen we OneKE met meerdere agenten en een configureerbare kennisbank. Verschillende agenten vervullen hun respectievelijke rollen, waardoor ondersteuning wordt geboden voor verschillende extractiescenario's. De configureerbare kennisbank vergemakkelijkt schemaconfiguratie, foutopsporing en correctie, wat de prestaties verder verbetert. Empirische evaluaties op benchmarkdatasets tonen de doeltreffendheid van OneKE aan, terwijl casestudies verder de aanpasbaarheid ervan aan diverse taken over meerdere domeinen verduidelijken, waarbij het potentieel voor brede toepassingen wordt benadrukt. We hebben de code open source gemaakt op https://github.com/zjunlp/OneKE en een video vrijgegeven op http://oneke.openkg.cn/demo.mp4.

12

Trage perceptie: Laten we meetkundige figuren stap voor stap waarnemen.
Slow Perception: Let's Perceive Geometric Figures Step-by-step

Dec 30
ByHaoran Wei, Youyang Yin, Yumeng Li, Jia Wang, Liang Zhao, Jianjian Sun, Zheng Ge, Xiangyu Zhang
15
2

Onlangs begon "visuele o1" in het zicht van mensen te komen, met de verwachting dat dit langzame denkontwerp visuele redeneertaken kan oplossen, vooral meetkundige wiskundeproblemen. Echter, de realiteit is dat huidige LVLM's (Grote Visie Taalmodellen) nauwelijks zelfs nauwkeurig een meetkundige figuur kunnen kopiëren, laat staan de complexe inherente logica en ruimtelijke relaties binnen meetkundige vormen echt begrijpen. Wij geloven dat nauwkeurig kopiëren (sterke perceptie) de eerste stap is naar visuele o1. Daarom introduceren wij het concept van "langzame perceptie" (SP), dat het model begeleidt om geleidelijk basispunt-lijncombinaties waar te nemen, zoals onze mensen, complexe meetkundige structuren progressief reconstrueren. Er zijn tweeledige stadia in SP: a) perceptieontleding. Perceptie is niet onmiddellijk. In deze fase worden complexe meetkundige figuren afgebroken tot basis eenvoudige eenheden om de meetkundige representatie te verenigen. b) perceptiestroom, waarbij erkend wordt dat nauwkeurig een lijn volgen geen gemakkelijke taak is. Deze fase heeft tot doel "lange visuele sprongen" bij het teruggaan van lijnsegmenten te vermijden door een voorgestelde "perceptuele liniaal" te gebruiken om elke lijn slag voor slag te volgen. Verrassend geniet zo'n menselijke perceptiewijze van een inferentietijd schalingswet -- hoe langzamer, hoe beter. Onderzoekers hebben in het verleden geprobeerd het waarnemingsvermogen van het model te versnellen, maar wij vertragen het opnieuw, waardoor het model de afbeelding stap voor stap en zorgvuldig kan lezen.

13

HumanEval Pro en MBPP Pro: Het evalueren van grote taalmodellen op zelf-oproepende codegeneratie.
HumanEval Pro and MBPP Pro: Evaluating Large Language Models on Self-invoking Code Generation

Dec 30
ByZhaojian Yu, Yilun Zhao, Arman Cohan, Xiao-Ping Zhang
13
3

We introduceren zelfaanroepende codegeneratie, een nieuwe taak ontworpen om de progressieve redenering en probleemoplossende capaciteiten van LLM's te evalueren. In deze taak worden modellen gepresenteerd met een basisprobleem en een gerelateerd, complexer probleem. Ze moeten het basisprobleem oplossen en vervolgens de oplossing gebruiken om het complexere probleem aan te pakken. Dit werk omvat drie belangrijke bijdragen. Ten eerste stellen we een algemeen recept voor om uitdagendere versies van bestaande benchmarks te genereren, resulterend in drie nieuwe benchmarks: HumanEval Pro, MBPP Pro en BigCodeBench-Lite Pro, specifiek ontworpen om LLM's te beoordelen op zelfaanroepende codegeneratie. Ten tweede, uit de analyse van experimentele resultaten over twintig LLM's op onze benchmarks, hebben we twee belangrijke observaties: (i) De meeste LLM's excelleren in traditionele codegeneratie benchmarks zoals HumanEval en MBPP, maar hun prestaties dalen bij zelfaanroepende taken. Bijvoorbeeld, o1-mini behaalt 96,2% pass@1 op HumanEval maar slechts 76,2% op HumanEval Pro. (ii) Bij de zelfaanroepende codegeneratietaak laten de op instructies afgestemde modellen slechts marginale verbeteringen zien in vergelijking met de basismodellen. Ten derde onthullen we de soorten faalmodi die voorkomen in onze evaluatieresultaten. Al deze resultaten benadrukken de noodzaak van verdere vooruitgang in zelfaanroepende codegeneratietaken en bieden een nieuwe richting voor toekomstig onderzoek naar het verbeteren van de codeerredeneervaardigheden van LLM's.

Dec 31
Jan 1
Jan 2