ChatPaper.aiChatPaper.ai
Home

arXiv

HuggingFace

PrijzenAccountWerkruimte

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

1

Fino1: Over de Overdraagbaarheid van Redenering Versterkte LLMs naar Financiën
Fino1: On the Transferability of Reasoning Enhanced LLMs to Finance

Feb 12
ByLingfei Qian, Weipeng Zhou, Yan Wang, Xueqing Peng, Jimin Huang, Qianqian Xie
58
5

Recente ontwikkelingen in grote taalmodellen (LLM's) hebben sterke algemene redeneervaardigheden aangetoond, maar hun effectiviteit in financiële redenering blijft onderbelicht. In deze studie evalueren we uitgebreid 16 krachtige redeneer- en algemene LLM's op drie complexe financiële taken die financiële tekst, tabulaire gegevens en vergelijkingen omvatten, waarbij numerieke redenering, tabulaire interpretatie, begrip van financiële terminologie, verwerking van lange context en oplossen van vergelijkingen worden beoordeeld. Onze resultaten tonen aan dat hoewel betere datasets en voorafgaande training de financiële redenering verbeteren, algemene verbeteringen zoals CoT-fijnafstemming niet altijd consistente winsten opleveren. Bovendien worden alle redeneerstrategieën geconfronteerd met uitdagingen bij het verbeteren van de prestaties op taken met lange context en meerdere tabellen. Om deze beperkingen aan te pakken, ontwikkelen we een financieel redenering-versterkt model op basis van Llama-3.1-8B-Instruct, door CoT-fijnafstemming en versterkend leren met domeinspecifieke redeneerpaden. Zelfs met eenvoudige fijnafstemming met één financiële dataset behaalt ons model een consistente prestatieverbetering van 10% over taken, waarbij alle 8B-modellen en zelfs Llama3-70B-Instruct en Llama3.1-70B-Instruct gemiddeld worden overtroffen. Onze resultaten benadrukken de noodzaak van domeinspecifieke aanpassingen in financiële taken, waarbij toekomstige richtingen zoals redeneren met meerdere tabellen, verwerking van lange context en begrip van financiële terminologie worden benadrukt. Al onze datasets, modellen en codes zijn openbaar beschikbaar. Bovendien introduceren we een leaderboard voor het benchmarken van toekomstige datasets en modellen.

2

TransMLA: Multi-head Latente Aandacht Is Alles Wat Je Nodig Hebt
TransMLA: Multi-head Latent Attention Is All You Need

Feb 11
ByFanxu Meng, Zengwei Yao, Muhan Zhang
57
9

Moderne grote taalmodellen (LLM's) ondervinden vaak communicatieknelpunten op huidige hardware, eerder dan louter computationele beperkingen. Multi-head Latente Aandacht (MLA) pakt deze uitdaging aan door het gebruik van lage-rang matrices in de sleutel-waarde (KV) lagen, waardoor gecomprimeerde latente KV-staten gecachet kunnen worden. Deze aanpak vermindert aanzienlijk de KV-cachegrootte ten opzichte van traditionele multi-head aandacht, wat resulteert in snellere inferentie. Bovendien maakt MLA gebruik van een up-projectiematrix om de expressiviteit te vergroten, waarbij extra berekeningen worden verruild voor verminderde communicatie-overhead. Hoewel MLA efficiëntie en effectiviteit heeft aangetoond in Deepseek V2/V3/R1, vertrouwen veel belangrijke modelaanbieders nog steeds op Groepsvraagaandacht (GQA) en hebben zij geen plannen aangekondigd om MLA over te nemen. In dit artikel tonen we aan dat GQA altijd kan worden voorgesteld door MLA met behoud van dezelfde KV-cache-overhead, maar andersom niet geldt. Om het bredere gebruik van MLA aan te moedigen, introduceren we **TransMLA**, een post-trainingmethode die veelgebruikte op GQA gebaseerde vooraf getrainde modellen (bijv. LLaMA, Qwen, Mixtral) omzet in MLA-gebaseerde modellen. Na conversie kan het model extra training ondergaan om de expressiviteit te verhogen zonder de KV-cachegrootte te vergroten. Bovendien zijn we van plan MLA-specifieke inferentieversnellingsmethoden te ontwikkelen om een lage latentie te behouden in getransformeerde modellen, waardoor een efficiëntere distillatie van Deepseek R1 mogelijk wordt.

3

BenchMAX: Een uitgebreide meertalige evaluatiesuite voor grote taalmodellen
BenchMAX: A Comprehensive Multilingual Evaluation Suite for Large Language Models

Feb 11
ByXu Huang, Wenhao Zhu, Hanxu Hu, Conghui He, Lei Li, Shujian Huang, Fei Yuan
53
2

Eerdere meertalige benchmarks richten zich voornamelijk op eenvoudige begripstaken, maar voor grote taalmodellen (LLM's) benadrukken we vaardigheid in het volgen van instructies, redeneren, begrip van lange context, codegeneratie, enzovoort. Het meten van deze geavanceerde mogelijkheden over talen heen is echter onderbelicht. Om de ongelijkheid aan te pakken, introduceren we BenchMAX, een meertalige evaluatiebenchmark die het mogelijk maakt om eerlijke vergelijkingen te maken van deze belangrijke vaardigheden over talen heen. Om een hoge kwaliteit te waarborgen, annoteren drie verschillende moedertaalsprekers elk monster binnen alle taken onafhankelijk van elkaar nadat de gegevens machinaal vertaald zijn van het Engels naar 16 andere talen. Daarnaast presenteren we een nieuwe vertaaluitdaging die voortkomt uit de constructie van het dataset. Uitgebreide experimenten op BenchMAX tonen verschillende effectiviteit van kernmogelijkheden over talen heen, waarbij prestatieverschillen worden benadrukt die niet kunnen worden overbrugd door simpelweg de modelgrootte te vergroten. BenchMAX dient als een uitgebreid meertalig evaluatieplatform en biedt een veelbelovende testomgeving om de ontwikkeling van meertalige taalmodellen te bevorderen. De dataset en code zijn openbaar toegankelijk.

4

Schaalwetten voor Destillatie
Distillation Scaling Laws

Feb 12
ByDan Busbridge, Amitis Shidani, Floris Weers, Jason Ramapuram, Etai Littwin, Russ Webb
47
4

We presenteren een distillatieschaalwet die de prestaties van het gedistilleerde model schat op basis van een rekentoewijzing en de verdeling ervan tussen de student en de leraar. Onze bevindingen verminderen de risico's die gepaard gaan met het gebruik van distillatie op grote schaal; rekentoewijzing voor zowel de leraar als de student kan nu worden uitgevoerd om de prestaties van de student te maximaliseren. We bieden rekentechnisch optimale distillatierecepten voor wanneer 1) een leraar bestaat, of 2) een leraar training nodig heeft. Als er veel studenten moeten worden gedistilleerd, of als er al een leraar bestaat, presteert distillatie beter dan begeleid vooraf trainen tot een rekenniveau dat voorspelbaar groeit met de omvang van de student. Als er één student moet worden gedistilleerd en de leraar ook training nodig heeft, moet in plaats daarvan begeleid leren worden uitgevoerd. Bovendien bieden we inzichten uit onze grootschalige studie van distillatie, die ons begrip van distillatie vergroten en experimenteel ontwerp informeren.

5

TextAtlas5M: Een grootschalige dataset voor het genereren van dichte tekstafbeeldingen
TextAtlas5M: A Large-scale Dataset for Dense Text Image Generation

Feb 11
ByAlex Jinpeng Wang, Dongxing Mao, Jiawei Zhang, Weiming Han, Zhuobai Dong, Linjie Li, Yiqi Lin, Zhengyuan Yang, Libo Qin, Fuwei Zhang, Lijuan Wang, Min Li
45
2

Tekst-geconditioneerde beeldgeneratie heeft de afgelopen jaren aanzienlijke aandacht gekregen en verwerkt steeds langere en uitgebreidere tekstprompt. In het dagelijks leven verschijnt dichte en ingewikkelde tekst in contexten zoals advertenties, infographics en bewegwijzering, waar de integratie van zowel tekst als visuele elementen essentieel is voor het overbrengen van complexe informatie. Echter, ondanks deze vooruitgang blijft de generatie van afbeeldingen met langdurige tekst een aanhoudende uitdaging, grotendeels als gevolg van de beperkingen van bestaande datasets, die zich vaak richten op kortere en eenvoudigere tekst. Om deze lacune aan te pakken, introduceren we TextAtlas5M, een nieuw dataset dat specifiek is ontworpen om langtekstweergave te evalueren in tekst-geconditioneerde beeldgeneratie. Onze dataset bestaat uit 5 miljoen langtekst gegenereerde en verzamelde afbeeldingen over diverse datatypen, waardoor een uitgebreide evaluatie van grootschalige generatieve modellen op het gebied van langtekst beeldgeneratie mogelijk is. We cureren verder 3000 menselijk verbeterde testset TextAtlasEval over 3 datadomeinen, waarmee een van de meest uitgebreide benchmarks voor tekst-geconditioneerde generatie wordt vastgesteld. Evaluaties suggereren dat de TextAtlasEval benchmarks aanzienlijke uitdagingen bieden, zelfs voor de meest geavanceerde gepatenteerde modellen (bijv. GPT4o met DallE-3), terwijl hun open-source tegenhangers zelfs een grotere prestatiekloof vertonen. Deze bewijzen positioneren TextAtlas5M als een waardevolle dataset voor het trainen en evalueren van toekomstige generatie tekst-geconditioneerde beeldgeneratiemodellen.

6

CineMaster: Een 3D-bewust en controleerbaar kader voor het genereren van filmische tekst-naar-video.
CineMaster: A 3D-Aware and Controllable Framework for Cinematic Text-to-Video Generation

Feb 12
ByQinghe Wang, Yawen Luo, Xiaoyu Shi, Xu Jia, Huchuan Lu, Tianfan Xue, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai
43
2

In dit werk presenteren we CineMaster, een nieuw raamwerk voor het genereren van tekst-naar-video met 3D-bewustzijn en controleerbaarheid. Ons doel is om gebruikers te voorzien van vergelijkbare controle als professionele filmregisseurs: nauwkeurige plaatsing van objecten binnen de scène, flexibele manipulatie van zowel objecten als camera in 3D-ruimte, en intuïtieve lay-outcontrole over de gerenderde frames. Om dit te bereiken, werkt CineMaster in twee fasen. In de eerste fase ontwerpen we een interactieve workflow die gebruikers in staat stelt om intuïtief 3D-bewuste conditionele signalen te construeren door objectbegrenzingskaders te positioneren en camerabewegingen te definiëren binnen de 3D-ruimte. In de tweede fase dienen deze controle signalen - bestaande uit gerenderde dieptekaarten, cameratrajecten en objectklasse labels - als leidraad voor een tekst-naar-video diffusiemodel, zodat het door de gebruiker bedoelde videomateriaal wordt gegenereerd. Bovendien, om de schaarste aan in-the-wild datasets met 3D-objectbeweging en camerapositie-annotaties te overwinnen, stellen we zorgvuldig een geautomatiseerde gegevensannotatiepijplijn op die 3D-begrenzingskaders en cameratrajecten extraheren uit grootschalige videogegevens. Uitgebreide kwalitatieve en kwantitatieve experimenten tonen aan dat CineMaster aanzienlijk beter presteert dan bestaande methoden en prominente 3D-bewuste tekst-naar-video generatie implementeert. Projectpagina: https://cinemaster-dev.github.io/.

7

Light-A-Video: Training-vrije Video Verlichting via Progressieve Licht Fusie
Light-A-Video: Training-free Video Relighting via Progressive Light Fusion

Feb 12
ByYujie Zhou, Jiazi Bu, Pengyang Ling, Pan Zhang, Tong Wu, Qidong Huang, Jinsong Li, Xiaoyi Dong, Yuhang Zang, Yuhang Cao, Anyi Rao, Jiaqi Wang, Li Niu
42
2

Recente ontwikkelingen in beeldverlichtingsmodellen, aangedreven door grootschalige datasets en vooraf getrainde diffusiemodellen, hebben het opleggen van consistente verlichting mogelijk gemaakt. Videoverlichting loopt echter nog steeds achter, voornamelijk vanwege de hoge trainingskosten en het gebrek aan diverse, hoogwaardige videoverlichtingsdatasets. Een eenvoudige toepassing van beeldverlichtingsmodellen op een frame-voor-frame basis leidt tot verschillende problemen: inconsistentie van de lichtbron en inconsistentie van het verlichte uiterlijk, resulterend in flikkeringen in de gegenereerde video's. In dit werk stellen we Light-A-Video voor, een trainingvrije benadering om temporale soepele videoverlichting te bereiken. Aangepast van beeldverlichtingsmodellen, introduceert Light-A-Video twee belangrijke technieken om de verlichtingsconsistentie te verbeteren. Ten eerste ontwerpen we een Consistent Light Attention (CLA) module, die de interacties tussen frames binnen de zelfaandachtlagen verbetert om de generatie van de achtergrondverlichtingsbron te stabiliseren. Ten tweede, door gebruik te maken van het fysische principe van onafhankelijkheid van lichttransport, passen we lineaire vermenging toe tussen het uiterlijk van de bronvideo en het verlichte uiterlijk, met behulp van een Progressieve Light Fusion (PLF) strategie om soepele temporale overgangen in verlichting te garanderen. Experimenten tonen aan dat Light-A-Video de temporale consistentie van verlichte video verbetert terwijl de beeldkwaliteit behouden blijft, waardoor coherente verlichtingsovergangen tussen frames worden gegarandeerd. Projectpagina: https://bujiazi.github.io/light-a-video.github.io/.

8

LLM Vooropleiding met Continue Concepten
LLM Pretraining with Continuous Concepts

Feb 12
ByJihoon Tack, Jack Lanchantin, Jane Yu, Andrew Cohen, Ilia Kulikov, Janice Lan, Shibo Hao, Yuandong Tian, Jason Weston, Xian Li
30
5

De voorspelling van het volgende token is het standaard trainingsdoel dat wordt gebruikt bij grootschalige taalmodelpretraining. Representaties worden geleerd als gevolg van optimalisatie voor token-level perplexiteit. Wij stellen Continuous Concept Mixing (CoCoMix) voor, een nieuw pretraining framework dat discrete voorspelling van het volgende token combineert met continue concepten. Specifiek voorspelt CoCoMix continue concepten die zijn geleerd van een voorgeleerde schaarse auto-encoder en mengt ze in de verborgen toestand van het model door ze af te wisselen met verborgen representaties van tokens. Door experimenten op meerdere benchmarks, waaronder taalmodellering en downstream redeneertaken, tonen we aan dat CoCoMix meer monster-efficiënt is en consequent beter presteert dan de standaard voorspelling van het volgende token, kennisdistantiëring en het invoegen van pauzetokens. We vinden dat het combineren van zowel conceptleren als afwisseling in een end-to-end framework cruciaal is voor prestatieverbeteringen. Bovendien verbetert CoCoMix de interpreteerbaarheid en bestuurbaarheid door directe inspectie en aanpassing van het voorspelde concept mogelijk te maken, waardoor een transparante manier wordt geboden om het interne redeneerproces van het model te sturen.

9

WorldGUI: Dynamische Testen voor Uitgebreide Automatisering van Desktop GUI.
WorldGUI: Dynamic Testing for Comprehensive Desktop GUI Automation

Feb 12
ByHenry Hengyuan Zhao, Difei Gao, Mike Zheng Shou
28
4

Huidige GUI-agenten hebben uitstekende prestaties behaald op het gebied van GUI-elementverankering. Echter, planning blijft zeer uitdagend, vooral vanwege de gevoeligheid voor de initiële toestand van de omgeving. Met name kleine verschillen in de initiële toestand - zoals de doelsoftware die niet geopend is of de interface die niet in de standaardtoestand verkeert - leiden vaak tot planningsfouten. Dit probleem is wijdverbreid in echte gebruikersscenario's, maar bestaande benchmarks falen in de evaluatie ervan. In dit artikel presenteren we WorldGUI, een nieuwe GUI-benchmark die GUI-taken ontwerpt met verschillende initiële toestanden om echte computer-gebruiker interacties te simuleren. De benchmark omvat een breed scala aan taken over 10 populaire softwaretoepassingen, waaronder PowerPoint, VSCode en Adobe Acrobat. Daarnaast stellen we, om de uitdagingen van dynamische GUI-automatiseringstaken aan te pakken, GUI-Thinker voor, een allesomvattend raamwerk dat een kritiekmechanisme benut om de onvoorspelbaarheid en complexiteit van GUI-interacties effectief te beheren. Experimentele resultaten tonen aan dat GUI-Thinker aanzienlijk beter presteert dan Claude-3.5 (Computergebruik) met een succespercentage van 14,9% op WorldGUI-taken. Deze verbetering benadrukt de effectiviteit van ons op kritisch denken gebaseerde raamwerk bij het verbeteren van GUI-automatisering.

10

LASP-2: Heroverwegen van Sequentiële Parallelisme voor Lineaire Aandacht en de Hybride
LASP-2: Rethinking Sequence Parallelism for Linear Attention and Its Hybrid

Feb 11
ByWeigao Sun, Disen Lan, Yiran Zhong, Xiaoye Qu, Yu Cheng
23
2

Lineaire sequentiële modelleringsbenaderingen, zoals lineaire aandacht, bieden voordelen zoals lineaire trainingstijd en constante geheugeninferentie over sequentielengtes. Bestaande sequentie parallelisme (SP) methoden zijn echter ofwel niet geoptimaliseerd voor de juiste-product-eerst eigenschap van lineaire aandacht of maken gebruik van een ring-stijl communicatiestrategie, wat resulteert in lagere berekeningsparallelisme, waardoor hun schaalbaarheid voor langere sequenties in gedistribueerde systemen beperkt wordt. In dit artikel introduceren we LASP-2, een nieuwe SP methode om zowel communicatie als berekeningsparallelisme te verbeteren bij het trainen van lineaire aandacht transformer modellen met zeer lange invoersequenties. In vergelijking met eerdere werk LASP, heroverweegt LASP-2 de minimale communicatievereiste voor SP op lineaire aandachtlagen, herorganiseert het volledige communicatie-berekeningsworkflow van LASP. Op deze manier is slechts één enkele AllGather collectieve communicatie nodig over tussenliggende geheugenstaten, waarvan de groottes onafhankelijk zijn van de sequentielengte, wat leidt tot aanzienlijke verbeteringen van zowel communicatie als berekeningsparallelisme, evenals hun overlap. Daarnaast breiden we LASP-2 uit naar LASP-2H door een vergelijkbare communicatieherontwerp toe te passen op standaard aandachtsmodules, wat een efficiënte SP-oplossing biedt voor hybride modellen die lineaire en standaard aandachtlagen combineren. Onze evaluatie van een Lineaire-Llama3 model, een variant van Llama3 met lineaire aandacht ter vervanging van standaard aandacht, toont de effectiviteit van LASP-2 en LASP-2H aan. Specifiek behaalt LASP-2 trainingsnelheidsverbeteringen van 15,2% ten opzichte van LASP en 36,6% ten opzichte van Ring Aandacht, met een sequentielengte van 2048K over 64 GPU's. De code is vrijgegeven als onderdeel van: https://github.com/OpenSparseLLMs/Linear-MoE.

11

Animeer Iedereen 2: Karakterafbeeldingsanimatie met Hoge Fideliteit en Omgevingsmogelijkheden
Animate Anyone 2: High-Fidelity Character Image Animation with Environment Affordance

Feb 10
ByLi Hu, Guangyuan Wang, Zhen Shen, Xin Gao, Dechao Meng, Lian Zhuo, Peng Zhang, Bang Zhang, Liefeng Bo
18
5

Recente methoden voor het animeren van karakterafbeeldingen op basis van diffusiemodellen, zoals Animate Anyone, hebben aanzienlijke vooruitgang geboekt bij het genereren van consistente en generaliseerbare karakteranimaties. Deze benaderingen falen echter om redelijke associaties tussen karakters en hun omgeving te produceren. Om deze beperking aan te pakken, introduceren we Animate Anyone 2, met als doel karakters te animeren met omgevingsaffordantie. Naast het extraheren van bewegingssignalen uit de bronvideo, leggen we ook omgevingsrepresentaties vast als conditionele invoer. De omgeving wordt geformuleerd als het gebied met uitsluiting van karakters en ons model genereert karakters om deze gebieden te bevolken terwijl coherentie met de omgevingscontext wordt behouden. We stellen een vormagnostische maskerstrategie voor die de relatie tussen karakter en omgeving effectiever karakteriseert. Bovendien, om de geloofwaardigheid van objectinteracties te verbeteren, maken we gebruik van een objectgeleider om kenmerken van interactieve objecten te extraheren en passen we ruimtelijke vermenging toe voor kenmerkinjectie. We introduceren ook een houdingmodulatiestrategie die het model in staat stelt om met meer diverse bewegingspatronen om te gaan. Experimentele resultaten tonen de superieure prestaties van de voorgestelde methode aan.

12

Negeer de KL-straf! Stimuleer verkenning van kritieke tokens om RL-fijnafstemming te verbeteren.
Ignore the KL Penalty! Boosting Exploration on Critical Tokens to Enhance RL Fine-Tuning

Feb 10
ByJean Vassoyan, Nathanaël Beau, Roman Plaud
17
2

Het vermogen om langetermijndoelen te bereiken is een belangrijke uitdaging in de huidige ontwikkeling van grote taalmodellen (LLM's). Om dit aan te pakken, kunnen vooraf getrainde LLM's worden verfijnd met reinforcement learning (RL) om oplossingen te verkennen die een gegeven doel optimaliseren. Echter, exploratie met LLM's is moeilijk, aangezien een balans moet worden gevonden tussen het ontdekken van nieuwe oplossingen en dicht genoeg bij het vooraf getrainde model blijven, zodat de basisvaardigheden niet worden aangetast. Dit wordt typisch gecontroleerd met een Kullback-Leibler (KL) straf. In dit artikel onderzoeken we de verkenningdynamiek van een klein taalmodel bij een eenvoudige rekenkundige taak. We laten zien hoe variërende gradaties van vooraf training de verkenning beïnvloeden en tonen het belang aan van "kritieke tokens" die een dramatische invloed hebben op de uiteindelijke uitkomst. Bijgevolg introduceren we een eenvoudige aanpassing aan de KL-straf die verkenning op kritieke tokens bevordert, waardoor de efficiëntie van de RL-verfijningsfase toeneemt.

13

PDE-Controller: LLM's voor Autoformalisering en Redenering van PDE's
PDE-Controller: LLMs for Autoformalization and Reasoning of PDEs

Feb 3
ByMauricio Soroco, Jialin Song, Mengzhou Xia, Kye Emond, Weiran Sun, Wuyang Chen
16
2

Hoewel recente AI-voor-wiskunde vooruitgang heeft geboekt in de zuivere wiskunde, blijven gebieden van toegepaste wiskunde, met name partiële differentiaalvergelijkingen (PDE's), onderbelicht ondanks hun aanzienlijke real-world toepassingen. We presenteren PDE-Controller, een raamwerk dat grote taalmodellen (LLM's) in staat stelt om systemen te besturen die worden beheerst door partiële differentiaalvergelijkingen (PDE's). Onze aanpak stelt LLM's in staat om informele natuurlijke taalinstructies om te zetten in formele specificaties, en vervolgens redenerings- en planningsstappen uit te voeren om de bruikbaarheid van PDE-besturing te verbeteren. We bouwen een allesomvattende oplossing bestaande uit datasets (zowel door mensen geschreven gevallen als 2 miljoen synthetische voorbeelden), wiskundige redeneringsmodellen en nieuwe evaluatiemetrics, die allemaal aanzienlijke inspanningen vereisen. Onze PDE-Controller presteert aanzienlijk beter dan het aansturen van de nieuwste open-source en GPT-modellen in redenering, autoformalisatie en programma synthese, met een verbetering van maximaal 62% in bruikbaarheidswinst voor PDE-besturing. Door de kloof tussen taalgeneratie en PDE-systemen te overbruggen, tonen we het potentieel van LLM's aan in het aanpakken van complexe wetenschappelijke en technische uitdagingen. We zullen alle gegevens, modelcontrolepunten en code vrijgeven op https://pde-controller.github.io/.

14

NoLiMa: Evaluatie van lange contexten voorbij letterlijke overeenkomsten
NoLiMa: Long-Context Evaluation Beyond Literal Matching

Feb 7
ByAli Modarressi, Hanieh Deilamsalehy, Franck Dernoncourt, Trung Bui, Ryan A. Rossi, Seunghyun Yoon, Hinrich Schütze
15
2

Recente grote taalmodellen (LLM's) ondersteunen lange contexten variërend van 128K tot 1M tokens. Een populaire methode om deze capaciteiten te evalueren is de naald-in-een-hooiberg (NIAH) test, waarbij het terughalen van een "naald" (relevante informatie) uit een "hooiberg" (lang irrelevante context) betrokken is. Uitbreidingen van deze benadering omvatten het verhogen van afleiders, feitenketens en redeneren binnen de context. Echter, in deze benchmarks kunnen modellen bestaande letterlijke overeenkomsten tussen de naald en de hooiberg benutten om de taak te vereenvoudigen. Om dit aan te pakken, introduceren we NoLiMa, een benchmark die NIAH uitbreidt met een zorgvuldig ontworpen naaldenset, waarbij vragen en naalden minimaal lexicaal overlappen, waardoor modellen latente associaties moeten afleiden om de naald binnen de hooiberg te lokaliseren. We evalueren 12 populaire LLM's die beweren contexten van minimaal 128K tokens te ondersteunen. Hoewel ze goed presteren in korte contexten (<1K), neemt de prestatie aanzienlijk af naarmate de contextlengte toeneemt. Bijvoorbeeld, bij 32K zakken 10 modellen onder de 50% van hun sterke baselines voor korte lengtes. Zelfs GPT-4o, een van de best presterende uitzonderingen, ervaart een afname van een bijna perfecte baseline van 99,3% naar 69,7%. Onze analyse suggereert dat deze afnames voortkomen uit de toegenomen moeilijkheid waarmee het aandachtsmechanisme wordt geconfronteerd in langere contexten wanneer letterlijke overeenkomsten ontbreken, waardoor het moeilijker wordt om relevante informatie op te halen.

15

DPO-Shift: Het verschuiven van de distributie van Directe Voorkeurs Optimalisatie
DPO-Shift: Shifting the Distribution of Direct Preference Optimization

Feb 11
ByXiliang Yang, Feng Jiang, Qianen Zhang, Lei Zhao, Xiao Li
15
2

Directe Voorkeursoptimalisatie (DPO) en de varianten ervan zijn steeds populairder geworden voor het afstemmen van taalmodellen op menselijke voorkeuren. Deze methoden hebben tot doel modellen beter te leren onderscheid te maken tussen gekozen (of gewenste) en afgewezen (of ongewenste) reacties. Echter, eerder onderzoek heeft vastgesteld dat de waarschijnlijkheid van gekozen reacties vaak afneemt tijdens training, en dit fenomeen staat bekend als waarschijnlijkheidsverschuiving. Om dit probleem aan te pakken, introduceren we in dit werk \methode om de verdeling van de gekozen waarschijnlijkheid op een controleerbare manier te verschuiven. Vervolgens laten we zien dat \methode een fundamenteel compromis vertoont tussen het verbeteren van de gekozen waarschijnlijkheid en het opofferen van de beloningsmarge, zoals ondersteund door zowel theoretische analyse als experimentele validatie. Bovendien tonen we de superioriteit van \methode ten opzichte van DPO op downstream taken zoals MT-Bench en een ontworpen winstrate-experiment. We zijn van mening dat deze studie aantoont dat het probleem van waarschijnlijkheidsverschuiving van DPO effectief kan worden verminderd met een eenvoudige, theoretisch gefundeerde oplossing. Onze code is beschikbaar op https://github.com/Meaquadddd/DPO-Shift.

16

SARChat-Bench-2M: Een Multi-Task Visie-Taal Benchmark voor SAR Beeldinterpretatie
SARChat-Bench-2M: A Multi-Task Vision-Language Benchmark for SAR Image Interpretation

Feb 12
ByZhiming Ma, Xiayang Xiao, Sihao Dong, Peidong Wang, HaiPeng Wang, Qingyun Pan
12
4

In het vakgebied van synthetische apertuurradar (SAR) remote sensing beeldinterpretatie hebben Vision Language Models (VLM's) opmerkelijke vooruitgang geboekt in natuurlijke taalverwerking en beeldbegrip, maar hun toepassingen blijven beperkt in professionele domeinen vanwege onvoldoende domeinkennis. Dit artikel stelt innovatief het eerste grootschalige multimodale dialoogdataset voor SAR-beelden voor, genaamd SARChat-2M, die ongeveer 2 miljoen hoogwaardige beeld-tekst paren bevat, diverse scenario's omvat met gedetailleerde doelannotaties. Deze dataset ondersteunt niet alleen verschillende belangrijke taken zoals visueel begrip en objectdetectietaken, maar heeft ook unieke innovatieve aspecten: dit onderzoek ontwikkelt een visueel-taal dataset en benchmark voor het SAR-domein, waardoor VLM's in staat worden gesteld en geëvalueerd worden in de interpretatie van SAR-beelden, wat een paradigma biedt voor het construeren van multimodale datasets over verschillende verticale domeinen van remote sensing. Door experimenten met 16 gangbare VLM's is de effectiviteit van de dataset volledig geverifieerd, en de eerste multi-task dialoogbenchmark in het SAR-veld is succesvol opgezet. Het project zal worden vrijgegeven op https://github.com/JimmyMa99/SARChat, met als doel de diepgaande ontwikkeling en brede toepassing van SAR visuele taalmodellen te bevorderen.

17

Volgende Blok Voorspelling: Video Generatie via Semi-Autoregressief Modelleren
Next Block Prediction: Video Generation via Semi-Autoregressive Modeling

Feb 11
ByShuhuai Ren, Shuming Ma, Xu Sun, Furu Wei
9
2

Next-Token Prediction (NTP) is een de facto benadering voor autoregressieve (AR) videogeneratie, maar het heeft te lijden onder suboptimale eenrichtingsafhankelijkheden en trage inferentiesnelheid. In dit werk stellen we een semi-autoregressief (semi-AR) kader voor, genaamd Next-Block Prediction (NBP), voor videogeneratie. Door video-inhoud uniform op te delen in gelijkwaardige blokken (bijv. rijen of frames), verplaatsen we de generatie-eenheid van individuele tokens naar blokken, waardoor elk token in het huidige blok tegelijkertijd het overeenkomstige token in het volgende blok kan voorspellen. In tegenstelling tot traditionele AR-modellering maakt ons kader gebruik van bidirectionele aandacht binnen elk blok, waardoor tokens robuustere ruimtelijke afhankelijkheden kunnen vastleggen. Door meerdere tokens parallel te voorspellen, verminderen NBP-modellen aanzienlijk het aantal generatiestappen, wat leidt tot snellere en efficiëntere inferenties. Ons model behaalt FVD-scores van 103,3 op UCF101 en 25,5 op K600, waarbij het gemiddeld 4,4 beter presteert dan het standaard NTP-model. Bovendien genereert het NBP-model dankzij het verminderde aantal inferentiestappen 8,89 frames (128x128 resolutie) per seconde, wat een versnelling van 11x betekent. We hebben ook modelgroottes onderzocht variërend van 700M tot 3B parameters, waarbij we aanzienlijke verbeteringen in generatiekwaliteit hebben waargenomen, met FVD-scores die dalen van 103,3 naar 55,3 op UCF101 en van 25,5 naar 19,5 op K600, wat de schaalbaarheid van onze aanpak aantoont.

18

Naar Betrouwbare Ophaling Versterkte Generatie voor Grote Taalmodellen: Een Overzicht
Towards Trustworthy Retrieval Augmented Generation for Large Language Models: A Survey

Feb 8
ByBo Ni, Zheyuan Liu, Leyao Wang, Yongjia Lei, Yuying Zhao, Xueqi Cheng, Qingkai Zeng, Luna Dong, Yinglong Xia, Krishnaram Kenthapadi, Ryan Rossi, Franck Dernoncourt, Md Mehrab Tanjim, Nesreen Ahmed, Xiaorui Liu, Wenqi Fan, Erik Blasch, Yu Wang, Meng Jiang, Tyler Derr
8
2

Retrieval-Augmented Generation (RAG) is een geavanceerde techniek die is ontworpen om de uitdagingen van door kunstmatige intelligentie gegenereerde inhoud (AIGC) aan te pakken. Door contextuele opvraging te integreren in de inhoudsgeneratie, biedt RAG betrouwbare en actuele externe kennis, vermindert hallucinaties en zorgt voor relevante context over een breed scala aan taken. Echter, ondanks het succes en potentieel van RAG, hebben recente studies aangetoond dat het RAG-paradigma ook nieuwe risico's met zich meebrengt, waaronder robuustheidsproblemen, privacyzorgen, aanvallen van kwaadwillenden en verantwoordelijkheidskwesties. Het aanpakken van deze risico's is cruciaal voor toekomstige toepassingen van RAG-systemen, aangezien ze rechtstreeks van invloed zijn op hun betrouwbaarheid. Hoewel verschillende methoden zijn ontwikkeld om de betrouwbaarheid van RAG-methoden te verbeteren, ontbreekt het aan een eenduidig perspectief en kader voor onderzoek naar dit onderwerp. Daarom beogen we in dit artikel dit hiaat aan te pakken door een uitgebreide routekaart te bieden voor de ontwikkeling van betrouwbare RAG-systemen. We plaatsen onze discussie rond vijf belangrijke perspectieven: betrouwbaarheid, privacy, veiligheid, rechtvaardigheid, verklaringsmogelijkheden en verantwoordingsplicht. Voor elk perspectief presenteren we een algemeen kader en taxonomie, waarbij we een gestructureerde benadering bieden om de huidige uitdagingen te begrijpen, bestaande oplossingen te evalueren en veelbelovende toekomstige onderzoeksrichtingen te identificeren. Om een breder gebruik en innovatie aan te moedigen, benadrukken we ook de downstream-toepassingen waar betrouwbare RAG-systemen een significante impact hebben.

19

LLM-modules: Kennisoverdracht van een groot naar een klein model met verbeterde kruislingse aandacht
LLM Modules: Knowledge Transfer from a Large to a Small Model using Enhanced Cross-Attention

Feb 12
ByKonstantin Kolomeitsev
5
2

In dit werk stellen we een architectuur van LLM-modules voor die de overdracht van kennis van een groot voorgeleerd model naar een kleiner model mogelijk maakt met behulp van een verbeterd kruislingse-aandachtsmechanisme. In het voorgestelde schema wordt het Qwen2-1.5B-model bevroren en worden de representaties ervan door speciaal ontworpen aandachtslagen doorgegeven aan het GPT-Neo-125M-model, dat is getraind met beperkte rekenbronnen. Experimentele resultaten op de Bespoke-Stratos-17k dataset tonen aan dat na 15 epochs van training het gecombineerde model reacties genereert die qua kwaliteit vergelijkbaar zijn met die verkregen door distillatie. We bespreken de voordelen van de modulaire benadering, geven voorbeelden van invoervragen en vergelijkende analyses, en schetsen vooruitzichten voor verdere uitbreiding van de methode.

20

Mediator: Geheugenefficiënte LLM-samenvoeging met minder parameterconflicten en op onzekerheid gebaseerde routering.
Mediator: Memory-efficient LLM Merging with Less Parameter Conflicts and Uncertainty Based Routing

Feb 6
ByKunfeng Lai, Zhenheng Tang, Xinglin Pan, Peijie Dong, Xiang Liu, Haolan Chen, Li Shen, Bo Li, Xiaowen Chu
4
2

Model merging voegt Large Language Models (LLMs) samen die zijn verfijnd voor verschillende taken tot een krachtiger geheel. Echter, parameterconflicten tussen modellen leiden tot prestatievermindering bij het gemiddeld nemen. Terwijl modelroutering dit probleem aanpakt door individuele modellen te selecteren tijdens inferentie, brengt dit hoge opslag- en rekengerelateerde kosten met zich mee en slaagt het er niet in om de gemeenschappelijke kennis van verschillende modellen te benutten. In dit werk observeren we dat verschillende lagen verschillende niveaus van parameterconflicten vertonen. Voortbouwend op deze inzichten, nemen we lagen met minimale parameterconflicten gemiddeld en maken we gebruik van een nieuw soort expertroutering op taakniveau voor lagen met aanzienlijke conflicten. Om opslagkosten verder te verminderen, geïnspireerd door taakrekenkundige spaarzaamheid, splitsen we meerdere verfijnde experts op in een dichte expert en verschillende spaarzame experts. Bij het overwegen van out-of-distribution monsters, selecteren en combineren we passende experts op basis van de taakonzekerheid van de invoergegevens. We voeren uitgebreide experimenten uit op zowel LLaMA als Qwen met variërende parameterschalen, en evalueren op real-world redeneertaken. Resultaten tonen aan dat onze methode consequent aanzienlijke prestatieverbeteringen behaalt met minder systeemkosten in vergelijking met bestaande methoden.

21

MetaSC: Optimalisatie van specificaties voor veiligheidstests voor taalmodellen op testtijd
MetaSC: Test-Time Safety Specification Optimization for Language Models

Feb 11
ByVíctor Gallego
3
2

We stellen een nieuw dynamisch veiligheidskader voor dat de veiligheidsredenering van taalmodellen (LM) optimaliseert op het moment van inferentie zonder de modelgewichten te wijzigen. Voortbouwend op recente ontwikkelingen in zelfkritieke methoden, maakt onze aanpak gebruik van een meta-kritiekmechanisme dat veiligheidsprompts - termen specificaties - iteratief bijwerkt om het kritiek- en revisieproces adaptief aan te sturen. Deze optimalisatie op testtijd verbetert niet alleen de prestaties tegenover kwaadwillende jailbreak-verzoeken, maar ook in diverse algemene veiligheidstaken, zoals het vermijden van morele schade of het nastreven van eerlijke antwoorden. Onze empirische evaluaties over verschillende taalmodellen tonen aan dat dynamisch geoptimaliseerde veiligheidsprompts aanzienlijk hogere veiligheidsscores opleveren in vergelijking met vaste systeemprompts en statische zelfkritiekverdedigingen. Code zal worden vrijgegeven op https://github.com/vicgalle/meta-self-critique.git.

22

Homeomorfisme-prior voor het probleem van valse positieven en negatieven in medische beelddichte contrastieve representatie-leren.
Homeomorphism Prior for False Positive and Negative Problem in Medical Image Dense Contrastive Representation Learning

Feb 7
ByYuting He, Boyu Wang, Rongjun Ge, Yang Chen, Guanyu Yang, Shuo Li
0
2

Dichte contrastieve representatie leren (DCRL) heeft aanzienlijk de leerefficiëntie verbeterd voor beeld-dichte voorspellingstaken, waarbij het zijn grote potentie heeft laten zien om de hoge kosten van medische beeldverzameling en dichte annotatie te verminderen. Echter, de eigenschappen van medische beelden maken het ontdekken van onbetrouwbare overeenkomsten, wat een open probleem van grootschalige valse positieve en negatieve (VP&N) paren in DCRL met zich meebrengt. In dit artikel stellen we GEoMetrische vIsuele deNse sImilariteit (GEMINI) leren voor, dat de homeomorfisme voorafgaand aan DCRL inbedt en een betrouwbare overeenkomstontdekking mogelijk maakt voor effectieve dichte contrasten. We stellen een vervormbaar homeomorfisme leren (DHL) voor dat het homeomorfisme van medische beelden modelleert en leert om een vervormbare mapping te schatten om de overeenkomst van pixels te voorspellen met behoud van topologische eigenschappen. Het vermindert effectief de zoekruimte voor koppeling en drijft een impliciet en zacht leren van negatieve paren aan via een gradiënt. We stellen ook een geometrische semantische gelijkenis (GSS) voor die semantische informatie in functies extraheren om de mate van uitlijning voor het leren van overeenkomsten te meten. Dit zal de leerefficiëntie en prestaties van vervorming bevorderen, waarbij betrouwbare positieve paren worden geconstrueerd. We implementeren twee praktische varianten op twee typische representatie-leertaken in onze experimenten. Onze veelbelovende resultaten op zeven datasets, die de bestaande methoden overtreffen, tonen onze grote superioriteit aan. We zullen onze code vrijgeven op een bijbehorende link: https://github.com/YutingHe-list/GEMINI.

Feb 12
Feb 13
Feb 14