HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

14 papers found

RepText: Visuele tekst weergeven via replicatie
RepText: Rendering Visual Text via Replicating

Apr 28

ByHaofan Wang, Yujia Xu, Yimeng Li, Junchen Li, Chaowei Zhang, Jing Wang, Kejia Yang, Zhibo Chen

Hoewel hedendaagse tekst-naar-beeldgeneratiemodellen opmerkelijke doorbraken hebben bereikt in het produceren van visueel aantrekkelijke afbeeldingen, blijft hun vermogen om precieze en flexibele typografische elementen te genereren, met name niet-Latijnse alfabetten, beperkt. Om deze beperkingen aan te pakken, gaan we uit van een naïeve aanname dat tekstbegrip slechts een voldoende voorwaarde is voor tekstweergave, maar geen noodzakelijke voorwaarde. Op basis hiervan presenteren we RepText, dat als doel heeft om vooraf getrainde eentalige tekst-naar-beeldgeneratiemodellen in staat te stellen om meertalige visuele tekst nauwkeurig weer te geven, of meer precies, te repliceren, in door de gebruiker gespecificeerde lettertypen, zonder dat het nodig is om deze tekst echt te begrijpen. Specifiek nemen we de instelling van ControlNet over en integreren we daarnaast taalagnostische glyphs en de positie van weergegeven tekst om het genereren van harmonieuze visuele tekst mogelijk te maken, waardoor gebruikers tekstinhoud, lettertype en positie kunnen aanpassen naar hun behoeften. Om de nauwkeurigheid te verbeteren, wordt een tekstperceptieverlies gebruikt naast het diffusieverlies. Verder, om het weergaveproces te stabiliseren, initialiseren we tijdens de inferentiefase direct met een ruizige glyph latent in plaats van willekeurige initialisatie, en gebruiken we regiomaskers om de feature-injectie te beperken tot alleen het tekstgebied om vervorming van de achtergrond te voorkomen. We hebben uitgebreide experimenten uitgevoerd om de effectiviteit van onze RepText te verifiëren ten opzichte van bestaande werken, waarbij onze aanpak de bestaande open-source methoden overtreft en vergelijkbare resultaten behaalt als native meertalige closed-source modellen. Om eerlijker te zijn, bespreken we aan het einde ook uitgebreid de beperkingen ervan.

Klinische kennis in LLM's vertaalt zich niet naar menselijke interacties
Clinical knowledge in LLMs does not translate to human interactions

Apr 26

ByAndrew M. Bean, Rebecca Payne, Guy Parsons, Hannah Rose Kirk, Juan Ciro, Rafael Mosquera, Sara Hincapié Monsalve, Aruna S. Ekanayaka, Lionel Tarassenko, Luc Rocher, Adam Mahdi

Wereldwijde zorgverleners onderzoeken het gebruik van grote taalmodelen (LLM's) om medisch advies aan het publiek te verstrekken. LLM's behalen nu bijna perfecte scores op medische licentie-examens, maar dit vertaalt zich niet noodzakelijk naar accurate prestaties in realistische settings. We hebben getest of LLM's leden van het publiek kunnen helpen bij het identificeren van onderliggende aandoeningen en het kiezen van een vervolgcursus (dispositie) in tien medische scenario's in een gecontroleerde studie met 1.298 deelnemers. Deelnemers werden willekeurig toegewezen om hulp te ontvangen van een LLM (GPT-4o, Llama 3, Command R+) of een bron naar keuze (controlegroep). Wanneer alleen getest, voltooien de LLM's de scenario's accuraat, waarbij ze in 94,9% van de gevallen de aandoeningen correct identificeerden en in 56,3% de juiste dispositie bepaalden. Echter, deelnemers die dezelfde LLM's gebruikten, identificeerden relevante aandoeningen in minder dan 34,5% van de gevallen en de juiste dispositie in minder dan 44,2%, beide niet beter dan de controlegroep. We identificeren gebruikersinteracties als een uitdaging voor de inzet van LLM's voor medisch advies. Standaard benchmarks voor medische kennis en gesimuleerde patiëntinteracties voorspellen niet de fouten die we vinden bij menselijke deelnemers. Vooruitkijkend bevelen we systematische gebruikersonderzoeken aan om de interactieve mogelijkheden te evalueren voordat LLM's in de gezondheidszorg worden ingezet.

LLM-aangedreven GUI-agents in telefoonautomatisering: Een overzicht van voortgang en vooruitzichten
LLM-Powered GUI Agents in Phone Automation: Surveying Progress and Prospects

Apr 28

ByGuangyi Liu, Pengxiang Zhao, Liang Liu, Yaxuan Guo, Han Xiao, Weifeng Lin, Yuxiang Chai, Yue Han, Shuai Ren, Hao Wang, Xiaoyu Liang, Wenhao Wang, Tianze Wu, Linghao Li, Hao Wang, Guanjing Xiong, Yong Liu, Hongsheng Li

Met de snelle opkomst van grote taalmodelen (LLMs) heeft telefoonautomatisering ingrijpende veranderingen ondergaan. Dit artikel geeft een systematisch overzicht van LLM-gestuurde telefoon-GUI-agenten, waarbij de evolutie van scriptgebaseerde automatisering naar intelligente, adaptieve systemen wordt belicht. We plaatsen eerst de belangrijkste uitdagingen in context: (i) beperkte algemeenheid, (ii) hoog onderhoudsvolume, en (iii) zwakke intentieherkenning, en laten zien hoe LLMs deze problemen aanpakken via geavanceerd taalbegrip, multimodale waarneming en robuuste besluitvorming. Vervolgens stellen we een taxonomie voor die fundamentele agentframeworks omvat (single-agent, multi-agent, plan-then-act), modelleerbenaderingen (prompt engineering, training-based), en essentiële datasets en benchmarks. Daarnaast gaan we in op taakspecifieke architecturen, supervised fine-tuning en reinforcement learning-strategieën die gebruikersintentie en GUI-operaties met elkaar verbinden. Tot slot bespreken we openstaande uitdagingen zoals datasetdiversiteit, efficiëntie van on-device implementatie, gebruikersgerichte aanpassing en beveiligingsproblemen, waarbij we vooruitblikkende inzichten bieden in dit snel evoluerende veld. Door een gestructureerd overzicht te bieden en dringende onderzoekslacunes te identificeren, dient dit artikel als een definitief referentiewerk voor onderzoekers en praktijkmensen die LLMs willen inzetten bij het ontwerpen van schaalbare, gebruiksvriendelijke telefoon-GUI-agenten.

Mem0: Het bouwen van productieklaar AI-agents met schaalbare langetermijngeheugen
Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory

Apr 28

ByPrateek Chhikara, Dev Khant, Saket Aryan, Taranjeet Singh, Deshraj Yadav

Grote Taalmodellen (LLM's) hebben een opmerkelijke vaardigheid getoond in het genereren van contextueel samenhangende reacties, maar hun vaste contextvensters vormen fundamentele uitdagingen voor het behouden van consistentie tijdens langdurige, meerdelige dialogen. Wij introduceren Mem0, een schaalbare, geheugen-centrische architectuur die dit probleem aanpakt door dynamisch belangrijke informatie uit lopende gesprekken te extraheren, te consolideren en op te halen. Op basis hiervan stellen we een verbeterde variant voor die gebruikmaakt van grafische geheugenrepresentaties om complexe relationele structuren tussen gesprekselementen vast te leggen. Door middel van uitgebreide evaluaties op de LOCOMO-benchmark vergelijken we onze aanpak systematisch met zes baselinecategorieën: (i) gevestigde geheugen-augmented systemen, (ii) retrieval-augmented generation (RAG) met verschillende chunkgroottes en k-waarden, (iii) een volledige-contextbenadering die de volledige gespreksgeschiedenis verwerkt, (iv) een open-source geheugenoplossing, (v) een propriëtair modelsysteem, en (vi) een toegewijd geheugenbeheerplatform. Empirische resultaten tonen aan dat onze methoden consistent alle bestaande geheugensystemen overtreffen op vier vraagcategorieën: single-hop, temporeel, multi-hop en open-domein. Opmerkelijk is dat Mem0 een relatieve verbetering van 26% behaalt in de LLM-as-a-Judge-metric ten opzichte van OpenAI, terwijl Mem0 met grafisch geheugen een ongeveer 2% hogere overall score bereikt dan de basisconfiguratie. Naast nauwkeurigheidswinst verminderen we ook aanzienlijk de computationele overhead in vergelijking met de volledige-contextmethode. In het bijzonder behaalt Mem0 een 91% lagere p95-latentie en bespaart het meer dan 90% tokencost, wat een overtuigende balans biedt tussen geavanceerde redeneervaardigheden en praktische implementatiebeperkingen. Onze bevindingen benadrukken de cruciale rol van gestructureerde, persistente geheugenmechanismen voor langdurige gesprekscoherentie, waardoor de weg wordt geëffend voor betrouwbaardere en efficiëntere LLM-gestuurde AI-agenten.

SPC: Zelfspelcriticus evolueren via adversariële spellen voor LLM-redenering
SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning

Apr 27

ByJiaqi Chen, Bang Zhang, Ruotian Ma, Peisong Wang, Xiaodan Liang, Zhaopeng Tu, Xiaolong Li, Kwan-Yee K. Wong

Het evalueren van de stap-voor-stap betrouwbaarheid van redeneringen van grote taalmodellen (LLM's), zoals Chain-of-Thought, blijft een uitdaging vanwege de moeilijkheid en kosten van het verkrijgen van hoogwaardige stap-voor-stap supervisie. In dit artikel introduceren we Self-Play Critic (SPC), een nieuwe aanpak waarbij een criticusmodel zijn vermogen om redeneerstappen te beoordelen ontwikkelt via adversariële zelfspel-spellen, waardoor handmatige annotatie op stapniveau overbodig wordt. SPC omvat het finetunen van twee kopieën van een basismodel om twee rollen te spelen, namelijk een "sluwe generator" die opzettelijk foutieve stappen produceert die moeilijk te detecteren zijn, en een "criticus" die de correctheid van redeneerstappen analyseert. Deze twee modellen nemen deel aan een adversariële spel waarin de generator de criticus probeert te misleiden, terwijl het criticusmodel de fouten van de generator probeert te identificeren. Met behulp van reinforcement learning op basis van de spelresultaten verbeteren de modellen iteratief; de winnaar van elke confrontatie ontvangt een positieve beloning en de verliezer ontvangt een negatieve beloning, wat leidt tot continue zelf-evolutie. Experimenten op drie redeneerprocesbenchmarks (ProcessBench, PRM800K, DeltaBench) tonen aan dat onze SPC geleidelijk zijn foutdetectiecapaciteiten verbetert (bijvoorbeeld de nauwkeurigheid stijgt van 70,8% naar 77,7% op ProcessBench) en sterke baseline-modellen overtreft, waaronder het gedistilleerde R1-model. Bovendien verbetert het toepassen van SPC om de testtijdzoektocht van diverse LLM's te begeleiden hun wiskundige redeneerprestaties op MATH500 en AIME2024 aanzienlijk, wat beter presteert dan state-of-the-art procesbeloningsmodellen.

CipherBank: Het verkennen van de grenzen van redeneervaardigheden van grote taalmodelen via cryptografie-uitdagingen
CipherBank: Exploring the Boundary of LLM Reasoning Capabilities through Cryptography Challenges

Apr 27

ByYu Li, Qizhi Pei, Mengyuan Sun, Honglin Lin, Chenlin Ming, Xin Gao, Jiang Wu, Conghui He, Lijun Wu

Grote taalmodellen (LLMs) hebben opmerkelijke capaciteiten getoond, met name de recente vooruitgang in redeneervaardigheden, zoals o1 en o3, die de grenzen van AI verleggen. Ondanks deze indrukwekkende prestaties in wiskunde en programmeren, blijven de redeneervaardigheden van LLMs in domeinen die cryptografische expertise vereisen onderbelicht. In dit artikel introduceren we CipherBank, een uitgebreide benchmark ontworpen om de redeneervaardigheden van LLMs te evalueren in cryptografische decryptietaken. CipherBank bestaat uit 2.358 zorgvuldig ontworpen problemen, die 262 unieke platte teksten beslaan over 5 domeinen en 14 subdomeinen, met een focus op privacygevoelige en realistische scenario's die encryptie vereisen. Vanuit cryptografisch perspectief omvat CipherBank 3 hoofdcategorieën van encryptiemethoden, met 9 verschillende algoritmen, variërend van klassieke cijfers tot aangepaste cryptografische technieken. We evalueren state-of-the-art LLMs op CipherBank, zoals GPT-4o, DeepSeek-V3, en geavanceerde modellen gericht op redeneren, zoals o1 en DeepSeek-R1. Onze resultaten tonen significante verschillen in redeneervaardigheden, niet alleen tussen algemene chat-LLMs en LLMs gericht op redeneren, maar ook in de prestaties van huidige redeneergerichte modellen bij klassieke cryptografische decryptietaken, wat de uitdagingen benadrukt die deze modellen hebben bij het begrijpen en manipuleren van versleutelde gegevens. Door gedetailleerde analyses en foutonderzoeken bieden we verschillende belangrijke observaties die inzicht geven in de beperkingen en mogelijke verbeteringsgebieden voor LLMs in cryptografisch redeneren. Deze bevindingen onderstrepen de noodzaak van voortdurende vooruitgang in de redeneervaardigheden van LLMs.

Benchmarken van Multimodale Wiskundige Redenering met Expliciete Visuele Afhankelijkheid
Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency

Apr 24

ByZhikai Wang, Jiashuo Sun, Wenqi Zhang, Zhiqiang Hu, Xin Li, Fan Wang, Deli Zhao

Recente vooruitgang in Grote Visueel-Taalmodellen (LVLMs) heeft hun vermogen om visuele en linguïstische informatie te integreren aanzienlijk verbeterd, waardoor ze bijna menselijke vaardigheid bereiken in taken zoals objectherkenning, beeldbeschrijving en visuele vraagbeantwoording. Huidige benchmarks richten zich echter meestal op kennisgerichte evaluaties die domeinspecifieke expertise beoordelen, waarbij vaak het kernvermogen om te redeneren over fundamentele wiskundige elementen en visuele concepten wordt verwaarloosd. Wij identificeren een gat in de evaluatie van elementaire wiskundige problemen, die afhankelijk zijn van expliciete visuele relaties—waarbij modellen moeten onderscheiden, integreren en redeneren over meerdere afbeeldingen terwijl ze algemene kennis incorporeren, wat allemaal cruciaal is voor het bevorderen van bredere AGI-capaciteiten. Om dit gat te dichten, introduceren we VCBENCH, een uitgebreide benchmark voor multimodale wiskundige redenering met expliciete visuele afhankelijkheden. VCBENCH omvat 1.720 problemen verdeeld over zes cognitieve domeinen, met 6.697 afbeeldingen (gemiddeld 3,9 per vraag) om redenering over meerdere afbeeldingen te waarborgen. We evalueren 26 state-of-the-art LVLMs op VCBENCH, wat aanzienlijke prestatieverschillen aan het licht brengt, waarbij zelfs de beste modellen niet meer dan 50% nauwkeurigheid kunnen behalen. Onze bevindingen benadrukken de voortdurende uitdagingen in visueel-wiskundige integratie en suggereren richtingen voor toekomstige LVLM-ontwikkelingen.

Groepsdownsampling met Equivariant Anti-aliasing
Group Downsampling with Equivariant Anti-aliasing

Apr 24

ByMd Ashiqur Rahman, Raymond A. Yeh

Downsampling-lagen zijn cruciale bouwstenen in CNN-architecturen, die helpen om het receptieve veld te vergroten voor het leren van hoogwaardige kenmerken en de hoeveelheid geheugen/berekeningen in het model te verminderen. In dit werk bestuderen we de generalisatie van de uniforme downsampling-laag voor groepsequivariante architecturen, zoals G-CNN's. Dat wil zeggen, we streven ernaar om signalen (feature maps) op algemene eindige groepen te downsamplen met anti-aliasing. Dit omvat het volgende: (a) Gegeven een eindige groep en een downsampling-snelheid, presenteren we een algoritme om een geschikte keuze van een subgroep te vormen. (b) Gegeven een groep en een subgroep, bestuderen we het begrip bandbreedte-beperktheid en stellen we voor hoe anti-aliasing kan worden uitgevoerd. Opmerkelijk is dat onze methode het begrip downsampling generaliseert op basis van de klassieke samplingtheorie. Wanneer het signaal zich op een cyclische groep bevindt, d.w.z. periodiek, herstelt onze methode de standaard downsampling van een ideaal laagdoorlaatfilter gevolgd door een subsampling-operatie. Ten slotte hebben we experimenten uitgevoerd op beeldclassificatietaken die aantonen dat de voorgestelde downsampling-operatie de nauwkeurigheid verbetert, equivariantie beter behoudt en de modelgrootte vermindert wanneer deze wordt geïntegreerd in G-equivariante netwerken.

MMInference: Versnelling van Pre-filling voor Langcontext-VLM's via Modaal-Bewuste Permutatie Sparse Attention
MMInference: Accelerating Pre-filling for Long-Context VLMs via Modality-Aware Permutation Sparse Attention

Apr 22

ByYucheng Li, Huiqiang Jiang, Chengruidong Zhang, Qianhui Wu, Xufang Luo, Surin Ahn, Amir H. Abdi, Dongsheng Li, Jianfeng Gao, Yuqing Yang, Lili Qiu

De integratie van lange-contextmogelijkheden met visueel begrip ontsluit ongekend potentieel voor Vision Language Models (VLMs). De kwadratische aandachtcomplexiteit tijdens de pre-filling fase blijft echter een aanzienlijk obstakel voor implementatie in de praktijk. Om deze beperking te overwinnen, introduceren we MMInference (Multimodality Million tokens Inference), een dynamische sparse aandachtmethode die de pre-filling fase versnelt voor lange-context multimodale inputs. Ten eerste toont onze analyse aan dat de temporele en ruimtelijke lokaliteit van video-input leidt tot een uniek sparse patroon, het Grid-patroon. Tegelijkertijd vertonen VLMs aanzienlijk verschillende sparse distributies over verschillende modaliteiten. We introduceren een op permutatie gebaseerde methode om het unieke Grid-patroon te benutten en problemen bij modaliteitsgrenzen aan te pakken. Door offline te zoeken naar de optimale sparse patronen voor elke head, construeert MMInference de sparse distributie dynamisch op basis van de input. We bieden ook geoptimaliseerde GPU-kernels voor efficiënte sparse berekeningen. Opmerkelijk is dat MMInference naadloos integreert in bestaande VLM-pipelines zonder modelaanpassingen of fine-tuning. Experimenten op multimodale benchmarks – inclusief Video QA, Captioning, VisionNIAH en Mixed-Modality NIAH – met state-of-the-art lange-context VLMs (LongVila, LlavaVideo, VideoChat-Flash, Qwen2.5-VL) tonen aan dat MMInference de pre-filling fase versnelt tot wel 8,3x bij 1M tokens, terwijl de nauwkeurigheid behouden blijft. Onze code is beschikbaar op https://aka.ms/MMInference.

NORA: Een klein open-source generalistisch visueel-taal-actiemodel voor belichaamde taken
NORA: A Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks

Apr 28

ByChia-Yu Hung, Qi Sun, Pengfei Hong, Amir Zadeh, Chuan Li, U-Xuan Tan, Navonil Majumder, Soujanya Poria

Bestaande Visual-Language-Action (VLA) modellen hebben veelbelovende prestaties getoond in zero-shot scenario's, waarbij ze indrukwekkende taakuitvoering en redeneervaardigheden demonstreren. Een aanzienlijke uitdaging doet zich echter voor door de beperkingen van visuele codering, wat kan leiden tot fouten tijdens taken zoals het grijpen van objecten. Bovendien hebben deze modellen doorgaans te kampen met een hoge rekenkundige overhead vanwege hun grote omvang, vaak meer dan 7B parameters. Hoewel deze modellen uitblinken in redeneren en taakplanning, maakt de aanzienlijke rekenkundige overhead die ze met zich meebrengen ze onpraktisch voor real-time robotomgevingen, waar snelheid en efficiëntie van cruciaal belang zijn. Om de beperkingen van bestaande VLA-modellen aan te pakken, stellen we NORA voor, een model met 3B parameters dat is ontworpen om de rekenkundige overhead te verminderen terwijl het sterke taakprestaties behoudt. NORA neemt het Qwen-2.5-VL-3B multimodale model als basis en maakt gebruik van zijn superieure visueel-semantisch begrip om visueel redeneren en actiegronding te verbeteren. Daarnaast is ons model getraind op 970k real-world robotdemonstraties en uitgerust met de FAST+ tokenizer voor efficiënte actiesequentiegeneratie. Experimentele resultaten tonen aan dat NORA bestaande grootschalige VLA-modellen overtreft, met betere taakprestaties en aanzienlijk verminderde rekenkundige overhead, wat het een praktischer oplossing maakt voor real-time robotautonomie.

TrustGeoGen: Schaalbaar en formeel geverifieerd data-engine voor betrouwbare multi-modale geometrische probleemoplossing
TrustGeoGen: Scalable and Formal-Verified Data Engine for Trustworthy Multi-modal Geometric Problem Solving

Apr 22

ByDaocheng Fu, Zijun Chen, Renqiu Xia, Qi Liu, Yuan Feng, Hongbin Zhou, Renrui Zhang, Shiyang Feng, Peng Gao, Junchi Yan, Botian Shi, Bo Zhang, Yu Qiao

Het oplossen van wiskundige geometrische problemen (GPS) vereist vaak een effectieve integratie van multimodale informatie en verifieerbare logische samenhang. Ondanks de snelle ontwikkeling van grote taalmodellen in algemeen probleemoplossen, blijft het zowel methodologisch als qua benchmarks onopgelost, vooral gezien het feit dat bestaande synthetische GPS-benchmarks vaak niet zelf-geverifieerd zijn en ruis en tegenstrijdige informatie bevatten vanwege de illusie van LLM's. In dit artikel stellen we een schaalbare data-engine genaamd TrustGeoGen voor voor probleemgeneratie, met formele verificatie om een principiële benchmark te bieden, waarvan wij geloven dat deze de basis legt voor de verdere ontwikkeling van methoden voor GPS. De engine synthetiseert geometrische data door vier belangrijke innovaties: 1) multimodaal-uitgelijnde generatie van diagrammen, tekstuele beschrijvingen en stapsgewijze oplossingen; 2) formele verificatie die regelconforme redeneerpaden waarborgt; 3) een bootstrapping-mechanisme dat complexiteitsescalatie mogelijk maakt via recursieve staatgeneratie en 4) onze ontworpen GeoExplore-serie algoritmen die tegelijkertijd multi-oplossingsvarianten en zelf-reflectieve backtracking-sporen produceren. Door formele logische verificatie produceert TrustGeoGen de GeoTrust-200K dataset met gegarandeerde modaliteitsintegriteit, samen met de GeoTrust-test testset. Experimenten tonen aan dat state-of-the-art modellen slechts 49,17\% nauwkeurigheid behalen op GeoTrust-test, wat de evaluatiestringentie aantoont. Cruciaal is dat modellen getraind op GeoTrust OOD-generalizatie bereiken op GeoQA, wat logische inconsistenties aanzienlijk vermindert in vergelijking met pseudo-labels geannoteerd door OpenAI-o1. Onze code is beschikbaar op https://github.com/Alpha-Innovator/TrustGeoGen.

Veelzijdig Framework voor Songgeneratie met Prompt-gebaseerde Controle
Versatile Framework for Song Generation with Prompt-based Control

Apr 27

ByYu Zhang, Wenxiang Guo, Changhao Pan, Zhiyuan Zhu, Ruiqi Li, Jingyu Lu, Rongjie Huang, Ruiyuan Zhang, Zhiqing Hong, Ziyue Jiang, Zhou Zhao

Songgeneratie richt zich op het produceren van controleerbare, hoogwaardige liedjes op basis van verschillende prompts. Bestaande methoden hebben echter moeite met het genereren van vocalen en begeleidingen met prompt-gebaseerde controle en juiste uitlijning. Daarnaast schieten ze tekort in het ondersteunen van diverse taken. Om deze uitdagingen aan te pakken, introduceren we VersBand, een multi-task raamwerk voor songgeneratie dat hoogwaardige, uitgelijnde liedjes synthetiseert met prompt-gebaseerde controle. VersBand bestaat uit de volgende primaire modellen: 1) VocalBand, een ontkoppeld model, maakt gebruik van de flow-matching methode voor het genereren van zangstijlen, toonhoogtes en mel-spectrogrammen, waardoor snelle, hoogwaardige vocaalgeneratie met stijlcontrole mogelijk is. 2) AccompBand, een flow-gebaseerd transformermodel, integreert de Band-MOE, waarbij geschikte experts worden geselecteerd voor verbeterde kwaliteit, uitlijning en controle. Dit model maakt het mogelijk om controleerbare, hoogwaardige begeleidingen te genereren die zijn uitgelijnd met de vocalen. 3) Twee generatiemodellen, LyricBand voor teksten en MelodyBand voor melodieën, dragen bij aan het uitgebreide multi-task songgeneratiesysteem, waardoor uitgebreide controle op basis van meerdere prompts mogelijk is. Experimentele resultaten tonen aan dat VersBand beter presteert dan baseline-modellen bij verschillende songgeneratietaken, zowel op objectieve als subjectieve metrieken. Audiovoorbeelden zijn beschikbaar op https://VersBand.github.io.

ICL CIPHERS: Het kwantificeren van "leren" in in-context leren via substitutiecijfers
ICL CIPHERS: Quantifying "Learning'' in In-Context Learning via Substitution Ciphers

Apr 28

ByZhouxiang Fang, Aayush Mishra, Muhan Gao, Anqi Liu, Daniel Khashabi

Recente studies hebben gesuggereerd dat In-Context Learning (ICL) in twee modi opereert, namelijk taakretrieval (het onthouden van geleerde patronen uit pre-training) en taakleren (het "leren" tijdens inferentie aan de hand van demonstraties). Het ontrafelen van deze twee modi blijft echter een uitdagend doel. Wij introduceren ICL CIPHERS, een klasse van taakherformuleringen gebaseerd op substitutiecijfers ontleend aan klassieke cryptografie. In deze aanpak wordt een subset van tokens in de in-context invoer vervangen door andere (irrelevante) tokens, waardoor Engelse zinnen minder begrijpelijk worden voor het menselijk oog. Echter, door het ontwerp is er een latent, vast patroon aan deze substitutie, waardoor deze omkeerbaar is. Deze bijectieve (omkeerbare) cijfering zorgt ervoor dat de taak in abstracte zin een goed gedefinieerde taak blijft, ondanks de transformaties. Het is een interessante vraag of LLM's ICL CIPHERS met een BIJECTIEVE mapping kunnen oplossen, wat het ontcijferen van de latente cijfering vereist. Wij tonen aan dat LLM's beter zijn in het oplossen van ICL CIPHERS met BIJECTIEVE mappings dan de NON-BIJECTIEVE (onomkeerbare) baseline, wat een nieuwe benadering biedt om "leren" in ICL te kwantificeren. Hoewel dit verschil klein is, is het consistent over vier datasets en zes modellen. Ten slotte onderzoeken we de interne representaties van LLM's en identificeren we bewijs van hun vermogen om de gecodeerde invoer te decoderen.

ChiseLLM: Ontketen de Kracht van Redenerende LLM's voor Wendbare Hardwareontwikkeling met Chisel
ChiseLLM: Unleashing the Power of Reasoning LLMs for Chisel Agile Hardware Development

Apr 27

ByBowei Wang, Jiaran Gao, Yelai Feng, Renzhi Chen, Shanshan Li, Lei Wang

De groeiende vraag naar Domeinspecifieke Architectuur (DSA) heeft de ontwikkeling van de Agile Hardware Ontwikkelingsmethodologie (AHDM) gestimuleerd. Hardware Constructie Taal (HCL) zoals Chisel biedt hoogwaardige abstractiefuncties, waardoor het een ideale taal is voor HCL-gebaseerde AHDM. Hoewel Grote Taalmodellen (LLM's) uitblinken in codegeneratietaken, hebben ze nog steeds uitdagingen met Chisel-generatie, met name wat betreft syntaxisnauwkeurigheid en ontwerpvariabiliteit. Recente redeneermodellen hebben de codegeneratiecapaciteiten aanzienlijk verbeterd door technieken voor schaling tijdens testtijd. Wij hebben echter ontdekt dat redeneermodellen zonder domeinaanpassing geen substantiële voordelen kunnen bieden voor Chisel-codegeneratietaken. Dit artikel presenteert ChiseLLM, een oplossing bestaande uit gegevensverwerking en -transformatie, prompt-gestuurde redeneersporsynthese en domeinaangepaste modeltraining. We hebben hoogwaardige datasets geconstrueerd uit openbare RTL-codebronnen en het model begeleid om gestructureerde denkpatronen aan te nemen via promptverbeteringsmethoden. Experimenten tonen aan dat onze ChiseLLM-7B en ChiseLLM-32B modellen de syntaxisnauwkeurigheid respectievelijk met 18,85% en 26,32% verbeterden ten opzichte van basismodellen, terwijl de ontwerpvariabiliteitsvaardigheid met 47,58% toenam in vergelijking met baseline redeneermodellen. Onze datasets en modellen zijn publiekelijk beschikbaar, wat hoogwaardige, kosteneffectieve modellen biedt voor HCL-gebaseerde AHDM en een effectieve baseline biedt voor toekomstig onderzoek. Github repository: https://github.com/observerw/ChiseLLM

Mem0: Het bouwen van productieklaar AI-agents met schaalbare langetermijngeheugen
Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory

Apr 28

ByPrateek Chhikara, Dev Khant, Saket Aryan, Taranjeet Singh, Deshraj Yadav