Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Hoewel hedendaagse tekst-naar-beeldgeneratiemodellen opmerkelijke doorbraken hebben bereikt in het produceren van visueel aantrekkelijke afbeeldingen, blijft hun vermogen om precieze en flexibele typografische elementen te genereren, met name niet-Latijnse alfabetten, beperkt. Om deze beperkingen aan te pakken, gaan we uit van een naïeve aanname dat tekstbegrip slechts een voldoende voorwaarde is voor tekstweergave, maar geen noodzakelijke voorwaarde. Op basis hiervan presenteren we RepText, dat als doel heeft om vooraf getrainde eentalige tekst-naar-beeldgeneratiemodellen in staat te stellen om meertalige visuele tekst nauwkeurig weer te geven, of meer precies, te repliceren, in door de gebruiker gespecificeerde lettertypen, zonder dat het nodig is om deze tekst echt te begrijpen. Specifiek nemen we de instelling van ControlNet over en integreren we daarnaast taalagnostische glyphs en de positie van weergegeven tekst om het genereren van harmonieuze visuele tekst mogelijk te maken, waardoor gebruikers tekstinhoud, lettertype en positie kunnen aanpassen naar hun behoeften. Om de nauwkeurigheid te verbeteren, wordt een tekstperceptieverlies gebruikt naast het diffusieverlies. Verder, om het weergaveproces te stabiliseren, initialiseren we tijdens de inferentiefase direct met een ruizige glyph latent in plaats van willekeurige initialisatie, en gebruiken we regiomaskers om de feature-injectie te beperken tot alleen het tekstgebied om vervorming van de achtergrond te voorkomen. We hebben uitgebreide experimenten uitgevoerd om de effectiviteit van onze RepText te verifiëren ten opzichte van bestaande werken, waarbij onze aanpak de bestaande open-source methoden overtreft en vergelijkbare resultaten behaalt als native meertalige closed-source modellen. Om eerlijker te zijn, bespreken we aan het einde ook uitgebreid de beperkingen ervan.
Wereldwijde zorgverleners onderzoeken het gebruik van grote taalmodelen (LLM's) om medisch advies aan het publiek te verstrekken. LLM's behalen nu bijna perfecte scores op medische licentie-examens, maar dit vertaalt zich niet noodzakelijk naar accurate prestaties in realistische settings. We hebben getest of LLM's leden van het publiek kunnen helpen bij het identificeren van onderliggende aandoeningen en het kiezen van een vervolgcursus (dispositie) in tien medische scenario's in een gecontroleerde studie met 1.298 deelnemers. Deelnemers werden willekeurig toegewezen om hulp te ontvangen van een LLM (GPT-4o, Llama 3, Command R+) of een bron naar keuze (controlegroep). Wanneer alleen getest, voltooien de LLM's de scenario's accuraat, waarbij ze in 94,9% van de gevallen de aandoeningen correct identificeerden en in 56,3% de juiste dispositie bepaalden. Echter, deelnemers die dezelfde LLM's gebruikten, identificeerden relevante aandoeningen in minder dan 34,5% van de gevallen en de juiste dispositie in minder dan 44,2%, beide niet beter dan de controlegroep. We identificeren gebruikersinteracties als een uitdaging voor de inzet van LLM's voor medisch advies. Standaard benchmarks voor medische kennis en gesimuleerde patiëntinteracties voorspellen niet de fouten die we vinden bij menselijke deelnemers. Vooruitkijkend bevelen we systematische gebruikersonderzoeken aan om de interactieve mogelijkheden te evalueren voordat LLM's in de gezondheidszorg worden ingezet.
Met de snelle opkomst van grote taalmodelen (LLMs) heeft telefoonautomatisering ingrijpende veranderingen ondergaan. Dit artikel geeft een systematisch overzicht van LLM-gestuurde telefoon-GUI-agenten, waarbij de evolutie van scriptgebaseerde automatisering naar intelligente, adaptieve systemen wordt belicht. We plaatsen eerst de belangrijkste uitdagingen in context: (i) beperkte algemeenheid, (ii) hoog onderhoudsvolume, en (iii) zwakke intentieherkenning, en laten zien hoe LLMs deze problemen aanpakken via geavanceerd taalbegrip, multimodale waarneming en robuuste besluitvorming. Vervolgens stellen we een taxonomie voor die fundamentele agentframeworks omvat (single-agent, multi-agent, plan-then-act), modelleerbenaderingen (prompt engineering, training-based), en essentiële datasets en benchmarks. Daarnaast gaan we in op taakspecifieke architecturen, supervised fine-tuning en reinforcement learning-strategieën die gebruikersintentie en GUI-operaties met elkaar verbinden. Tot slot bespreken we openstaande uitdagingen zoals datasetdiversiteit, efficiëntie van on-device implementatie, gebruikersgerichte aanpassing en beveiligingsproblemen, waarbij we vooruitblikkende inzichten bieden in dit snel evoluerende veld. Door een gestructureerd overzicht te bieden en dringende onderzoekslacunes te identificeren, dient dit artikel als een definitief referentiewerk voor onderzoekers en praktijkmensen die LLMs willen inzetten bij het ontwerpen van schaalbare, gebruiksvriendelijke telefoon-GUI-agenten.
Grote Taalmodellen (LLM's) hebben een opmerkelijke vaardigheid getoond in het genereren van contextueel samenhangende reacties, maar hun vaste contextvensters vormen fundamentele uitdagingen voor het behouden van consistentie tijdens langdurige, meerdelige dialogen. Wij introduceren Mem0, een schaalbare, geheugen-centrische architectuur die dit probleem aanpakt door dynamisch belangrijke informatie uit lopende gesprekken te extraheren, te consolideren en op te halen. Op basis hiervan stellen we een verbeterde variant voor die gebruikmaakt van grafische geheugenrepresentaties om complexe relationele structuren tussen gesprekselementen vast te leggen. Door middel van uitgebreide evaluaties op de LOCOMO-benchmark vergelijken we onze aanpak systematisch met zes baselinecategorieën: (i) gevestigde geheugen-augmented systemen, (ii) retrieval-augmented generation (RAG) met verschillende chunkgroottes en k-waarden, (iii) een volledige-contextbenadering die de volledige gespreksgeschiedenis verwerkt, (iv) een open-source geheugenoplossing, (v) een propriëtair modelsysteem, en (vi) een toegewijd geheugenbeheerplatform. Empirische resultaten tonen aan dat onze methoden consistent alle bestaande geheugensystemen overtreffen op vier vraagcategorieën: single-hop, temporeel, multi-hop en open-domein. Opmerkelijk is dat Mem0 een relatieve verbetering van 26% behaalt in de LLM-as-a-Judge-metric ten opzichte van OpenAI, terwijl Mem0 met grafisch geheugen een ongeveer 2% hogere overall score bereikt dan de basisconfiguratie. Naast nauwkeurigheidswinst verminderen we ook aanzienlijk de computationele overhead in vergelijking met de volledige-contextmethode. In het bijzonder behaalt Mem0 een 91% lagere p95-latentie en bespaart het meer dan 90% tokencost, wat een overtuigende balans biedt tussen geavanceerde redeneervaardigheden en praktische implementatiebeperkingen. Onze bevindingen benadrukken de cruciale rol van gestructureerde, persistente geheugenmechanismen voor langdurige gesprekscoherentie, waardoor de weg wordt geëffend voor betrouwbaardere en efficiëntere LLM-gestuurde AI-agenten.
Het evalueren van de stap-voor-stap betrouwbaarheid van redeneringen van grote taalmodellen (LLM's), zoals Chain-of-Thought, blijft een uitdaging vanwege de moeilijkheid en kosten van het verkrijgen van hoogwaardige stap-voor-stap supervisie. In dit artikel introduceren we Self-Play Critic (SPC), een nieuwe aanpak waarbij een criticusmodel zijn vermogen om redeneerstappen te beoordelen ontwikkelt via adversariële zelfspel-spellen, waardoor handmatige annotatie op stapniveau overbodig wordt. SPC omvat het finetunen van twee kopieën van een basismodel om twee rollen te spelen, namelijk een "sluwe generator" die opzettelijk foutieve stappen produceert die moeilijk te detecteren zijn, en een "criticus" die de correctheid van redeneerstappen analyseert. Deze twee modellen nemen deel aan een adversariële spel waarin de generator de criticus probeert te misleiden, terwijl het criticusmodel de fouten van de generator probeert te identificeren. Met behulp van reinforcement learning op basis van de spelresultaten verbeteren de modellen iteratief; de winnaar van elke confrontatie ontvangt een positieve beloning en de verliezer ontvangt een negatieve beloning, wat leidt tot continue zelf-evolutie. Experimenten op drie redeneerprocesbenchmarks (ProcessBench, PRM800K, DeltaBench) tonen aan dat onze SPC geleidelijk zijn foutdetectiecapaciteiten verbetert (bijvoorbeeld de nauwkeurigheid stijgt van 70,8% naar 77,7% op ProcessBench) en sterke baseline-modellen overtreft, waaronder het gedistilleerde R1-model. Bovendien verbetert het toepassen van SPC om de testtijdzoektocht van diverse LLM's te begeleiden hun wiskundige redeneerprestaties op MATH500 en AIME2024 aanzienlijk, wat beter presteert dan state-of-the-art procesbeloningsmodellen.
Grote taalmodellen (LLMs) hebben opmerkelijke capaciteiten getoond, met name de recente vooruitgang in redeneervaardigheden, zoals o1 en o3, die de grenzen van AI verleggen. Ondanks deze indrukwekkende prestaties in wiskunde en programmeren, blijven de redeneervaardigheden van LLMs in domeinen die cryptografische expertise vereisen onderbelicht. In dit artikel introduceren we CipherBank, een uitgebreide benchmark ontworpen om de redeneervaardigheden van LLMs te evalueren in cryptografische decryptietaken. CipherBank bestaat uit 2.358 zorgvuldig ontworpen problemen, die 262 unieke platte teksten beslaan over 5 domeinen en 14 subdomeinen, met een focus op privacygevoelige en realistische scenario's die encryptie vereisen. Vanuit cryptografisch perspectief omvat CipherBank 3 hoofdcategorieën van encryptiemethoden, met 9 verschillende algoritmen, variërend van klassieke cijfers tot aangepaste cryptografische technieken. We evalueren state-of-the-art LLMs op CipherBank, zoals GPT-4o, DeepSeek-V3, en geavanceerde modellen gericht op redeneren, zoals o1 en DeepSeek-R1. Onze resultaten tonen significante verschillen in redeneervaardigheden, niet alleen tussen algemene chat-LLMs en LLMs gericht op redeneren, maar ook in de prestaties van huidige redeneergerichte modellen bij klassieke cryptografische decryptietaken, wat de uitdagingen benadrukt die deze modellen hebben bij het begrijpen en manipuleren van versleutelde gegevens. Door gedetailleerde analyses en foutonderzoeken bieden we verschillende belangrijke observaties die inzicht geven in de beperkingen en mogelijke verbeteringsgebieden voor LLMs in cryptografisch redeneren. Deze bevindingen onderstrepen de noodzaak van voortdurende vooruitgang in de redeneervaardigheden van LLMs.
Recente vooruitgang in Grote Visueel-Taalmodellen (LVLMs) heeft hun vermogen om visuele en linguïstische informatie te integreren aanzienlijk verbeterd, waardoor ze bijna menselijke vaardigheid bereiken in taken zoals objectherkenning, beeldbeschrijving en visuele vraagbeantwoording. Huidige benchmarks richten zich echter meestal op kennisgerichte evaluaties die domeinspecifieke expertise beoordelen, waarbij vaak het kernvermogen om te redeneren over fundamentele wiskundige elementen en visuele concepten wordt verwaarloosd. Wij identificeren een gat in de evaluatie van elementaire wiskundige problemen, die afhankelijk zijn van expliciete visuele relaties—waarbij modellen moeten onderscheiden, integreren en redeneren over meerdere afbeeldingen terwijl ze algemene kennis incorporeren, wat allemaal cruciaal is voor het bevorderen van bredere AGI-capaciteiten. Om dit gat te dichten, introduceren we VCBENCH, een uitgebreide benchmark voor multimodale wiskundige redenering met expliciete visuele afhankelijkheden. VCBENCH omvat 1.720 problemen verdeeld over zes cognitieve domeinen, met 6.697 afbeeldingen (gemiddeld 3,9 per vraag) om redenering over meerdere afbeeldingen te waarborgen. We evalueren 26 state-of-the-art LVLMs op VCBENCH, wat aanzienlijke prestatieverschillen aan het licht brengt, waarbij zelfs de beste modellen niet meer dan 50% nauwkeurigheid kunnen behalen. Onze bevindingen benadrukken de voortdurende uitdagingen in visueel-wiskundige integratie en suggereren richtingen voor toekomstige LVLM-ontwikkelingen.
Downsampling-lagen zijn cruciale bouwstenen in CNN-architecturen, die helpen om het receptieve veld te vergroten voor het leren van hoogwaardige kenmerken en de hoeveelheid geheugen/berekeningen in het model te verminderen. In dit werk bestuderen we de generalisatie van de uniforme downsampling-laag voor groepsequivariante architecturen, zoals G-CNN's. Dat wil zeggen, we streven ernaar om signalen (feature maps) op algemene eindige groepen te downsamplen met anti-aliasing. Dit omvat het volgende: (a) Gegeven een eindige groep en een downsampling-snelheid, presenteren we een algoritme om een geschikte keuze van een subgroep te vormen. (b) Gegeven een groep en een subgroep, bestuderen we het begrip bandbreedte-beperktheid en stellen we voor hoe anti-aliasing kan worden uitgevoerd. Opmerkelijk is dat onze methode het begrip downsampling generaliseert op basis van de klassieke samplingtheorie. Wanneer het signaal zich op een cyclische groep bevindt, d.w.z. periodiek, herstelt onze methode de standaard downsampling van een ideaal laagdoorlaatfilter gevolgd door een subsampling-operatie. Ten slotte hebben we experimenten uitgevoerd op beeldclassificatietaken die aantonen dat de voorgestelde downsampling-operatie de nauwkeurigheid verbetert, equivariantie beter behoudt en de modelgrootte vermindert wanneer deze wordt geïntegreerd in G-equivariante netwerken.
De integratie van lange-contextmogelijkheden met visueel begrip ontsluit ongekend potentieel voor Vision Language Models (VLMs). De kwadratische aandachtcomplexiteit tijdens de pre-filling fase blijft echter een aanzienlijk obstakel voor implementatie in de praktijk. Om deze beperking te overwinnen, introduceren we MMInference (Multimodality Million tokens Inference), een dynamische sparse aandachtmethode die de pre-filling fase versnelt voor lange-context multimodale inputs. Ten eerste toont onze analyse aan dat de temporele en ruimtelijke lokaliteit van video-input leidt tot een uniek sparse patroon, het Grid-patroon. Tegelijkertijd vertonen VLMs aanzienlijk verschillende sparse distributies over verschillende modaliteiten. We introduceren een op permutatie gebaseerde methode om het unieke Grid-patroon te benutten en problemen bij modaliteitsgrenzen aan te pakken. Door offline te zoeken naar de optimale sparse patronen voor elke head, construeert MMInference de sparse distributie dynamisch op basis van de input. We bieden ook geoptimaliseerde GPU-kernels voor efficiënte sparse berekeningen. Opmerkelijk is dat MMInference naadloos integreert in bestaande VLM-pipelines zonder modelaanpassingen of fine-tuning. Experimenten op multimodale benchmarks – inclusief Video QA, Captioning, VisionNIAH en Mixed-Modality NIAH – met state-of-the-art lange-context VLMs (LongVila, LlavaVideo, VideoChat-Flash, Qwen2.5-VL) tonen aan dat MMInference de pre-filling fase versnelt tot wel 8,3x bij 1M tokens, terwijl de nauwkeurigheid behouden blijft. Onze code is beschikbaar op https://aka.ms/MMInference.
Bestaande Visual-Language-Action (VLA) modellen hebben veelbelovende prestaties getoond in zero-shot scenario's, waarbij ze indrukwekkende taakuitvoering en redeneervaardigheden demonstreren. Een aanzienlijke uitdaging doet zich echter voor door de beperkingen van visuele codering, wat kan leiden tot fouten tijdens taken zoals het grijpen van objecten. Bovendien hebben deze modellen doorgaans te kampen met een hoge rekenkundige overhead vanwege hun grote omvang, vaak meer dan 7B parameters. Hoewel deze modellen uitblinken in redeneren en taakplanning, maakt de aanzienlijke rekenkundige overhead die ze met zich meebrengen ze onpraktisch voor real-time robotomgevingen, waar snelheid en efficiëntie van cruciaal belang zijn. Om de beperkingen van bestaande VLA-modellen aan te pakken, stellen we NORA voor, een model met 3B parameters dat is ontworpen om de rekenkundige overhead te verminderen terwijl het sterke taakprestaties behoudt. NORA neemt het Qwen-2.5-VL-3B multimodale model als basis en maakt gebruik van zijn superieure visueel-semantisch begrip om visueel redeneren en actiegronding te verbeteren. Daarnaast is ons model getraind op 970k real-world robotdemonstraties en uitgerust met de FAST+ tokenizer voor efficiënte actiesequentiegeneratie. Experimentele resultaten tonen aan dat NORA bestaande grootschalige VLA-modellen overtreft, met betere taakprestaties en aanzienlijk verminderde rekenkundige overhead, wat het een praktischer oplossing maakt voor real-time robotautonomie.
Het oplossen van wiskundige geometrische problemen (GPS) vereist vaak een effectieve integratie van multimodale informatie en verifieerbare logische samenhang. Ondanks de snelle ontwikkeling van grote taalmodellen in algemeen probleemoplossen, blijft het zowel methodologisch als qua benchmarks onopgelost, vooral gezien het feit dat bestaande synthetische GPS-benchmarks vaak niet zelf-geverifieerd zijn en ruis en tegenstrijdige informatie bevatten vanwege de illusie van LLM's. In dit artikel stellen we een schaalbare data-engine genaamd TrustGeoGen voor voor probleemgeneratie, met formele verificatie om een principiële benchmark te bieden, waarvan wij geloven dat deze de basis legt voor de verdere ontwikkeling van methoden voor GPS. De engine synthetiseert geometrische data door vier belangrijke innovaties: 1) multimodaal-uitgelijnde generatie van diagrammen, tekstuele beschrijvingen en stapsgewijze oplossingen; 2) formele verificatie die regelconforme redeneerpaden waarborgt; 3) een bootstrapping-mechanisme dat complexiteitsescalatie mogelijk maakt via recursieve staatgeneratie en 4) onze ontworpen GeoExplore-serie algoritmen die tegelijkertijd multi-oplossingsvarianten en zelf-reflectieve backtracking-sporen produceren. Door formele logische verificatie produceert TrustGeoGen de GeoTrust-200K dataset met gegarandeerde modaliteitsintegriteit, samen met de GeoTrust-test testset. Experimenten tonen aan dat state-of-the-art modellen slechts 49,17\% nauwkeurigheid behalen op GeoTrust-test, wat de evaluatiestringentie aantoont. Cruciaal is dat modellen getraind op GeoTrust OOD-generalizatie bereiken op GeoQA, wat logische inconsistenties aanzienlijk vermindert in vergelijking met pseudo-labels geannoteerd door OpenAI-o1. Onze code is beschikbaar op https://github.com/Alpha-Innovator/TrustGeoGen.
Songgeneratie richt zich op het produceren van controleerbare, hoogwaardige liedjes op basis van verschillende prompts. Bestaande methoden hebben echter moeite met het genereren van vocalen en begeleidingen met prompt-gebaseerde controle en juiste uitlijning. Daarnaast schieten ze tekort in het ondersteunen van diverse taken. Om deze uitdagingen aan te pakken, introduceren we VersBand, een multi-task raamwerk voor songgeneratie dat hoogwaardige, uitgelijnde liedjes synthetiseert met prompt-gebaseerde controle. VersBand bestaat uit de volgende primaire modellen: 1) VocalBand, een ontkoppeld model, maakt gebruik van de flow-matching methode voor het genereren van zangstijlen, toonhoogtes en mel-spectrogrammen, waardoor snelle, hoogwaardige vocaalgeneratie met stijlcontrole mogelijk is. 2) AccompBand, een flow-gebaseerd transformermodel, integreert de Band-MOE, waarbij geschikte experts worden geselecteerd voor verbeterde kwaliteit, uitlijning en controle. Dit model maakt het mogelijk om controleerbare, hoogwaardige begeleidingen te genereren die zijn uitgelijnd met de vocalen. 3) Twee generatiemodellen, LyricBand voor teksten en MelodyBand voor melodieën, dragen bij aan het uitgebreide multi-task songgeneratiesysteem, waardoor uitgebreide controle op basis van meerdere prompts mogelijk is. Experimentele resultaten tonen aan dat VersBand beter presteert dan baseline-modellen bij verschillende songgeneratietaken, zowel op objectieve als subjectieve metrieken. Audiovoorbeelden zijn beschikbaar op https://VersBand.github.io.
Recente studies hebben gesuggereerd dat In-Context Learning (ICL) in twee modi opereert, namelijk taakretrieval (het onthouden van geleerde patronen uit pre-training) en taakleren (het "leren" tijdens inferentie aan de hand van demonstraties). Het ontrafelen van deze twee modi blijft echter een uitdagend doel. Wij introduceren ICL CIPHERS, een klasse van taakherformuleringen gebaseerd op substitutiecijfers ontleend aan klassieke cryptografie. In deze aanpak wordt een subset van tokens in de in-context invoer vervangen door andere (irrelevante) tokens, waardoor Engelse zinnen minder begrijpelijk worden voor het menselijk oog. Echter, door het ontwerp is er een latent, vast patroon aan deze substitutie, waardoor deze omkeerbaar is. Deze bijectieve (omkeerbare) cijfering zorgt ervoor dat de taak in abstracte zin een goed gedefinieerde taak blijft, ondanks de transformaties. Het is een interessante vraag of LLM's ICL CIPHERS met een BIJECTIEVE mapping kunnen oplossen, wat het ontcijferen van de latente cijfering vereist. Wij tonen aan dat LLM's beter zijn in het oplossen van ICL CIPHERS met BIJECTIEVE mappings dan de NON-BIJECTIEVE (onomkeerbare) baseline, wat een nieuwe benadering biedt om "leren" in ICL te kwantificeren. Hoewel dit verschil klein is, is het consistent over vier datasets en zes modellen. Ten slotte onderzoeken we de interne representaties van LLM's en identificeren we bewijs van hun vermogen om de gecodeerde invoer te decoderen.
De groeiende vraag naar Domeinspecifieke Architectuur (DSA) heeft de ontwikkeling van de Agile Hardware Ontwikkelingsmethodologie (AHDM) gestimuleerd. Hardware Constructie Taal (HCL) zoals Chisel biedt hoogwaardige abstractiefuncties, waardoor het een ideale taal is voor HCL-gebaseerde AHDM. Hoewel Grote Taalmodellen (LLM's) uitblinken in codegeneratietaken, hebben ze nog steeds uitdagingen met Chisel-generatie, met name wat betreft syntaxisnauwkeurigheid en ontwerpvariabiliteit. Recente redeneermodellen hebben de codegeneratiecapaciteiten aanzienlijk verbeterd door technieken voor schaling tijdens testtijd. Wij hebben echter ontdekt dat redeneermodellen zonder domeinaanpassing geen substantiële voordelen kunnen bieden voor Chisel-codegeneratietaken. Dit artikel presenteert ChiseLLM, een oplossing bestaande uit gegevensverwerking en -transformatie, prompt-gestuurde redeneersporsynthese en domeinaangepaste modeltraining. We hebben hoogwaardige datasets geconstrueerd uit openbare RTL-codebronnen en het model begeleid om gestructureerde denkpatronen aan te nemen via promptverbeteringsmethoden. Experimenten tonen aan dat onze ChiseLLM-7B en ChiseLLM-32B modellen de syntaxisnauwkeurigheid respectievelijk met 18,85% en 26,32% verbeterden ten opzichte van basismodellen, terwijl de ontwerpvariabiliteitsvaardigheid met 47,58% toenam in vergelijking met baseline redeneermodellen. Onze datasets en modellen zijn publiekelijk beschikbaar, wat hoogwaardige, kosteneffectieve modellen biedt voor HCL-gebaseerde AHDM en een effectieve baseline biedt voor toekomstig onderzoek. Github repository: https://github.com/observerw/ChiseLLM