Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Lang-context modellering is cruciaal voor de volgende generatie taalmodelen, maar de hoge rekenkosten van standaard aandachtmechanismen vormen aanzienlijke computationele uitdagingen. Sparse aandacht biedt een veelbelovende richting voor het verbeteren van de efficiëntie terwijl de modelcapaciteiten behouden blijven. Wij presenteren NSA, een Natively trainable Sparse Attention mechanisme dat algoritmische innovaties combineert met hardware-afgestemde optimalisaties om efficiënte lang-context modellering te bereiken. NSA maakt gebruik van een dynamische hiërarchische sparse strategie, waarbij grofkorrelige tokencompressie wordt gecombineerd met fijnkorrelige tokenselectie om zowel globaal contextbewustzijn als lokale precisie te behouden. Onze aanpak brengt sparse aandachtontwerp verder met twee belangrijke innovaties: (1) We behalen aanzienlijke snelheidswinsten door een rekenintensiteit-gebalanceerd algoritmeontwerp, met implementatieoptimalisaties voor moderne hardware. (2) We maken end-to-end training mogelijk, waardoor de rekentijd vooraf wordt verminderd zonder in te leveren op modelprestaties. Zoals weergegeven in Figuur 1, tonen experimenten aan dat het model dat met NSA is voorgetraind, presteert op of boven het niveau van Full Attention-modellen op algemene benchmarks, lang-context taken en instructiegebaseerd redeneren. Tegelijkertijd behaalt NSA aanzienlijke snelheidswinsten ten opzichte van Full Attention op sequenties van 64k lengte tijdens decodering, voorwaartse propagatie en achterwaartse propagatie, wat de efficiëntie gedurende de gehele modellevenscyclus bevestigt.
We introduceren SWE-Lancer, een benchmark van meer dan 1.400 freelance software engineering taken van Upwork, met een totale waarde van meer dan 1 miljoen USD aan daadwerkelijke uitbetalingen. SWE-Lancer omvat zowel onafhankelijke engineering taken - variërend van 50 bug fixes tot $32.000 feature implementaties - als managementtaken, waar modellen kiezen tussen technische implementatievoorstellen. Onafhankelijke taken worden beoordeeld met end-to-end tests die drievoudig geverifieerd zijn door ervaren software engineers, terwijl managementbeslissingen worden beoordeeld aan de hand van de keuzes van de oorspronkelijk ingehuurde engineering managers. We evalueren de prestaties van modellen en constateren dat geavanceerde modellen nog steeds niet in staat zijn om de meerderheid van de taken op te lossen. Om toekomstig onderzoek te vergemakkelijken, stellen we een uniforme Docker-image en een openbare evaluatieset open-source beschikbaar, genaamd SWE-Lancer Diamond (https://github.com/openai/SWELancer-Benchmark). Door de prestaties van modellen te koppelen aan monetaire waarde, hopen we dat SWE-Lancer meer onderzoek mogelijk maakt naar de economische impact van de ontwikkeling van AI-modellen.
Automatische valherstel is een cruciale voorwaarde voordat humanoïde robots betrouwbaar kunnen worden ingezet. Het handmatig ontwerpen van controllers om op te staan is moeilijk vanwege de gevarieerde configuraties waarin een humanoïde terecht kan komen na een val en de uitdagende terreinen waarop humanoïde robots worden verwacht te opereren. Dit artikel ontwikkelt een leerkader om controllers te produceren die humanoïde robots in staat stellen om op te staan uit verschillende configuraties op verschillende terreinen. In tegenstelling tot eerdere succesvolle toepassingen van het leren van humanoïde locomotie, omvat de opstaantaak complexe contactpatronen, wat een nauwkeurige modellering van de botsingsgeometrie en spaarzamere beloningen vereist. We pakken deze uitdagingen aan door middel van een tweefasige benadering die een leerplan volgt. De eerste fase richt zich op het ontdekken van een goede opstaan-traject met minimale beperkingen op gladheid of snelheid / koppel limieten. De tweede fase verfijnt vervolgens de ontdekte bewegingen tot inzetbare (d.w.z. soepele en langzame) bewegingen die robuust zijn tegen variaties in initiële configuratie en terreinen. We vinden dat deze innovaties een G1 humanoïde robot in de echte wereld in staat stellen om op te staan uit twee belangrijke situaties die we hebben overwogen: a) liggend op de rug en b) liggend op de buik, beide getest op vlakke, vervormbare, gladde oppervlakken en hellingen (bijv. steil gras en sneeuwveld). Voor zover wij weten, is dit de eerste succesvolle demonstratie van geleerde opstaanbeleid voor mensachtige humanoïde robots in de echte wereld. Projectpagina: https://humanoid-getup.github.io/
Dit artikel introduceert ThinkDiff, een nieuw uitlijningsparadigma dat tekst-naar-beeld diffusiemodellen uitrust met multimodale in-context begrips- en redeneervaardigheden door de sterke punten van visie-taalmodellen (VLMs) te integreren. Bestaande multimodale diffusie-finetuningmethoden richten zich voornamelijk op pixel-niveau reconstructie in plaats van in-context redeneren, en worden beperkt door de complexiteit en beperkte beschikbaarheid van redeneringsgebaseerde datasets. ThinkDiff lost deze uitdagingen op door visie-taal training te gebruiken als een proxytaak, waarbij VLMs worden uitgelijnd met de decoder van een encoder-decoder groot taalmodel (LLM) in plaats van een diffusiedecoder. Deze proxytaak bouwt voort op de observatie dat de LLM-decoder dezelfde invoerkenmerkruimte deelt met diffusiedecoders die de corresponderende LLM-encoder gebruiken voor prompt-embedding. Hierdoor kan het uitlijnen van VLMs met diffusiedecoders worden vereenvoudigd door uitlijning met de LLM-decoder. Zonder complexe training en datasets maakt ThinkDiff effectief begrip, redeneren en componeren mogelijk in diffusiemodellen. Experimenten tonen aan dat ThinkDiff de nauwkeurigheid aanzienlijk verbetert van 19,2% naar 46,3% op de uitdagende CoBSAT benchmark voor multimodale in-context redeneergeneratie, met slechts 5 uur training op 4 A100 GPU's. Daarnaast toont ThinkDiff uitzonderlijke prestaties in het samenstellen van meerdere afbeeldingen en teksten tot logisch samenhangende afbeeldingen. Projectpagina: https://mizhenxing.github.io/ThinkDiff.
Huidige methoden voor het vergeten van grote taalmodellen vertrouwen meestal op reverse optimalisatie om de waarschijnlijkheden van doeltokens te verlagen. Echter, dit paradigma verstoort de voorspelling van daaropvolgende tokens, wat de prestaties van het model en de linguïstische coherentie verslechtert. Bovendien leggen bestaande evaluatiemetrics te veel nadruk op contextueel vergeten, terwijl ze onvoldoende de vloeiendheid en relevantie van de respons beoordelen. Om deze uitdagingen aan te pakken, stellen we ReLearn voor, een gegevensvermeerderings- en fijnafstemmingspijplijn voor effectief vergeten, samen met een uitgebreid evaluatiekader. Dit kader introduceert Kennis Vergeet Ratio (KVR) en Kennis Behoud Ratio (KBR) om kennisniveau behoud te meten, en Linguïstische Score (LS) om de kwaliteit van de generatie te evalueren. Onze experimenten tonen aan dat ReLearn succesvol gericht vergeten bereikt terwijl het hoogwaardige output behoudt. Via mechanistische analyse tonen we verder aan hoe reverse optimalisatie coherente tekstgeneratie verstoort, terwijl ReLearn deze essentiële capaciteit behoudt. De code is beschikbaar op https://github.com/zjunlp/unlearn.
Ondanks uitzonderlijke mogelijkheden in kennisintensieve taken, staan Grote Taalmodellen (LLMs) voor een kritische kloof in begrip van hoe ze nieuwe kennis internaliseren, met name hoe ze verworven kennis structureel inbedden in hun neurale berekeningen. We pakken dit probleem aan door de lens van kenniscircuitevolutie, waarbij we computationele subgraphen identificeren die kennisopslag en -verwerking faciliteren. Onze systematische analyse van circuitevolutie gedurende voortdurende voorafgaande training onthult verschillende belangrijke bevindingen: (1) de verwerving van nieuwe kennis wordt beïnvloed door de relevantie ervan voor reeds bestaande kennis; (2) de evolutie van kenniscircuits vertoont een duidelijke faseverschuiving van vorming naar optimalisatie; (3) de evolutie van kenniscircuits volgt een diep-naar-ondiep patroon. Deze inzichten bevorderen niet alleen ons theoretisch begrip van de mechanismen van nieuwe kennisverwerving in LLMs, maar bieden ook mogelijke implicaties voor het verbeteren van voortdurende voorafgaande trainingstrategieën om de modelprestaties te verbeteren. Code en gegevens zullen beschikbaar zijn op https://github.com/zjunlp/DynamicKnowledgeCircuits.
Codegeneratie, symbolische wiskundige redenering en andere taken vereisen dat LLM's uitvoer produceren die zowel syntactisch als semantisch correct is. Beperkte LLM-generatie is een veelbelovende richting om naleving van formele grammatica af te dwingen, maar eerdere werken hebben empirisch vastgesteld dat strikte handhaving van formele beperkingen vaak de redeneervaardigheden van LLM's vermindert. In dit werk geven we eerst een theoretische verklaring waarom het beperken van LLM-uitvoer tot zeer restrictieve grammatica's die alleen syntactisch geldige eindantwoorden toestaan, de redeneervaardigheden van het model vermindert. Ten tweede tonen we aan dat door de uitvoergrammatica aan te vullen met zorgvuldig ontworpen aanvullende regels, het altijd mogelijk is om de redeneervaardigheden van de LLM te behouden terwijl syntactische en semantische correctheid in de uitvoer wordt gewaarborgd. Voortbouwend op deze theoretische inzichten stellen we een redenering-versterkt beperkt decoderingsalgoritme voor, CRANE, dat effectief de correctheid van beperkte generatie in balans brengt met de flexibiliteit van onbeperkte generatie. Experimenten met meerdere open-source LLM's en benchmarks tonen aan dat CRANE aanzienlijk beter presteert dan zowel state-of-the-art beperkte decoderingsstrategieën als standaard onbeperkte decodering, met een nauwkeurigheidsverbetering van maximaal 10% ten opzichte van baselines op uitdagende symbolische redeneerbenchmarks GSM-symbolic en FOLIO.
We onderzoeken het ontstaan van intuïtief natuurkundig begrip in algemene deep neural network-modellen die zijn getraind om gemaskeerde gebieden in natuurlijke video's te voorspellen. Door gebruik te maken van het violation-of-expectation-raamwerk, ontdekken we dat videovoorspellingsmodellen die zijn getraind om uitkomsten in een geleerde representatieruimte te voorspellen, een begrip tonen van verschillende intuïtieve natuurkundige eigenschappen, zoals objectpermanentie en vormconsistentie. Daarentegen presteren videovoorspellingen in pixelruimte en multimodale grote taalmodellen, die redeneren via tekst, dichter bij toeval. Onze vergelijkingen van deze architecturen laten zien dat het gezamenlijk leren van een abstracte representatieruimte terwijl ontbrekende delen van sensorische invoer worden voorspeld, vergelijkbaar met predictive coding, voldoende is om een begrip van intuïtieve natuurkunde te verwerven, en dat zelfs modellen die zijn getraind op één week unieke video boven het toeval presteren. Dit daagt het idee uit dat kernkennis — een set van aangeboren systemen om de wereld te begrijpen — ingebouwd moet zijn om een begrip van intuïtieve natuurkunde te ontwikkelen.
De instructiehiërarchie, die een prioriteitsvolgorde vaststelt van systeemberichten naar gebruikersberichten, conversatiegeschiedenis en tooluitvoer, is essentieel voor het waarborgen van consistent en veilig gedrag in taalmodelen (LMs). Ondanks het belang ervan krijgt dit onderwerp beperkte aandacht, en er is een gebrek aan uitgebreide benchmarks voor het evalueren van de vaardigheid van modellen om de instructiehiërarchie te volgen. Wij overbruggen deze kloof door IHEval te introduceren, een nieuwe benchmark bestaande uit 3.538 voorbeelden verdeeld over negen taken, waarbij gevallen worden behandeld waarin instructies met verschillende prioriteiten overeenkomen of conflicteren. Onze evaluatie van populaire LMs benadrukt hun moeite om instructieprioriteiten te herkennen. Alle geëvalueerde modellen vertonen een sterke prestatieafname wanneer ze worden geconfronteerd met conflicterende instructies, vergeleken met hun oorspronkelijke prestaties in het volgen van instructies. Bovendien behaalt het meest competitieve open-source model slechts 48% nauwkeurigheid in het oplossen van dergelijke conflicten. Onze resultaten onderstrepen de noodzaak van gerichte optimalisatie in de toekomstige ontwikkeling van LMs.
Sailor2 is een familie van geavanceerde meertalige taalmodellen voor Zuid-Oost-Aziatische (SEA) talen, beschikbaar in 1B, 8B en 20B formaten om aan diverse toepassingen te voldoen. Gebaseerd op Qwen2.5, ondergaat Sailor2 continue voorafgaande training op 500B tokens (400B SEA-specifieke en 100B herhalings-tokens) om 13 SEA-talen te ondersteunen, terwijl het vaardigheid behoudt in Chinees en Engels. Het Sailor2-20B model behaalt een 50-50 winstratio tegen GPT-4o in SEA-talen. We bieden ook een uitgebreid kookboek aan over hoe het meertalige model op een efficiënte manier ontwikkeld kan worden, inclusief vijf belangrijke aspecten: datacuratie, voorafgaande training, nabehandeling, modelaanpassing en evaluatie. We hopen dat het Sailor2-model (Apache 2.0 licentie) de taalontwikkeling in de SEA-regio zal bevorderen, en dat het Sailor2-kookboek onderzoekers zal inspireren om meer inclusieve LLM's te bouwen voor andere ondervertegenwoordigde talen.
Grote Taalmodellen (LLMs) hebben moeite met hallucinaties en verouderde kennis vanwege hun afhankelijkheid van statische trainingsdata. Retrieval-Augmented Generation (RAG) vermindert deze problemen door het integreren van externe dynamische informatie, wat de feitelijke en actuele onderbouwing verbetert. Recente vooruitgang in multimodale leertechnieken heeft geleid tot de ontwikkeling van Multimodale RAG, waarbij meerdere modaliteiten zoals tekst, afbeeldingen, audio en video worden geïntegreerd om de gegenereerde uitvoer te verbeteren. Echter brengen cross-modale afstemming en redeneren unieke uitdagingen met zich mee voor Multimodale RAG, wat het onderscheidt van traditionele unimodale RAG. Dit overzicht biedt een gestructureerde en uitgebreide analyse van Multimodale RAG-systemen, waarbij datasets, metrieken, benchmarks, evaluatie, methodologieën en innovaties op het gebied van retrieval, fusie, augmentatie en generatie worden behandeld. We bespreken nauwkeurig trainingsstrategieën, robuustheidsverbeteringen en verliesfuncties, terwijl we ook de diverse Multimodale RAG-scenario's verkennen. Daarnaast bespreken we openstaande uitdagingen en toekomstige onderzoeksrichtingen om vooruitgang in dit evoluerende veld te ondersteunen. Dit overzicht legt de basis voor het ontwikkelen van capabelere en betrouwbaardere AI-systemen die effectief gebruikmaken van multimodale dynamische externe kennisbronnen. Bronnen zijn beschikbaar op https://github.com/llm-lab-org/Multimodal-RAG-Survey.
De opmerkelijke succes van het autoregressieve paradigma heeft significante vooruitgang geboekt in Multimodale Grote Taalmodellen (MLLM's), met krachtige modellen zoals Show-o, Transfusion en Emu3 die opmerkelijke vooruitgang hebben geboekt in het begrijpen en genereren van beelden. Voor het eerst onthullen we een veelvoorkomend fenomeen: de begripscapaciteiten van MLLM's zijn doorgaans sterker dan hun generatieve capaciteiten, met een aanzienlijk verschil tussen de twee. Voortbouwend op deze inzichten stellen we HermesFlow voor, een eenvoudig maar algemeen raamwerk dat is ontworpen om naadloos de kloof tussen begrip en generatie in MLLM's te overbruggen. Specifiek nemen we homologe gegevens als invoer om homologe voorkeursgegevens van zowel begrip als generatie samen te stellen. Door middel van Pair-DPO en zelfspel iteratieve optimalisatie, brengt HermesFlow effectief multimodaal begrip en generatie in lijn met homologe voorkeursgegevens. Uitgebreide experimenten tonen de aanzienlijke superioriteit van onze aanpak ten opzichte van eerdere methoden, met name in het verkleinen van de kloof tussen multimodaal begrip en generatie. Deze bevindingen benadrukken het potentieel van HermesFlow als een algemeen afstemmingsraamwerk voor multimodale foundation modellen van de volgende generatie. Code: https://github.com/Gen-Verse/HermesFlow
Wij stellen Diffusion-Sharpening voor, een fine-tuning benadering die de downstream uitlijning verbetert door het optimaliseren van bemonsteringstrajecten. Bestaande RL-gebaseerde fine-tuning methoden richten zich op enkele trainingsstappen en verwaarlozen trajectniveau uitlijning, terwijl recente optimalisatiemethoden voor bemonsteringstrajecten aanzienlijke inferentiekosten veroorzaken. Diffusion-Sharpening overwint dit door een padintegraalraamwerk te gebruiken om optimale trajecten te selecteren tijdens de training, waarbij beloningsfeedback wordt benut en inferentiekosten worden geamortiseerd. Onze methode toont superieure trainings-efficiëntie met snellere convergentie, en de beste inferentie-efficiëntie zonder extra NFE's te vereisen. Uitgebreide experimenten tonen aan dat Diffusion-Sharpening beter presteert dan op RL gebaseerde fine-tuning methoden (bijv. Diffusion-DPO) en bemonsteringstrajectoptimalisatiemethoden (bijv. Inference Scaling) over diverse metrieken, waaronder tekstuitlijning, samenstellingsmogelijkheden en menselijke voorkeuren, en biedt een schaalbare en efficiënte oplossing voor toekomstige fine-tuning van diffusiemodellen. Code: https://github.com/Gen-Verse/Diffusion-Sharpening
Systeemberichten spelen een cruciale rol in interacties met grote taalmodellen (LLM's), vaak als aanwijzingen om gesprekken te starten. Via systeemberichten kunnen gebruikers specifieke rollen toewijzen, beoogde taken uitvoeren, achtergrondinformatie opnemen, verschillende outputformaten en communicatiestijlen specificeren. Ondanks deze veelzijdigheid ontbreken systeemberichten vaak in openbaar beschikbare gegevens en zijn ze onderhevig aan strikte licentiebeperkingen in de bedrijfstak. Handmatige labeling van openbaar beschikbare gegevens met systeemberichten die overeenkomen met gebruikersinstructies vereist aanzienlijke middelen. Gezien deze uitdagingen introduceert ons werk SysGen, een pijplijn voor het genereren van systeemberichten met beter afgestemde assistentreacties uit het dataset voor begeleid fijnafstemmen zonder systeemberichten. Training op SysGen-gegevens heeft aanzienlijke verbeteringen aangetoond in de afstemming van modelreacties op systeemberichten en gebruikersinstructies, zoals aangetoond bij verschillende open-source modellen op de Multifacet-benchmark, met minimale impact op andere ongeziene benchmarks zoals Open LLM Leaderboard 2. Onze kwalitatieve analyse benadrukt het belang van diverse systeemberichten om een betere aanpasbaarheid te garanderen in verschillende contexten.
Recente ontwikkelingen in op LLM gebaseerde multi-agent (LLM-MA) systemen tonen veelbelovende resultaten, maar er blijven aanzienlijke uitdagingen bestaan bij het beheren van communicatie en verfijning wanneer agenten samenwerken aan complexe taken. In dit artikel stellen we Talk Structurally, Act Hierarchically (TalkHier) voor, een nieuw raamwerk dat een gestructureerd communicatieprotocol introduceert voor contextrijke uitwisselingen en een hiërarchisch verfijningssysteem om problemen zoals onjuiste uitvoer, onwaarheden en vooroordelen aan te pakken. TalkHier overtreft verschillende soorten SoTA, waaronder inferentieschaalmodellen (OpenAI-o1), open-source multi-agent modellen (bijv. AgentVerse), en meerderheidsstemstrategieën op huidige LLM- en single-agent baselines (bijv. ReAct, GPT4o), over diverse taken, waaronder open-domeinvraagbeantwoording, domeinspecifieke selectieve vraagstelling, en praktische advertentietekstgeneratie. Deze resultaten benadrukken het potentieel om een nieuwe standaard te zetten voor LLM-MA systemen, waardoor effectievere, aanpasbare en collaboratieve multi-agent raamwerken mogelijk worden. De code is beschikbaar op https://github.com/sony/talkhier.
Recente successen in grote multimodale modellen (LMMs) hebben veelbelovende toepassingen mogelijk gemaakt van agents die complexe webtaken autonoom kunnen uitvoeren. Hoewel open-source LMM-agents aanzienlijke vooruitgang hebben geboekt in offline evaluatiebenchmarks, blijft hun prestatieniveau aanzienlijk achter bij menselijke capaciteiten in meer realistische online omgevingen. Een belangrijk knelpunt is het gebrek aan diverse en grootschalige trajectniveau-datasets over verschillende domeinen, die kostbaar zijn om te verzamelen. In dit artikel pakken we deze uitdaging aan door een schaalbare methode te ontwikkelen om de grootste en meest diverse trajectniveau-dataset tot nu toe te synthetiseren, met meer dan 94K succesvolle multimodale webtrajecten, verspreid over 49K unieke URL's, 720K schermafbeeldingen en 33M webelementen. In het bijzonder maken we gebruik van uitgebreide webverkenning en -verfijning om diverse taakintenties te verkrijgen. De gemiddelde kosten bedragen 28 cent per succesvol traject, wat het betaalbaar maakt voor een breed scala aan gebruikers in de gemeenschap. Met behulp van deze dataset trainen we Explorer, een multimodale webagent, en demonstreren we sterke prestaties op zowel offline als online webagent-benchmarks zoals Mind2Web-Live, Multimodal-Mind2Web en MiniWob++. Daarnaast benadrukken onze experimenten dat dataschaling een cruciale drijfveer is voor het verbeteren van de capaciteiten van webagents. We hopen dat deze studie onderzoek naar state-of-the-art LMM-gebaseerde agents op grotere schaal toegankelijker maakt.
Ondanks bijna perfecte resultaten in kunstmatige evaluaties, blijft de effectiviteit van modelbewerking in real-world toepassingen onontgonnen. Om deze kloof te overbruggen, stellen we voor om modelbewerking in vraag-antwoord (QA) te bestuderen door een rigoureuze evaluatiepraktijk op te zetten om de effectiviteit van bewerkingsmethoden te beoordelen bij het corrigeren van fouten in grote taalmodellen (LLMs). Dit bestaat uit QAEdit, een nieuwe benchmark afgeleid van populaire QA-datasets, en een gestandaardiseerd evaluatiekader. Onze experimenten met enkele bewerkingen tonen aan dat huidige bewerkingsmethoden aanzienlijk slechter presteren dan eerder gerapporteerd (38,5% vs. ~96%). Door module-analyse en gecontroleerde experimenten laten we zien dat deze prestatieafname voortkomt uit problemen in de evaluatiepraktijken van eerder bewerkingsonderzoek. Een belangrijk probleem is het onjuiste gebruik van teacher forcing tijdens het testen, wat foutpropagatie voorkomt door grondwaarheidstokens (ontoegankelijk in real-world scenario's) als invoer te gebruiken. Bovendien simuleren we real-world implementatie door sequentiële bewerkingen, wat aantoont dat huidige benaderingen drastisch falen na slechts 1000 bewerkingen. Onze analyse biedt een fundamentele herziening van zowel de real-world toepasbaarheid van bestaande modelbewerkingsmethoden als hun evaluatiepraktijken, en stelt een rigoureus evaluatiekader op met belangrijke inzichten om betrouwbaar en praktisch modelbewerkingsonderzoek te bevorderen.
Grote taalmodellen (LLM's) hebben opmerkelijke capaciteiten aangetoond in codegerelateerde taken, zoals codebegrip en codegeneratie. Echter, een even belangrijke maar onderbelichte vraag is of LLM's kunnen dienen als algemene surrogaatcode-uitvoerders, om de output en het gedrag van een programma te voorspellen zonder het daadwerkelijk uit te voeren. Om deze capaciteit systematisch te onderzoeken, introduceren we SURGE, een uitgebreide benchmark die acht belangrijke aspecten bestrijkt: meertalige programmeertaken, programmeerproblemen op competitieniveau, codeanalyse op repositoryniveau, kostbare wetenschappelijke berekeningen, algoritmen met tijdscomplexiteit, analyse van buggy code, programma's afhankelijk van specifieke compilers of uitvoeringsomgevingen, en formele wiskundige bewijsverificatie. We evalueren meerdere open-source en gepatenteerde LLM's op SURGE en voeren een schalingsstudie uit om de impact van modelgrootte en trainingsdataschaal op de nauwkeurigheid van surrogaatuitvoering te analyseren. Daarnaast categoriseren we modelvoorspellingsfouten en verkennen we mogelijke verbeteringsgebieden. Onze bevindingen geven aan dat hoewel LLM's code-uitvoerresultaten kunnen voorspellen in bepaalde gevallen, ze beperkingen vertonen in algemene surrogaatuitvoering. Deze studie biedt empirische inzichten in de haalbaarheid van het gebruik van LLM's als surrogaatcode-uitvoerders. Code en dataset zijn beschikbaar op https://github.com/Imbernoulli/SURGE.
Met de explosieve groei van 3D-contentcreatie is er een toenemende vraag naar het automatisch omzetten van statische 3D-modellen naar articulatieklare versies die realistische animatie ondersteunen. Traditionele benaderingen zijn sterk afhankelijk van handmatige annotatie, wat zowel tijdrovend als arbeidsintensief is. Bovendien heeft het ontbreken van grootschalige benchmarks de ontwikkeling van op leren gebaseerde oplossingen belemmerd. In dit werk presenteren we MagicArticulate, een effectief framework dat statische 3D-modellen automatisch omzet in articulatieklare assets. Onze belangrijkste bijdragen zijn drievoudig. Ten eerste introduceren we Articulation-XL, een grootschalige benchmark met meer dan 33k 3D-modellen met hoogwaardige articulatieannotaties, zorgvuldig samengesteld uit Objaverse-XL. Ten tweede stellen we een nieuwe skeletgeneratiemethode voor die de taak formuleert als een sequentiemodelleringsprobleem, waarbij een autoregressieve transformer wordt gebruikt om op natuurlijke wijze om te gaan met variërende aantallen botten of gewrichten binnen skeletten en hun inherente afhankelijkheden tussen verschillende 3D-modellen. Ten derde voorspellen we skinning-gewichten met behulp van een functioneel diffusieproces dat volumetrische geodetische afstandspriors tussen vertices en gewrichten incorporeert. Uitgebreide experimenten tonen aan dat MagicArticulate bestaande methoden aanzienlijk overtreft in diverse objectcategorieën, waarbij hoogwaardige articulatie wordt bereikt die realistische animatie mogelijk maakt. Projectpagina: https://chaoyuesong.github.io/MagicArticulate.
Recente ontwikkelingen in redeneeroptimalisatie hebben aanzienlijk bijgedragen aan de mogelijkheden van grote taalmodellen (LLMs), maar bestaande inspanningen om redeneren te verbeteren waren beperkt tot het oplossen van wiskundige problemen en het focussen op visuele grafische invoer, waarbij bredere toepassingen in algemeen video begrip werden verwaarloosd. Dit artikel stelt video-SALMONN-o1 voor, het eerste open-source redeneer-versterkte audiovisuele LLM ontworpen voor algemene videobegripstaken. Om zijn redeneervermogen te verbeteren, ontwikkelen we een redeneer-intensieve dataset met uitdagende audiovisuele vragen met stapsgewijze oplossingen. We stellen ook process direct preference optimization (pDPO) voor, dat contrastieve stapselectie benut om efficiënte stapniveau beloningsmodellering te bereiken die is afgestemd op multimodale invoer. Daarnaast introduceren we RivaBench, de eerste redeneer-intensieve videobegrip benchmark, met meer dan 4.000 hoogwaardige, door experts samengestelde vraag-antwoordparen over scenario's zoals stand-up comedy, academische presentaties en synthetische videodetectie. video-SALMONN-o1 behaalt 3-8% nauwkeurigheidsverbeteringen ten opzichte van de LLaVA-OneVision baseline over verschillende videoredeneer benchmarks. Bovendien behaalt pDPO 6-8% verbeteringen in vergelijking met het model voor begeleid finetunen op RivaBench. Verbeterd redeneren stelt video-SALMONN-o1 in staat tot zero-shot synthetische videodetectiemogelijkheden.
Dit artikel introduceert Model-guidance (MG), een nieuw doel voor het trainen van diffusiemodellen dat het veelgebruikte Classifier-free guidance (CFG) aanpakt en vervangt. Onze innovatieve benadering gaat verder dan het standaard modelleren van alleen de dataverdeling door ook de posterior waarschijnlijkheid van condities te integreren. De voorgestelde techniek vindt zijn oorsprong in het idee van CFG en is eenvoudig maar effectief, waardoor het een plug-and-play module wordt voor bestaande modellen. Onze methode versnelt het trainingsproces aanzienlijk, verdubbelt de inferentiesnelheid en bereikt een uitzonderlijke kwaliteit die gelijkwaardig is aan en zelfs overtreft die van gelijktijdige diffusiemodellen met CFG. Uitgebreide experimenten tonen de effectiviteit, efficiëntie en schaalbaarheid aan op verschillende modellen en datasets. Ten slotte behalen we state-of-the-art prestaties op de ImageNet 256 benchmarks met een FID van 1,34. Onze code is beschikbaar op https://github.com/tzco/Diffusion-wo-CFG.
Grote taalmodellen tonen opmerkelijke capaciteiten op verschillende domeinen, met name in wiskunde en logisch redeneren. Huidige evaluaties negeren echter fysica-gebaseerd redeneren – een complexe taak die fysica-theorieën en beperkingen vereist. Wij presenteren PhysReason, een benchmark van 1.200 problemen bestaande uit kennisgebaseerde (25%) en redeneergebaseerde (75%) problemen, waarbij de laatste zijn onderverdeeld in drie moeilijkheidsniveaus (makkelijk, gemiddeld, moeilijk). Opvallend is dat problemen gemiddeld 8,1 oplossingsstappen vereisen, waarbij moeilijke problemen 15,6 stappen nodig hebben, wat de complexiteit van fysica-gebaseerd redeneren weerspiegelt. Wij stellen het Physics Solution Auto Scoring Framework voor, dat efficiënte antwoordniveau- en uitgebreide stapniveau-evaluaties omvat. Top presterende modellen zoals Deepseek-R1, Gemini-2.0-Flash-Thinking en o3-mini-high halen minder dan 60% bij antwoordniveau-evaluatie, waarbij de prestaties dalen van kennisvragen (75,11%) naar moeilijke problemen (31,95%). Door stapniveau-evaluatie hebben we vier belangrijke knelpunten geïdentificeerd: Toepassing van Fysica Theorieën, Begrip van Fysica Processen, Berekening en Analyse van Fysica Condities. Deze bevindingen positioneren PhysReason als een nieuw en uitgebreid benchmark voor het evalueren van fysica-gebaseerde redeneercapaciteiten in grote taalmodellen. Onze code en data zullen worden gepubliceerd op https:/dxzxy12138.github.io/PhysReason.
Text-to-SQL heeft als doel natuurlijke taalvragen om te zetten in uitvoerbare SQL-query's. Terwijl eerdere benaderingen, zoals skelet-maskerselectie, sterke prestaties hebben aangetoond door vergelijkbare trainingsvoorbeelden op te halen om grote taalmodellen (LLM's) te begeleiden, worstelen ze in real-world scenario's waar dergelijke voorbeelden niet beschikbaar zijn. Om deze beperking te overwinnen, stellen we Self-Augmentation in-context learning with Fine-grained Example selection for Text-to-SQL (SAFE-SQL) voor, een nieuw raamwerk dat SQL-generatie verbetert door zelf-augmented voorbeelden te genereren en filteren. SAFE-SQL vraagt eerst een LLM om meerdere Text-to-SQL-voorbeelden te genereren die relevant zijn voor de testinvoer. Vervolgens filtert SAFE-SQL deze voorbeelden door middel van drie relevantiebeoordelingen, waarbij hoogwaardige in-context leervoorbeelden worden geconstrueerd. Met zelf gegenereerde voorbeelden overtreft SAFE-SQL de vorige zero-shot en few-shot Text-to-SQL-raamwerken, met een hogere uitvoeringsnauwkeurigheid. Opmerkelijk is dat onze aanpak extra prestatieverbeteringen biedt in extra moeilijke en ongeziene scenario's, waar conventionele methoden vaak tekortschieten.
We presenteren Dyve, een dynamische procesverifier die het detecteren van redeneerfouten in grote taalmodellen verbetert door het integreren van snel en langzaam denken, geïnspireerd door Kahneman's Systeemtheorie. Dyve past adaptief onmiddellijke token-level bevestiging (Systeem 1) toe voor eenvoudige stappen en uitgebreide analyse (Systeem 2) voor complexe stappen. Door gebruik te maken van een nieuwe stap-voor-stap consensus-gefilterde procesbewakingstechniek, die Monte Carlo-schatting combineert met op LLM gebaseerde evaluatie, genereert Dyve hoogwaardige begeleidingssignalen uit ruisige data. Experimentele resultaten op ProcessBench en de MATH-dataset bevestigen dat Dyve aanzienlijk beter presteert dan bestaande procesgebaseerde verifiers en de prestaties in Best-of-N instellingen verbetert.
Latente generatieve modellen zijn naar voren gekomen als een toonaangevende aanpak voor hoogwaardige beeldgeneratie. Deze modellen maken gebruik van een auto-encoder om afbeeldingen te comprimeren in een latente ruimte, gevolgd door een generatief model om de latente verdeling te leren. Wij constateren dat bestaande auto-encoders geen equivariantie vertonen ten opzichte van semantiekbehoudende transformaties zoals schaling en rotatie, wat resulteert in complexe latente ruimtes die de generatieve prestaties belemmeren. Om dit aan te pakken, stellen wij EQ-VAE voor, een eenvoudige regularisatiebenadering die equivariantie in de latente ruimte afdwingt, waardoor de complexiteit ervan wordt verminderd zonder de reconstructiekwaliteit te verslechteren. Door vooraf getrainde auto-encoders te finetunen met EQ-VAE, verbeteren we de prestaties van verschillende state-of-the-art generatieve modellen, waaronder DiT, SiT, REPA en MaskGIT, en behalen we een 7x versnelling op DiT-XL/2 met slechts vijf epochs van SD-VAE finetuning. EQ-VAE is compatibel met zowel continue als discrete auto-encoders, waardoor het een veelzijdige verbetering biedt voor een breed scala aan latente generatieve modellen. Projectpagina en code: https://eq-vae.github.io/.
Het benutten van wiskundige Grote Taalmodellen (LLM's) voor bewijsvoering is een fundamenteel onderwerp in LLM's onderzoek. We betogen dat het vermogen van huidige LLM's om uitspraken te bewijzen grotendeels afhankelijk is van of ze het relevante bewijsproces tijdens de training hebben meegemaakt. Deze afhankelijkheid beperkt hun diepere begrip van wiskundige stellingen en gerelateerde concepten. Geïnspireerd door de pedagogische methode van "bewijs door tegenvoorbeelden" die vaak wordt gebruikt in menselijke wiskunde-onderwijs, heeft ons werk tot doel de capaciteit van LLM's om wiskundige redeneringen en bewijzen uit te voeren te verbeteren door middel van tegenvoorbeelden. Specifiek creëren we handmatig een hoogwaardige, universitair niveau wiskundige benchmark, CounterMATH, die LLM's vereist om wiskundige uitspraken te bewijzen door tegenvoorbeelden te geven, en zo hun begrip van wiskundige concepten te beoordelen. Daarnaast ontwikkelen we een data-engineering framework om automatisch trainingsdata te verkrijgen voor verdere modelverbetering. Uitgebreide experimenten en gedetailleerde analyses tonen aan dat CounterMATH uitdagend is, wat aangeeft dat LLM's, zoals OpenAI o1, onvoldoende capaciteiten hebben voor bewijsvoering op basis van tegenvoorbeelden. Bovendien onthult ons onderzoek naar modeltraining dat het versterken van de op tegenvoorbeelden gebaseerde conceptuele redeneervaardigheden van LLM's cruciaal is voor het verbeteren van hun algehele wiskundige capaciteiten. Wij geloven dat ons werk nieuwe perspectieven biedt binnen de gemeenschap van wiskundige LLM's.
Bestaande taalmodellen hebben moeite met bewijsgericht programmeren vanwege een gebrek aan gegevens, wat zich op twee belangrijke manieren manifesteert: (1) een gebrek aan voldoende corpora voor bewijsgerichte programmeertalen zoals F*, en (2) het ontbreken van grootschalige, op projectniveau bewijsgerichte implementaties die het model kunnen leren het complexe redeneerproces uit te voeren bij bewijsgericht programmeren. We presenteren de eerste aanpak voor synthetische gegevensvermeerdering voor projectniveau bewijsgericht programmeren voor zowel generatie als reparatie. Onze methode pakt het gebrek aan gegevens aan door basisbewijsgerichte programmeerproblemen te synthetiseren voor bekwaamheid in die taal; het opnemen van diverse codeergegevens voor het oproepen van redeneervermogen en het creëren van nieuwe bewijzen en reparatiegegevens binnen bestaande repositories. Deze aanpak stelt taalmodellen in staat zowel bewijzen te synthetiseren als te repareren voor code op functie- en repositoryniveau. We tonen aan dat ons fijn afgestelde model met 14B parameters, PoPilot, de prestaties van de modellen die GPT-4o overtreffen in projectniveau bewijsgericht programmeren met 64% relatieve marge kan overtreffen, en de prestaties van GPT-4o met 54% kan verbeteren door de uitvoer ervan te repareren ten opzichte van de zelfreparatie van GPT-4o.
Massieve hoogwaardige data, zowel ruwe teksten voor pre-training als annotaties voor post-training, zijn zorgvuldig voorbereid om geavanceerde grote taalmodellen (LLM's) te ontwikkelen. In tegenstelling tot informatie-extractie (IE) zijn pre-training data, zoals BIO-getagde sequenties, moeilijk op te schalen. We laten zien dat IE-modellen kunnen profiteren van LLM-bronnen door de volgende-token voorspelling te herformuleren naar extractie van tokens die al in de context aanwezig zijn. Specifiek leert ons voorgestelde paradigma voor het extraheren van volgende tokens (NTE) een veelzijdig IE-model, Cuckoo, met 102,6 miljoen extractieve data omgezet van LLM's pre-training en post-training data. Onder de few-shot instelling past Cuckoo zich effectief aan traditionele en complexe instructievolgende IE aan met betere prestaties dan bestaande vooraf getrainde IE-modellen. Als free rider kan Cuckoo zich natuurlijk ontwikkelen met de voortdurende vooruitgang in de voorbereiding van LLM-data, profiterend van verbeteringen in LLM-trainingspipelines zonder extra handmatige inspanning.
Geheugen is cruciaal om agents in staat te stellen complexe taken met temporele en ruimtelijke afhankelijkheden aan te pakken. Hoewel veel reinforcement learning (RL)-algoritmen geheugen incorporeren, ontbreekt het veld aan een universele benchmark om de geheugencapaciteiten van een agent in diverse scenario's te beoordelen. Deze leemte is vooral duidelijk in tafelrobotmanipulatie, waar geheugen essentieel is voor het oplossen van taken met gedeeltelijke observeerbaarheid en het waarborgen van robuuste prestaties, maar waar geen gestandaardiseerde benchmarks bestaan. Om dit aan te pakken, introduceren we MIKASA (Memory-Intensive Skills Assessment Suite for Agents), een uitgebreide benchmark voor geheugen-RL, met drie belangrijke bijdragen: (1) we stellen een uitgebreid classificatiekader voor geheugenintensieve RL-taken voor, (2) we verzamelen MIKASA-Base - een uniforme benchmark die systematische evaluatie van geheugenversterkte agents in diverse scenario's mogelijk maakt, en (3) we ontwikkelen MIKASA-Robo - een nieuwe benchmark van 32 zorgvuldig ontworpen geheugenintensieve taken die geheugencapaciteiten in tafelrobotmanipulatie beoordelen. Onze bijdragen vormen een uniform kader voor het bevorderen van onderzoek naar geheugen-RL, wat de ontwikkeling van betrouwbaardere systemen voor real-world toepassingen stimuleert. De code is beschikbaar op https://sites.google.com/view/memorybenchrobots/.
Grote Taalmodellen (LLM's) met API-aanroepmogelijkheden hebben het mogelijk gemaakt effectieve Taalagenten (LA) te ontwikkelen, terwijl ze tegelijkertijd het conventionele taakgerichte dialoogparadigma (TOD) hebben gerevolutioneerd. Huidige benaderingen staan echter voor een cruciaal dilemma: TOD-systemen worden vaak getraind op een beperkte set doel-API's, waardoor nieuwe data nodig is om hun kwaliteit te behouden bij het werken met nieuwe services, terwijl LA's niet zijn getraind om gebruikersintentie te behouden over meerdere dialoogbeurten. Omdat zowel robuust beheer van meerdere beurten als geavanceerde functieaanroepen cruciaal zijn voor effectieve conversatieagenten, evalueren we deze vaardigheden op drie populaire benchmarks: MultiWOZ 2.4 (TOD), BFCL V3 (LA) en API-Bank (LA). Onze analyses tonen aan dat gespecialiseerde benaderingen uitblinken in één domein, maar onderpresteren in het andere. Om deze kloof te overbruggen, introduceren we CALM (Conversational Agentic Language Model), een geïntegreerde aanpak die zowel conversatie- als agentische capaciteiten combineert. We hebben CALM-IT ontwikkeld, een zorgvuldig samengestelde multi-task dataset die meerdere beurten van ReAct-redenering verweeft met complex API-gebruik. Met CALM-IT trainen we drie modellen: CALM 8B, CALM 70B en CALM 405B, die alle drie de benchmarks overtreffen, inclusief GPT-4o, en daarmee de toonaangevende domeinspecifieke modellen overstijgen.
Dit werk introduceert ILIAS, een nieuwe testdataset voor Instance-Level Image Retrieval At Scale. Het is ontworpen om het vermogen van huidige en toekomstige foundationmodellen en retrievetechnieken om specifieke objecten te herkennen te evalueren. De belangrijkste voordelen ten opzichte van bestaande datasets zijn de grote schaal, domeindiversiteit, nauwkeurige grondwaarheid en een prestatie die ver verwijderd is van verzadiging. ILIAS bevat query- en positieve afbeeldingen voor 1.000 objectinstanties, handmatig verzameld om uitdagende omstandigheden en diverse domeinen vast te leggen. Grootschalige retrieval wordt uitgevoerd tegen 100 miljoen afleidende afbeeldingen uit YFCC100M. Om valse negatieven te voorkomen zonder extra annotatie-inspanning, nemen we alleen queryobjecten op waarvan is bevestigd dat ze na 2014 zijn ontstaan, d.w.z. de compilatiedatum van YFCC100M. Er wordt uitgebreide benchmarking uitgevoerd met de volgende observaties: i) modellen die zijn afgestemd op specifieke domeinen, zoals bezienswaardigheden of producten, presteren uitstekend in dat domein maar falen op ILIAS ii) het leren van een lineaire aanpassingslaag met behulp van multi-domein klasse-supervisie resulteert in prestatieverbeteringen, vooral voor vision-language modellen iii) lokale descriptors in retrieval herrangschikking blijven een sleutelelement, vooral in aanwezigheid van ernstige achtergrondverwarring iv) de tekst-naar-afbeelding prestatie van de vision-language foundationmodellen verrassend dicht bij het corresponderende afbeelding-naar-afbeelding geval ligt. website: https://vrg.fel.cvut.cz/ilias/
De alomtegenwoordigheid van grote taalmodelen en generatieve AI in online media heeft de behoefte aan effectieve geautomatiseerde feitencontrole vergroot om factcheckers te ondersteunen bij het aanpakken van de toenemende hoeveelheid en verfijning van desinformatie. De complexe aard van feitencontrole vereist dat geautomatiseerde feitencontrolesystemen uitleg bieden die factcheckers in staat stellen hun uitkomsten te beoordelen. Het is echter onduidelijk hoe deze uitleg moet aansluiten bij de besluitvormings- en redeneerprocessen van factcheckers om effectief in hun workflows te worden geïntegreerd. Door middel van semi-gestructureerde interviews met professionele factcheckers overbruggen we deze kloof door: (i) inzicht te bieden in hoe factcheckers bewijs beoordelen, beslissingen nemen en hun processen uitleggen; (ii) te onderzoeken hoe factcheckers in de praktijk geautomatiseerde tools gebruiken; en (iii) de uitlegbehoeften van factcheckers voor geautomatiseerde feitencontroletools te identificeren. De bevindingen tonen onvervulde uitlegbehoeften aan en identificeren belangrijke criteria voor reproduceerbare feitencontrole-uitleg die het redeneerpad van het model traceren, specifiek bewijs refereren, en onzekerheid en informatiehiaten benadrukken.
Dit artikel onderzoekt de wiskundige redeneervaardigheden van grote taalmmodellen (LLMs) aan de hand van 50 nieuw geconstrueerde woordproblemen op middelbareschoolniveau. In tegenstelling tot eerdere studies die zich uitsluitend richten op de juistheid van antwoorden, analyseren wij zowel de eindantwoorden als de oplossingsstappen grondig om redeneerfouten te identificeren. Door acht state-of-the-art modellen te evalueren - waaronder Mixtral, Llama, Gemini, GPT-4o en OpenAI's o1-varianten - constateren we dat hoewel nieuwere modellen (bijv. o3-mini, deepseek-r1) een hogere nauwkeurigheid behalen, alle modellen fouten vertonen in ruimtelijk redeneren, strategische planning en rekenkunde, waarbij soms correcte antwoorden worden geproduceerd via gebrekkige logica. Veelvoorkomende foutmodi zijn onder meer ongegronde aannames, overmatige afhankelijkheid van numerieke patronen en moeite met het vertalen van fysieke intuïtie naar wiskundige stappen. Handmatige analyse toont aan dat modellen moeite hebben met problemen die multi-staps deductie of kennis van de echte wereld vereisen, ondanks hun brede wiskundige kennis. Onze resultaten benadrukken het belang van het evalueren van redeneerprocessen, niet alleen antwoorden, en waarschuwen tegen het overschatten van de probleemoplossende vaardigheden van LLMs. De studie belicht aanhoudende hiaten in de generalisatievermogens van LLMs en benadrukt de noodzaak van gerichte verbeteringen in gestructureerd redeneren en het omgaan met beperkingen.
Dit artikel daagt het recente paradigma in de voorspelling van atomaire eigenschappen uit, dat vooruitgang koppelt aan groeiende datasetgroottes en rekenbronnen. We tonen aan dat vooraf trainen op een zorgvuldig geselecteerde, taakrelevante dataset de prestaties van grootschalige vooraf training kan evenaren of zelfs overtreffen, terwijl slechts 1/24e van de rekenkosten wordt gebruikt. We introduceren de Chemical Similarity Index (CSI), een nieuwe metriek geïnspireerd op de Fréchet Inception Distance uit de computer vision, voor moleculaire grafieken die de afstemming tussen upstream vooraf trainingsdatasets en downstream taken kwantificeert. Door de meest relevante dataset met minimale CSI-afstand te selecteren, laten we zien dat modellen die vooraf zijn getraind op een kleinere, gerichte dataset consistent beter presteren dan die getraind op enorme, gemengde datasets zoals JMP, zelfs wanneer die grotere datasets de relevante dataset omvatten. Contra-intuïtief vinden we ook dat het ongericht toevoegen van meer data de modelprestaties kan verslechteren wanneer de extra data slecht aansluit bij de taak. Onze bevindingen benadrukken dat kwaliteit vaak superieur is aan kwantiteit bij vooraf trainen voor de voorspelling van atomaire eigenschappen.
Influence-functies bieden cruciale inzichten in modeltraining, maar bestaande methoden kampen met hoge rekenkosten en beperkte generalisatie. Met name recente werken hebben diverse metrieken en algoritmen voorgesteld om de invloed van data te berekenen met behulp van taalmodellen, die niet goed schalen met grote modellen en datasets. Dit komt door de dure voorwaartse en achterwaartse passes die nodig zijn voor de berekening, de aanzienlijke geheugenvereisten voor het opslaan van grote modellen, en de slechte generalisatie van invloedschattingen naar nieuwe data. In dit artikel onderzoeken we het gebruik van kleine neurale netwerken – die we de InfluenceNetwork noemen – om invloedswaarden te schatten, wat tot 99% kostenreductie oplevert. Onze evaluatie toont aan dat invloedswaarden kunnen worden geschat met modellen die slechts 0,0027% van de grootte van volledige taalmodellen beslaan (we gebruiken 7B en 8B versies). We passen ons algoritme voor het schatten van invloedswaarden (genaamd NN-CIFT: Neural Networks for effiCient Instruction Fine-Tuning) toe op de downstreamtaak van subsetselectie voor algemene instructie-finetuning. In onze studie nemen we vier state-of-the-art influence-functies op en tonen we aan dat er geen compromis in prestaties is, ondanks grote snelheidswinsten, tussen NN-CIFT en de originele influence-functies. We bieden een diepgaande hyperparameteranalyse van NN-CIFT. De code voor onze methode is hier te vinden: https://github.com/agarwalishika/NN-CIFT.
Ondanks hun opmerkelijke capaciteiten leren grote taalmmodellen (LLMs) woordrepresentaties die het ongewenste maar slecht begrepen kenmerk van anisotropie vertonen. In dit artikel beargumenteren we dat het tweede moment in Adam een oorzaak is van anisotrope embeddings, en stellen we een aangepaste optimizer genaamd Coupled Adam voor om het probleem te verlichten. Onze experimenten tonen aan dat Coupled Adam de kwaliteit van embeddings aanzienlijk verbetert, terwijl het ook leidt tot betere prestaties in zowel upstream- als downstreamtaken op voldoende grote datasets.
Grote Taalmodellen (LLMs) hebben aanzienlijke vooruitgang geboekt in natuurlijke taalgeneratie, maar worden vaak geconfronteerd met uitdagingen bij taken die precieze berekeningen en structurele analyse vereisen. Dit artikel onderzoekt de prestaties van state-of-the-art LLMs bij taken voor het meten van taalcomplexiteit, door de berekening van de LIX-leesbaarheidsmetriek en de Gemiddelde Afhankelijkheidsafstand (ADD). Met behulp van Zweedse essays op middelbare school- en universitair niveau evalueren we het vermogen van de modellen om LIX-scores te berekenen en afhankelijkheidsparsing uit te voeren, waarbij we hun resultaten vergelijken met gevestigde grondwaarden. Onze bevindingen tonen aan dat, hoewel alle modellen enig vermogen voor deze taken vertonen, ChatGPT-o1-mini het meest consistent presteert en de hoogste nauwkeurigheid bereikt bij zowel de LIX-berekening als de afhankelijkheidsparsing. Daarnaast observeren we een sterke significante correlatie van -0,875 p 0,026 (N=6) tussen de nauwkeurigheid van de modellen bij het berekenen van LIX en hun algehele prestaties op de Massive Multitask Language Understanding (MMLU) benchmark. Deze resultaten suggereren dat het vermogen om taalcomplexiteit te meten kan dienen als een ruwe zero-shot proxy voor het beoordelen van de algemene capaciteiten van LLMs, wat een praktische methode biedt voor model evaluatie zonder de noodzaak van uitgebreide benchmarkdatasets.
Het detecteren van teksten die gegenereerd zijn door Large Language Models (LLMs) kan ernstige fouten veroorzaken door incorrecte beslissingen, zoals het ondermijnen van de academische waardigheid van studenten. LLM-tekstdetectie moet daarom de interpreteerbaarheid van de beslissing waarborgen, wat gebruikers kan helpen beoordelen hoe betrouwbaar correct de voorspelling is. Wanneer mensen verifiëren of een tekst door een mens is geschreven of door een LLM is gegenereerd, onderzoeken ze intuïtief met welke van de twee deze meer vergelijkbare fragmenten deelt. Bestaande interpreteerbare detectoren zijn echter niet afgestemd op het menselijke besluitvormingsproces en bieden geen bewijs dat gebruikers gemakkelijk kunnen begrijpen. Om deze kloof te overbruggen, introduceren we ExaGPT, een interpreteerbare detectiebenadering die gebaseerd is op het menselijke besluitvormingsproces voor het verifiëren van de oorsprong van een tekst. ExaGPT identificeert een tekst door te controleren of deze meer vergelijkbare fragmenten deelt met door mensen geschreven teksten dan met door LLM gegenereerde teksten uit een datastore. Deze benadering kan voor elk fragment in de tekst vergelijkbare fragmentvoorbeelden bieden die bijdragen aan de beslissing als bewijs. Onze menselijke evaluatie toont aan dat het verstrekken van vergelijkbare fragmentvoorbeelden effectiever bijdraagt aan het beoordelen van de juistheid van de beslissing dan bestaande interpreteerbare methoden. Bovendien tonen uitgebreide experimenten in vier domeinen en met drie generatoren aan dat ExaGPT aanzienlijk beter presteert dan eerdere krachtige detectoren, met een verbetering van tot wel +40,9 punten in nauwkeurigheid bij een vals-positief percentage van 1%.