Dagelijks geselecteerde AI onderzoekspapers met vertalingen
In dit werk introduceren we Reinforcement Pre-Training (RPT) als een nieuwe schaalparadigma voor grote taalmodelen en reinforcement learning (RL). Specifiek herformuleren we next-token voorspelling als een redeneertaak die wordt getraind met RL, waarbij het verifieerbare beloningen ontvangt voor het correct voorspellen van het volgende token voor een gegeven context. RPT biedt een schaalbare methode om grote hoeveelheden tekstdata te benutten voor algemeen RL, in plaats van te vertrouwen op domeinspecifieke geannoteerde antwoorden. Door het vermogen tot next-token redeneren te stimuleren, verbetert RPT de nauwkeurigheid van taalmodelen bij het voorspellen van volgende tokens aanzienlijk. Bovendien biedt RPT een sterke voorgetrainde basis voor verdere reinforcement fine-tuning. De schaalcurven laten zien dat meer trainingscompute consistent leidt tot een hogere nauwkeurigheid bij next-token voorspelling. De resultaten positioneren RPT als een effectief en veelbelovend schaalparadigma om de voorbereiding van taalmodelen verder te bevorderen.
Multimodale Large Language Models (MLLMs) hebben indrukwekkende capaciteiten getoond in het begrijpen van algemene visuele elementen, grotendeels dankzij hun grootschalige datasets en geavanceerde trainingsstrategieën. Hun effectiviteit in medische toepassingen blijft echter beperkt vanwege de inherente verschillen tussen data en taken in medische scenario's en die in het algemene domein. Concreet worden bestaande medische MLLMs geconfronteerd met de volgende kritieke beperkingen: (1) beperkte dekking van medische kennis buiten beeldvorming, (2) verhoogde vatbaarheid voor hallucinaties door suboptimale datacuratieprocessen, (3) gebrek aan redeneervaardigheden die zijn afgestemd op complexe medische scenario's. Om deze uitdagingen aan te pakken, stellen we eerst een uitgebreide datacuratieprocedure voor die (1) efficiënt rijke medische kennisdata verkrijgt, niet alleen uit medische beeldvorming maar ook uit uitgebreide medische teksten en algemene domeindata; en (2) nauwkeurige medische bijschriften, visuele vraag-antwoord (VQA) en redeneervoorbeelden synthetiseert. Als resultaat bouwen we een multimodale dataset die is verrijkt met uitgebreide medische kennis. Op basis van de gecureerde data introduceren we onze medisch gespecialiseerde MLLM: Lingshu. Lingshu ondergaat een meerfasige training om medische expertise in te bedden en zijn taakoplossende capaciteiten geleidelijk te verbeteren. Daarnaast verkennen we voorlopig het potentieel van het toepassen van reinforcement learning met verifieerbare beloningsparadigma's om het medische redeneervermogen van Lingshu te versterken. Bovendien ontwikkelen we MedEvalKit, een geïntegreerd evaluatieraamwerk dat toonaangevende multimodale en tekstuele medische benchmarks consolideert voor gestandaardiseerde, eerlijke en efficiënte modelbeoordeling. We evalueren de prestaties van Lingshu op drie fundamentele medische taken: multimodale QA, tekstgebaseerde QA en het genereren van medische rapporten. De resultaten tonen aan dat Lingshu consistent beter presteert dan de bestaande open-source multimodale modellen bij de meeste taken ...
Dit artikel introduceert MiniCPM4, een zeer efficiënt groot taalmodel (LLM) dat specifiek is ontworpen voor eindapparaten. We bereiken deze efficiëntie door systematische innovatie op vier belangrijke dimensies: modelarchitectuur, trainingsdata, trainingsalgoritmen en inferentiesystemen. Specifiek stellen we, wat betreft modelarchitectuur, InfLLM v2 voor, een trainbaar sparse attention-mechanisme dat zowel de prefilling- als decoderingfasen versnelt voor lange-contextverwerking. Wat betreft trainingsdata introduceren we UltraClean, een efficiënte en nauwkeurige strategie voor het filteren en genereren van pre-trainingsdata, en UltraChat v2, een uitgebreide dataset voor supervised fine-tuning. Deze datasets maken het mogelijk om bevredigende modelprestaties te bereiken met slechts 8 biljoen trainings-tokens. Wat betreft trainingsalgoritmen stellen we ModelTunnel v2 voor voor efficiënte pre-trainingsstrategiezoektochten, en verbeteren we bestaande post-trainingsmethoden door chunk-wise rollout in te voeren voor load-balanced reinforcement learning en data-efficiënt ternair LLM, BitCPM. Wat betreft inferentiesystemen introduceren we CPM.cu, dat sparse attention, modelkwantisatie en speculatieve sampling integreert om efficiënte prefilling en decodering te bereiken. Om aan diverse on-device-eisen te voldoen, is MiniCPM4 beschikbaar in twee versies, met respectievelijk 0,5B en 8B parameters. Uitgebreide evaluatieresultaten tonen aan dat MiniCPM4 open-source modellen van vergelijkbare grootte overtreft op meerdere benchmarks, wat zowel de efficiëntie als effectiviteit benadrukt. Opmerkelijk is dat MiniCPM4-8B aanzienlijke snelheidsverbeteringen laat zien ten opzichte van Qwen3-8B bij het verwerken van lange sequenties. Door verdere aanpassing maakt MiniCPM4 diverse toepassingen mogelijk, waaronder het genereren van betrouwbare enquêtes en toolgebruik met modelcontextprotocol, wat duidelijk de brede bruikbaarheid aantoont.
Bestaand onderzoek naar veiligheidsborging heeft zich voornamelijk gericht op uitlijningsmethoden tijdens de trainingsfase om veilig gedrag in grote taalmodellen (LLMs) in te bouwen. Recente studies hebben echter aangetoond dat deze methoden kwetsbaar zijn voor diverse jailbreak-aanvallen. Tegelijkertijd heeft schaling tijdens de inferentie de redeneervaardigheden van LLMs aanzienlijk verbeterd, maar blijft dit onontgonnen terrein in de context van veiligheidsborging. Om deze kloof te dichten, pionieren wij met schaling tijdens de inferentie voor robuuste en effectieve veiligheid van LLMs tegen opkomende bedreigingen. Wij laten zien dat conventionele inferentieschalingsmethoden, ondanks hun succes in redeneertaken, slecht presteren in veiligheidscontexten en zelfs onderdoen voor basale benaderingen zoals Best-of-N Sampling. Wij schrijven deze inefficiëntie toe aan een nieuw geïdentificeerd probleem, het exploratie-efficiëntiedilemma, dat ontstaat door de hoge computationele overhead die gepaard gaat met frequente evaluaties van procesbeloningsmodellen (PRMs). Om dit dilemma te overwinnen, stellen wij SAFFRON voor, een nieuw inferentieschalingsparadigma dat specifiek is toegesneden op veiligheidsborging. Centraal in onze aanpak staat de introductie van een multifurcatiebeloningsmodel (MRM) dat het aantal vereiste beloningsmodelevaluaties aanzienlijk reduceert. Om dit paradigma operationeel te maken, stellen wij verder voor: (i) een trainingsdoel met gedeeltelijk toezicht voor het MRM, (ii) een conservatieve exploratiebeperking om out-of-distribution exploraties te voorkomen, en (iii) een Trie-gebaseerde sleutel-waardecachestrategie die cache-deling tussen sequenties tijdens boomzoekacties mogelijk maakt. Uitgebreide experimenten valideren de effectiviteit van onze methode. Daarnaast maken wij ons getrainde multifurcatiebeloningsmodel (Saffron-1) en het bijbehorende token-level veiligheidsbeloningsdataset (Safety4M) publiekelijk beschikbaar om toekomstig onderzoek naar LLM-veiligheid te versnellen. Onze code, model en data zijn publiekelijk beschikbaar op https://github.com/q-rz/saffron, en onze projectpagina is te vinden op https://q-rz.github.io/p/saffron.
Text-to-image (T2I)-modellen hebben aanzienlijke aandacht gekregen voor het genereren van hoogwaardige afbeeldingen die aansluiten bij tekstprompts. De snelle vooruitgang in T2I-modellen heeft echter beperkingen blootgelegd in vroege benchmarks, die geen uitgebreide evaluaties bevatten, zoals de evaluatie van redenering, tekstweergave en stijl. Opmerkelijk is dat recente state-of-the-art modellen, met hun rijke kennismodelleringscapaciteiten, veelbelovende resultaten laten zien bij afbeeldingsgeneratieproblemen die een sterke redeneervaardigheid vereisen, maar bestaande evaluatiesystemen hebben deze grens nog niet voldoende aangepakt. Om deze hiaten systematisch aan te pakken, introduceren we OneIG-Bench, een zorgvuldig ontworpen, uitgebreid benchmarkraamwerk voor gedetailleerde evaluatie van T2I-modellen op meerdere dimensies, waaronder prompt-afbeelding-alignment, precisie in tekstweergave, redenering-gegenereerde inhoud, stilisering en diversiteit. Door de evaluatie te structureren, maakt deze benchmark een diepgaande analyse van modelprestaties mogelijk, waardoor onderzoekers en praktijkmensen sterke punten en knelpunten in de volledige pijplijn van afbeeldingsgeneratie kunnen identificeren. Specifiek stelt OneIG-Bench flexibele evaluatie mogelijk door gebruikers toe te staan zich te richten op een specifieke evaluatiesubset. In plaats van afbeeldingen te genereren voor de volledige set prompts, kunnen gebruikers afbeeldingen genereren voor alleen de prompts die zijn gekoppeld aan de geselecteerde dimensie en de bijbehorende evaluatie dienovereenkomstig voltooien. Onze codebase en dataset zijn nu publiekelijk beschikbaar om reproduceerbare evaluatiestudies en kruismodelvergelijkingen binnen de T2I-onderzoeksgemeenschap te vergemakkelijken.
SpatialLM is een groot taalmodel dat is ontworpen om 3D-puntenwolkgegevens te verwerken en gestructureerde 3D-scènebegripuitvoer te genereren. Deze uitvoer omvat architectonische elementen zoals muren, deuren, ramen en georiënteerde objectvakken met hun semantische categorieën. In tegenstelling tot eerdere methoden die gebruikmaken van taakspecifieke netwerkontwerpen, houdt ons model zich aan de standaard multimodale LLM-architectuur en wordt het direct afgestemd vanuit open-source LLM's. Om SpatialLM te trainen, verzamelen we een grootschalige, hoogwaardige synthetische dataset bestaande uit de puntenwolken van 12.328 binnenruimtes (54.778 kamers) met grondwaarheid 3D-annotaties, en voeren we een zorgvuldige studie uit naar verschillende modellerings- en trainingsbeslissingen. Op openbare benchmarks levert ons model state-of-the-art prestaties in lay-outschatting en competitieve resultaten in 3D-objectdetectie. Hiermee tonen we een haalbare weg aan om de ruimtelijke begripscapaciteiten van moderne LLM's te verbeteren voor toepassingen in augmented reality, belichaamde robotica en meer.
Vision encoders worden steeds vaker gebruikt in moderne toepassingen, van visie-only modellen tot multimodale systemen zoals vision-language modellen. Ondanks hun opmerkelijke succes blijft het onduidelijk hoe deze architecturen kenmerken intern representeren. Hier stellen we een nieuwe benadering voor om visuele kenmerken te interpreteren via beeldreconstructie. We vergelijken twee verwante modelfamilies, SigLIP en SigLIP2, die alleen verschillen in hun trainingsdoelstelling, en laten zien dat encoders die vooraf zijn getraind op beeldgerichte taken aanzienlijk meer beeldinformatie behouden dan die welke zijn getraind op niet-beeldgerichte taken zoals contrastief leren. We passen onze methode verder toe op een reeks vision encoders en rangschikken ze op basis van de informatiewaarde van hun kenmerkrepresentaties. Ten slotte demonstreren we dat het manipuleren van de kenmerkruimte voorspelbare veranderingen in gereconstrueerde beelden oplevert, wat onthult dat orthogonale rotaties (in plaats van ruimtelijke transformaties) de kleurcodering beheersen. Onze benadering kan worden toegepast op elke vision encoder, wat inzicht geeft in de interne structuur van de kenmerkruimte. De code en modelgewichten om de experimenten te reproduceren zijn beschikbaar op GitHub.
Moderne robotnavigatiesystemen ondervinden moeilijkheden in diverse en complexe binnenomgevingen. Traditionele benaderingen vertrouwen op meerdere modules met kleine modellen of op regels gebaseerde systemen en missen daardoor aanpassingsvermogen aan nieuwe omgevingen. Om dit aan te pakken, ontwikkelden we Astra, een uitgebreide dual-modelarchitectuur, Astra-Global en Astra-Local, voor mobiele robotnavigatie. Astra-Global, een multimodaal LLM, verwerkt visuele en taalinvoer om zelf- en doellokalisatie uit te voeren met behulp van een hybride topologisch-semantische grafiek als de globale kaart, en overtreft traditionele methoden voor visuele plaatsherkenning. Astra-Local, een multitasknetwerk, behandelt lokale padplanning en odometrieschatting. De 4D ruimtelijk-temporele encoder, getraind door middel van zelfsupervised learning, genereert robuuste 4D-functies voor downstreamtaken. De planningskop maakt gebruik van flow matching en een nieuwe gemaskeerde ESDF-verliesfunctie om botsingsrisico's te minimaliseren bij het genereren van lokale trajecten, en de odometriekop integreert multi-sensorinvoer via een transformercoder om de relatieve positie van de robot te voorspellen. Geïmplementeerd op echte interne mobiele robots, behaalt Astra een hoge end-to-end missiesuccesratio in diverse binnenomgevingen.
Hidden Markov Models (HMM's) zijn fundamentele hulpmiddelen voor het modelleren van sequentiële data met een latent Markoviaanse structuur, maar het aanpassen ervan aan real-world data blijft computationeel uitdagend. In dit werk tonen we aan dat vooraf getrainde grote taalmodellen (LLM's) effectief data gegenereerd door HMM's kunnen modelleren via in-context learning (ICL) – hun vermogen om patronen af te leiden uit voorbeelden binnen een prompt. Op een diverse set van synthetische HMM's bereiken LLM's een voorspellende nauwkeurigheid die het theoretische optimum benadert. We ontdekken nieuwe schaalingspatronen die worden beïnvloed door eigenschappen van HMM's, en bieden theoretische vermoedens voor deze empirische observaties. We geven ook praktische richtlijnen voor wetenschappers over het gebruik van ICL als een diagnostisch hulpmiddel voor complexe data. Op real-world taken gerelateerd aan dierlijke besluitvorming presteert ICL competitief met modellen ontworpen door menselijke experts. Voor zover wij weten, is dit de eerste demonstratie dat ICL HMM-gegenereerde sequenties kan leren en voorspellen – een vooruitgang die ons begrip van in-context learning in LLM's verdiept en het potentieel ervan bevestigt als een krachtig hulpmiddel voor het ontdekken van verborgen structuren in complexe wetenschappelijke data.
Vision-Language-Action (VLA)-modellen hebben indrukwekkende prestaties getoond bij een breed scala aan robotmanipulatietaken. Hun groeiende modelgrootte brengt echter aanzienlijke uitdagingen met zich mee voor implementatie op robotische systemen met beperkte middelen. Hoewel 1-bit voorafgaande training effectief is gebleken voor het verbeteren van de inferentie-efficiëntie van grote taalmodelen met minimaal prestatieverlies, blijft de toepassing ervan op VLA-modellen onderbelicht. In dit werk presenteren we BitVLA, het eerste 1-bit VLA-model voor robotmanipulatie, waarin elke parameter ternair is, d.w.z. {-1, 0, 1}. Om de geheugenvoetafdruk van de vision-encoder verder te verkleinen, stellen we de distillatiebewuste trainingsstrategie voor, die de encoder met volledige precisie comprimeert tot 1.58-bit gewichten. Tijdens dit proces fungeert een encoder met volledige precisie als een leraarmodel om latente representaties beter uit te lijnen. Ondanks het ontbreken van grootschalige robotica-voorafgaande training, behaalt BitVLA prestaties die vergelijkbaar zijn met het state-of-the-art model OpenVLA-OFT met 4-bit post-training kwantisatie op de LIBERO-benchmark, terwijl slechts 29,8% van het geheugen wordt verbruikt. Deze resultaten onderstrepen de belofte van BitVLA voor implementatie op geheugenbeperkte edge-apparaten. We hebben de code en modelgewichten vrijgegeven op https://github.com/ustcwhy/BitVLA.
Multimodal Diffusion Transformers (MM-DiTs) hebben opmerkelijke vooruitgang geboekt in tekstgestuurde visuele generatie. Toch hebben zelfs state-of-the-art MM-DiT-modellen zoals FLUX moeite met het bereiken van precieze afstemming tussen tekstprompts en gegenereerde inhoud. We identificeren twee belangrijke problemen in het aandachtmechanisme van MM-DiT, namelijk 1) de onderdrukking van cross-modale aandacht door tokenonbalans tussen visuele en tekstuele modaliteiten en 2) het ontbreken van tijdstapbewuste aandachtweging, wat de afstemming belemmert. Om deze problemen aan te pakken, stellen we Temperature-Adjusted Cross-modal Attention (TACA) voor, een parameter-efficiënte methode die multimodale interacties dynamisch herbalanceert door temperatuurschaling en tijdstapafhankelijke aanpassing. In combinatie met LoRA-finetuning verbetert TACA de tekst-beeldafstemming aanzienlijk op de T2I-CompBench-benchmark met minimale rekenkosten. We hebben TACA getest op state-of-the-art modellen zoals FLUX en SD3.5, waarbij we aantoonden dat het de beeld-tekstafstemming kan verbeteren op het gebied van objectverschijning, attribuutbinding en ruimtelijke relaties. Onze bevindingen benadrukken het belang van het balanceren van cross-modale aandacht voor het verbeteren van semantische trouw in tekst-naar-beeld diffusiemodellen. Onze code is publiekelijk beschikbaar op https://github.com/Vchitect/TACA.
Lang keten-van-gedachten (CoT) supervisie is een veelgebruikte strategie geworden om het redeneervermogen van taalmodelen te verbeteren. Hoewel effectief voor grote modellen, identificeren we een fenomeen dat we Lang CoT Degradatie noemen, waarbij kleine taalmodelen (SLMs; <=3B parameters) die getraind zijn op beperkte lange CoT-data, een significante prestatievermindering ervaren. Door uitgebreide experimenten met de Qwen2.5, LLaMA3 en Gemma3 families, tonen we aan dat deze degradatie wijdverspreid is onder SLMs. In sommige gevallen verliezen modellen die getraind zijn op slechts 8k lange CoT-voorbeelden tot wel 75% van hun oorspronkelijke prestaties vóór fine-tuning. Opvallend is dat we verder observeren dat voor sommige bijzonder kleine modellen, zelfs training op 220k lange CoT-voorbeelden niet in staat is om hun oorspronkelijke prestaties vóór fine-tuning te herstellen of te overtreffen. Onze analyse schrijft dit effect toe aan foutaccumulatie: hoewel langere reacties de capaciteit voor meerstapsredenering vergroten, verhogen ze ook het risico op opeenstapelende fouten. Bovendien vinden we dat Lang CoT Degradatie een negatieve impact kan hebben op downstream reinforcement learning (RL), hoewel dit verlicht kan worden door voldoende geschaalde supervised fine-tuning (SFT). Onze bevindingen dagen veelvoorkomende aannames uit over de voordelen van lange CoT-training voor SLMs en bieden praktische richtlijnen voor het bouwen van effectievere kleinschalige redeneermodellen.
We onderzoeken het mechanisme achter een eerder geïdentificeerd fenomeen in Vision Transformers -- het ontstaan van tokens met een hoge norm die leiden tot ruisachtige aandachtspatronen. We observeren dat in meerdere modellen (bijv. CLIP, DINOv2) een beperkte set neuronen verantwoordelijk is voor het concentreren van activaties met een hoge norm op uitschietertokens, wat resulteert in onregelmatige aandachtspatronen en een verslechtering van downstream visuele verwerking. Hoewel de bestaande oplossing voor het verwijderen van deze uitschieters het opnieuw trainen van modellen vanaf nul met aanvullende geleerde registertokens omvat, gebruiken we onze bevindingen om een trainingsvrije aanpak te creëren om deze artefacten te verminderen. Door de activaties met een hoge norm van onze ontdekte registerneuronen te verplaatsen naar een extra ongetrainde token, kunnen we het effect van registertokens nabootsen in een model dat al is getraind zonder registers. We demonstreren dat onze methode schonere aandachtspatronen en kenmerkkaarten produceert, de prestaties verbetert ten opzichte van basismodellen over meerdere downstream visuele taken, en resultaten bereikt die vergelijkbaar zijn met modellen die expliciet zijn getraind met registertokens. Vervolgens breiden we testtijdregisters uit naar kant-en-klare vision-language modellen om hun interpreteerbaarheid te verbeteren. Onze resultaten suggereren dat testtijdregisters effectief de rol van registertokens overnemen tijdens de testtijd, wat een trainingsvrije oplossing biedt voor elk vooraf getraind model dat zonder deze tokens is vrijgegeven.
We introduceren Debattoespraak Evaluatie als een nieuw en uitdagend benchmark voor het beoordelen van LLM-rechters. Het evalueren van debattoespraken vereist een diep begrip van de toespraak op meerdere niveaus, waaronder de sterkte en relevantie van argumenten, de samenhang en organisatie van de toespraak, de geschiktheid van de stijl en toon, enzovoort. Deze taak vereist een unieke set van cognitieve vaardigheden die tot nu toe beperkte aandacht hebben gekregen in systematische LLM- benchmarking. Om dergelijke vaardigheden te onderzoeken, maken we gebruik van een dataset van meer dan 600 nauwkeurig geannoteerde debattoespraken en presenteren we de eerste diepgaande analyse van hoe state-of-the-art LLM's zich verhouden tot menselijke rechters bij deze taak. Onze bevindingen onthullen een genuanceerd beeld: hoewel grotere modellen individuele menselijke oordelen in sommige opzichten kunnen benaderen, verschillen ze aanzienlijk in hun algehele oordeelgedrag. We onderzoeken ook het vermogen van geavanceerde LLM's om overtuigende, geëngageerde toespraken te genereren, en laten zien dat modellen op menselijk niveau kunnen presteren bij deze taak.
Het ontwikkelen van generaliseerbare redeneervaardigheden in multimodale grote taalmodellen (MLLMs) blijft een uitdaging. Geïnspireerd door de cognitieve wetenschap, die suggereert dat gameplay overdraagbare cognitieve vaardigheden bevordert, stellen we een nieuw post-trainingsparadigma voor, Visual Game Learning, oftewel ViGaL, waarbij MLLMs generalisatie van multimodaal redeneren buiten hun domein ontwikkelen door het spelen van arcade-achtige spellen. Specifiek tonen we aan dat het post-trainen van een 7B-parameter MLLM via reinforcement learning (RL) op eenvoudige arcade-achtige spellen, zoals Snake, de prestaties aanzienlijk verbetert op multimodale wiskundige benchmarks zoals MathVista en op multidisciplinaire vragen zoals MMMU, zonder dat er tijdens de RL gewerkte oplossingen, vergelijkingen of diagrammen worden gezien. Dit suggereert dat overdraagbare redeneervaardigheden worden vastgelegd. Opmerkelijk is dat ons model gespecialiseerde modellen die zijn afgestemd op multimodale redeneergegevens, overtreft in multimodale redeneerbenchmarks, terwijl de prestaties van het basismodel op algemene visuele benchmarks behouden blijven – een uitdaging waar gespecialiseerde modellen vaak tekortschieten. Onze bevindingen suggereren een nieuw post-trainingsparadigma: synthetische, op regels gebaseerde spellen kunnen dienen als controleerbare en schaalbare pre-teksttaken die generaliseerbare multimodale redeneervaardigheden in MLLMs ontgrendelen.
Optical Chemical Structure Recognition (OCSR) is essentieel voor het digitaliseren van chemische kennis door moleculaire afbeeldingen om te zetten in machineleesbare formaten. Hoewel recente vision-language-modellen (VLMs) potentieel hebben getoond in deze taak, worstelt hun beeld-bijschriftbenadering vaak met complexe moleculaire structuren en inconsistente annotaties. Om deze uitdagingen te overwinnen, introduceren we GTR-Mol-VLM, een nieuw raamwerk met twee belangrijke innovaties: (1) het Graph Traversal as Visual Chain of Thought-mechanisme dat menselijk redeneren nabootst door moleculaire grafieken stapsgewijs te ontleden via sequentiële atoom-bindingvoorspellingen, en (2) het data-centrische principe van Faithfully Recognize What You've Seen, dat de mismatch aanpakt tussen afgekorte structuren in afbeeldingen en hun uitgebreide annotaties. Om modelontwikkeling te ondersteunen, hebben we GTR-CoT-1.3M geconstrueerd, een grootschalige instructie-afstemmingsdataset met zorgvuldig gecorrigeerde annotaties, en hebben we MolRec-Bench geïntroduceerd, de eerste benchmark ontworpen voor een gedetailleerde evaluatie van grafiek-ontledingsnauwkeurigheid in OCSR. Uitgebreide experimenten tonen aan dat GTR-Mol-VLM superieure resultaten behaalt in vergelijking met gespecialiseerde modellen, chemie-domein VLMs en commerciële algemene VLMs. Opmerkelijk is dat in scenario's met moleculaire afbeeldingen met functionele groepafkortingen, GTR-Mol-VLM de op één na beste baseline met ongeveer 14 procentpunten overtreft, zowel in SMILES-gebaseerde als grafiek-gebaseerde metrieken. We hopen dat dit werk OCSR-technologie zal stimuleren om effectiever aan real-world behoeften te voldoen, waardoor de velden van cheminformatica en AI for Science worden bevorderd. We zullen GTR-CoT vrijgeven op https://github.com/opendatalab/GTR-CoT.
In hoeverre beschikken visie-en-taal foundation-modellen over een realistisch wereldmodel (observatie maal actie → observatie) en een dynamisch model (observatie maal observatie → actie), wanneer acties via taal worden uitgedrukt? Hoewel open-source foundation-modellen moeite hebben met beide, ontdekken we dat het fine-tunen ervan om een dynamisch model te verkrijgen door middel van supervisie aanzienlijk eenvoudiger is dan het verkrijgen van een wereldmodel. Op hun beurt kunnen dynamische modellen worden gebruikt om wereldmodellen te bootstrappen via twee hoofdstrategieën: 1) zwak begeleid leren van synthetische data en 2) verificatie tijdens inferentie. Ten eerste kan het dynamische model acties annoteren voor ongelabelde paren van video-frame-observaties om de trainingsdata uit te breiden. We stellen verder een nieuw doel voor, waarbij beeldtokens in observatieparen worden gewogen op basis van hun belangrijkheid, zoals voorspeld door een herkenningsmodel. Ten tweede kunnen dynamische modellen beloningen toekennen aan meerdere samples van het wereldmodel om ze te scoren, wat effectief de zoektocht tijdens inferentie begeleidt. We evalueren de wereldmodellen die uit beide strategieën voortkomen via de taak van actiegerichte beeldbewerking op Aurora-Bench. Ons beste model behaalt een prestatie die concurreert met state-of-the-art beeldbewerkingsmodellen, en verbetert deze met een marge van 15% op real-world subsets volgens GPT4o-as-judge, en behaalt de beste gemiddelde menselijke evaluatie over alle subsets van Aurora-Bench.
Recente generaties taalmodelen hebben Large Reasoning Models (LRM's) geïntroduceerd die gedetailleerde denkprocessen genereren voordat ze antwoorden geven. Hoewel deze modellen verbeterde prestaties laten zien op redeneerbenchmarks, blijven hun fundamentele capaciteiten, schaaleigenschappen en beperkingen onvoldoende begrepen. Huidige evaluaties richten zich voornamelijk op gevestigde wiskunde- en programmeerbenchmarks, waarbij de nadruk ligt op de nauwkeurigheid van het eindantwoord. Dit evaluatieparadigma lijdt echter vaak aan contaminatie en biedt geen inzicht in de redeneersporen. In dit werk onderzoeken we deze hiaten systematisch met behulp van controleerbare puzzelomgevingen die nauwkeurige manipulatie van complexiteit mogelijk maken terwijl consistente logische structuren behouden blijven. Deze opzet maakt het mogelijk om niet alleen eindantwoorden te analyseren, maar ook de interne redeneersporen, wat inzicht biedt in hoe LRM's denken. Door middel van uitgebreide experimenten tonen we aan dat LRM's een volledige nauwkeurigheidsinstorting ondervinden voorbij bepaalde complexiteiten. Bovendien vertonen ze een contra-intuïtieve schaalbeperking: hun redeneerinspanning neemt toe met de probleemcomplexiteit tot een bepaald punt, waarna deze afneemt ondanks het resterende tokenbudget. Door LRM's te vergelijken met hun standaard LLM-tegenhangers onder dezelfde rekenkracht voor inferentie, identificeren we drie prestatieregimes: (1) taken met lage complexiteit waarbij standaardmodellen beter presteren dan LRM's, (2) taken met gemiddelde complexiteit waarbij LRM's een voordeel laten zien, en (3) taken met hoge complexiteit waarbij beide modellen een volledige instorting ondervinden. We ontdekten dat LRM's beperkingen hebben in exacte berekeningen: ze slagen er niet in expliciete algoritmen te gebruiken en redeneren inconsistent over verschillende schalen. We onderzoeken ook de redeneersporen in meer detail, bestuderen de patronen van verkende oplossingen en analyseren het rekenkundige gedrag van de modellen, wat inzicht biedt in hun sterke punten, beperkingen en vragen oproept over hun redeneercapaciteiten.
Kunnen we grote taalmodellen (LLMs) leren om af te zien van het hallucineren van feitelijke uitspraken? In dit artikel presenteren we een fine-tuningstrategie die we ConfQA noemen, waarmee het hallucinatiepercentage kan worden teruggebracht van 20-40% naar minder dan 5% over meerdere feitelijkheidsbenchmarks. De kernidee is eenvoudig: wanneer het LLM een vraag correct beantwoordt, wordt het getraind om door te gaan met het antwoord; anders wordt het getraind om te zeggen "Ik weet het niet zeker". Maar er zijn twee sleutelfactoren die de training zeer effectief maken. Ten eerste introduceren we een dempende prompt "antwoord alleen als je zeker bent" om het gedrag expliciet te sturen, zonder welke het hallucinatiepercentage hoog blijft, namelijk 15%-25%. Ten tweede maken we gebruik van eenvoudige feitelijke uitspraken, specifiek attribuutwaarden uit kennisgrafieken, om LLMs te helpen het vertrouwen te kalibreren, wat resulteert in robuuste generalisatie over domeinen en vraagtypen. Op basis van dit inzicht stellen we het Dual Neural Knowledge-framework voor, dat naadloos schakelt tussen intern geparametriseerde neurale kennis en extern vastgelegde symbolische kennis op basis van het vertrouwen van ConfQA. Het framework maakt potentiële nauwkeurigheidsverbeteringen mogelijk tot meer dan 95%, terwijl het onnodige externe retrievals met meer dan 30% vermindert.
We introduceren CCI4.0, een grootschalige tweetalige voor-trainingsdataset ontworpen voor superieure data-kwaliteit en diverse mensachtige redeneertrajecten. CCI4.0 beslaat ongeveer 35 TB aan schijfruimte en bestaat uit twee sub-datasets: CCI4.0-M2-Base en CCI4.0-M2-CoT. CCI4.0-M2-Base combineert een zorgvuldig samengesteld Chinees webcorpus van 5,2 TB, een Engelse subset van 22,5 TB uit Nemotron-CC, en diverse bronnen uit wiskunde, wiki, arxiv en code. Hoewel deze data voornamelijk afkomstig zijn uit goed verwerkte datasets, zijn de kwaliteitsstandaarden van verschillende domeinen dynamisch en vereisen ze uitgebreide expertise en arbeid om te verwerken. Daarom stellen we een nieuwe pijplijn voor die de data-kwaliteit rechtvaardigt, voornamelijk gebaseerd op modellen via tweestaps deduplicatie, multiclassifier kwaliteitsscoring en domeinbewuste vlotheidsfiltering. We extraheren 4,5 miljard stukken CoT (Chain-of-Thought) sjablonen, genaamd CCI4.0-M2-CoT. In tegenstelling tot de destillatie van CoT uit grotere modellen, illustreert onze voorgestelde gefaseerde CoT-extractie diverse redeneerpatronen en vermindert het de mogelijkheid van hallucinatie aanzienlijk. Empirische evaluaties tonen aan dat LLM's die zijn voorgetraind op CCI4.0 profiteren van schonere, betrouwbaardere trainingssignalen, wat resulteert in consistente verbeteringen in downstream taken, vooral in wiskunde en codereflectietaken. Onze resultaten benadrukken de cruciale rol van rigoureuze datacuratie en menselijke denksjablonen bij het verbeteren van LLM-prestaties, wat enig inzicht biedt in het automatisch verwerken van voor-trainingscorpora.
Dit artikel introduceert ExpertLongBench, een expertniveau-benchmark die 11 taken uit 9 domeinen bevat en realistische expertworkflows en -toepassingen weerspiegelt. Naast vraag-antwoordtaken vereisen de toepassingsgerichte taken in ExpertLongBench uitgebreide outputs die meer dan 5.000 tokens kunnen omvatten en strikte naleving van domeinspecifieke vereisten. Opmerkelijk is dat elke taak in ExpertLongBench een rubric bevat, ontworpen of gevalideerd door domeinexperts, om de taakvereisten te specificeren en de evaluatie van de output te begeleiden. Verder stellen we CLEAR voor, een evaluatieraamwerk dat nauwkeurige evaluatie van langere modeloutputs in onze benchmark ondersteunt. Om een gedetailleerde, expert-afgestemde evaluatie te bereiken, haalt CLEAR checklisten af van zowel modeloutputs als referenties door informatie te extraheren die overeenkomt met items in de taakspecifieke rubric. Checklistitems voor modeloutputs worden vervolgens vergeleken met overeenkomstige items voor referentie-outputs om hun juistheid te beoordelen, wat een gefundeerde evaluatie mogelijk maakt. We benchmarken 11 grote taalmodelen (LLM's) en analyseren componenten in CLEAR, waarbij we aantonen dat (1) bestaande LLM's, met de beste presteerder die slechts een F1-score van 26,8% behaalt, aanzienlijke verbetering nodig hebben voor taken op expertniveau; (2) modellen inhoud kunnen genereren die overeenkomt met de vereiste aspecten, hoewel vaak niet nauwkeurig; en (3) nauwkeurige extractie en vergelijking van checklisten in CLEAR kan worden bereikt door open-weight modellen voor meer schaalbare en kosteneffectieve toepassingen.
Model immunisatie heeft als doel modellen voor te trainen die moeilijk te finetunen zijn voor schadelijke taken, terwijl hun bruikbaarheid voor andere niet-schadelijke taken behouden blijft. Hoewel eerder werk empirisch bewijs heeft getoond voor het immuniseren van tekst-naar-beeldmodellen, blijft het sleutelbegrip van wanneer immunisatie mogelijk is en een precieze definitie van een geïmmuniseerd model onduidelijk. In dit werk stellen we een raamwerk voor, gebaseerd op het conditiegetal van een Hessiaanse matrix, om modelimmunisatie voor lineaire modellen te analyseren. Op basis van dit raamwerk ontwerpen we een algoritme met regularisatietermen om de resulterende conditiegetallen na de voorafgaande training te beheersen. Empirische resultaten op lineaire modellen en niet-lineaire deep-nets demonstreren de effectiviteit van het voorgestelde algoritme voor modelimmunisatie. De code is beschikbaar op https://github.com/amberyzheng/model-immunization-cond-num.
Multimodale Large Language Models (MLLMs) hebben groot potentieel getoond in het revolutioneren van Graphical User Interface (GUI)-automatisering. Bestaande GUI-modellen zijn echter voornamelijk afhankelijk van het leren van bijna foutloze offline trajecten, waardoor ze reflectie- en foutherstelcapaciteiten missen. Om deze kloof te overbruggen, stellen we GUI-Reflection voor, een nieuw framework dat zelfreflectie en foutcorrectie expliciet integreert in end-to-end multimodale GUI-modellen via specifieke trainingsfasen: GUI-specifieke pre-training, offline supervised fine-tuning (SFT) en online reflectie-tuning. GUI-Reflection maakt het mogelijk om zelfreflectiegedrag te laten ontstaan met volledig geautomatiseerde datageneratie en leerprocessen, zonder menselijke annotatie. Specifiek: 1) We stellen eerst schaalbare datapijplijnen voor om automatisch reflectie- en foutcorrectiedata te construeren uit bestaande succesvolle trajecten. Terwijl bestaande GUI-modellen zich vooral richten op gronding en UI-begrip, introduceren we de GUI-Reflection Task Suite om reflectiegerichte vaardigheden expliciet te leren en te evalueren. 2) Daarnaast hebben we een diverse en efficiënte omgeving gebouwd voor online training en datacollectie van GUI-modellen op mobiele apparaten. 3) We presenteren ook een iteratief online reflectie-tuning algoritme dat gebruikmaakt van de voorgestelde omgeving, waardoor het model zijn reflectie- en foutcorrectiecapaciteiten continu kan verbeteren. Ons framework voorziet GUI-agents van zelfreflectie- en correctiecapaciteiten, wat de weg vrijmaakt voor robuustere, aanpasbaardere en intelligentere GUI-automatisering, waarbij alle data, modellen, omgevingen en tools openbaar worden vrijgegeven.
Grootschalige videogeneratieve modellen kunnen diverse en realistische visuele inhoud synthetiseren voor de creatie van dynamische werelden, maar ze missen vaak elementgewijze bestuurbaarheid, wat hun gebruik bij het bewerken van scènes en het trainen van belichaamde AI-agenten belemmert. Wij stellen Dreamland voor, een hybride wereldgeneratieframework dat de gedetailleerde controle van een op fysica gebaseerde simulator combineert met de fotorealistische inhoudsoutput van grootschalige vooraf getrainde generatieve modellen. In het bijzonder ontwerpen we een gelaagde wereldabstractie die zowel pixel- als objectniveau semantiek en geometrie codeert als een tussenliggende representatie om de simulator en het generatieve model te verbinden. Deze aanpak verbetert de bestuurbaarheid, minimaliseert de aanpassingskosten door vroege afstemming op real-world distributies, en ondersteunt het directe gebruik van bestaande en toekomstige vooraf getrainde generatieve modellen. We construeren verder een D3Sim-dataset om de training en evaluatie van hybride generatiepijplijnen te vergemakkelijken. Experimenten tonen aan dat Dreamland bestaande baseline-methoden overtreft met een 50,8% verbeterde beeldkwaliteit, 17,9% sterkere bestuurbaarheid, en groot potentieel heeft om de training van belichaamde agenten te verbeteren. Code en data zullen beschikbaar worden gesteld.
Grote Taalmodellen (LLMs) moeten worden afgestemd op menselijke voorkeuren om te voorkomen dat ze aanstootgevende, onjuiste of betekenisloze inhoud genereren. Onlangs zijn methoden met weinig middelen voor het afstemmen van LLMs populair geworden, hoewel ze nog steeds uitdagingen ondervinden bij het verkrijgen van zowel hoogwaardige als afgestemde inhoud. Gemotiveerd door de observatie dat de moeilijkheid van het genereren van afgestemde reacties geconcentreerd is aan het begin van het decoderen, stellen we een nieuw raamwerk voor, Weak-to-Strong Decoding (WSD), om het afstemmingsvermogen van basismodellen te verbeteren door de begeleiding van een klein afgestemd model. Het kleine model maakt eerst goed afgestemde beginteksten, waarna het grote basismodel de rest voortzet, gecontroleerd door een goed ontworpen automatisch schakelmechanisme. We verzamelen ook een nieuwe dataset, GenerAlign, om een klein Pilot-3B-model af te stemmen als het conceptmodel, wat verschillende basismodellen onder het WSD-raamwerk effectief verbetert om alle baseline-methoden te overtreffen, terwijl degradatie op downstream taken wordt vermeden, ook wel bekend als de 'alignment tax'. Uitgebreide experimenten worden verder uitgevoerd om de impact van verschillende instellingen en tijdefficiëntie te onderzoeken, evenals diepgaande analyses van de intrinsieke mechanismen van WSD.
Recente oproepen voor pluralistische afstemming van Large Language Models (LLMs) moedigen het aanpassen van modellen aan diverse gebruikersvoorkeuren aan. Het meeste eerdere werk over gepersonaliseerde beloningsmodellen is echter sterk afhankelijk van aanvullende identiteitsinformatie, zoals demografische details of een vooraf gedefinieerde set voorkeurscategorieën. Daarom introduceren wij SynthesizeMe, een benadering om synthetische gebruikerspersona's af te leiden uit gebruikersinteracties voor gepersonaliseerde beloningsmodellering. SynthesizeMe genereert en verifieert eerst redeneringen om gebruikersvoorkeuren te verklaren, leidt vervolgens synthetische gebruikerspersona's af uit die redeneringen, en filtert ten slotte naar informatieve eerdere gebruikersinteracties om gepersonaliseerde prompts voor een specifieke gebruiker te bouwen. Wij tonen aan dat het gebruik van door SynthesizeMe gegenereerde prompts de nauwkeurigheid van gepersonaliseerde LLM-as-a-judge met 4,4% verbetert op Chatbot Arena. Het combineren van door SynthesizeMe afgeleide prompts met een beloningsmodel behaalt de beste prestaties op PersonalRewardBench: een nieuwe curatie van gebruikersgestratificeerde interacties met chatbots, verzameld van 854 gebruikers van Chatbot Arena en PRISM.
Recente ontwikkelingen in LLM's hebben hun inzet als autonome agenten voor een reeks taken mogelijk gemaakt, maar ze blijven moeite hebben met het formuleren en vasthouden van samenhangende langetermijnstrategieën. In dit artikel onderzoeken we of LLM-agenten zichzelf kunnen verbeteren wanneer ze worden geplaatst in omgevingen die hun strategische planningsvaardigheden expliciet uitdagen. Met behulp van het bordspel Kolonisten van Catan, toegankelijk via het open-source Catanatron-framework, benchmarken we een reeks LLM-gebaseerde agenten, van een eenvoudige spelagent tot systemen die in staat zijn om autonoom hun eigen prompts en de code van hun spelagent te herschrijven. We introduceren een multi-agentarchitectuur waarin gespecialiseerde rollen (Analist, Onderzoeker, Programmeur en Speler) samenwerken om iteratief gameplay te analyseren, nieuwe strategieën te onderzoeken en de logica of prompt van de agent aan te passen. Door handmatig gemaakte agenten te vergelijken met agenten die volledig door LLM's zijn geëvolueerd, evalueren we hoe effectief deze systemen falen kunnen diagnosticeren en zich in de loop van de tijd kunnen aanpassen. Onze resultaten tonen aan dat zelf-evoluerende agenten, vooral wanneer ze worden aangedreven door modellen zoals Claude 3.7 en GPT-4o, statische basislijnen overtreffen door autonoom hun strategieën aan te nemen, voorbeeldgedrag door te geven aan spelagenten en adaptief redeneren te demonstreren over meerdere iteraties.
In dit werk behandelen we dynamische viewsynthese vanuit monovideo's als een invers probleem in een trainingsvrije setting. Door de ruisinitialisatiefase van een vooraf getraind videodiffusiemodel te herontwerpen, maken we hoogwaardige dynamische viewsynthese mogelijk zonder gewichtsaanpassingen of aanvullende modules. We beginnen met het identificeren van een fundamenteel obstakel voor deterministische inversie dat voortkomt uit nul-terminale signaal-ruisverhouding (SNR) schema's en lossen dit op door een nieuwe ruisrepresentatie te introduceren, genaamd K-order Recursive Noise Representation. We leiden een gesloten vormexpressie af voor deze representatie, waardoor een precieze en efficiënte afstemming tussen de VAE-gecodeerde en de DDIM-geïnverteerde latenties mogelijk wordt. Om nieuw zichtbare gebieden die ontstaan door camerabeweging te synthetiseren, introduceren we Stochastic Latent Modulation, dat zichtbaarheidsbewuste bemonstering uitvoert over de latente ruimte om verborgen gebieden aan te vullen. Uitgebreide experimenten tonen aan dat dynamische viewsynthese effectief kan worden uitgevoerd door gestructureerde manipulatie van latenties in de ruisinitialisatiefase.
Recente ontwikkelingen in grote taalmodellen (LLMs) en visueel-taalkundige modellen (VLMs) hebben krachtige autonome agents mogelijk gemaakt die in staat zijn tot complex redeneren en het gebruik van multimodale tools. Ondanks hun toenemende mogelijkheden blijven de huidige agentframeworks kwetsbaar, waarbij ze gebrek hebben aan principiële mechanismen voor veilige informatiestromen, betrouwbaarheid en multi-agentcoördinatie. In dit werk introduceren we SAFEFLOW, een nieuw protocol-level framework voor het bouwen van betrouwbare LLM/VLM-gebaseerde agents. SAFEFLOW handhaaft fijnmazige controle over informatiestromen (IFC), waarbij het precies de herkomst, integriteit en vertrouwelijkheid van alle gegevens die tussen agents, tools, gebruikers en omgevingen worden uitgewisseld, bijhoudt. Door het redeneren van LLMs te beperken om deze beveiligingslabels te respecteren, voorkomt SAFEFLOW dat niet-vertrouwde of kwaadwillige invoer beslissingen met hoge integriteit verontreinigt. Om robuustheid in gelijktijdige multi-agentomgevingen te waarborgen, introduceert SAFEFLOW transactionele uitvoering, conflictoplossing en veilige planning over gedeelde toestanden, waardoor globale consistentie tussen agents behouden blijft. We introduceren verder mechanismen, waaronder write-ahead logging, rollback en veilige caches, die de veerkracht tegen runtime-fouten en beleidsschendingen verder versterken. Om de prestaties te valideren, hebben we SAFEFLOWBENCH gebouwd, een uitgebreide benchmark suite ontworpen om de betrouwbaarheid van agents te evalueren onder vijandige, lawaaierige en gelijktijdige operationele omstandigheden. Uitgebreide experimenten tonen aan dat agents gebouwd met SAFEFLOW indrukwekkende taakprestaties en beveiligingsgaranties behouden, zelfs in vijandige omgevingen, en daarbij de state-of-the-art aanzienlijk overtreffen. Samen leggen SAFEFLOW en SAFEFLOWBENCH de basis voor principiële, robuuste en veilige agentecosystemen, waarmee de grens van betrouwbare autonomie wordt verlegd.
Grote taalmodellen vertrouwen vaak op zowel contextuele input als parametrische kennis om taken uit te voeren. Deze bronnen kunnen echter met elkaar in conflict komen, vooral wanneer opgehaalde documenten de parametrische kennis van het model tegenspreken. Wij stellen een diagnostisch raamwerk voor om het gedrag van LLM's systematisch te evalueren onder context-geheugenconflicten, waarbij de contextuele informatie afwijkt van hun parametrische overtuigingen. We construeren diagnostische gegevens die deze conflicten uitlokken en analyseren de modelprestaties over meerdere taaktypen. Onze bevindingen onthullen dat (1) kennisconflict minimale impact heeft op taken die geen gebruik van kennis vereisen, (2) de modelprestaties consistent hoger zijn wanneer contextuele en parametrische kennis op elkaar zijn afgestemd, (3) modellen niet in staat zijn om hun interne kennis volledig te onderdrukken, zelfs niet wanneer daartoe wordt geïnstrueerd, en (4) het verstrekken van redeneringen die het conflict uitleggen de afhankelijkheid van contexten vergroot. Deze inzichten roepen vragen op over de geldigheid van modelgebaseerde evaluatie en benadrukken de noodzaak om rekening te houden met kennisconflicten bij de inzet van LLM's.
Grote taalmodellen worden vaak gebruikt om vragen te beantwoorden die gebaseerd zijn op grote tekstcorpora (bijvoorbeeld codebases, juridische documenten of chatgeschiedenissen) door het volledige corpus in het contextvenster te plaatsen en gebruik te maken van in-context learning (ICL). Hoewel huidige modellen contexten van 100K-1M tokens ondersteunen, is deze opzet kostbaar om te bedienen omdat het geheugengebruik van de KV-cache schaalt met de invoerlengte. Wij onderzoeken een alternatief: het offline trainen van een kleinere KV-cache voor elk corpus. Tijdens inferentie laden we deze getrainde KV-cache, die we een Cartridge noemen, en decoderen we een antwoord. Cruciaal is dat de kosten van het trainen van een Cartridge kunnen worden verdeeld over alle queries die verwijzen naar hetzelfde corpus. We ontdekken echter dat de naïeve aanpak van het trainen van de Cartridge met next-token prediction op het corpus niet concurrerend is met ICL. In plaats daarvan stellen we self-study voor, een trainingsmethode waarbij we synthetische gesprekken over het corpus genereren en de Cartridge trainen met een context-distillatie-objectief. We ontdekken dat Cartridges die met self-study zijn getraind, de functionaliteit van ICL repliceren, terwijl ze aanzienlijk goedkoper zijn om te bedienen. Op uitdagende long-context benchmarks presteren Cartridges die met self-study zijn getraind even goed als ICL, terwijl ze 38,6x minder geheugen gebruiken en een 26,4x hogere doorvoer mogelijk maken. Self-study breidt ook de effectieve contextlengte van het model uit (bijvoorbeeld van 128k naar 484k tokens op MTOB) en leidt, verrassend genoeg, tot Cartridges die tijdens inferentie kunnen worden samengesteld zonder hertraining.
Bestaande benchmarks voor conversatie-AI-agenten simuleren omgevingen met enkele controle, waarbij alleen de AI-agent tools kan gebruiken om met de wereld te interacteren, terwijl de gebruiker een passieve informatieverstrekker blijft. Dit verschilt van real-world scenario's zoals technische ondersteuning, waar gebruikers actief moeten deelnemen aan het wijzigen van de staat van de (gedeelde) wereld. Om dit gat te dichten, introduceren we tau^2-bench, met vier belangrijke bijdragen: 1) Een nieuw Telecom-domein met dubbele controle, gemodelleerd als een Dec-POMDP, waarbij zowel de agent als de gebruiker tools gebruiken om te handelen in een gedeelde, dynamische omgeving die zowel agentcoördinatie als communicatie test, 2) Een compositieve taakgenerator die programmatisch diverse, verifieerbare taken creëert uit atomische componenten, wat domeindekking en gecontroleerde complexiteit waarborgt, 3) Een betrouwbare gebruikerssimulator die nauw gekoppeld is aan de omgeving, waarvan het gedrag wordt beperkt door tools en waarneembare staten, wat de simulatiebetrouwbaarheid verbetert, 4) Gedetailleerde analyse van agentprestaties door middel van meerdere ablatie-experimenten, inclusief het scheiden van fouten die voortkomen uit redeneren versus communicatie/coördinatie. In het bijzonder tonen onze experimenten significante prestatieverminderingen wanneer agenten overschakelen van geen-gebruiker naar dubbele controle, wat de uitdagingen benadrukt van het begeleiden van gebruikers. Over het geheel genomen biedt tau^2-bench een gecontroleerde testomgeving voor agenten die zowel effectief moeten redeneren als gebruikersacties moeten begeleiden.
Huidige Multimodale Grote Taalmodellen (MLLMs) kunnen moeite hebben met het begrijpen van lange of complexe video's vanwege de rekenkundige eisen tijdens het testen, een gebrek aan robuustheid en beperkte nauwkeurigheid, wat voornamelijk voortkomt uit hun feed-forward verwerkingsnatuur. Deze beperkingen kunnen ernstiger zijn voor modellen met minder parameters. Om deze beperkingen aan te pakken, stellen we een nieuw framework voor, geïnspireerd op cybernetische principes, waarbij video-MLLMs worden herontworpen als adaptieve systemen die in staat zijn tot zelfmonitoring, zelfcorrectie en dynamische resourceallocatie tijdens inferentie. Onze aanpak, CyberV, introduceert een cybernetische lus bestaande uit een MLLM Inferentie Systeem, een Sensor en een Controller. Specifiek monitort de sensor de voorwaartse processen van het MLLM en verzamelt tussenliggende interpretaties, zoals aandachtverschuiving, waarna de controller bepaalt wanneer en hoe zelfcorrectie moet worden geactiveerd en feedback genereert om de volgende ronde te begeleiden. Dit test-time adaptieve schalingsframework verbetert bevroren MLLMs zonder hertraining of extra componenten te vereisen. Experimenten tonen significante verbeteringen aan: CyberV verhoogt Qwen2.5-VL-7B met 8.3% en InternVL3-8B met 5.5% op VideoMMMU, wat het concurrerende propriëtaire model GPT-4o overtreft. Wanneer toegepast op Qwen2.5-VL-72B, resulteert het in een verbetering van 10.0%, wat zelfs vergelijkbaar is met de prestaties van menselijke experts. Bovendien toont onze methode consistente verbeteringen op algemene benchmarks, zoals VideoMME en WorldSense, wat de effectiviteit en generalisatiecapaciteiten benadrukt in het robuuster en nauwkeuriger maken van MLLMs voor dynamisch videobegrip. De code is vrijgegeven op https://github.com/marinero4972/CyberV.
Recentelijk hebben technieken zoals expliciete gestructureerde redenering sterke schaalbaarheid tijdens testtijden aangetoond door een scheiding af te dwingen tussen het interne "denkproces" van het model en het uiteindelijke antwoord. Een belangrijke factor die de kwaliteit van het antwoord in deze setting beïnvloedt, is de lengte van de denkfase. Wanneer de redenering te kort is, kan het model de complexiteit van de taak niet voldoende vatten. Omgekeerd, wanneer het te lang is, kan het model overdenken, wat leidt tot onnodige berekeningen en verminderde prestaties. Dit artikel onderzoekt en benut de onderliggende mechanismen waarmee grote taalmodellen (LLMs) de lengte van hun redenering tijdens expliciete denkprocessen begrijpen en reguleren. Ten eerste tonen we aan dat LLMs hun voortgang in het redeneerproces coderen en introduceren we een interactieve voortgangsbalkvisualisatie, die vervolgens wordt gebruikt om inzichten te onthullen over de planningsdynamiek van het model. Ten tweede manipuleren we de interne voortgangscodering tijdens inferentie om onnodige stappen te verminderen en een meer beknopte en besluitvaardige gedachtegang te genereren. Onze empirische resultaten tonen aan dat deze "overclocking"-methode overdenken vermindert, de nauwkeurigheid van antwoorden verbetert en de inferentielatentie verlaagt. Onze code is publiekelijk beschikbaar.
Video-generatieve modellen die zijn getraind op expertdemonstraties, worden gebruikt als performante visuele planners op basis van tekstcondities voor het oplossen van robotische taken. Generalisatie naar onbekende taken blijft echter een uitdaging. Hoewel verbeterde generalisatie mogelijk wordt gefaciliteerd door gebruik te maken van geleerde voorkennis uit aanvullende offline gegevensbronnen, zoals web-schaal videodatasets, streven we in het tijdperk van ervaring ernaar om agents te ontwerpen die zich continu kunnen verbeteren op een online manier door zelfverzamelde gedragingen. In dit werk stellen we daarom de Self-Adapting Improvement Loop (SAIL) voor, waarbij een in-domein videomodel zichzelf iteratief bijwerkt op basis van zelfgeproduceerde trajecten, verzameld door aanpassing met een op internet-schaal voorgetraind videomodel, en gestaag zijn prestaties verbetert voor een gespecificeerde taak van belang. We passen SAIL toe op een diverse reeks MetaWorld-taken, evenals twee manipulatietaken op een echte robotarm, en ontdekken dat prestatieverbeteringen continu ontstaan over meerdere iteraties voor nieuwe taken die aanvankelijk niet gezien waren tijdens de oorspronkelijke training van het in-domein videomodel. Bovendien ontdekken we dat SAIL verrassend robuust is wat betreft of en hoe de zelfverzamelde ervaring wordt gefilterd, en de kwaliteit van de initiële in-domein demonstraties. Door aanpassing met samengevatte internet-schaal gegevens, en leren door online ervaring, demonstreren we zo een manier om iteratief een hoogwaardig videomodel te bootstrappen voor het oplossen van nieuwe robotische taken door zelfverbetering.
Ondanks recente vooruitgang in videogeneratie ontbreekt het bestaande modellen nog steeds aan fijnmazige bestuurbaarheid, met name voor maatwerk met meerdere onderwerpen waarbij consistentie in identiteit en interactie vereist is. In dit artikel introduceren we PolyVivid, een raamwerk voor videomaatwerk met meerdere onderwerpen dat flexibele en identiteitsconsistente generatie mogelijk maakt. Om nauwkeurige correspondenties tussen onderwerpafbeeldingen en tekstuele entiteiten te creëren, ontwerpen we een VLLM-gebaseerde tekst-beeld-fusiemodule die visuele identiteiten in de tekstuele ruimte inbedt voor precieze verankering. Om identiteitsbehoud en onderwerpinteractie verder te verbeteren, stellen we een 3D-RoPE-gebaseerde verbetermodule voor die gestructureerde bidirectionele fusie tussen tekst- en beeldembeddingen mogelijk maakt. Daarnaast ontwikkelen we een aandacht-geërfd identiteitsinjectiemodule om gefuseerde identiteitskenmerken effectief in het videogeneratieproces te injecteren, waardoor identiteitsdrift wordt verminderd. Tot slot bouwen we een MLLM-gebaseerd datapipeline dat MLLM-gebaseerde verankering, segmentatie en een op cliques gebaseerde onderwerpconsolidatiestrategie combineert om hoogwaardige gegevens met meerdere onderwerpen te produceren, waardoor onderwerponderscheiding effectief wordt verbeterd en ambiguïteit in downstream videogeneratie wordt verminderd. Uitgebreide experimenten tonen aan dat PolyVivid superieure prestaties levert op het gebied van identiteitsgetrouwheid, videorealisme en onderwerpuitlijning, en daarmee bestaande open-source en commerciële referentiemodellen overtreft.
Grote taalmodellen (LLMs) zijn de hoeksteen geworden van moderne AI. Het bestaande paradigma van volgende-token-voorspelling beperkt echter fundamenteel hun vermogen om samenhangende, hoogwaardige concepten te vormen, wat een kritieke barrière vormt voor mensachtig begrip en redeneren. Neem de uitdrukking "ribonucleïnezuur" als voorbeeld: een LLM zal deze eerst opsplitsen in tokens, d.w.z. kunstmatige tekstfragmenten ("rib", "on", ...), en vervolgens elk token sequentieel leren, in plaats van de uitdrukking te begrijpen als een verenigde, samenhangende semantische entiteit. Deze gefragmenteerde representatie belemmert een dieper conceptueel begrip en, uiteindelijk, de ontwikkeling van echt intelligente systemen. Als reactie hierop introduceren wij Concept-Aware Fine-Tuning (CAFT), een nieuwe multi-token trainingsmethode die herdefinieert hoe LLMs worden gefinetuned. Door het leren van sequenties die meerdere tokens omvatten mogelijk te maken, bevordert deze methode een sterker conceptbewust leren. Onze experimenten tonen aanzienlijke verbeteringen aan in vergelijking met conventionele volgende-token finetuning-methoden voor diverse taken, waaronder traditionele toepassingen zoals tekstsamenvatting en domeinspecifieke toepassingen zoals de novo eiwitontwerp. Multi-token-voorspelling was voorheen alleen mogelijk in de extreem dure pretrainingsfase; CAFT is, voor zover wij weten, de eerste die de multi-token-instelling naar de post-trainingsfase brengt, waardoor de voordelen ervan effectief worden gedemocratiseerd voor de bredere gemeenschap van praktijkmensen en onderzoekers. Tot slot suggereert de onverwachte effectiviteit van onze voorgestelde methode bredere implicaties voor de machine learning-onderzoeksgemeenschap. Alle code en gegevens zijn beschikbaar op https://github.com/michaelchen-lab/caft-llm.
Recente ontwikkelingen in het redeneren van grote taalmodellen (LLM's) hebben aangetoond dat geavanceerd gedrag zoals planning en zelfreflectie kan ontstaan door middel van versterkend leren (RL). Ondanks deze successen blijft RL in zijn huidige vorm echter onvoldoende om capaciteiten te ontwikkelen die de beperkingen van het basismodel overstijgen, omdat het voornamelijk is geoptimaliseerd op basis van de bestaande kennis van het model in plaats van het verwerven van nieuwe informatie te faciliteren. Om deze beperking aan te pakken, gebruiken we supervised fine-tuning (SFT) om te leren wat RL niet kan, waardoor het mogelijk wordt nieuwe kennis en redeneerpatronen te integreren door gebruik te maken van hoogwaardige demonstratiedata. We analyseren de trainingsdynamiek van RL en SFT voor LLM-redenering en ontdekken dat RL uitblinkt in het behouden en verbeteren van prestaties op vragen binnen de oorspronkelijke capaciteiten van het model, terwijl SFT effectiever is in het mogelijk maken van vooruitgang op vragen die buiten het huidige bereik van het model liggen. Gemotiveerd door de complementaire sterke punten van RL en SFT, introduceren we een nieuwe trainingsaanpak, ReLIFT (Reinforcement Learning Interleaved with Online Fine-Tuning). In ReLIFT wordt het model voornamelijk getraind met RL, maar wanneer het uitdagende vragen tegenkomt, worden hoogwaardige oplossingen verzameld voor fine-tuning, en wisselt het trainingsproces af tussen RL en fine-tuning om de redeneervaardigheden van het model te verbeteren. ReLIFT behaalt een gemiddelde verbetering van meer dan +5,2 punten over vijf competitieniveau benchmarks en één out-of-distribution benchmark in vergelijking met andere zero-RL-modellen. Bovendien tonen we aan dat ReLIFT zowel RL als SFT overtreft terwijl het slechts 13\% van de gedetailleerde demonstratiedata gebruikt, wat de schaalbaarheid ervan benadrukt. Deze resultaten leveren overtuigend bewijs dat ReLIFT de fundamentele beperkingen van RL overwint en onderstreept het aanzienlijke potentieel.
Recente ontwikkelingen in grote taalmodellen (LLMs) hebben opmerkelijke capaciteiten getoond in diverse domeinen, met name in wiskundig redeneren, waarbij het oplossen van geometrieproblemen een uitdagend gebied blijft waar hulpconstructies een essentiële rol spelen. Bestaande benaderingen leveren suboptimale prestaties of zijn afhankelijk van enorme LLMs (bijv. GPT-4o), wat grote rekenkosten met zich meebrengt. Wij stellen dat reinforcement learning met verifieerbare beloningen (bijv. GRPO) een veelbelovende richting biedt voor het trainen van kleinere modellen die hulpconstructies effectief combineren met robuust geometrisch redeneren. Het direct toepassen van GRPO op geometrisch redeneren kent echter fundamentele beperkingen vanwege de afhankelijkheid van onvoorwaardelijke beloningen, wat leidt tot ondoordachte en contraproductieve hulpconstructies. Om deze uitdagingen aan te pakken, stellen wij Group Contrastive Policy Optimization (GCPO) voor, een nieuw reinforcement learning-framework met twee belangrijke innovaties: (1) Group Contrastive Masking, dat adaptief positieve of negatieve beloningssignalen biedt voor hulpconstructies op basis van contextuele nuttigheid, en (2) een lengtebeloning die langere redeneerketens bevordert. Op basis van GCPO ontwikkelen we GeometryZero, een familie van betaalbare geometrische redeneermodellen die doordacht bepalen wanneer hulpconstructies moeten worden ingezet. Onze uitgebreide empirische evaluatie op populaire geometrische benchmarks (Geometry3K, MathVista) toont aan dat GeometryZero-modellen consistent beter presteren dan baselines (bijv. GRPO), met een gemiddelde verbetering van 4,29% op alle benchmarks.
Ondanks de groeiende interesse in domeinspecifieke benchmarking van grote taalmodellen (LLM's) en agents, blijven huidige evaluaties beperkt tot statische, kleinschalige datasets, vooral bij hoogrisicotaken zoals netwerkoperaties die betrouwbaarheid vereisen voor implementaties. Wij presenteren NetPress, een geautomatiseerd benchmarkgeneratieframework voor het evalueren van LLM-agents in netwerktoepassingen. NetPress introduceert een uniforme abstractie met staat en actie, waardoor dynamische generatie van diverse querysets samen met bijbehorende grondwaarden mogelijk wordt. Tijdens runtime kunnen gebruikers benchmarkconfiguraties specificeren om miljoenen queries on-the-fly te genereren. Naast dynamische benchmarkconstructie integreert NetPress met netwerkemulators om realistische omgevingsfeedback te bieden, wat een uitgebreide evaluatie ondersteunt op het gebied van correctheid, veiligheid en latentie. We implementeren NetPress op drie representatieve toepassingen, wat interessante fijnmazige verschillen in agentgedrag aan het licht brengt die statische, alleen-op-correctheid-gebaseerde benchmarks vaak missen. NetPress brengt LLM-evaluatie dichter bij realistische, schaalbare tests in infrastructuurgerichte domeinen, en helpt de kloof tussen benchmarkprestaties en gereedheid voor implementatie in de echte wereld te verkleinen. Code is beschikbaar op https://github.com/Froot-NetSys/NetPress.
Multimodale grote taalmodellen (MLLMs) worden steeds vaker ingezet in open, realistische omgevingen waar invoer rommelig, onvolledig en niet altijd betrouwbaar is. In tegenstelling tot zorgvuldig samengestelde benchmarks, omvatten deze situaties vaak instructies die verwijzen naar ontbrekende objecten of tegenstrijdige feiten, steunen op dubbelzinnige referenties, of vragen om onuitvoerbare acties. In dergelijke gevallen hangt succes niet alleen af van de uitvoering van de taak, maar ook van het vermogen van een model om te detecteren wanneer er iets stilletjes misgaat. Dit artikel presenteert een systematische analyse van hoe huidige MLLMs omgaan met dergelijke impliciete redeneerscenario's: gevallen waarin het probleem niet expliciet wordt vermeld, maar uit de context moet worden afgeleid. Met behulp van een zorgvuldig samengestelde diagnostische suite die vier categorieën van realistische foutmodes omvat, evalueren we zes MLLMs, waaronder o3 en GPT-4o, en constateren we dat modellen vaak falen in het signaleren van verborgen problemen, zelfs wanneer ze over de benodigde perceptuele en redeneervaardigheden beschikken. Expliciete prompting laat zien dat de onderliggende capaciteiten wel degelijk aanwezig zijn, maar vaak worden onderdrukt ten gunste van gebruikerscompliance. We tonen verder aan dat eenvoudige interventies tijdens de inferentie, zoals voorzichtige persona-prompting en, in het bijzonder, het vereisen van een verhelderende vraag, de prestaties aanzienlijk kunnen verbeteren. Onze bevindingen benadrukken een hardnekkige kloof tussen redeneercompetentie en gedragsmatige compliance in huidige MLLMs en suggereren praktische strategieën om deze modellen betrouwbaarder te maken in onbeperkte omgevingen.
Grote taalmmodellen (LLMs) hebben de afgelopen jaren indrukwekkende prestaties laten zien op verschillende taken binnen natuurlijke taalverwerking (NLP). Hun gevoeligheid voor jailbreaks en verstoringen maakt echter aanvullende evaluaties noodzakelijk. Veel LLMs zijn meertalig, maar de trainingsgegevens die betrekking hebben op veiligheid bevatten voornamelijk hoog-resourcetalen zoals Engels. Hierdoor kunnen ze kwetsbaar zijn voor verstoringen in laag-resourcetalen zoals Pools. We laten zien hoe verrassend sterke aanvallen goedkoop kunnen worden gecreëerd door slechts enkele tekens aan te passen en een klein proxy-model te gebruiken voor het berekenen van woordbelang. We constateren dat deze aanvallen op tekens- en woordniveau de voorspellingen van verschillende LLMs drastisch veranderen, wat wijst op een potentiële kwetsbaarheid die kan worden gebruikt om hun interne veiligheidsmechanismen te omzeilen. We valideren onze methode voor het construeren van aanvallen op Pools, een laag-resourcetaal, en vinden potentiële kwetsbaarheden van LLMs in deze taal. Daarnaast laten we zien hoe deze methode kan worden uitgebreid naar andere talen. We maken de gecreëerde datasets en code beschikbaar voor verder onderzoek.
Grote Multimodale Modellen (LMMs) vertrouwen vaak op in-context leren (ICL) om nieuwe taken uit te voeren met minimale begeleiding. De prestaties van ICL, vooral bij kleinere LMMs, zijn echter inconsistent en verbeteren niet altijd monotoon met toenemende voorbeelden. We veronderstellen dat dit gebeurt omdat de LMM overweldigd wordt door de extra informatie in de beeld-embeddings, die niet nodig is voor de downstream-taak. Om dit aan te pakken, stellen we een meta-leerbenadering voor die een alternatief biedt voor het induceren van few-shot-mogelijkheden in LMMs, met behulp van een vaste set van zachte prompts die zijn gedistilleerd uit taakrelevante beeldkenmerken en die tijdens de testfase kunnen worden aangepast met behulp van enkele voorbeelden. Om deze distillatie te vergemakkelijken, introduceren we een aandacht-mapper-module die eenvoudig kan worden geïntegreerd met de populaire LLaVA v1.5-architectuur en die gezamenlijk wordt geleerd met zachte prompts, waardoor taakaanpassing in LMMs mogelijk wordt onder low-data-regimes met slechts enkele gradientstappen. Evaluatie op de VL-ICL Bench laat zien dat onze methode consistent beter presteert dan ICL en gerelateerde prompt-tuning-benaderingen, zelfs onder beeldverstoringen, en de taakinductie en redenering verbetert bij visuele vraag-antwoordtaken.
We presenteren een trainingsvrije methode om tokenizers in vooraf getrainde grote taalmmodellen (LLMs) te transplanteren door onbekende token-embeddings te reconstrueren via Orthogonal Matching Pursuit (OMP). Specifiek benaderen we elk out-of-vocabulary token als een spaarse lineaire combinatie van gedeelde tokens, in twee fasen: eerst berekenen we de representatie van elk nieuw token in de donor-embeddingruimte met een kleine woordenlijst van gedeelde anker-tokens, en vervolgens transfereren we dezezelfde spaarse coëfficiënten terug naar de embeddingruimte van het basismodel. Op twee uitdagende cross-tokenizer taken—LlamatoMistral NeMo (12B) en QwentoLlama (1B)—laten we zien dat OMP de beste zero-shot behoud van de prestaties van het basismodel bereikt over meerdere benchmarks, terwijl andere zero-shot benaderingen significant verslechteren. Vergeleken met baseline-methoden (zero-init, mean-init, en bestaande benaderingen zoals WECHSEL, FOCUS, ZETT), behaalt OMP consistent de beste algehele prestaties en overbrugt het effectief grote tokenizer-verschillen zonder gradient-updates. Onze analyse identificeert verder mismatched numerieke tokenisatieschema's als een kritieke uitdaging voor het behoud van wiskundige redeneervaardigheden. Deze techniek maakt direct hergebruik van vooraf getrainde modelgewichten met nieuwe tokenizers mogelijk, wat cross-tokenizer kennisdistillatie, speculatieve decodering, ensembling, samenvoeging en domeinspecifieke vocabulaire-aanpassingen vergemakkelijkt. We integreren onze methode in het open-source mergekit-tokensurgeon tool voor post hoc vocabulaire-heruitlijning.
Recente vooruitgang in conversatie-AI is aanzienlijk, maar het ontwikkelen van realtime systemen voor perceptuele taakbegeleiding blijft uitdagend. Deze systemen moeten interactieve, proactieve ondersteuning bieden op basis van streaming visuele inputs, maar hun ontwikkeling wordt beperkt door het kostbare en arbeidsintensieve proces van dataverzameling en systeemevaluatie. Om deze beperkingen aan te pakken, presenteren we een uitgebreid raamwerk met drie belangrijke bijdragen. Ten eerste introduceren we een innovatieve datacuratiepijplijn die dialogen synthetiseert uit geannoteerde egocentrische video's, wat resulteert in \dataset, een grootschalige synthetische dialoogdataset die meerdere domeinen omvat. Ten tweede ontwikkelen we een reeks automatische evaluatiemetrics, gevalideerd door uitgebreide menselijke studies. Ten derde stellen we een end-to-end model voor dat streaming video-inputs verwerkt om contextueel passende reacties te genereren, waarbij nieuwe technieken worden geïntegreerd voor het omgaan met dataonbalans en langdurige video's. Dit werk legt de basis voor het ontwikkelen van realtime, proactieve AI-assistenten die gebruikers kunnen begeleiden bij diverse taken. Projectpagina: https://pro-assist.github.io/
Fundamenteel voor de Chinese taal en cultuur, omvatten Chinese karakters buitengewoon uitgebreide en steeds uitbreidende categorieën, waarbij de nieuwste Chinese GB18030-2022 standaard 87.887 categorieën bevat. De nauwkeurige herkenning van dit enorme aantal karakters, aangeduid als mega-categorie herkenning, vormt een formidabele maar cruciale uitdaging voor het behoud van cultureel erfgoed en digitale toepassingen. Ondanks aanzienlijke vooruitgang in Optical Character Recognition (OCR), blijft mega-categorie herkenning onontgonnen vanwege het ontbreken van uitgebreide datasets, waarbij de grootste bestaande dataset slechts 16.151 categorieën bevat. Om dit kritieke gat te overbruggen, introduceren we MegaHan97K, een mega-categorie, grootschalige dataset die een ongekende 97.455 categorieën van Chinese karakters omvat. Ons werk biedt drie belangrijke bijdragen: (1) MegaHan97K is de eerste dataset die volledig de nieuwste GB18030-2022 standaard ondersteunt, en biedt minstens zes keer meer categorieën dan bestaande datasets; (2) Het lost effectief het long-tail distributieprobleem op door gebalanceerde samples te bieden voor alle categorieën via zijn drie verschillende subsets: handgeschreven, historische en synthetische subsets; (3) Uitgebreide benchmarkexperimenten onthullen nieuwe uitdagingen in mega-categorie scenario's, waaronder verhoogde opslagbehoeften, herkenning van morfologisch vergelijkbare karakters, en moeilijkheden bij zero-shot leren, terwijl het ook aanzienlijke mogelijkheden voor toekomstig onderzoek ontsluit. Voor zover wij weten, is MegaHan97K waarschijnlijk de dataset met de grootste klassen, niet alleen op het gebied van OCR, maar mogelijk ook in het bredere domein van patroonherkenning. De dataset is beschikbaar op https://github.com/SCUT-DLVCLab/MegaHan97K.
De afstemming van Large Language Models (LLMs) is cruciaal om hun veiligheid en betrouwbaarheid in praktische toepassingen te waarborgen. Direct Preference Optimization (DPO) is naar voren gekomen als een efficiënte methode die modellen direct optimaliseert met behulp van voorkeursparen, waardoor de vraag naar middelen aanzienlijk wordt verminderd. De effectiviteit van DPO hangt echter sterk af van de kwaliteit van de data, die vaak wordt aangetast door ruis. In dit werk stellen we gamma-PO voor, een dynamisch target margin preference optimization-algoritme dat beloningsmarges op paarsgewijze niveau aanpast. Door het introduceren van instance-specifieke margekalibratie, geeft gamma-PO strategisch prioriteit aan paren met een hoge betrouwbaarheid (die hogere beloningsmarges demonstreren) terwijl potentiële ruis van ambigue paren wordt onderdrukt. Bovendien is gamma-PO een plug-and-play methode, compatibel met varianten van DPO die vertrouwen op de beloningsmarge tussen voorkeursparen. Op benchmarks zoals AlpacaEval2 en Arena-Hard behaalt gamma-PO een gemiddelde verbetering van 4,4% ten opzichte van andere baseline-methoden, wat nieuwe standaarden zet voor state-of-the-art prestaties. Daarnaast vereist gamma-PO minimale code-aanpassingen en heeft het een verwaarloosbare impact op de trainings efficiëntie, waardoor het een robuuste oplossing is voor het verbeteren van de afstemming van LLMs. Onze code is beschikbaar op https://github.com/sunjie279/gammaPO{https://github.com/sunjie279/gammaPO}.
Grote taalmodellen (LLMs) weigeren vaak te reageren op pseudo-kwaadaardige instructies: semantisch onschadelijke invoervragen die onnodige weigeringen van LLMs veroorzaken vanwege conservatieve veiligheidsafstemming, wat de gebruikerservaring aanzienlijk schaadt. Het verzamelen van dergelijke instructies is cruciaal voor het evalueren en verminderen van overmatige weigeringen, maar bestaande methoden voor het samenstellen van instructies, zoals handmatige creatie of het herschrijven van instructies, missen schaalbaarheid of slagen er niet in voldoende diverse en effectieve prompts te produceren die weigeringen uitlokken. Om deze beperkingen aan te pakken, introduceren we EVOREFUSE, een promptoptimalisatiebenadering die diverse pseudo-kwaadaardige instructies genereert die consistent zelfverzekerde weigeringen uitlokken bij LLMs. EVOREFUSE maakt gebruik van een evolutionair algoritme dat de instructieruimte in meer diverse richtingen verkent dan bestaande methoden via mutatiestrategieën en recombinatie, en evolueert seed-instructies iteratief om de ondergrens van het bewijs op de weigeringskans van LLMs te maximaliseren. Met EVOREFUSE hebben we twee nieuwe datasets gecreëerd: EVOREFUSE-TEST, een benchmark van 582 pseudo-kwaadaardige instructies die de op een na beste benchmark overtreft met een 140,41% hoger gemiddeld weigeringspercentage over 9 LLMs, 34,86% grotere lexicale diversiteit en 40,03% verbeterde LLM-responsvertrouwensscores; en EVOREFUSE-ALIGN, dat 3.000 pseudo-kwaadaardige instructies met reacties biedt voor supervised en voorkeursgebaseerde afstemmingstraining. LLAMA3.1-8B-INSTRUCT, supervised gefinetuned op EVOREFUSE-ALIGN, bereikt tot 14,31% minder overmatige weigeringen dan modellen getraind op de op een na beste afstemmingsdataset, zonder in te leveren op veiligheid. Onze analyse met EVOREFUSE-TEST onthult dat modellen overmatige weigeringen triggeren door te veel te focussen op gevoelige trefwoorden terwijl ze de bredere context negeren.