Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Hoewel het vervangen van gezichten recentelijk aandacht heeft gekregen in de onderzoeksgemeenschap, blijft een gerelateerd probleem van het verwisselen van hoofden grotendeels onontgonnen. Naast het overdragen van huidskleur, brengt het verwisselen van hoofden extra uitdagingen met zich mee, zoals de noodzaak om structurele informatie van het hele hoofd te behouden tijdens synthese en het opvullen van lacunes tussen het verwisselde hoofd en de achtergrond. In dit artikel behandelen we deze zorgen met GHOST 2.0, dat bestaat uit twee probleemspecifieke modules. Ten eerste introduceren we het verbeterde Aligner-model voor het opnieuw uitvoeren van hoofden, dat identiteitsinformatie op meerdere schalen behoudt en robuust is tegen extreme posevariaties. Ten tweede gebruiken we een Blender-module die het opnieuw uitgevoerde hoofd naadloos integreert in de doelachtergrond door huidskleur over te dragen en niet-overeenkomende regio's op te vullen. Beide modules presteren beter dan de baselines op de overeenkomstige taken, waardoor het mogelijk is om state-of-the-art resultaten te behalen bij het verwisselen van hoofden. We pakken ook complexe gevallen aan, zoals grote verschillen in haarstijlen van bron en doel. De code is beschikbaar op https://github.com/ai-forever/ghost-2.0
We introduceren Kanana, een reeks tweetalige taalmodellen die uitmuntende prestaties leveren in het Koreaans en competitieve prestaties in het Engels. De rekenkosten van Kanana zijn aanzienlijk lager dan die van state-of-the-art modellen van vergelijkbare grootte. Het rapport beschrijft in detail de technieken die tijdens de voorafgaande training zijn gebruikt om rekenkundig efficiënte maar toch competitieve modellen te realiseren, waaronder hoogwaardige datafiltering, gefaseerde voorafgaande training, diepteschaalvergroting, en snoeien en distillatie. Bovendien schetst het rapport de methodologieën die zijn toegepast tijdens de nabehandeling van de Kanana-modellen, waaronder gesuperviseerde fijnafstemming en voorkeursoptimalisatie, gericht op het verbeteren van hun vermogen om naadloos met gebruikers te interageren. Ten slotte gaat het rapport in op plausibele benaderingen die zijn gebruikt voor de aanpassing van taalmodellen aan specifieke scenario's, zoals inbedding, retrieval-augmented generation en functie-aanroeping. De Kanana-modelreeks beslaat een bereik van 2,1B tot 32,5B parameters, waarbij 2,1B-modellen (basis, instructie, inbedding) openbaar zijn vrijgegeven om onderzoek naar Koreaanse taalmodellen te bevorderen.
Wetenschappelijke ontdekkingen zijn afhankelijk van wetenschappers die nieuwe hypothesen genereren die vervolgens rigoureus experimenteel worden gevalideerd. Om dit proces te versterken, introduceren we een AI-co-wetenschapper, een multi-agent systeem gebouwd op Gemini 2.0. De AI-co-wetenschapper is bedoeld om te helpen bij het ontdekken van nieuwe, originele kennis en het formuleren van aantoonbaar nieuwe onderzoekshypothesen en -voorstellen, gebaseerd op eerder bewijs en afgestemd op door wetenschappers verstrekte onderzoeksdoelen en -richtlijnen. Het ontwerp van het systeem omvat een benadering van hypothesegeneratie die bestaat uit genereren, debatteren en evolueren, geïnspireerd door de wetenschappelijke methode en versneld door het schalen van rekenkracht tijdens testfasen. Belangrijke bijdragen zijn: (1) een multi-agent architectuur met een asynchroon taakuitvoeringskader voor flexibele schaling van rekenkracht; (2) een toernooi-evolutieproces voor zelfverbeterende hypothesegeneratie. Geautomatiseerde evaluaties tonen voortdurende voordelen van rekenkracht tijdens testfasen, wat de kwaliteit van hypothesen verbetert. Hoewel het systeem algemeen toepasbaar is, richten we de ontwikkeling en validatie op drie biomedische gebieden: hergebruik van geneesmiddelen, ontdekking van nieuwe doelen, en het verklaren van mechanismen van bacteriële evolutie en antimicrobiële resistentie. Voor hergebruik van geneesmiddelen stelt het systeem kandidaten voor met veelbelovende validatieresultaten, waaronder kandidaten voor acute myeloïde leukemie die tumorgroei remmen in vitro bij klinisch toepasbare concentraties. Voor de ontdekking van nieuwe doelen stelde de AI-co-wetenschapper nieuwe epigenetische doelen voor leverfibrose voor, gevalideerd door anti-fibrotische activiteit en levercelregeneratie in menselijke hepatische organoïden. Ten slotte reconstrueerde de AI-co-wetenschapper ongepubliceerde experimentele resultaten via een parallelle in silico ontdekking van een nieuw genoverdrachtsmechanisme in bacteriële evolutie. Deze resultaten, gedetailleerd in aparte, gelijktijdig gepubliceerde rapporten, demonstreren het potentieel om biomedische en wetenschappelijke ontdekkingen te versterken en een tijdperk in te luiden van door AI geëmpowerde wetenschappers.
Het begrijpen van domeinspecifieke stellingen vereist vaak meer dan alleen tekstgebaseerd redeneren; effectieve communicatie via gestructureerde visuele uitleg is cruciaal voor een dieper begrip. Hoewel grote taalmmodellen (LLMs) sterke prestaties laten zien in tekstgebaseerd stellingenredeneren, blijft hun vermogen om samenhangende en pedagogisch zinvolle visuele uitleg te genereren een open uitdaging. In dit werk introduceren we TheoremExplainAgent, een agent-gebaseerde aanpak voor het genereren van langdurige stellinguitlegvideo's (langer dan 5 minuten) met behulp van Manim-animaties. Om multimodale stellinguitleg systematisch te evalueren, stellen we TheoremExplainBench voor, een benchmark die 240 stellingen beslaat over meerdere STEM-disciplines, samen met 5 geautomatiseerde evaluatiemetrics. Onze resultaten tonen aan dat agent-gebaseerde planning essentieel is voor het genereren van gedetailleerde langdurige video's, en de o3-mini agent bereikt een slagingspercentage van 93,8% en een totaalscore van 0,77. Echter, onze kwantitatieve en kwalitatieve studies laten zien dat de meeste geproduceerde video's kleine problemen hebben met de lay-out van visuele elementen. Bovendien onthullen multimodale uitleggen diepere redeneerfouten die tekstgebaseerde uitleggen niet blootleggen, wat het belang van multimodale uitleggen benadrukt.
Ondanks de cruciale rol van Griekenland in de wereldeconomie, blijven grote taalmodellen (LLMs) onderbelicht voor de Griekse financiële context vanwege de linguïstische complexiteit van het Grieks en het gebrek aan domeinspecifieke datasets. Eerdere inspanningen op het gebied van meertalige financiële natuurlijke taalverwerking (NLP) hebben aanzienlijke prestatieverschillen aan het licht gebracht, maar tot nu toe zijn er geen specifieke Griekse financiële benchmarks of Griekse financiële LLMs ontwikkeld. Om deze kloof te overbruggen, introduceren we Plutus-ben, de eerste Griekse Financiële Evaluatie Benchmark, en Plutus-8B, het baanbrekende Griekse Financiële LLM, afgestemd met Griekse domeinspecifieke data. Plutus-ben behandelt vijf kern-NLP-taken in het Grieks: numerieke en tekstuele herkenning van benoemde entiteiten, vraagbeantwoording, abstractieve samenvatting en onderwerpsclassificatie, waardoor systematische en reproduceerbare LLM-evaluaties mogelijk worden. Om deze taken te ondersteunen, presenteren we drie nieuwe, hoogwaardige Griekse financiële datasets, grondig geannoteerd door expert moedertaalsprekers van het Grieks, aangevuld met twee bestaande bronnen. Onze uitgebreide evaluatie van 22 LLMs op Plutus-ben toont aan dat Griekse financiële NLP uitdagend blijft vanwege linguïstische complexiteit, domeinspecifieke terminologie en hiaten in financiële redenering. Deze bevindingen benadrukken de beperkingen van cross-linguale transfer, de noodzaak van financiële expertise in Griekse modellen en de uitdagingen van het aanpassen van financiële LLMs aan Griekse tekst. We maken Plutus-ben, Plutus-8B en alle bijbehorende datasets openbaar om reproduceerbaar onderzoek te bevorderen en de Griekse financiële NLP vooruit te helpen, waardoor bredere meertalige inclusiviteit in de financiële sector wordt gestimuleerd.
Meertalige taalmodellen (LMs) worden verwacht feitelijke kennis consistent te onthouden in verschillende talen, maar ze slagen er vaak niet in om kennis tussen talen over te dragen, zelfs wanneer ze de juiste informatie in één van de talen bezitten. Zo vinden we bijvoorbeeld dat een LM Rashed Al Shashai correct kan identificeren als afkomstig uit Saudi-Arabië wanneer hij in het Arabisch wordt gevraagd, maar consistent faalt om dit te doen wanneer hij in het Engels of Swahili wordt gevraagd. Om deze beperking systematisch te onderzoeken, introduceren we een benchmark van 10.000 landgerelateerde feiten in 13 talen en stellen we drie nieuwe metrieken voor: Factual Recall Score, Knowledge Transferability Score en Cross-Lingual Factual Knowledge Transferability Score om feitelijke herinnering en kennisoverdraagbaarheid in LMs over verschillende talen te kwantificeren. Onze resultaten onthullen fundamentele zwaktes in de huidige state-of-the-art LMs, met name in cross-linguale generalisatie waarbij modellen er niet in slagen kennis effectief over te dragen tussen verschillende talen, wat leidt tot inconsistente prestaties die gevoelig zijn voor de gebruikte taal. Onze bevindingen benadrukken de noodzaak voor LMs om taal-specifieke feitelijke betrouwbaarheid te herkennen en de meest betrouwbare informatie over talen heen te benutten. We publiceren onze benchmark en evaluatieframework om toekomstig onderzoek in meertalige kennisoverdracht te stimuleren.
Onlangs hebben o1-achtige modellen aanzienlijke aandacht getrokken, waarbij deze modellen lange Chain-of-Thought (CoT)-redeneerstappen produceren om de redeneervaardigheden van bestaande Large Language Models (LLMs) te verbeteren. In dit artikel introduceren we, om de kwaliteiten van deze lange CoTs te begrijpen en de kritiekvaardigheden van bestaande LLMs op deze lange CoTs te meten, de DeltaBench. Deze omvat de gegenereerde lange CoTs van verschillende o1-achtige modellen (bijv. QwQ, DeepSeek-R1) voor verschillende redeneertaken (bijv. Wiskunde, Code, Algemeen Redeneren), om het vermogen om fouten in lange CoT-redeneringen te detecteren te meten. Op basis van DeltaBench voeren we eerst een gedetailleerde analyse uit van de gegenereerde lange CoTs om de effectiviteit en efficiëntie van verschillende o1-achtige modellen te ontdekken. Vervolgens voeren we uitgebreide evaluaties uit van bestaande procesbeloningsmodellen (PRMs) en kritiekmodellen om de fouten van elk geannoteerd proces te detecteren, met als doel de grenzen en beperkingen van bestaande PRMs en kritiekmodellen te onderzoeken. Tot slot hopen we dat DeltaBench ontwikkelaars kan begeleiden om de lange CoT-redeneervaardigheden van hun modellen beter te begrijpen.
We introduceren Rank1, het eerste hersorteermodel dat is getraind om gebruik te maken van rekenkracht op testtijd. Rank1 toont de toepasbaarheid binnen informatieopvraging van het gebruik van een redenerend taalmodel (bijv. OpenAI's o1, Deepseek's R1, enz.) voor distillatie om de prestaties van een kleiner model snel te verbeteren. We verzamelen en stellen een dataset van meer dan 600.000 voorbeelden van R1-redeneersporen uit vragen en passages in MS MARCO beschikbaar. Modellen die zijn getraind op deze dataset tonen: (1) state-of-the-art prestaties op geavanceerde redeneer- en instructievolgdatasets; (2) werken opmerkelijk goed buiten distributie vanwege het vermogen om te reageren op gebruikersinvoer; en (3) hebben verklaarbare redeneerketens die aan gebruikers of op RAG gebaseerde systemen kunnen worden gegeven. Verder tonen we aan dat gekwantiseerde versies van deze modellen sterke prestaties behouden terwijl er minder rekenkracht/geheugen wordt gebruikt. Over het algemeen toont Rank1 aan dat rekenkracht op testtijd zorgt voor een fundamenteel nieuw type verklaarbaar en presterend hersorteermodel voor zoekopdrachten.
Beloningsmodellen (RMs) zijn cruciaal voor de training en het opschalen tijdens de inferentie van grote taalmodelen (LLMs). Echter richten bestaande beloningsmodellen zich voornamelijk op menselijke voorkeuren, waarbij verifieerbare correctheidssignalen worden verwaarloosd, terwijl deze een sterk potentieel hebben bij het trainen van LLMs. In dit artikel stellen we agentische beloningsmodellering voor, een beloningssysteem dat beloningsmodellen combineert met verifieerbare correctheidssignalen vanuit verschillende aspecten om betrouwbare beloningen te bieden. We implementeren empirisch een beloningsagent, genaamd RewardAgent, die menselijke voorkeursbeloningen combineert met twee verifieerbare signalen: feitelijkheid en instructievolging, om betrouwbaardere beloningen te bieden. We voeren uitgebreide experimenten uit op bestaande benchmarks voor beloningsmodellen en inferentietijd best-of-n zoekopdrachten op real-world downstream taken. RewardAgent presteert aanzienlijk beter dan standaard beloningsmodellen, wat de effectiviteit ervan aantoont. We construeren verder trainingsvoorkeursparen met behulp van RewardAgent en trainen een LLM met het DPO-doel, wat superieure prestaties oplevert op verschillende NLP-benchmarks in vergelijking met conventionele beloningsmodellen. Onze code is openbaar vrijgegeven om verder onderzoek te faciliteren (https://github.com/THU-KEG/Agentic-Reward-Modeling).
Er is steeds meer opwinding over het potentieel van Taalmodellen (TM's) om wetenschappelijke ontdekkingen te versnellen. Het falsifiëren van hypothesen is essentieel voor wetenschappelijke vooruitgang, omdat het claims in de loop van de tijd iteratief verfijnt. Dit proces vereist aanzienlijke inspanning van onderzoekers, redenering en vindingrijkheid. Toch beoordelen huidige benchmarks voor TM's voornamelijk hun vermogen om oplossingen te genereren in plaats van ze uit te dagen. Wij pleiten voor de ontwikkeling van benchmarks die deze omgekeerde capaciteit evalueren - het creëren van tegenstrijdige voorbeelden voor subtiel incorrecte oplossingen. Om deze benadering te demonstreren, beginnen we met het domein van algoritmisch probleemoplossen, waar tegenstrijdige voorbeelden automatisch kunnen worden geëvalueerd met behulp van code-uitvoering. Specifiek introduceren we REFUTE, een dynamisch bijgewerkte benchmark die recente problemen en onjuiste inzendingen van programmeerwedstrijden omvat, waar menselijke experts succesvol tegenstrijdige voorbeelden hebben geïdentificeerd. Onze analyse toont aan dat de beste redenerende agenten, zelfs OpenAI o3-mini (hoog) met feedback over code-uitvoering, tegenstrijdige voorbeelden kunnen creëren voor slechts <9% van de onjuiste oplossingen in REFUTE, hoewel beoordelingen aangeven dat het in staat is om tot 48% van deze problemen vanaf nul op te lossen. We hopen dat ons werk vooruitgang zal stimuleren in het evalueren en verbeteren van het vermogen van TM's om onjuiste oplossingen te falsifiëren - een capaciteit die cruciaal is voor zowel het versnellen van onderzoek als het laten verbeteren van modellen door betrouwbare reflecterende redenering.
Betaalmuren, licenties en auteursrechtenregels beperken vaak de brede verspreiding en hergebruik van wetenschappelijke kennis. Wij zijn van mening dat het zowel juridisch als technisch haalbaar is om de wetenschappelijke kennis in wetenschappelijke teksten te extraheren. Huidige methoden, zoals tekst-embeddings, slagen er niet in om feitelijke inhoud betrouwbaar te behouden, en eenvoudig parafraseren is mogelijk niet juridisch solide. We dringen er bij de gemeenschap op aan om een nieuw idee te omarmen: het omzetten van wetenschappelijke documenten in Kenniseenheden met behulp van LLM's. Deze eenheden maken gebruik van gestructureerde gegevens die entiteiten, attributen en relaties vastleggen zonder stilistische inhoud. We leveren bewijs dat Kenniseenheden: (1) een juridisch verdedigbaar kader vormen voor het delen van kennis uit auteursrechtelijk beschermde onderzoeksteksten, gebaseerd op juridische analyses van het Duitse auteursrecht en de Amerikaanse Fair Use-doctrine, en (2) het merendeel (~95%) van de feitelijke kennis uit de oorspronkelijke tekst behouden, gemeten aan de hand van meerkeuzevragen over feiten uit de oorspronkelijke auteursrechtelijk beschermde tekst over vier onderzoeksgebieden. Het vrijgeven van wetenschappelijke kennis van auteursrechten belooft transformerende voordelen voor wetenschappelijk onderzoek en onderwijs door taalmodellen toe te staan belangrijke feiten uit auteursrechtelijk beschermd materiaal opnieuw te gebruiken. Om dit te ondersteunen, delen we open-source tools voor het omzetten van onderzoeksdocumenten in Kenniseenheden. Over het algemeen stelt ons werk de haalbaarheid voor van het democratiseren van toegang tot wetenschappelijke kennis met inachtneming van auteursrechten.
Het trainen van Vision-Language Models (VLMs) voor Graphical User Interface (GUI)-agentschappen via Reinforcement Learning (RL) kampt met cruciale uitdagingen: omgevingsgebaseerde RL vereist kostbare interacties, terwijl omgevingsvrije methoden moeite hebben met distributieverschuiving en beloningsgeneralizatie. Wij stellen een omgevingsvrij RL-raamwerk voor dat waardeschatting ontkoppelt van beleidsoptimalisatie door gebruik te maken van een vooraf getraind Value Environment Model (VEM). VEM voorspelt staat-actie-waarden rechtstreeks uit offline data, waarbij het mensachtige aannames destilleert over GUI-interactieresultaten zonder voorspelling van de volgende staat of omgevingsfeedback te vereisen. Dit voorkomt stapelingsfouten en verhoogt de veerkracht tegen UI-veranderingen door te focussen op semantisch redeneren (bijv., Draagt deze actie bij aan het doel van de gebruiker?). Het raamwerk werkt in twee fasen: (1) het vooraf trainen van VEM om langetermijnactienut te schatten en (2) het begeleiden van beleidsverkenning met bevroren VEM-signalen, waardoor layout-onafhankelijke GUI-automatisering mogelijk wordt. Geëvalueerd op Android-in-the-Wild benchmarks, behaalt VEM state-of-the-art prestaties in zowel offline als online settings, waarbij het omgevingsvrije referentiemodellen aanzienlijk overtreft en prestaties van omgevingsgebaseerde benaderingen evenaart zonder interactiekosten. Belangrijk is dat VEM aantoont dat semantisch bewuste waardeschatting vergelijkbare prestaties kan bereiken als online getrainde methoden.
Monoculaire diepteschatting (MDE) heeft als doel om scènediepte te voorspellen vanuit een enkele RGB-afbeelding en speelt een cruciale rol in 3D-scènebegrip. Recente vooruitgang in zero-shot MDE maakt gebruik van genormaliseerde dieptevoorstellingen en distillatiegebaseerd leren om de generalisatie over diverse scènes te verbeteren. Huidige methoden voor dieptenormalisatie bij distillatie, die vertrouwen op globale normalisatie, kunnen echter ruisachtige pseudo-labels versterken, wat de effectiviteit van distillatie vermindert. In dit artikel analyseren we systematisch de impact van verschillende dieptenormalisatiestrategieën op pseudo-label distillatie. Op basis van onze bevindingen stellen we Cross-Context Distillatie voor, dat globale en lokale dieptesignalen integreert om de kwaliteit van pseudo-labels te verbeteren. Daarnaast introduceren we een multi-leraar distillatieraamwerk dat gebruikmaakt van de complementaire sterktes van verschillende diepteschattingsmodellen, wat leidt tot robuustere en nauwkeurigere dieptevoorspellingen. Uitgebreide experimenten op benchmarkdatasets tonen aan dat onze aanpak state-of-the-art methoden significant overtreft, zowel kwantitatief als kwalitatief.
Taalmodelen zijn sterk afhankelijk van hoogwaardige data voor optimale prestaties. Bestaande benaderingen vertrouwen op handmatig ontworpen heuristieken, de perplexiteit van bestaande modellen, het trainen van classificatoren of zorgvuldige prompt engineering, wat aanzienlijke expertise en menselijke annotatie-inspanning vereist en tegelijkertijd vooroordelen introduceert. Wij introduceren CritiQ, een nieuwe methode voor dataselectie die automatisch criteria uit menselijke voorkeuren voor data kwaliteit ontgint met slechts 30 door mensen geannoteerde paren en efficiënte dataselectie uitvoert. Het belangrijkste onderdeel, CritiQ Flow, maakt gebruik van een manageragent om kwaliteitscriteria te ontwikkelen en werknemersagenten om paarsgewijze beoordelingen te maken. We bouwen een kennisbank die kwaliteitscriteria uit eerder werk extraheert om CritiQ Flow te versterken. In vergelijking met op perplexiteit en classificatie gebaseerde methoden zijn verbale criteria meer interpreteerbaar en hebben ze herbruikbare waarde. Na het afleiden van de criteria trainen we de CritiQ Scorer om kwaliteitsscores te geven en efficiënte dataselectie uit te voeren. We demonstreren de effectiviteit van onze methode in de domeinen code, wiskunde en logica, waarbij we hoge nauwkeurigheid behalen op door mensen geannoteerde test sets. Om de kwaliteit van de geselecteerde data te valideren, trainen we voortdurend Llama 3.1-modellen en observeren we verbeterde prestaties op downstream taken in vergelijking met uniforme steekproeven. Ablatie studies valideren de voordelen van de kennisbank en het reflectieproces. We analyseren hoe criteria evolueren en de effectiviteit van meerderheidsstemming.
Grote taalmodellen (LLM's) worden steeds vaker ingezet in alledaagse toepassingen, waarbij robuuste algemene redeneervaardigheden en een diverse set redeneervaardigheden worden vereist. Echter, huidige LLM redeneer-benchmarks richten zich voornamelijk op wiskundige en programmeervaardigheden, wat een hiaat creëert in de evaluatie van bredere redeneervaardigheden. Een bijzondere uitzondering is het BIG-Bench dataset, dat heeft gediend als een cruciale benchmark voor het evalueren van de algemene redeneervaardigheden van LLM's, dankzij de diverse set uitdagende taken die een uitgebreide beoordeling van algemeen redeneren over verschillende vaardigheden binnen een uniform kader mogelijk maakten. Echter, recente vooruitgang in LLM's heeft geleid tot verzadiging op BIG-Bench, en zijn moeilijkere versie BIG-Bench Hard (BBH). State-of-the-art modellen behalen bijna perfecte scores op veel taken in BBH, waardoor de bruikbaarheid ervan afneemt. Om deze beperking aan te pakken, introduceren we BIG-Bench Extra Hard (BBEH), een nieuwe benchmark die is ontworpen om de grenzen van LLM redeneerevaluatie te verleggen. BBEH vervangt elke taak in BBH door een nieuwe taak die een vergelijkbare redeneervaardigheid onderzoekt maar aanzienlijk meer moeilijkheid vertoont. We evalueren verschillende modellen op BBEH en observeren een (harmonisch) gemiddelde nauwkeurigheid van 9.8% voor het beste algemene model en 44.8% voor het beste redeneer-gespecialiseerde model, wat wijst op aanzienlijke ruimte voor verbetering en het voortdurende uitdaging benadrukt om robuuste algemene redenering in LLM's te bereiken. We maken BBEH openbaar beschikbaar op: https://github.com/google-deepmind/bbeh.
Het effectief personaliseren van LLM's is cruciaal voor een breed scala aan gebruikersgerichte toepassingen zoals virtuele assistenten en inhoudscuratoren. Geïnspireerd door de sterke leermogelijkheden in context van LLM's, stellen we Few-Shot Preference Optimization (FSPO) voor, waarbij beloningsmodellering wordt herschikt als een meta-leerprobleem. Binnen dit kader leert een LLM zich snel aan te passen aan een gebruiker via een paar gelabelde voorkeuren van die gebruiker, waarbij een gepersonaliseerde beloningsfunctie voor hen wordt geconstrueerd. Daarnaast, aangezien echte voorkeursgegevens schaars zijn en moeilijk op grote schaal te verzamelen, stellen we zorgvuldige ontwerpkeuzes voor om synthetische voorkeursdatasets te construeren voor personalisatie, waarbij meer dan 1 miljoen synthetische gepersonaliseerde voorkeuren worden gegenereerd met behulp van publiekelijk beschikbare LLM's. In het bijzonder, om succesvol over te dragen van synthetische gegevens naar echte gebruikers, vinden we het cruciaal dat de gegevens zowel een hoge diversiteit als een coherente, zelf-consistente structuur vertonen. We evalueren FSPO op gepersonaliseerde open-ended generatie voor maximaal 1.500 synthetische gebruikers over drie domeinen: filmrecensies, pedagogische aanpassing op basis van educatieve achtergrond, en algemeen vraagbeantwoording, samen met een gecontroleerde menselijke studie. Over het algemeen behaalt FSPO een gemiddelde Alpaca Eval winrate van 87% bij het genereren van reacties die gepersonaliseerd zijn voor synthetische gebruikers en een winrate van 72% bij echte menselijke gebruikers in open-ended vraagbeantwoording.
De Mixture of Experts (MoE) architectuur vermindert de trainings- en inferentiekosten aanzienlijk in vergelijking met een dicht model van gelijke capaciteit. Upcycling is een benadering die een MoE-model initialiseert en traint met behulp van een voorgeleerd dicht model. Hoewel upcycling leidt tot initiële prestatiewinst, verloopt het trainingsproces langzamer dan wanneer het vanaf nul wordt getraind, wat resulteert in suboptimale prestaties op de lange termijn. Wij stellen Drop-Upcycling voor - een methode die dit probleem effectief aanpakt. Drop-Upcycling combineert twee ogenschijnlijk tegenstrijdige benaderingen: het benutten van de kennis van voorgeleerde dichte modellen terwijl sommige delen van de gewichten statistisch opnieuw worden geïnitialiseerd. Deze benadering bevordert strategisch expertspecialisatie, wat aanzienlijk de efficiëntie van het MoE-model bij kennisverwerving verbetert. Uitgebreide grootschalige experimenten tonen aan dat Drop-Upcycling op de lange termijn aanzienlijk beter presteert dan eerdere methoden voor het construeren van MoE, met name bij training op honderden miljarden tokens of meer. Als gevolg hiervan behaalt ons MoE-model met 5,9 miljard actieve parameters vergelijkbare prestaties als een 13 miljard dicht model in dezelfde modelfamilie, terwijl het ongeveer 1/4 van de trainings-FLOPs vereist. Alle experimentele bronnen, inclusief broncode, trainingsgegevens, modelcontrolepunten en logboeken, zijn openbaar beschikbaar om reproduceerbaarheid en toekomstig onderzoek naar MoE te bevorderen.
Effectieve communicatie in de Luchtverkeersleiding (ATC) is cruciaal voor het handhaven van de luchtvaartveiligheid, maar de uitdagingen die worden gesteld door Engels met een accent blijven grotendeels onaangepakt in Automatische Spraakherkenning (ASR) systemen. Bestaande modellen hebben moeite met de nauwkeurigheid van transcriptie voor Zuidoost-Aziatische accenten, met name in lawaaierige ATC-omgevingen. Deze studie presenteert de ontwikkeling van ASR-modellen die specifiek zijn afgestemd op Zuidoost-Aziatische accenten met behulp van een nieuw gecreëerde dataset. Ons onderzoek behaalt significante verbeteringen, met een Woordfoutpercentage (WER) van 0.0982 of 9.82% voor Zuidoost-Aziatisch-geaccentueerde ATC-spraak. Daarnaast benadrukt het artikel het belang van regiospecifieke datasets en accentgerichte training, en biedt het een pad voor het implementeren van ASR-systemen in militaire operaties met beperkte middelen. De bevindingen benadrukken de noodzaak van trainingstechnieken die bestand zijn tegen ruis en regiospecifieke datasets om de transcriptienauwkeurigheid te verbeteren voor niet-westerse accenten in ATC-communicatie.
Naarmate AI-modellen steeds vaker worden ingezet in diverse real-world scenario's, blijft het waarborgen van hun veiligheid een cruciale maar onderbelichte uitdaging. Hoewel er aanzienlijke inspanningen zijn geleverd om de veiligheid van AI te evalueren en te verbeteren, vormen het ontbreken van een gestandaardiseerd raamwerk en een uitgebreide toolkit aanzienlijke obstakels voor systematisch onderzoek en praktische toepassing. Om deze kloof te overbruggen, introduceren we AISafetyLab, een uniform raamwerk en toolkit dat representatieve aanvals-, verdedigings- en evaluatiemethodologieën voor AI-veiligheid integreert. AISafetyLab beschikt over een intuïtieve interface waarmee ontwikkelaars naadloos verschillende technieken kunnen toepassen, terwijl een goed gestructureerde en uitbreidbare codebase wordt behouden voor toekomstige ontwikkelingen. Daarnaast voeren we empirische studies uit op Vicuna, waarbij we verschillende aanvals- en verdedigingsstrategieën analyseren om waardevolle inzichten te bieden in hun vergelijkende effectiviteit. Om voortdurend onderzoek en ontwikkeling in AI-veiligheid te faciliteren, is AISafetyLab publiekelijk beschikbaar op https://github.com/thu-coai/AISafetyLab, en zijn we toegewijd aan de continue onderhoud en verbetering ervan.
Het vaststellen van de relatie tussen 3D-structuren en de energietoestanden van moleculaire systemen heeft zich bewezen als een veelbelovende aanpak voor het leren van 3D-moleculaire representaties. Bestaande methoden zijn echter beperkt tot het modelleren van de moleculaire energietoestanden vanuit de klassieke mechanica. Deze beperking resulteert in een aanzienlijke verwaarlozing van kwantummechanische effecten, zoals gekwantiseerde (discrete) energieniveaustructuren, die een nauwkeurigere schatting van de moleculaire energie bieden en experimenteel gemeten kunnen worden via energiespectra. In dit artikel stellen we voor om de energiespectra te gebruiken om de pre-training van 3D-moleculaire representaties (MolSpectra) te verbeteren, waardoor kennis van de kwantummechanica wordt geïntegreerd in de moleculaire representaties. Specifiek introduceren we SpecFormer, een multi-spectrum encoder voor het coderen van moleculaire spectra via gemaskeerde patch-reconstructie. Door de uitvoer van de 3D-encoder en de spectrum-encoder verder af te stemmen met behulp van een contrastief doel, verbeteren we het begrip van de 3D-encoder van moleculen. Evaluaties op openbare benchmarks laten zien dat onze vooraf getrainde representaties bestaande methoden overtreffen in het voorspellen van moleculaire eigenschappen en het modelleren van dynamiek.
Kennisbewerkingstechnieken zijn naar voren gekomen als essentiële tools voor het bijwerken van de feitelijke kennis van grote taalmodellen (LLM's) en multimodale modellen (LMM's), waardoor ze verouderde of onnauwkeurige informatie kunnen corrigeren zonder opnieuw te hoeven trainen vanaf nul. Bestaande benchmarks voor multimodale kennisbewerking richten zich voornamelijk op entiteitsniveau kennis die wordt weergegeven als eenvoudige drietallen, wat niet de complexiteit van multimodale informatie in de echte wereld vastlegt. Om dit probleem aan te pakken, introduceren we MMKE-Bench, een uitgebreide MultiModale Kennisbewerking Benchmark, ontworpen om de mogelijkheid van LMM's te evalueren om diverse visuele kennis in realistische scenario's te bewerken. MMKE-Bench pakt deze beperkingen aan door drie soorten bewerkingstaken op te nemen: visuele entiteitsbewerking, visuele semantische bewerking en gebruikersspecifieke bewerking. Bovendien maakt MMKE-Bench gebruik van vrije natuurlijke taal om kennis voor te stellen en te bewerken, wat een flexibeler en effectiever formaat biedt. De benchmark bestaat uit 2.940 kennisstukken en 8.363 afbeeldingen over 33 brede categorieën, met evaluatievragen die automatisch worden gegenereerd en door mensen worden geverifieerd. We beoordelen vijf toonaangevende kennisbewerkingsmethoden op drie prominente LMM's, waarbij blijkt dat geen enkele methode uitblinkt op alle criteria, en dat visuele en gebruikersspecifieke bewerkingen bijzonder uitdagend zijn. MMKE-Bench stelt een nieuwe standaard voor het evalueren van de robuustheid van multimodale kennisbewerkingstechnieken, wat de vooruitgang in dit snel evoluerende vakgebied stimuleert.
Grote Taalmodellen (LLM's) zijn een onmisbaar onderdeel geworden van taken voor natuurlijke taalverwerking. Autoregressieve bemonstering is echter een efficiëntieknelpunt geworden. Multi-Concept Speculatief Decoderen (MDSD) is een recente benadering waarbij bij het genereren van elk token een kleine conceptuele model meerdere concepten genereert, en het doel-LLM controleert ze parallel, zodat de uiteindelijke output overeenkomt met de doelmodelverdeling. De twee belangrijkste ontwerpkeuzes in MDSD zijn de conceptbemonsteringsmethode en het verificatiealgoritme. Voor een vaste conceptbemonsteringsmethode is het optimale acceptatiepercentage een oplossing voor een optimaal transportprobleem, maar de complexiteit van dit probleem maakt het moeilijk om het optimale acceptatiepercentage op te lossen en het verschil te meten tussen bestaande verificatiealgoritmen en de theoretische bovengrens. Dit artikel bespreekt de dualiteit van het optimale transportprobleem, waardoor het mogelijk is om het optimale acceptatiepercentage efficiënt te berekenen. Voor het eerst meten we de theoretische bovengrens van de efficiëntie van MDSD voor woordenschatgroottes in de duizenden en kwantificeren we het verschil tussen bestaande verificatiealgoritmen en deze bovengrens. We vergelijken ook verschillende conceptbemonsteringsmethoden op basis van hun optimale acceptatiepercentages. Onze resultaten tonen aan dat de conceptbemonsteringsmethode sterk van invloed is op het optimale acceptatiepercentage, waarbij bemonstering zonder vervanging beter presteert dan bemonstering met vervanging. Bovendien bereiken bestaande verificatiealgoritmen niet de theoretische bovengrens voor zowel bemonstering zonder vervanging als met vervanging. Onze bevindingen suggereren dat zorgvuldig ontworpen conceptbemonsteringsmethoden potentieel het optimale acceptatiepercentage kunnen verbeteren en de ontwikkeling van verificatiealgoritmen mogelijk maken die nauw aansluiten bij de theoretische bovengrens.
Het genereren van nauwkeurige en beknopte tekstuele samenvattingen uit multimodale documenten is een uitdaging, vooral bij visueel complexe inhoud zoals wetenschappelijke posters. Wij introduceren PosterSum, een nieuwe benchmark om de ontwikkeling van visie-taalmodellen te bevorderen die wetenschappelijke posters kunnen begrijpen en samenvatten in onderzoekspaperabstracts. Onze dataset bevat 16.305 conferentieposters, gekoppeld aan hun bijbehorende abstracten als samenvattingen. Elke poster wordt in beeldformaat aangeboden en presenteert diverse visuele begripsuitdagingen, zoals complexe lay-outs, dichte tekstregio's, tabellen en figuren. We testen state-of-the-art Multimodale Grote Taalmodellen (MLLMs) op PosterSum en tonen aan dat ze moeite hebben om wetenschappelijke posters nauwkeurig te interpreteren en samen te vatten. We stellen Segment & Summarize voor, een hiërarchische methode die huidige MLLMs overtreft op geautomatiseerde metrieken, met een winst van 3,14% in ROUGE-L. Dit zal dienen als startpunt voor toekomstig onderzoek naar postersamenvatting.
Zwak gesuperviseerde semantische segmentatie (WSSS) maakt doorgaans gebruik van beperkte semantische annotaties om initiële Class Activation Maps (CAM's) te verkrijgen. Echter, vanwege de ontoereikende koppeling tussen klasse-activatieresponsen en semantische informatie in een hoog-dimensionale ruimte, is de CAM gevoelig voor objectco-voorkomen of onderactivatie, wat resulteert in een inferieure herkenningsnauwkeurigheid. Om dit probleem aan te pakken, stellen we DOEI voor, Dual Optimization of Embedding Information, een nieuw benadering die insluitende representaties reconstrueert via semantisch-bewuste aandachtsgewichtsmatrices om de expressiemogelijkheid van insluitende informatie te optimaliseren. Specifiek versterkt DOEI tokens met hoge zekerheid en onderdrukt die met lage zekerheid tijdens de klasse-naar-patch interactie. Deze afstemming van activatieresponsen met semantische informatie versterkt de propagatie en ontkoppeling van doelfuncties, waardoor de gegenereerde insluitingen doelkenmerken nauwkeuriger kunnen vertegenwoordigen in een semantische ruimte op hoog niveau. Daarnaast stellen we een hybride-functieafstemmingsmodule voor in DOEI die RGB-waarden, insluiting-geleide functies en zelfaandachtsgewichten combineert om de betrouwbaarheid van kandidaat-tokens te vergroten. Uitgebreide experimenten tonen aan dat DOEI een effectieve plug-and-play module is die visual transformer-gebaseerde WSSS-modellen van de laatste stand van de techniek in staat stelt om aanzienlijk de kwaliteit van CAM's en segmentatieprestaties te verbeteren op populaire benchmarks, waaronder PASCAL VOC (+3,6%, +1,5%, +1,2% mIoU) en MS COCO (+1,2%, +1,6% mIoU). De code zal beschikbaar zijn op https://github.com/AIGeeksGroup/DOEI.