Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren de MiniMax-01 serie, waaronder MiniMax-Text-01 en MiniMax-VL-01, die vergelijkbaar zijn met topmodellen en tegelijkertijd superieure mogelijkheden bieden voor het verwerken van langere contexten. De kern ligt in bliksemsnelle aandacht en de efficiënte schaalbaarheid ervan. Om de rekenkracht te maximaliseren, integreren we het met een Mengeling van Experts (MoE), waardoor een model met 32 experts en in totaal 456 miljard parameters ontstaat, waarvan 45,9 miljard geactiveerd zijn voor elk token. We hebben een geoptimaliseerde parallelle strategie en zeer efficiënte technieken voor overlappende berekening-communicatie ontwikkeld voor MoE en bliksemsnelle aandacht. Deze aanpak stelt ons in staat om efficiënte training en inferentie uit te voeren op modellen met honderden miljarden parameters over contexten die miljoenen tokens beslaan. Het contextvenster van MiniMax-Text-01 kan tijdens training tot 1 miljoen tokens reiken en extrapoleren naar 4 miljoen tokens tijdens inferentie tegen een betaalbare prijs. Ons visie-taalmodel, MiniMax-VL-01, is opgebouwd door voortdurende training met 512 miljard visie-taal tokens. Experimenten op zowel standaard als interne benchmarks tonen aan dat onze modellen de prestaties van toonaangevende modellen zoals GPT-4o en Claude-3.5-Sonnet evenaren, terwijl ze een contextvenster bieden dat 20-32 keer langer is. We brengen MiniMax-01 openbaar uit op https://github.com/MiniMax-AI.
Afgeleid van diffusiemodellen, is MangaNinjia gespecialiseerd in de taak van het inkleuren van lijnillustraties met referentiebegeleiding. We integreren twee doordachte ontwerpen om een nauwkeurige transcriptie van karakterdetails te waarborgen, waaronder een patch-shufflingmodule om correspondentie-leren tussen de referentiekleurenafbeelding en de doellijnillustratie te vergemakkelijken, en een op punten gestuurd besturingsschema om fijnmazige kleuraanpassing mogelijk te maken. Experimenten op een zelfverzamelde benchmark tonen de superioriteit van ons model aan ten opzichte van huidige oplossingen wat betreft nauwkeurige inkleuring. We laten verder het potentieel zien van de voorgestelde interactieve puntbesturing bij het omgaan met uitdagende gevallen, kleurinpassing tussen karakters, harmonisatie van meerdere referenties, buiten het bereik van bestaande algoritmen.
De groeiende vraag naar controleerbare uitvoer in tekst-naar-afbeelding generatie heeft geleid tot aanzienlijke vooruitgang in multi-instantie generatie (MIG), waardoor gebruikers zowel instantie-indelingen als attributen kunnen definiëren. Momenteel zijn de toonaangevende methoden in MIG voornamelijk op adapters gebaseerd. Deze methoden vereisen echter het opnieuw trainen van een nieuwe adapter telkens wanneer er een geavanceerder model wordt uitgebracht, wat resulteert in aanzienlijk gebruik van middelen. Een methodologie genaamd Diepte-Gestuurde Ontkoppelde Instantie Synthese (3DIS) is geïntroduceerd, die MIG opsplitst in twee afzonderlijke fasen: 1) diepte-gebaseerde scèneconstructie en 2) detailweergave met wijdverspreide vooraf getrainde diepte controle modellen. De 3DIS methode vereist alleen adapter training tijdens de scèneconstructiefase, terwijl verschillende modellen training-vrije detailweergave kunnen uitvoeren. Aanvankelijk richtte 3DIS zich op render technieken met behulp van U-Net architecturen zoals SD1.5, SD2 en SDXL, zonder de potentie van recente DiT-gebaseerde modellen zoals FLUX te verkennen. In dit artikel presenteren we 3DIS-FLUX, een uitbreiding van het 3DIS framework dat het FLUX model integreert voor verbeterde rendermogelijkheden. Specifiek maken we gebruik van het FLUX.1-Depth-dev model voor dieptekaart gecontroleerde beeldgeneratie en introduceren we een detailweergave die de Aandachtsmasker in FLUX's Gezamenlijke Aandachtsmechanisme manipuleert op basis van lay-outinformatie. Deze benadering maakt een nauwkeurige weergave van fijnkorrelige attributen van elke instantie mogelijk. Onze experimentele resultaten geven aan dat 3DIS-FLUX, met behulp van het FLUX model, beter presteert dan de oorspronkelijke 3DIS methode, die SD2 en SDXL gebruikte, en de huidige toonaangevende adapter-gebaseerde methoden overtreft op het gebied van zowel prestaties als beeldkwaliteit. Projectpagina: https://limuloo.github.io/3DIS/.
De diffusiemodellen worden veel gebruikt voor beeld- en videogeneratie, maar hun iteratieve generatieproces is traag en kostbaar. Hoewel bestaande distillatiebenaderingen het potentieel hebben aangetoond voor generatie in één stap in het beelddomein, kampen ze nog steeds met aanzienlijke kwaliteitsdegradatie. In dit werk stellen we Adversarial Post-Training (APT) voor tegen echte gegevens na diffusie voorafgaande training voor generatie van video in één stap. Om de trainingsstabiliteit en kwaliteit te verbeteren, introduceren we verschillende verbeteringen aan de modelarchitectuur en trainingsprocedures, samen met een benaderde R1-regularisatie doelstelling. Empirisch tonen onze experimenten aan dat ons adversarieel post-getrainde model, Seaweed-APT, in realtime 2-seconden, 1280x720, 24fps video's kan genereren met behulp van een enkele voorwaartse evaluatiestap. Bovendien is ons model in staat om 1024px beelden in één stap te genereren, met een kwaliteit vergelijkbaar met state-of-the-art methoden.
Wij presenteren Omni-RGPT, een multimodaal groot taalmodel ontworpen om regio-niveau begrip te vergemakkelijken voor zowel afbeeldingen als video's. Om consistente regio representatie over ruimtelijke en temporele dimensies te bereiken, introduceren we Token Mark, een set tokens die de doelregio's binnen de visuele kenmerkruimte benadrukken. Deze tokens worden rechtstreeks ingebed in ruimtelijke regio's met behulp van regio prompts (bijv. vakken of maskers) en tegelijkertijd opgenomen in de tekst prompt om het doelwit te specificeren, waardoor een directe verbinding tussen visuele en tekstuele tokens tot stand wordt gebracht. Om verdere ondersteuning te bieden voor robuust begrip van video's zonder dat daarvoor tracklets nodig zijn, introduceren we een hulptaak die Token Mark begeleidt door gebruik te maken van de consistentie van de tokens, waardoor stabiele regio interpretatie over de video mogelijk wordt. Daarnaast introduceren we een grootschalige regio-niveau video instructiedataset (RegVID-300k). Omni-RGPT behaalt state-of-the-art resultaten op beeld- en video-gebaseerde gezond verstand redeneer-benchmarks, terwijl het sterke prestaties laat zien bij bijschriften en verwijzende expressie begrips-taken.
Tekst-naar-afbeelding (T2I) diffusiemodellen vertrouwen op gecodeerde prompts om het afbeeldingsgeneratieproces te begeleiden. Gewoonlijk worden deze prompts uitgebreid tot een vaste lengte door padding tokens toe te voegen vóór de tekstcodering. Ondanks dat dit een standaardpraktijk is, is de invloed van padding tokens op het afbeeldingsgeneratieproces niet onderzocht. In dit werk voeren we de eerste diepgaande analyse uit van de rol die padding tokens spelen in T2I-modellen. We ontwikkelen twee causale technieken om te analyseren hoe informatie wordt gecodeerd in de representatie van tokens over verschillende componenten van de T2I-pijplijn. Met behulp van deze technieken onderzoeken we wanneer en hoe padding tokens het afbeeldingsgeneratieproces beïnvloeden. Onze bevindingen onthullen drie verschillende scenario's: padding tokens kunnen invloed hebben op de output van het model tijdens tekstcodering, tijdens het diffusieproces, of effectief genegeerd worden. Bovendien identificeren we belangrijke relaties tussen deze scenario's en de architectuur van het model (kruis- of zelfaandacht) en het trainingsproces (bevroren of getrainde tekstcodering). Deze inzichten dragen bij aan een dieper begrip van de mechanismen van padding tokens, en kunnen mogelijk toekomstige modelontwerpen en trainingspraktijken in T2I-systemen informeren.
Grote taalmodellen excelleren in het interpreteren van complexe natuurlijke taalinstructies, waardoor ze een breed scala aan taken kunnen uitvoeren. In de levenswetenschappen fungeert single-cell RNA-sequencing (scRNA-seq) data als de "taal van de celbiologie", waarbij complexe genexpressiepatronen op het niveau van individuele cellen worden vastgelegd. Echter, communiceren met deze "taal" via conventionele tools is vaak inefficiënt en onintuïtief, wat uitdagingen oplevert voor onderzoekers. Om deze beperkingen aan te pakken, presenteren we InstructCell, een multi-modale AI-co-piloot die natuurlijke taal benut als medium voor meer directe en flexibele single-cell analyse. We construeren een uitgebreide multi-modale instructiedataset die tekstuele instructies koppelt aan scRNA-seq profielen van diverse weefsels en soorten. Voortbouwend hierop ontwikkelen we een multi-modale cel-taalarchitectuur die in staat is om beide modaliteiten tegelijkertijd te interpreteren en te verwerken. InstructCell stelt onderzoekers in staat om cruciale taken - zoals celtype annotatie, conditionele pseudo-celgeneratie en voorspelling van medicijngevoeligheid - uit te voeren met eenvoudige natuurlijke taalopdrachten. Uitgebreide evaluaties tonen aan dat InstructCell consequent voldoet aan of de prestaties van bestaande single-cell basismodellen overtreft, terwijl het zich aanpast aan diverse experimentele omstandigheden. Belangrijker nog, InstructCell biedt een toegankelijk en intuïtief instrument voor het verkennen van complexe single-cell data, waardoor technische barrières worden verlaagd en diepere biologische inzichten mogelijk worden gemaakt.
We introduceren PokerBench - een benchmark voor het evalueren van de pokervaardigheden van grote taalmodellen (LLM's). Aangezien LLM's uitblinken in traditionele NLP-taken, vormt hun toepassing op complexe, strategische spellen zoals poker een nieuwe uitdaging. Poker, een spel met onvolledige informatie, vereist een veelheid aan vaardigheden zoals wiskunde, redeneren, planning, strategie, en een diepgaand begrip van speltheorie en menselijke psychologie. Dit maakt Poker de ideale volgende stap voor grote taalmodellen. PokerBench bestaat uit een uitgebreide verzameling van 11.000 belangrijkste scenario's, verdeeld tussen pre-flop en post-flop spel, ontwikkeld in samenwerking met getrainde pokerspelers. We evalueren prominente modellen, waaronder GPT-4, ChatGPT 3.5, en verschillende Llama- en Gemma-seriemodellen, waarbij we constateren dat alle toonaangevende LLM's onderpresteren bij het spelen van optimaal poker. Echter, na fijnafstemming vertonen deze modellen aanzienlijke verbeteringen. We valideren PokerBench door modellen met verschillende scores tegen elkaar te laten spelen, waarbij we aantonen dat hogere scores op PokerBench leiden tot hogere winstpercentages in daadwerkelijke pokerspellen. Door gameplay tussen ons fijnafgestemde model en GPT-4 identificeren we ook beperkingen van eenvoudige begeleide fijnafstemming voor het leren van optimale speelstrategie, wat wijst op de noodzaak van meer geavanceerde methodologieën voor effectieve training van taalmodellen om uit te blinken in spellen. PokerBench biedt daarom een unieke benchmark voor een snelle en betrouwbare evaluatie van de pokervaardigheid van LLM's, evenals een uitgebreide benchmark om de voortgang van LLM's in complexe spelscenario's te bestuderen. De dataset en code zullen beschikbaar worden gesteld op: https://github.com/pokerllm/pokerbench.
Interactieve beeldbewerking stelt gebruikers in staat om afbeeldingen te wijzigen door visuele interactiehandelingen zoals tekenen, klikken en slepen. Bestaande methoden construeren dergelijke toezichtsignalen uit video's, omdat ze vastleggen hoe objecten veranderen met verschillende fysieke interacties. Deze modellen zijn echter meestal gebaseerd op tekst-naar-beeld diffusiemodellen, waardoor ze (i) enorme trainingsvoorbeelden en (ii) een aanvullende referentie-encoder vereisen om de dynamiek en visuele consistentie van de echte wereld te leren. In dit artikel hervormen we deze taak als een probleem van beeld-naar-video generatie, zodat we krachtige videodiffusieprioriteiten erven om trainingskosten te verlagen en temporele consistentie te waarborgen. Specifiek introduceren we FramePainter als een efficiënte instantiatie van deze formulering. Geïnitialiseerd met Stable Video Diffusion, maakt het alleen gebruik van een lichtgewicht spaarzame besturingsencoder om bewerkingssignalen in te voeren. Gezien de beperkingen van temporele aandacht bij het omgaan met grote bewegingen tussen twee frames, stellen we verder voor om overeenkomstige aandacht te gebruiken om het receptieve veld te vergroten en tegelijkertijd dichte overeenkomsten tussen bewerkte en bronbeeldtokens aan te moedigen. We benadrukken de effectiviteit en efficiëntie van FramePainter bij verschillende bewerkingssignalen: het presteert aanzienlijk beter dan eerdere state-of-the-art methoden met veel minder trainingsgegevens, en bereikt zeer naadloze en coherente bewerking van afbeeldingen, bijvoorbeeld automatisch de reflectie van de beker aanpassen. Bovendien vertoont FramePainter ook uitzonderlijke generalisatie in scenario's die niet aanwezig zijn in echte wereldvideo's, bijvoorbeeld de clownvis transformeren in een haaiachtige vorm. Onze code zal beschikbaar zijn op https://github.com/YBYBZhang/FramePainter.
Afbeelding-tokenizers vormen de basis van moderne tekst-naar-afbeelding generatieve modellen, maar zijn berucht moeilijk te trainen. Bovendien vertrouwen de meeste bestaande tekst-naar-afbeelding modellen op grootschalige, hoogwaardige privé datasets, waardoor ze lastig te repliceren zijn. In dit werk introduceren we Text-Aware Transformer-gebaseerde 1-dimensionale Tokenizer (TA-TiTok), een efficiënte en krachtige afbeelding-tokenizer die zowel discrete als continue 1-dimensionale tokens kan gebruiken. TA-TiTok integreert op unieke wijze tekstuele informatie tijdens het decoderen van de tokenizer (d.w.z. detokenisatie), wat de convergentie versnelt en de prestaties verbetert. TA-TiTok profiteert ook van een vereenvoudigd, maar effectief, eenfasig trainingsproces, waarbij de complexe tweefasige distillatie die in eerdere 1-dimensionale tokenizers werd gebruikt, overbodig wordt gemaakt. Deze ontwerpkeuze maakt naadloos schaalbaarheid naar grote datasets mogelijk. Voortbouwend hierop introduceren we een familie van tekst-naar-afbeelding Masked Generative Modellen (MaskGen), exclusief getraind op open data, terwijl vergelijkbare prestaties worden behaald als modellen getraind op privégegevens. We streven ernaar zowel de efficiënte, krachtige TA-TiTok-tokenizers als de open-data, open-gewicht MaskGen-modellen vrij te geven om bredere toegang te bevorderen en het veld van tekst-naar-afbeelding masked generatieve modellen te democratiseren.
Ondanks hun indrukwekkende vermogen om tekst van hoge kwaliteit en vloeiend te genereren, produceren generatieve grote taalmodellen (GTM's) ook hallucinaties: uitspraken die niet in overeenstemming zijn met vastgestelde wereldkennis of de verstrekte context van de invoer. Het meten van hallucinatie kan echter uitdagend zijn, aangezien het laten verifiëren van modelgeneraties door mensen ter plekke zowel duur als tijdrovend is. In dit werk publiceren we HALoGEN, een uitgebreide hallucinatie-benchmark bestaande uit: (1) 10.923 prompts voor generatieve modellen die negen domeinen bestrijken, waaronder programmeren, wetenschappelijke attributie en samenvatting, en (2) automatische verificatiemiddelen met hoge precisie voor elk gebruiksscenario die LLM-generaties ontleden in atomaire eenheden en elke eenheid verifiëren tegen een hoogwaardige kennisbron. We gebruiken dit kader om ongeveer 150.000 generaties van 14 taalmodellen te evalueren, waarbij we ontdekken dat zelfs de best presterende modellen vergeven zijn van hallucinaties (soms tot wel 86% van gegenereerde atomaire feiten, afhankelijk van het domein). We definiëren verder een nieuwe foutclassificatie voor LLM-hallucinaties op basis van of ze waarschijnlijk voortkomen uit onjuiste herinnering aan trainingsgegevens (Type A-fouten), onjuiste kennis in trainingsgegevens (Type B-fouten) of fabricatie (Type C-fouten). We hopen dat ons kader een basis biedt om het systematische onderzoek naar waarom generatieve modellen hallucineren mogelijk te maken en de ontwikkeling van betrouwbare grote taalmodellen te bevorderen.
We introduceren Tarsier2, een toonaangevend groot visie-taalmodel (LVLM) ontworpen voor het genereren van gedetailleerde en nauwkeurige videobeschrijvingen, terwijl het ook superieure algemene videobegripscapaciteiten vertoont. Tarsier2 boekt aanzienlijke vooruitgang door drie belangrijke upgrades: (1) Het schalen van pre-training data van 11M naar 40M video-tekstparen, waardoor zowel de hoeveelheid als de diversiteit wordt verrijkt; (2) Het uitvoeren van fijnmazige temporele afstemming tijdens begeleid fijnafstemmen; (3) Het gebruik van op model gebaseerde steekproeven om automatisch voorkeursgegevens te construeren en het toepassen van DPO-training voor optimalisatie. Uitgebreide experimenten tonen aan dat Tarsier2-7B consequent beter presteert dan toonaangevende gepatenteerde modellen, waaronder GPT-4o en Gemini 1.5 Pro, in gedetailleerde videobeschrijvingstaken. Op de DREAM-1K benchmark verbetert Tarsier2-7B de F1 met 2.8\% ten opzichte van GPT-4o en met 5.8\% ten opzichte van Gemini-1.5-Pro. In menselijke zij-aan-zij evaluaties toont Tarsier2-7B een prestatievoordeel van +8.6\% ten opzichte van GPT-4o en +24.9\% ten opzichte van Gemini-1.5-Pro. Tarsier2-7B zet ook nieuwe state-of-the-art resultaten neer over 15 openbare benchmarks, variërend van taken zoals videovraagbeantwoording, videoverankering, hallucinatietest en belichaamde vraagbeantwoording, waarbij het zijn veelzijdigheid als een robuust algemeen visie-taalmodel aantoont.
Geautomatiseerde interpreteerbaarheidspijplijnen genereren natuurlijke taalbeschrijvingen voor de concepten die worden vertegenwoordigd door kenmerken in grote taalmodellen (LLM's), zoals planten of het eerste woord in een zin. Deze beschrijvingen worden afgeleid met behulp van invoergegevens die het kenmerk activeren, wat een dimensie of een richting kan zijn in de representatieruimte van het model. Het identificeren van activerende invoergegevens is echter kostbaar, en de mechanistische rol van een kenmerk in het modelgedrag wordt bepaald door zowel hoe invoergegevens een kenmerk activeren als door hoe kenmerkactivatie de uitvoer beïnvloedt. Met behulp van stuurbeoordelingen onthullen we dat huidige pijplijnen beschrijvingen leveren die niet de causale effecten van het kenmerk op de uitvoer vastleggen. Om dit op te lossen, stellen we efficiënte, op de uitvoer gerichte methoden voor om automatisch kenmerkbeschrijvingen te genereren. Deze methoden gebruiken de tokens met een hoger gewicht na kenmerkstimulatie of de tokens met het hoogste gewicht na het direct toepassen van de "ontembeddings"-functie op het kenmerk. Onze op de uitvoer gerichte beschrijvingen leggen beter de causale effecten van een kenmerk op de modeluitvoer vast dan op de invoer gerichte beschrijvingen, maar door de twee te combineren behalen we de beste prestaties bij zowel invoer- als uitvoerbeoordelingen. Tot slot tonen we aan dat op de uitvoer gerichte beschrijvingen kunnen worden gebruikt om invoergegevens te vinden die kenmerken activeren die eerder als "inactief" werden beschouwd.
Grote taalmodellen (LLM's) hebben opmerkelijke mogelijkheden aangetoond, maar hun succes is sterk afhankelijk van de kwaliteit van de pretraining-corpora. Voor Chinese LLM's vormt de schaarste aan hoogwaardige Chinese datasets een aanzienlijke uitdaging, die vaak hun prestaties beperkt. Om dit probleem aan te pakken, stellen we de OpenCSG Chinese Corpus voor, een reeks hoogwaardige datasets die specifiek zijn ontworpen voor LLM-pretraining, post-training en fine-tuning. Deze corpus omvat Fineweb-edu-chinese, Fineweb-edu-chinese-v2, Cosmopedia-chinese en Smoltalk-chinese, elk met verschillende kenmerken: de Fineweb-edu-datasets richten zich op gefilterde, hoogwaardige inhoud afkomstig van diverse Chinese webbronnen; Cosmopedia-chinese biedt synthetische, op tekstboeken gebaseerde gegevens voor kennisintensieve training; en Smoltalk-chinese benadrukt stijlvolle en diverse chat-formaat gegevens. De OpenCSG Chinese Corpus wordt gekenmerkt door zijn hoogwaardige tekst, diverse dekking over verschillende domeinen en schaalbare, reproduceerbare gegevenscuratieprocessen. Bovendien hebben we uitgebreide experimentele analyses uitgevoerd, waaronder evaluaties op kleinere parametermodellen, die aanzienlijke prestatieverbeteringen aantoonden in taken zoals C-Eval, waarbij de effectiviteit van de corpus voor het trainen van Chinese LLM's werd aangetoond.
Haatzaaien en beledigende taal zijn wereldwijde fenomenen die sociaal-culturele achtergrondkennis vereisen om begrepen, geïdentificeerd en gemodereerd te worden. Echter, in veel regio's van de Global South zijn verschillende gedocumenteerde gevallen van (1) afwezigheid van moderatie en (2) censuur voorgekomen als gevolg van het vertrouwen op trefwoordherkenning buiten de context. Bovendien zijn prominente personen vaak het middelpunt van het moderatieproces geweest, terwijl grootschalige en gerichte haatzaaicampagnes tegen minderheden over het hoofd zijn gezien. Deze beperkingen zijn voornamelijk te wijten aan het gebrek aan hoogwaardige gegevens in de lokale talen en het verzuim om lokale gemeenschappen te betrekken bij het verzamelen, annoteren en modereren van gegevens. Om dit probleem aan te pakken, presenteren we AfriHate: een meertalige verzameling van datasets met haatzaaien en beledigende taal in 15 Afrikaanse talen. Elke instantie in AfriHate is geannoteerd door moedertaalsprekers die bekend zijn met de lokale cultuur. We rapporteren de uitdagingen met betrekking tot de constructie van de datasets en presenteren verschillende baselines voor classificatie met en zonder het gebruik van LLM's. De datasets, individuele annotaties en lexicons van haatzaaien en beledigende taal zijn beschikbaar op https://github.com/AfriHate/AfriHate
Beeldmatching, dat tot doel heeft overeenkomstige pixellocaties tussen afbeeldingen te identificeren, is cruciaal in een breed scala van wetenschappelijke disciplines, waarbij het helpt bij beeldregistratie, fusie en analyse. In de afgelopen jaren hebben op deep learning gebaseerde beeldmatchingalgoritmen aanzienlijk beter gepresteerd dan mensen in het snel en nauwkeurig vinden van grote hoeveelheden overeenkomsten. Echter, wanneer wordt omgegaan met afbeeldingen die zijn vastgelegd onder verschillende beeldvormende modaliteiten die leiden tot aanzienlijke uiterlijke veranderingen, verslechtert de prestatie van deze algoritmen vaak als gevolg van de schaarste aan geannoteerde cross-modale trainingsgegevens. Deze beperking belemmert toepassingen in verschillende vakgebieden die vertrouwen op meerdere beeldmodaliteiten om aanvullende informatie te verkrijgen. Om deze uitdaging aan te gaan, stellen we een grootschalig pre-trainingframework voor dat synthetische cross-modale trainingsignalen gebruikt, waarbij diverse gegevens uit verschillende bronnen worden geïncorporeerd om modellen te trainen om fundamentele structuren over afbeeldingen te herkennen en te matchen. Deze mogelijkheid is overdraagbaar naar echte, ongeziene cross-modale beeldmatchingtaken. Onze belangrijkste bevinding is dat het matchingmodel dat is getraind met ons framework opmerkelijke generaliseerbaarheid bereikt over meer dan acht ongeziene cross-modale registratietaken met behulp van hetzelfde netwerkgewicht, aanzienlijk beter presterend dan bestaande methoden, of deze nu zijn ontworpen voor generalisatie of op maat zijn gemaakt voor specifieke taken. Deze vooruitgang verbetert aanzienlijk de toepasbaarheid van beeldmatchingtechnologieën over verschillende wetenschappelijke disciplines en legt de weg vrij voor nieuwe toepassingen in multi-modaliteit menselijke en kunstmatige intelligentieanalyse en verder.
Snelle vooruitgang in grote taalmodellen heeft opmerkelijke mogelijkheden ontsloten als het gaat om het verwerken en samenvatten van ongestructureerde tekstgegevens. Dit heeft implicaties voor de analyse van rijke, open datasets, zoals enquêtereacties, waar taalmodellen de belofte in zich dragen om efficiënt de belangrijkste thema's en sentimenten te destilleren. Echter, nu organisaties steeds vaker gebruik maken van deze krachtige AI-systemen om tekstuele feedback te begrijpen, rijst een kritische vraag: kunnen we taalmodellen vertrouwen om de perspectieven nauwkeurig weer te geven die vervat zitten in deze op tekst gebaseerde datasets? Hoewel taalmodellen uitblinken in het genereren van mensachtige samenvattingen, bestaat het risico dat hun uitvoer onbedoeld kan afwijken van de ware inhoud van de oorspronkelijke reacties. Verschillen tussen de door taalmodellen gegenereerde uitvoer en de daadwerkelijke thema's in de gegevens kunnen leiden tot gebrekkige besluitvorming, met verstrekkende gevolgen voor organisaties. Dit onderzoek onderzoekt de effectiviteit van taalmodellen als beoordelingsmodellen om de thematische afstemming van samenvattingen die door andere taalmodellen zijn gegenereerd, te evalueren. We hebben een Anthropische Claude-model gebruikt om thematische samenvattingen te genereren van open enquêtereacties, waarbij Amazon's Titan Express, Nova Pro, en Meta's Llama dienden als taalmodellen-beoordelaars. De aanpak van taalmodellen als beoordelaars werd vergeleken met menselijke beoordelingen met behulp van Cohen's kappa, Spearman's rho, en Krippendorff's alpha, waarbij een schaalbare alternatief voor traditionele op mensen gerichte evaluatiemethoden werd gevalideerd. Onze bevindingen tonen aan dat hoewel taalmodellen als beoordelaars een schaalbare oplossing bieden die vergelijkbaar is met menselijke beoordelaars, mensen nog steeds uitblinken in het detecteren van subtiele, contextspecifieke nuances. Dit onderzoek draagt bij aan de groeiende kennis over door AI ondersteunde tekstanalyse. We bespreken beperkingen en geven aanbevelingen voor toekomstig onderzoek, waarbij de noodzaak wordt benadrukt van zorgvuldige overweging bij het generaliseren van taalmodel-beoordelingsmodellen over verschillende contexten en toepassingen.
De zoektocht naar geautomatiseerde wetenschappelijke ontdekkingen heeft vooruitgang gestimuleerd van symbolische logica tot moderne AI, waarbij nieuwe fronten worden verkend in redenering en patroonherkenning. Transformers fungeren als potentiële systemen, waarbij elke mogelijke relatie latent potentieel blijft totdat taken beperkingen opleggen, vergelijkbaar met meting. Toch vereist het verfijnen van hun bemonstering meer dan probabilistische selectie: oplossingen moeten voldoen aan specifieke structuren of regels, zodat consistentie en het aanroepen van algemene principes worden gewaarborgd. Wij presenteren Graph-PReFLexOR (Grafisch Gebaseerd Voorkeursgebaseerd Recursief Taalmodel voor Verkennende Optimalisatie van Redenering), een raamwerk dat grafisch redeneren combineert met symbolische abstractie om domeinkennis dynamisch uit te breiden. Geïnspireerd door reinforcement learning, definieert Graph-PReFLexOR redenering als een gestructureerde mapping, waarbij taken kennisgrafieken, abstracte patronen en uiteindelijk definitieve antwoorden opleveren. Geïnspireerd door categorietheorie, codeert het concepten als knooppunten en hun relaties als randen, waardoor hiërarchische inferentie en adaptief leren mogelijk zijn via isomorfe representaties. Demonstraties omvatten hypothesevorming, materiaalontwerp en creatief redeneren, zoals het ontdekken van relaties tussen mythologische concepten zoals 'dunne plaatsen' met materiaalkunde. We stellen een 'kennisgroei in de tuin' strategie voor die inzichten over domeinen integreert en interdisciplinaire verbindingen bevordert. Resultaten met een Graph-PReFLexOR model van 3 miljard parameters tonen superieure redeneerdiepte en aanpasbaarheid, waarbij het potentieel voor transparante, multidisciplinaire door AI aangestuurde ontdekkingen wordt benadrukt. Het legt de basis voor algemene autonome redeneeroplossingen.