AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

MiniMax-01: Schalen van Foundation Modellen met Bliksem Aandacht
MiniMax-01: Scaling Foundation Models with Lightning Attention

Jan 14

ByMiniMax, Aonian Li, Bangwei Gong, Bo Yang, Boji Shan, Chang Liu, Cheng Zhu, Chunhao Zhang, Congchao Guo, Da Chen, Dong Li, Enwei Jiao, Gengxin Li, Guojun Zhang, Haohai Sun, Houze Dong, Jiadai Zhu, Jiaqi Zhuang, Jiayuan Song, Jin Zhu, Jingtao Han, Jingyang Li, Junbin Xie, Junhao Xu, Junjie Yan, Kaishun Zhang, Kecheng Xiao, Kexi Kang, Le Han, Leyang Wang, Lianfei Yu, Liheng Feng, Lin Zheng, Linbo Chai, Long Xing, Meizhi Ju, Mingyuan Chi, Mozhi Zhang, Peikai Huang, Pengcheng Niu, Pengfei Li, Pengyu Zhao, Qi Yang, Qidi Xu, Qiexiang Wang, Qin Wang, Qiuhui Li, Ruitao Leng, Shengmin Shi, Shuqi Yu, Sichen Li, Songquan Zhu, Tao Huang, Tianrun Liang, Weigao Sun, Weixuan Sun, Weiyu Cheng, Wenkai Li, Xiangjun Song, Xiao Su, Xiaodong Han, Xinjie Zhang, Xinzhu Hou, Xu Min, Xun Zou, Xuyang Shen, Yan Gong, Yingjie Zhu, Yipeng Zhou, Yiran Zhong, Yongyi Hu, Yuanxiang Fan, Yue Yu, Yufeng Yang, Yuhao Li, Yunan Huang, Yunji Li, Yunpeng Huang, Yunzhi Xu, Yuxin Mao, Zehan Li, Zekang Li, Zewei Tao, Zewen Ying, Zhaoyang Cong, Zhen Qin, Zhenhua Fan, Zhihang Yu, Zhuo Jiang, Zijia Wu

301

We introduceren de MiniMax-01 serie, waaronder MiniMax-Text-01 en MiniMax-VL-01, die vergelijkbaar zijn met topmodellen en tegelijkertijd superieure mogelijkheden bieden voor het verwerken van langere contexten. De kern ligt in bliksemsnelle aandacht en de efficiënte schaalbaarheid ervan. Om de rekenkracht te maximaliseren, integreren we het met een Mengeling van Experts (MoE), waardoor een model met 32 experts en in totaal 456 miljard parameters ontstaat, waarvan 45,9 miljard geactiveerd zijn voor elk token. We hebben een geoptimaliseerde parallelle strategie en zeer efficiënte technieken voor overlappende berekening-communicatie ontwikkeld voor MoE en bliksemsnelle aandacht. Deze aanpak stelt ons in staat om efficiënte training en inferentie uit te voeren op modellen met honderden miljarden parameters over contexten die miljoenen tokens beslaan. Het contextvenster van MiniMax-Text-01 kan tijdens training tot 1 miljoen tokens reiken en extrapoleren naar 4 miljoen tokens tijdens inferentie tegen een betaalbare prijs. Ons visie-taalmodel, MiniMax-VL-01, is opgebouwd door voortdurende training met 512 miljard visie-taal tokens. Experimenten op zowel standaard als interne benchmarks tonen aan dat onze modellen de prestaties van toonaangevende modellen zoals GPT-4o en Claude-3.5-Sonnet evenaren, terwijl ze een contextvenster bieden dat 20-32 keer langer is. We brengen MiniMax-01 openbaar uit op https://github.com/MiniMax-AI.

MangaNinja: Kleurisering van lijntekeningen met nauwkeurige referentieopvolging
MangaNinja: Line Art Colorization with Precise Reference Following

Jan 14

ByZhiheng Liu, Ka Leong Cheng, Xi Chen, Jie Xiao, Hao Ouyang, Kai Zhu, Yu Liu, Yujun Shen, Qifeng Chen, Ping Luo

Afgeleid van diffusiemodellen, is MangaNinjia gespecialiseerd in de taak van het inkleuren van lijnillustraties met referentiebegeleiding. We integreren twee doordachte ontwerpen om een nauwkeurige transcriptie van karakterdetails te waarborgen, waaronder een patch-shufflingmodule om correspondentie-leren tussen de referentiekleurenafbeelding en de doellijnillustratie te vergemakkelijken, en een op punten gestuurd besturingsschema om fijnmazige kleuraanpassing mogelijk te maken. Experimenten op een zelfverzamelde benchmark tonen de superioriteit van ons model aan ten opzichte van huidige oplossingen wat betreft nauwkeurige inkleuring. We laten verder het potentieel zien van de voorgestelde interactieve puntbesturing bij het omgaan met uitdagende gevallen, kleurinpassing tussen karakters, harmonisatie van meerdere referenties, buiten het bereik van bestaande algoritmen.

3DIS-FLUX: eenvoudige en efficiënte generatie van meerdere instanties met DiT-rendering
3DIS-FLUX: simple and efficient multi-instance generation with DiT rendering

Jan 9

ByDewei Zhou, Ji Xie, Zongxin Yang, Yi Yang

De groeiende vraag naar controleerbare uitvoer in tekst-naar-afbeelding generatie heeft geleid tot aanzienlijke vooruitgang in multi-instantie generatie (MIG), waardoor gebruikers zowel instantie-indelingen als attributen kunnen definiëren. Momenteel zijn de toonaangevende methoden in MIG voornamelijk op adapters gebaseerd. Deze methoden vereisen echter het opnieuw trainen van een nieuwe adapter telkens wanneer er een geavanceerder model wordt uitgebracht, wat resulteert in aanzienlijk gebruik van middelen. Een methodologie genaamd Diepte-Gestuurde Ontkoppelde Instantie Synthese (3DIS) is geïntroduceerd, die MIG opsplitst in twee afzonderlijke fasen: 1) diepte-gebaseerde scèneconstructie en 2) detailweergave met wijdverspreide vooraf getrainde diepte controle modellen. De 3DIS methode vereist alleen adapter training tijdens de scèneconstructiefase, terwijl verschillende modellen training-vrije detailweergave kunnen uitvoeren. Aanvankelijk richtte 3DIS zich op render technieken met behulp van U-Net architecturen zoals SD1.5, SD2 en SDXL, zonder de potentie van recente DiT-gebaseerde modellen zoals FLUX te verkennen. In dit artikel presenteren we 3DIS-FLUX, een uitbreiding van het 3DIS framework dat het FLUX model integreert voor verbeterde rendermogelijkheden. Specifiek maken we gebruik van het FLUX.1-Depth-dev model voor dieptekaart gecontroleerde beeldgeneratie en introduceren we een detailweergave die de Aandachtsmasker in FLUX's Gezamenlijke Aandachtsmechanisme manipuleert op basis van lay-outinformatie. Deze benadering maakt een nauwkeurige weergave van fijnkorrelige attributen van elke instantie mogelijk. Onze experimentele resultaten geven aan dat 3DIS-FLUX, met behulp van het FLUX model, beter presteert dan de oorspronkelijke 3DIS methode, die SD2 en SDXL gebruikte, en de huidige toonaangevende adapter-gebaseerde methoden overtreft op het gebied van zowel prestaties als beeldkwaliteit. Projectpagina: https://limuloo.github.io/3DIS/.

Diffusie Adversariële Post-Training voor Eén-Stap Video Generatie
Diffusion Adversarial Post-Training for One-Step Video Generation

Jan 14

ByShanchuan Lin, Xin Xia, Yuxi Ren, Ceyuan Yang, Xuefeng Xiao, Lu Jiang

De diffusiemodellen worden veel gebruikt voor beeld- en videogeneratie, maar hun iteratieve generatieproces is traag en kostbaar. Hoewel bestaande distillatiebenaderingen het potentieel hebben aangetoond voor generatie in één stap in het beelddomein, kampen ze nog steeds met aanzienlijke kwaliteitsdegradatie. In dit werk stellen we Adversarial Post-Training (APT) voor tegen echte gegevens na diffusie voorafgaande training voor generatie van video in één stap. Om de trainingsstabiliteit en kwaliteit te verbeteren, introduceren we verschillende verbeteringen aan de modelarchitectuur en trainingsprocedures, samen met een benaderde R1-regularisatie doelstelling. Empirisch tonen onze experimenten aan dat ons adversarieel post-getrainde model, Seaweed-APT, in realtime 2-seconden, 1280x720, 24fps video's kan genereren met behulp van een enkele voorwaartse evaluatiestap. Bovendien is ons model in staat om 1024px beelden in één stap te genereren, met een kwaliteit vergelijkbaar met state-of-the-art methoden.

Omni-RGPT: Vereniging van Beeld- en Videoregioniveau Begrip via Tokenmarkeringen
Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks

Jan 14

ByMiran Heo, Min-Hung Chen, De-An Huang, Sifei Liu, Subhashree Radhakrishnan, Seon Joo Kim, Yu-Chiang Frank Wang, Ryo Hachiuma

Wij presenteren Omni-RGPT, een multimodaal groot taalmodel ontworpen om regio-niveau begrip te vergemakkelijken voor zowel afbeeldingen als video's. Om consistente regio representatie over ruimtelijke en temporele dimensies te bereiken, introduceren we Token Mark, een set tokens die de doelregio's binnen de visuele kenmerkruimte benadrukken. Deze tokens worden rechtstreeks ingebed in ruimtelijke regio's met behulp van regio prompts (bijv. vakken of maskers) en tegelijkertijd opgenomen in de tekst prompt om het doelwit te specificeren, waardoor een directe verbinding tussen visuele en tekstuele tokens tot stand wordt gebracht. Om verdere ondersteuning te bieden voor robuust begrip van video's zonder dat daarvoor tracklets nodig zijn, introduceren we een hulptaak die Token Mark begeleidt door gebruik te maken van de consistentie van de tokens, waardoor stabiele regio interpretatie over de video mogelijk wordt. Daarnaast introduceren we een grootschalige regio-niveau video instructiedataset (RegVID-300k). Omni-RGPT behaalt state-of-the-art resultaten op beeld- en video-gebaseerde gezond verstand redeneer-benchmarks, terwijl het sterke prestaties laat zien bij bijschriften en verwijzende expressie begrips-taken.

Vullingsniveau: Een Mechanistische Analyse van Vullings-tokens in T2I Modellen
Padding Tone: A Mechanistic Analysis of Padding Tokens in T2I Models

Jan 12

ByMichael Toker, Ido Galil, Hadas Orgad, Rinon Gal, Yoad Tewel, Gal Chechik, Yonatan Belinkov

Tekst-naar-afbeelding (T2I) diffusiemodellen vertrouwen op gecodeerde prompts om het afbeeldingsgeneratieproces te begeleiden. Gewoonlijk worden deze prompts uitgebreid tot een vaste lengte door padding tokens toe te voegen vóór de tekstcodering. Ondanks dat dit een standaardpraktijk is, is de invloed van padding tokens op het afbeeldingsgeneratieproces niet onderzocht. In dit werk voeren we de eerste diepgaande analyse uit van de rol die padding tokens spelen in T2I-modellen. We ontwikkelen twee causale technieken om te analyseren hoe informatie wordt gecodeerd in de representatie van tokens over verschillende componenten van de T2I-pijplijn. Met behulp van deze technieken onderzoeken we wanneer en hoe padding tokens het afbeeldingsgeneratieproces beïnvloeden. Onze bevindingen onthullen drie verschillende scenario's: padding tokens kunnen invloed hebben op de output van het model tijdens tekstcodering, tijdens het diffusieproces, of effectief genegeerd worden. Bovendien identificeren we belangrijke relaties tussen deze scenario's en de architectuur van het model (kruis- of zelfaandacht) en het trainingsproces (bevroren of getrainde tekstcodering). Deze inzichten dragen bij aan een dieper begrip van de mechanismen van padding tokens, en kunnen mogelijk toekomstige modelontwerpen en trainingspraktijken in T2I-systemen informeren.

Een Multi-Modale AI Copiloot voor Single-Cell Analyse met Instructieopvolging
A Multi-Modal AI Copilot for Single-Cell Analysis with Instruction Following

Jan 14

ByYin Fang, Xinle Deng, Kangwei Liu, Ningyu Zhang, Jingyang Qian, Penghui Yang, Xiaohui Fan, Huajun Chen

Grote taalmodellen excelleren in het interpreteren van complexe natuurlijke taalinstructies, waardoor ze een breed scala aan taken kunnen uitvoeren. In de levenswetenschappen fungeert single-cell RNA-sequencing (scRNA-seq) data als de "taal van de celbiologie", waarbij complexe genexpressiepatronen op het niveau van individuele cellen worden vastgelegd. Echter, communiceren met deze "taal" via conventionele tools is vaak inefficiënt en onintuïtief, wat uitdagingen oplevert voor onderzoekers. Om deze beperkingen aan te pakken, presenteren we InstructCell, een multi-modale AI-co-piloot die natuurlijke taal benut als medium voor meer directe en flexibele single-cell analyse. We construeren een uitgebreide multi-modale instructiedataset die tekstuele instructies koppelt aan scRNA-seq profielen van diverse weefsels en soorten. Voortbouwend hierop ontwikkelen we een multi-modale cel-taalarchitectuur die in staat is om beide modaliteiten tegelijkertijd te interpreteren en te verwerken. InstructCell stelt onderzoekers in staat om cruciale taken - zoals celtype annotatie, conditionele pseudo-celgeneratie en voorspelling van medicijngevoeligheid - uit te voeren met eenvoudige natuurlijke taalopdrachten. Uitgebreide evaluaties tonen aan dat InstructCell consequent voldoet aan of de prestaties van bestaande single-cell basismodellen overtreft, terwijl het zich aanpast aan diverse experimentele omstandigheden. Belangrijker nog, InstructCell biedt een toegankelijk en intuïtief instrument voor het verkennen van complexe single-cell data, waardoor technische barrières worden verlaagd en diepere biologische inzichten mogelijk worden gemaakt.

FramePainter: Interactieve beeldbewerking voorzien van videodiffusiepriors
FramePainter: Endowing Interactive Image Editing with Video Diffusion Priors

Jan 14

ByYabo Zhang, Xinpeng Zhou, Yihan Zeng, Hang Xu, Hui Li, Wangmeng Zuo

Interactieve beeldbewerking stelt gebruikers in staat om afbeeldingen te wijzigen door visuele interactiehandelingen zoals tekenen, klikken en slepen. Bestaande methoden construeren dergelijke toezichtsignalen uit video's, omdat ze vastleggen hoe objecten veranderen met verschillende fysieke interacties. Deze modellen zijn echter meestal gebaseerd op tekst-naar-beeld diffusiemodellen, waardoor ze (i) enorme trainingsvoorbeelden en (ii) een aanvullende referentie-encoder vereisen om de dynamiek en visuele consistentie van de echte wereld te leren. In dit artikel hervormen we deze taak als een probleem van beeld-naar-video generatie, zodat we krachtige videodiffusieprioriteiten erven om trainingskosten te verlagen en temporele consistentie te waarborgen. Specifiek introduceren we FramePainter als een efficiënte instantiatie van deze formulering. Geïnitialiseerd met Stable Video Diffusion, maakt het alleen gebruik van een lichtgewicht spaarzame besturingsencoder om bewerkingssignalen in te voeren. Gezien de beperkingen van temporele aandacht bij het omgaan met grote bewegingen tussen twee frames, stellen we verder voor om overeenkomstige aandacht te gebruiken om het receptieve veld te vergroten en tegelijkertijd dichte overeenkomsten tussen bewerkte en bronbeeldtokens aan te moedigen. We benadrukken de effectiviteit en efficiëntie van FramePainter bij verschillende bewerkingssignalen: het presteert aanzienlijk beter dan eerdere state-of-the-art methoden met veel minder trainingsgegevens, en bereikt zeer naadloze en coherente bewerking van afbeeldingen, bijvoorbeeld automatisch de reflectie van de beker aanpassen. Bovendien vertoont FramePainter ook uitzonderlijke generalisatie in scenario's die niet aanwezig zijn in echte wereldvideo's, bijvoorbeeld de clownvis transformeren in een haaiachtige vorm. Onze code zal beschikbaar zijn op https://github.com/YBYBZhang/FramePainter.

PokerBench: Het trainen van grote taalmodellen om professionele pokerspelers te worden
PokerBench: Training Large Language Models to become Professional Poker Players

Jan 14

ByRichard Zhuang, Akshat Gupta, Richard Yang, Aniket Rahane, Zhengyu Li, Gopala Anumanchipalli

We introduceren PokerBench - een benchmark voor het evalueren van de pokervaardigheden van grote taalmodellen (LLM's). Aangezien LLM's uitblinken in traditionele NLP-taken, vormt hun toepassing op complexe, strategische spellen zoals poker een nieuwe uitdaging. Poker, een spel met onvolledige informatie, vereist een veelheid aan vaardigheden zoals wiskunde, redeneren, planning, strategie, en een diepgaand begrip van speltheorie en menselijke psychologie. Dit maakt Poker de ideale volgende stap voor grote taalmodellen. PokerBench bestaat uit een uitgebreide verzameling van 11.000 belangrijkste scenario's, verdeeld tussen pre-flop en post-flop spel, ontwikkeld in samenwerking met getrainde pokerspelers. We evalueren prominente modellen, waaronder GPT-4, ChatGPT 3.5, en verschillende Llama- en Gemma-seriemodellen, waarbij we constateren dat alle toonaangevende LLM's onderpresteren bij het spelen van optimaal poker. Echter, na fijnafstemming vertonen deze modellen aanzienlijke verbeteringen. We valideren PokerBench door modellen met verschillende scores tegen elkaar te laten spelen, waarbij we aantonen dat hogere scores op PokerBench leiden tot hogere winstpercentages in daadwerkelijke pokerspellen. Door gameplay tussen ons fijnafgestemde model en GPT-4 identificeren we ook beperkingen van eenvoudige begeleide fijnafstemming voor het leren van optimale speelstrategie, wat wijst op de noodzaak van meer geavanceerde methodologieën voor effectieve training van taalmodellen om uit te blinken in spellen. PokerBench biedt daarom een unieke benchmark voor een snelle en betrouwbare evaluatie van de pokervaardigheid van LLM's, evenals een uitgebreide benchmark om de voortgang van LLM's in complexe spelscenario's te bestuderen. De dataset en code zullen beschikbaar worden gesteld op: https://github.com/pokerllm/pokerbench.

Democratisering van Tekst-naar-Afbeelding Masker Generatieve Modellen met Compacte Tekst-Bewuste Eéndimensionale Tokens
Democratizing Text-to-Image Masked Generative Models with Compact Text-Aware One-Dimensional Tokens

Jan 13

ByDongwon Kim, Ju He, Qihang Yu, Chenglin Yang, Xiaohui Shen, Suha Kwak, Liang-Chieh Chen

Afbeelding-tokenizers vormen de basis van moderne tekst-naar-afbeelding generatieve modellen, maar zijn berucht moeilijk te trainen. Bovendien vertrouwen de meeste bestaande tekst-naar-afbeelding modellen op grootschalige, hoogwaardige privé datasets, waardoor ze lastig te repliceren zijn. In dit werk introduceren we Text-Aware Transformer-gebaseerde 1-dimensionale Tokenizer (TA-TiTok), een efficiënte en krachtige afbeelding-tokenizer die zowel discrete als continue 1-dimensionale tokens kan gebruiken. TA-TiTok integreert op unieke wijze tekstuele informatie tijdens het decoderen van de tokenizer (d.w.z. detokenisatie), wat de convergentie versnelt en de prestaties verbetert. TA-TiTok profiteert ook van een vereenvoudigd, maar effectief, eenfasig trainingsproces, waarbij de complexe tweefasige distillatie die in eerdere 1-dimensionale tokenizers werd gebruikt, overbodig wordt gemaakt. Deze ontwerpkeuze maakt naadloos schaalbaarheid naar grote datasets mogelijk. Voortbouwend hierop introduceren we een familie van tekst-naar-afbeelding Masked Generative Modellen (MaskGen), exclusief getraind op open data, terwijl vergelijkbare prestaties worden behaald als modellen getraind op privégegevens. We streven ernaar zowel de efficiënte, krachtige TA-TiTok-tokenizers als de open-data, open-gewicht MaskGen-modellen vrij te geven om bredere toegang te bevorderen en het veld van tekst-naar-afbeelding masked generatieve modellen te democratiseren.

HALoGEN: Fantastische LLM Hallucinaties en Waar Je Ze Kunt Vinden
HALoGEN: Fantastic LLM Hallucinations and Where to Find Them

Jan 14

ByAbhilasha Ravichander, Shrusti Ghela, David Wadden, Yejin Choi

Ondanks hun indrukwekkende vermogen om tekst van hoge kwaliteit en vloeiend te genereren, produceren generatieve grote taalmodellen (GTM's) ook hallucinaties: uitspraken die niet in overeenstemming zijn met vastgestelde wereldkennis of de verstrekte context van de invoer. Het meten van hallucinatie kan echter uitdagend zijn, aangezien het laten verifiëren van modelgeneraties door mensen ter plekke zowel duur als tijdrovend is. In dit werk publiceren we HALoGEN, een uitgebreide hallucinatie-benchmark bestaande uit: (1) 10.923 prompts voor generatieve modellen die negen domeinen bestrijken, waaronder programmeren, wetenschappelijke attributie en samenvatting, en (2) automatische verificatiemiddelen met hoge precisie voor elk gebruiksscenario die LLM-generaties ontleden in atomaire eenheden en elke eenheid verifiëren tegen een hoogwaardige kennisbron. We gebruiken dit kader om ongeveer 150.000 generaties van 14 taalmodellen te evalueren, waarbij we ontdekken dat zelfs de best presterende modellen vergeven zijn van hallucinaties (soms tot wel 86% van gegenereerde atomaire feiten, afhankelijk van het domein). We definiëren verder een nieuwe foutclassificatie voor LLM-hallucinaties op basis van of ze waarschijnlijk voortkomen uit onjuiste herinnering aan trainingsgegevens (Type A-fouten), onjuiste kennis in trainingsgegevens (Type B-fouten) of fabricatie (Type C-fouten). We hopen dat ons kader een basis biedt om het systematische onderzoek naar waarom generatieve modellen hallucineren mogelijk te maken en de ontwikkeling van betrouwbare grote taalmodellen te bevorderen.

Tarsier2: Het bevorderen van grote visie-taalmodellen van gedetailleerde videobeschrijving naar uitgebreid videobegrip
Tarsier2: Advancing Large Vision-Language Models from Detailed Video Description to Comprehensive Video Understanding

Jan 14

ByLiping Yuan, Jiawei Wang, Haomiao Sun, Yuchen Zhang, Yuan Lin

We introduceren Tarsier2, een toonaangevend groot visie-taalmodel (LVLM) ontworpen voor het genereren van gedetailleerde en nauwkeurige videobeschrijvingen, terwijl het ook superieure algemene videobegripscapaciteiten vertoont. Tarsier2 boekt aanzienlijke vooruitgang door drie belangrijke upgrades: (1) Het schalen van pre-training data van 11M naar 40M video-tekstparen, waardoor zowel de hoeveelheid als de diversiteit wordt verrijkt; (2) Het uitvoeren van fijnmazige temporele afstemming tijdens begeleid fijnafstemmen; (3) Het gebruik van op model gebaseerde steekproeven om automatisch voorkeursgegevens te construeren en het toepassen van DPO-training voor optimalisatie. Uitgebreide experimenten tonen aan dat Tarsier2-7B consequent beter presteert dan toonaangevende gepatenteerde modellen, waaronder GPT-4o en Gemini 1.5 Pro, in gedetailleerde videobeschrijvingstaken. Op de DREAM-1K benchmark verbetert Tarsier2-7B de F1 met 2.8\% ten opzichte van GPT-4o en met 5.8\% ten opzichte van Gemini-1.5-Pro. In menselijke zij-aan-zij evaluaties toont Tarsier2-7B een prestatievoordeel van +8.6\% ten opzichte van GPT-4o en +24.9\% ten opzichte van Gemini-1.5-Pro. Tarsier2-7B zet ook nieuwe state-of-the-art resultaten neer over 15 openbare benchmarks, variërend van taken zoals videovraagbeantwoording, videoverankering, hallucinatietest en belichaamde vraagbeantwoording, waarbij het zijn veelzijdigheid als een robuust algemeen visie-taalmodel aantoont.

Het verbeteren van geautomatiseerde interpreteerbaarheid met op output gerichte kenmerkbeschrijvingen.
Enhancing Automated Interpretability with Output-Centric Feature Descriptions

Jan 14

ByYoav Gur-Arieh, Roy Mayan, Chen Agassy, Atticus Geiger, Mor Geva

Geautomatiseerde interpreteerbaarheidspijplijnen genereren natuurlijke taalbeschrijvingen voor de concepten die worden vertegenwoordigd door kenmerken in grote taalmodellen (LLM's), zoals planten of het eerste woord in een zin. Deze beschrijvingen worden afgeleid met behulp van invoergegevens die het kenmerk activeren, wat een dimensie of een richting kan zijn in de representatieruimte van het model. Het identificeren van activerende invoergegevens is echter kostbaar, en de mechanistische rol van een kenmerk in het modelgedrag wordt bepaald door zowel hoe invoergegevens een kenmerk activeren als door hoe kenmerkactivatie de uitvoer beïnvloedt. Met behulp van stuurbeoordelingen onthullen we dat huidige pijplijnen beschrijvingen leveren die niet de causale effecten van het kenmerk op de uitvoer vastleggen. Om dit op te lossen, stellen we efficiënte, op de uitvoer gerichte methoden voor om automatisch kenmerkbeschrijvingen te genereren. Deze methoden gebruiken de tokens met een hoger gewicht na kenmerkstimulatie of de tokens met het hoogste gewicht na het direct toepassen van de "ontembeddings"-functie op het kenmerk. Onze op de uitvoer gerichte beschrijvingen leggen beter de causale effecten van een kenmerk op de modeluitvoer vast dan op de invoer gerichte beschrijvingen, maar door de twee te combineren behalen we de beste prestaties bij zowel invoer- als uitvoerbeoordelingen. Tot slot tonen we aan dat op de uitvoer gerichte beschrijvingen kunnen worden gebruikt om invoergegevens te vinden die kenmerken activeren die eerder als "inactief" werden beschouwd.

OpenCSG Chinese Corpus: Een reeks hoogwaardige Chinese datasets voor LLM-training.
OpenCSG Chinese Corpus: A Series of High-quality Chinese Datasets for LLM Training

Jan 14

ByYijiong Yu, Ziyun Dai, Zekun Wang, Wei Wang, Ran Chen, Ji Pei

Grote taalmodellen (LLM's) hebben opmerkelijke mogelijkheden aangetoond, maar hun succes is sterk afhankelijk van de kwaliteit van de pretraining-corpora. Voor Chinese LLM's vormt de schaarste aan hoogwaardige Chinese datasets een aanzienlijke uitdaging, die vaak hun prestaties beperkt. Om dit probleem aan te pakken, stellen we de OpenCSG Chinese Corpus voor, een reeks hoogwaardige datasets die specifiek zijn ontworpen voor LLM-pretraining, post-training en fine-tuning. Deze corpus omvat Fineweb-edu-chinese, Fineweb-edu-chinese-v2, Cosmopedia-chinese en Smoltalk-chinese, elk met verschillende kenmerken: de Fineweb-edu-datasets richten zich op gefilterde, hoogwaardige inhoud afkomstig van diverse Chinese webbronnen; Cosmopedia-chinese biedt synthetische, op tekstboeken gebaseerde gegevens voor kennisintensieve training; en Smoltalk-chinese benadrukt stijlvolle en diverse chat-formaat gegevens. De OpenCSG Chinese Corpus wordt gekenmerkt door zijn hoogwaardige tekst, diverse dekking over verschillende domeinen en schaalbare, reproduceerbare gegevenscuratieprocessen. Bovendien hebben we uitgebreide experimentele analyses uitgevoerd, waaronder evaluaties op kleinere parametermodellen, die aanzienlijke prestatieverbeteringen aantoonden in taken zoals C-Eval, waarbij de effectiviteit van de corpus voor het trainen van Chinese LLM's werd aangetoond.

MatchAnything: Universele Cross-Modaliteit Beeldmatching met Grootschalige Voorafgaande Training
MatchAnything: Universal Cross-Modality Image Matching with Large-Scale Pre-Training

Jan 13

ByXingyi He, Hao Yu, Sida Peng, Dongli Tan, Zehong Shen, Hujun Bao, Xiaowei Zhou

Beeldmatching, dat tot doel heeft overeenkomstige pixellocaties tussen afbeeldingen te identificeren, is cruciaal in een breed scala van wetenschappelijke disciplines, waarbij het helpt bij beeldregistratie, fusie en analyse. In de afgelopen jaren hebben op deep learning gebaseerde beeldmatchingalgoritmen aanzienlijk beter gepresteerd dan mensen in het snel en nauwkeurig vinden van grote hoeveelheden overeenkomsten. Echter, wanneer wordt omgegaan met afbeeldingen die zijn vastgelegd onder verschillende beeldvormende modaliteiten die leiden tot aanzienlijke uiterlijke veranderingen, verslechtert de prestatie van deze algoritmen vaak als gevolg van de schaarste aan geannoteerde cross-modale trainingsgegevens. Deze beperking belemmert toepassingen in verschillende vakgebieden die vertrouwen op meerdere beeldmodaliteiten om aanvullende informatie te verkrijgen. Om deze uitdaging aan te gaan, stellen we een grootschalig pre-trainingframework voor dat synthetische cross-modale trainingsignalen gebruikt, waarbij diverse gegevens uit verschillende bronnen worden geïncorporeerd om modellen te trainen om fundamentele structuren over afbeeldingen te herkennen en te matchen. Deze mogelijkheid is overdraagbaar naar echte, ongeziene cross-modale beeldmatchingtaken. Onze belangrijkste bevinding is dat het matchingmodel dat is getraind met ons framework opmerkelijke generaliseerbaarheid bereikt over meer dan acht ongeziene cross-modale registratietaken met behulp van hetzelfde netwerkgewicht, aanzienlijk beter presterend dan bestaande methoden, of deze nu zijn ontworpen voor generalisatie of op maat zijn gemaakt voor specifieke taken. Deze vooruitgang verbetert aanzienlijk de toepasbaarheid van beeldmatchingtechnologieën over verschillende wetenschappelijke disciplines en legt de weg vrij voor nieuwe toepassingen in multi-modaliteit menselijke en kunstmatige intelligentieanalyse en verder.

AfriHate: Een Meertalige Verzameling van Haatspraak en Beledigende Taal Datasets voor Afrikaanse Talen
AfriHate: A Multilingual Collection of Hate Speech and Abusive Language Datasets for African Languages

Jan 14

ByShamsuddeen Hassan Muhammad, Idris Abdulmumin, Abinew Ali Ayele, David Ifeoluwa Adelani, Ibrahim Said Ahmad, Saminu Mohammad Aliyu, Nelson Odhiambo Onyango, Lilian D. A. Wanzare, Samuel Rutunda, Lukman Jibril Aliyu, Esubalew Alemneh, Oumaima Hourrane, Hagos Tesfahun Gebremichael, Elyas Abdi Ismail, Meriem Beloucif, Ebrahim Chekol Jibril, Andiswa Bukula, Rooweither Mabuya, Salomey Osei, Abigail Oppong, Tadesse Destaw Belay, Tadesse Kebede Guge, Tesfa Tegegne Asfaw, Chiamaka Ijeoma Chukwuneke, Paul Röttger, Seid Muhie Yimam, Nedjma Ousidhoum

Haatzaaien en beledigende taal zijn wereldwijde fenomenen die sociaal-culturele achtergrondkennis vereisen om begrepen, geïdentificeerd en gemodereerd te worden. Echter, in veel regio's van de Global South zijn verschillende gedocumenteerde gevallen van (1) afwezigheid van moderatie en (2) censuur voorgekomen als gevolg van het vertrouwen op trefwoordherkenning buiten de context. Bovendien zijn prominente personen vaak het middelpunt van het moderatieproces geweest, terwijl grootschalige en gerichte haatzaaicampagnes tegen minderheden over het hoofd zijn gezien. Deze beperkingen zijn voornamelijk te wijten aan het gebrek aan hoogwaardige gegevens in de lokale talen en het verzuim om lokale gemeenschappen te betrekken bij het verzamelen, annoteren en modereren van gegevens. Om dit probleem aan te pakken, presenteren we AfriHate: een meertalige verzameling van datasets met haatzaaien en beledigende taal in 15 Afrikaanse talen. Elke instantie in AfriHate is geannoteerd door moedertaalsprekers die bekend zijn met de lokale cultuur. We rapporteren de uitdagingen met betrekking tot de constructie van de datasets en presenteren verschillende baselines voor classificatie met en zonder het gebruik van LLM's. De datasets, individuele annotaties en lexicons van haatzaaien en beledigende taal zijn beschikbaar op https://github.com/AfriHate/AfriHate

In-situ grafisch redeneren en kennisuitbreiding met behulp van Graph-PReFLexOR.
In-situ graph reasoning and knowledge expansion using Graph-PReFLexOR

Jan 14

ByMarkus J. Buehler

De zoektocht naar geautomatiseerde wetenschappelijke ontdekkingen heeft vooruitgang gestimuleerd van symbolische logica tot moderne AI, waarbij nieuwe fronten worden verkend in redenering en patroonherkenning. Transformers fungeren als potentiële systemen, waarbij elke mogelijke relatie latent potentieel blijft totdat taken beperkingen opleggen, vergelijkbaar met meting. Toch vereist het verfijnen van hun bemonstering meer dan probabilistische selectie: oplossingen moeten voldoen aan specifieke structuren of regels, zodat consistentie en het aanroepen van algemene principes worden gewaarborgd. Wij presenteren Graph-PReFLexOR (Grafisch Gebaseerd Voorkeursgebaseerd Recursief Taalmodel voor Verkennende Optimalisatie van Redenering), een raamwerk dat grafisch redeneren combineert met symbolische abstractie om domeinkennis dynamisch uit te breiden. Geïnspireerd door reinforcement learning, definieert Graph-PReFLexOR redenering als een gestructureerde mapping, waarbij taken kennisgrafieken, abstracte patronen en uiteindelijk definitieve antwoorden opleveren. Geïnspireerd door categorietheorie, codeert het concepten als knooppunten en hun relaties als randen, waardoor hiërarchische inferentie en adaptief leren mogelijk zijn via isomorfe representaties. Demonstraties omvatten hypothesevorming, materiaalontwerp en creatief redeneren, zoals het ontdekken van relaties tussen mythologische concepten zoals 'dunne plaatsen' met materiaalkunde. We stellen een 'kennisgroei in de tuin' strategie voor die inzichten over domeinen integreert en interdisciplinaire verbindingen bevordert. Resultaten met een Graph-PReFLexOR model van 3 miljard parameters tonen superieure redeneerdiepte en aanpasbaarheid, waarbij het potentieel voor transparante, multidisciplinaire door AI aangestuurde ontdekkingen wordt benadrukt. Het legt de basis voor algemene autonome redeneeroplossingen.

Mogelijkheden en Gevaren van Grote Taalmodellen als Beoordelaars van Ongestructureerde Tekstuele Data
Potential and Perils of Large Language Models as Judges of Unstructured Textual Data

Jan 14

ByRewina Bedemariam, Natalie Perez, Sreyoshi Bhaduri, Satya Kapoor, Alex Gil, Elizabeth Conjar, Ikkei Itoku, David Theil, Aman Chadha, Naumaan Nayyar

Snelle vooruitgang in grote taalmodellen heeft opmerkelijke mogelijkheden ontsloten als het gaat om het verwerken en samenvatten van ongestructureerde tekstgegevens. Dit heeft implicaties voor de analyse van rijke, open datasets, zoals enquêtereacties, waar taalmodellen de belofte in zich dragen om efficiënt de belangrijkste thema's en sentimenten te destilleren. Echter, nu organisaties steeds vaker gebruik maken van deze krachtige AI-systemen om tekstuele feedback te begrijpen, rijst een kritische vraag: kunnen we taalmodellen vertrouwen om de perspectieven nauwkeurig weer te geven die vervat zitten in deze op tekst gebaseerde datasets? Hoewel taalmodellen uitblinken in het genereren van mensachtige samenvattingen, bestaat het risico dat hun uitvoer onbedoeld kan afwijken van de ware inhoud van de oorspronkelijke reacties. Verschillen tussen de door taalmodellen gegenereerde uitvoer en de daadwerkelijke thema's in de gegevens kunnen leiden tot gebrekkige besluitvorming, met verstrekkende gevolgen voor organisaties. Dit onderzoek onderzoekt de effectiviteit van taalmodellen als beoordelingsmodellen om de thematische afstemming van samenvattingen die door andere taalmodellen zijn gegenereerd, te evalueren. We hebben een Anthropische Claude-model gebruikt om thematische samenvattingen te genereren van open enquêtereacties, waarbij Amazon's Titan Express, Nova Pro, en Meta's Llama dienden als taalmodellen-beoordelaars. De aanpak van taalmodellen als beoordelaars werd vergeleken met menselijke beoordelingen met behulp van Cohen's kappa, Spearman's rho, en Krippendorff's alpha, waarbij een schaalbare alternatief voor traditionele op mensen gerichte evaluatiemethoden werd gevalideerd. Onze bevindingen tonen aan dat hoewel taalmodellen als beoordelaars een schaalbare oplossing bieden die vergelijkbaar is met menselijke beoordelaars, mensen nog steeds uitblinken in het detecteren van subtiele, contextspecifieke nuances. Dit onderzoek draagt bij aan de groeiende kennis over door AI ondersteunde tekstanalyse. We bespreken beperkingen en geven aanbevelingen voor toekomstig onderzoek, waarbij de noodzaak wordt benadrukt van zorgvuldige overweging bij het generaliseren van taalmodel-beoordelingsmodellen over verschillende contexten en toepassingen.