Dagelijks geselecteerde AI onderzoekspapers met vertalingen
In de afgelopen jaren hebben Grote Taalmodellen (LLMs) opmerkelijke capaciteiten gedemonstreerd in verschillende taken (bijv. begrip van lange context), en er zijn veel benchmarks voorgesteld. We merken echter op dat de capaciteiten voor het genereren van lange tekst niet goed onderzocht zijn. Daarom introduceren we de Hiërarchische Benchmark voor het Genereren van Lange Tekst (HelloBench), een uitgebreide, in het wild voorkomende en open benchmark om de prestaties van LLMs te evalueren bij het genereren van lange tekst. Op basis van Bloom's Taxonomie categoriseert HelloBench langetekstgeneratietaken in vijf subtaken: open vragen beantwoorden, samenvatting, chat, tekst aanvullen en heuristisch tekstgeneratie. Daarnaast stellen we de Hiërarchische Evaluatie van Lange Tekst (HelloEval) voor, een evaluatiemethode die sterk is afgestemd op mensen en die aanzienlijk de tijd en moeite vermindert die nodig is voor menselijke evaluatie, terwijl een hoge correlatie met menselijke evaluatie wordt behouden. We hebben uitgebreide experimenten uitgevoerd met ongeveer 30 gangbare LLMs en vastgesteld dat de huidige LLMs tekortschieten in capaciteiten voor het genereren van lange tekst. Specifiek, ten eerste, ongeacht of de instructies expliciete of impliciete lengtebeperkingen bevatten, merken we op dat de meeste LLMs geen tekst kunnen genereren die langer is dan 4000 woorden. Ten tweede, we merken op dat hoewel sommige LLMs langere tekst kunnen genereren, er veel problemen zijn (bijv. ernstige herhaling en kwaliteitsdegradatie). Ten derde, om de effectiviteit van HelloEval aan te tonen, vergelijken we HelloEval met traditionele metrieken (bijv. ROUGE, BLEU, enz.) en LLM-als-rechter methoden, die aantonen dat HelloEval de hoogste correlatie heeft met menselijke evaluatie. We stellen onze code beschikbaar op https://github.com/Quehry/HelloBench.
Karakter video synthese heeft als doel realistische video's van animeerbare karakters te produceren binnen levensechte scènes. Als een fundamenteel probleem in de computer vision en grafische gemeenschap, vereisen 3D werken typisch multi-view opnames voor per-geval training, wat hun toepasbaarheid bij het modelleren van willekeurige karakters in korte tijd ernstig beperkt. Recente 2D methoden doorbreken deze beperking via vooraf getrainde diffusiemodellen, maar ze hebben moeite met houdingsgeneraliteit en scène-interactie. Om dit te verhelpen, stellen we MIMO voor, een nieuw raamwerk dat niet alleen karaktervideo's kan synthetiseren met controleerbare eigenschappen (d.w.z. karakter, beweging en scène) die worden geleverd door eenvoudige gebruikersinvoer, maar ook tegelijkertijd geavanceerde schaalbaarheid naar willekeurige karakters, generaliteit naar nieuwe 3D bewegingen, en toepasbaarheid op interactieve real-world scènes kan bereiken in een verenigd raamwerk. Het kernidee is om de 2D video te encoderen naar compacte ruimtelijke codes, rekening houdend met de inherente 3D aard van video-gebeurtenissen. Concreet tillen we de 2D framepixels op naar 3D met behulp van monoculaire diepteschatting, en decomponeren we de videoclip naar drie ruimtelijke componenten (d.w.z. hoofdige mens, onderliggende scène, en zwevende occlusie) in hiërarchische lagen op basis van de 3D diepte. Deze componenten worden verder gecodeerd naar canonieke identiteitscode, gestructureerde bewegingscode en volledige scène code, die worden gebruikt als controle signalen van het synthese proces. Het ontwerp van ruimtelijk gedecomposeerde modellering maakt flexibele gebruikerscontrole, complexe bewegingsuitdrukking, evenals 3D-bewuste synthese voor scène-interacties mogelijk. Experimentele resultaten tonen de effectiviteit en robuustheid van de voorgestelde methode aan.
Grote taalmodellen (LLM's) met alleen-decoder-architecturen tonen opmerkelijke in-context leren (ICL) mogelijkheden. Deze functie stelt hen in staat om zowel bekende als nieuwe taken effectief aan te pakken door gebruik te maken van voorbeelden die binnen hun invoercontext worden verstrekt. Gezien het potentieel van deze mogelijkheid, stellen we voor om de ICL-functie in LLM's te benutten om het proces van tekst-embeddinggeneratie te verbeteren. Hiertoe introduceren we een nieuw model bge-en-icl, dat weinig-shot voorbeelden gebruikt om hoogwaardige tekst-embeddings te produceren. Onze aanpak integreert taakgerelateerde voorbeelden rechtstreeks aan de queryzijde, wat resulteert in aanzienlijke verbeteringen over verschillende taken. Daarnaast hebben we onderzocht hoe LLM's effectief kunnen worden gebruikt als embeddingmodellen, inclusief verschillende aandachtsmechanismen, poolingmethoden, enz. Onze bevindingen suggereren dat het behouden van het oorspronkelijke kader vaak de beste resultaten oplevert, waarbij wordt benadrukt dat eenvoud het beste is. Experimentele resultaten op de MTEB- en AIR-Bench benchmarks tonen aan dat onze aanpak nieuwe state-of-the-art (SOTA) prestaties neerzet. Ons model, code en dataset zijn vrij beschikbaar op https://github.com/FlagOpen/FlagEmbedding.
Recente ontwikkelingen in multimodale grote taalmodellen (MLLM's) hebben tot doel gegevens over diverse modaliteiten te integreren en interpreteren. De capaciteit van deze modellen om gelijktijdig meerdere modaliteiten te verwerken en erover te redeneren blijft echter onvoldoende verkend, mede door het ontbreken van uitgebreide benchmarks per modaliteit. We introduceren OmniBench, een nieuwe benchmark die is ontworpen om op strenge wijze de mogelijkheid van modellen te evalueren om visuele, akoestische en tekstuele invoer tegelijkertijd te herkennen, interpreteren en redeneren. Modellen die in staat zijn tot dergelijke trimodale verwerking definiëren we als omni-taalmodellen (OLM's). OmniBench onderscheidt zich door hoogwaardige menselijke annotaties, waarbij nauwkeurige antwoorden een geïntegreerd begrip en redenering over alle drie modaliteiten vereisen. Onze belangrijkste bevindingen tonen aan dat: i) open-source OLM's kritieke beperkingen vertonen in het opvolgen van instructies en redeneervermogen binnen trimodale contexten; en ii) de basismodellen slecht presteren (onder de 50% nauwkeurigheid), zelfs wanneer ze worden voorzien van alternatieve tekstuele representaties van afbeeldingen en audio. Deze resultaten suggereren dat het vermogen om een consistente context te construeren uit tekst, afbeelding en audio vaak over het hoofd wordt gezien in bestaande MLLM-trainingsparadigma's. We pleiten voor toekomstig onderzoek om zich te richten op het ontwikkelen van robuustere trimodale integratietechnieken en trainingsstrategieën om de prestaties van OLM's over diverse modaliteiten te verbeteren. De codes en actuele ranglijst zijn te vinden op https://m-a-p.ai/OmniBench.
De kwaliteit van open-gewicht LLM's is aanzienlijk verbeterd, maar ze blijven voornamelijk gericht op het Engels. In dit artikel introduceren we het EuroLLM-project, gericht op het ontwikkelen van een reeks open-gewicht meertalige LLM's die in staat zijn tekst te begrijpen en genereren in alle officiële talen van de Europese Unie, evenals verschillende andere relevante talen. We schetsen de tot nu toe geboekte vooruitgang, waarbij we onze gegevensverzamelings- en filteringsproces, de ontwikkeling van schaalwetten, de creatie van onze meertalige tokenizer, en de gegevensmix en modelleringsconfiguraties in detail beschrijven. Daarnaast publiceren we onze initiële modellen: EuroLLM-1.7B en EuroLLM-1.7B-Instruct en rapporteren hun prestaties op meertalige algemene benchmarks en machinevertalingen.
De voortdurende uitgave van nieuwe en betere modellen voor beeldgeneratie vergroot de vraag naar synthetische beelddetectoren. In zo'n dynamisch veld moeten detectoren breed kunnen generaliseren en bestand zijn tegen ongecontroleerde wijzigingen. Het huidige werk wordt gemotiveerd door deze context, waarbij gekeken wordt naar de rol van tijd, beeldtransformaties en gegevensbronnen voor de generalisatie van detectoren. In deze experimenten wordt geconstateerd dat geen van de geëvalueerde detectoren universeel is, maar de resultaten geven aan dat een ensemble dat wel zou kunnen zijn. Experimenten met gegevens verzameld in het wild tonen aan dat deze taak uitdagender is dan die gedefinieerd door grootschalige datasets, wat wijst op een kloof tussen experimentatie en daadwerkelijke praktijk. Tot slot observeren we een effect van racialevenwicht, waarbij betere generatoren leiden tot betere detectoren, en vice versa. We veronderstellen dat dit het veld in de richting duwt van een voortdurend nek-aan-nekrace tussen generatoren en detectoren.
De meeste bestaande multimodaliteitsmethoden maken gebruik van afzonderlijke backbones voor autoregressie-gebaseerde discrete tekstgeneratie en diffusie-gebaseerde continue visuele generatie, of dezelfde backbone door de visuele gegevens te discretiseren om autoregressie te gebruiken voor zowel tekst- als visuele generatie. In dit artikel stellen we voor om een eenvoudig idee te bestuderen: deel één transformer voor zowel autoregressie als diffusie. De haalbaarheid komt voort uit twee hoofdaspecten: (i) Transformer wordt succesvol toegepast op diffusie voor visuele generatie, en (ii) de training van transformer voor autoregressie en diffusie is zeer vergelijkbaar, waarbij het verschil slechts ligt in het feit dat diffusie een bidirectionele aandachtsmasker gebruikt en autoregressie een causaal aandachtsmasker gebruikt. Experimentele resultaten tonen aan dat onze aanpak vergelijkbare prestaties behaalt op het gebied van beeldgeneratie als de huidige state-of-the-art methoden en tegelijkertijd de tekstgeneratiecapaciteit behoudt. Het project is openbaar beschikbaar op https://monoformer.github.io/.
Gemaskerde transformermodellen voor klasse-geconditioneerde beeldgeneratie zijn een overtuigend alternatief geworden voor diffusiemodellen. Doorgaans bestaande uit twee fasen - een initiële VQGAN-model voor overgang tussen latente ruimte en beeldruimte, en een daaropvolgend Transformer-model voor beeldgeneratie binnen latente ruimte - bieden deze kaders veelbelovende mogelijkheden voor beeldsynthese. In dit onderzoek presenteren we twee belangrijke bijdragen: Ten eerste, een empirisch en systematisch onderzoek naar VQGANs, resulterend in een gemoderniseerde VQGAN. Ten tweede, een nieuw generatienetwerk zonder inbedding dat rechtstreeks werkt op bit tokens - een binair gekwantiseerde representatie van tokens met rijke semantiek. De eerste bijdrage levert een transparant, reproduceerbaar en hoog presterend VQGAN-model op, dat de toegankelijkheid verbetert en de prestaties van huidige state-of-the-art methoden evenaart, terwijl voorheen niet onthulde details worden onthuld. De tweede bijdrage toont aan dat inbeddingvrije beeldgeneratie met bit tokens een nieuwe state-of-the-art FID van 1.52 behaalt op de ImageNet 256x256 benchmark, met een compact generatormodel van slechts 305M parameters.
Het menselijk visuele systeem is goed afgestemd op het detecteren van gezichten van allerlei vormen en groottes. Hoewel dit duidelijke overlevingsvoordelen met zich meebrengt, zoals een betere kans om onbekende roofdieren in het struikgewas op te merken, leidt dit ook tot onjuiste detecties van gezichten. "Gezichtspareidolie" beschrijft de perceptie van gezichtsachtige structuren tussen verder willekeurige stimuli: het zien van gezichten in koffievlekken of wolken in de lucht. In dit artikel bestuderen we gezichtspareidolie vanuit een computervisieperspectief. We presenteren een beeldendataset van "Gezichten in Dingen", bestaande uit vijfduizend webafbeeldingen met door mensen geannoteerde pareidolische gezichten. Met behulp van deze dataset onderzoeken we in hoeverre een geavanceerde menselijke gezichtsdetector pareidolie vertoont, en vinden we een significant gedragsverschil tussen mensen en machines. We concluderen dat de evolutionaire behoefte van mensen om dierengezichten, evenals menselijke gezichten, te detecteren, een deel van dit verschil kan verklaren. Tot slot stellen we een eenvoudig statistisch model van pareidolie in afbeeldingen voor. Door studies op menselijke proefpersonen en onze pareidolische gezichtsdetectoren bevestigen we een belangrijke voorspelling van ons model met betrekking tot welke beeldomstandigheden het meest waarschijnlijk pareidolie zullen veroorzaken. Dataset en Website: https://aka.ms/faces-in-things
Diepe leer voor tijdreeksvoorspelling heeft de afgelopen decennia aanzienlijke vooruitgang geboekt. Echter, ondanks het succes van grootschalige voorafgaande training in taal- en visiegebieden, blijven vooraf getrainde tijdreeksmodellen beperkt in omvang en werken ze tegen hoge kosten, wat de ontwikkeling van grotere capabele voorspellingsmodellen in praktische toepassingen belemmert. Als reactie introduceren wij Time-MoE, een schaalbare en uniforme architectuur ontworpen om grotere, capabelere voorspellingsgrondslagmodellen voor te trainen en tegelijkertijd inferentiekosten te verlagen. Door gebruik te maken van een schaars mengsel-van-experts (MoE) ontwerp, verbetert Time-MoE de computationele efficiëntie door slechts een subset van netwerken te activeren voor elke voorspelling, waardoor de computationele belasting wordt verminderd terwijl de hoge modelcapaciteit behouden blijft. Dit stelt Time-MoE in staat om effectief op te schalen zonder een overeenkomstige toename in inferentiekosten. Time-MoE bestaat uit een familie van alleen-decoder transformermodellen die op een autoregressieve manier werken en flexibele voorspellingshorizonten ondersteunen met variërende invoercontextlengtes. We hebben deze modellen vooraf getraind op onze nieuw geïntroduceerde grootschalige dataset Time-300B, die zich uitstrekt over 9 domeinen en meer dan 300 miljard tijdstippen omvat. Voor het eerst hebben we een tijdreeksgrondslagmodel opgeschaald naar 2,4 miljard parameters, met aanzienlijk verbeterde voorspellingsnauwkeurigheid. Onze resultaten bevestigen de toepasbaarheid van schalingswetten voor het trainen van tokens en modelgrootte in de context van tijdreeksvoorspelling. Vergeleken met dichte modellen met hetzelfde aantal geactiveerde parameters of equivalentie rekenbudget, presteren onze modellen consequent aanzienlijk beter. Deze vooruitgang positioneert Time-MoE als een state-of-the-art oplossing voor het aanpakken van uitdagingen in de praktijk van tijdreeksvoorspelling met superieure capaciteit, efficiëntie en flexibiliteit.
In dit technische rapport documenteren we de wijzigingen die we hebben aangebracht aan SDXL tijdens het trainen van NovelAI Diffusion V3, ons state-of-the-art model voor het genereren van anime-afbeeldingen.
Hoe kunnen robot manipulatiebeleidslijnen generaliseren naar nieuwe taken met ongeziene objecttypes en nieuwe bewegingen? In dit artikel bieden we een oplossing aan door bewegingsinformatie te voorspellen van webgegevens via menselijke videogeneratie en het conditioneren van een robotbeleid op de gegenereerde video. In plaats van te proberen robotgegevensverzameling op te schalen, wat duur is, laten we zien hoe we videogeneratiemodellen kunnen benutten die zijn getraind op gemakkelijk beschikbare webgegevens, om generalisatie mogelijk te maken. Onze aanpak Gen2Act stelt manipulatie geconditioneerd door taal voor als zero-shot menselijke videogeneratie gevolgd door uitvoering met een enkel beleid geconditioneerd op de gegenereerde video. Om het beleid te trainen, gebruiken we een orde van grootte minder robotinteractiegegevens in vergelijking met waarop het videovoorspellingsmodel was getraind. Gen2Act vereist helemaal geen fijnafstemming van het videomodel en we gebruiken rechtstreeks een voorgeleerd model voor het genereren van menselijke video's. Onze resultaten in diverse real-world scenario's tonen hoe Gen2Act het mogelijk maakt om ongeziene objecttypes te manipuleren en nieuwe bewegingen uit te voeren voor taken die niet aanwezig zijn in de robotgegevens. Video's zijn te vinden op https://homangab.github.io/gen2act/
In vergelijking met Grote Taalmodellen (LLM's) kunnen Grote Visie-Taalmodellen (LVLM's) ook afbeeldingen als invoer accepteren, waardoor ze interessantere opkomende mogelijkheden laten zien en indrukwekkende prestaties leveren op verschillende visie-taal taken. Geïnspireerd door tekstprompting in LLM's is visueel prompting onderzocht om de mogelijkheden van LVLM's om visuele informatie waar te nemen te verbeteren. Echter, eerdere visuele prompting technieken verwerken uitsluitend visuele invoer zonder rekening te houden met tekstvragen, waardoor de modellen beperkt zijn in hun vermogen om tekstinstructies te volgen om taken te voltooien. Om deze lacune op te vullen, stellen we in dit werk een nieuwe prompting techniek voor genaamd Aandachtsprompting op Afbeelding, die eenvoudigweg een tekstvraaggestuurde aandachtskaart over de oorspronkelijke invoerafbeelding plaatst en LVLM effectief verbetert op verschillende taken. Specifiek genereren we een aandachtskaart voor de invoerafbeelding afhankelijk van de tekstvraag met een hulpmodel zoals CLIP. Vervolgens vermenigvuldigt de aandachtskaart eenvoudigweg de pixelwaarden van de oorspronkelijke afbeelding om de daadwerkelijke invoerafbeelding voor de LVLM te verkrijgen. Uitgebreide experimenten op verschillende visie-taal benchmarks bevestigen de effectiviteit van onze techniek. Zo verbetert Aandachtsprompting op Afbeelding LLaVA-1.5 met 3.8% en 2.9% op respectievelijk de MM-Vet en LLaVA-Wild benchmarks.
Naarmate Grote Taalmodellen (LLM's) blijven evolueren naar meer geavanceerde vormen van intelligentie, wordt Versterkend Leren van Menselijke Feedback (RLHF) steeds vaker gezien als een belangrijke weg naar het bereiken van Kunstmatige Algemene Intelligentie (AGI). Echter, de afhankelijkheid van beloningsmodel-gebaseerde (RM-gebaseerde) afstemmingsmethoden introduceert aanzienlijke uitdagingen vanwege de inherente instabiliteit en onvolkomenheden van Beloningsmodellen (RMs), die kunnen leiden tot kritieke problemen zoals beloningsmanipulatie en misalignering met menselijke intenties. In dit artikel introduceren we een beloning-robuust RLHF-framework dat gericht is op het aanpakken van deze fundamentele uitdagingen, waardoor de weg wordt vrijgemaakt voor meer betrouwbaar en veerkrachtig leren in LLM's. Onze aanpak introduceert een nieuw optimalisatiedoel dat zorgvuldig prestatie en robuustheid in balans brengt door Bayesian Reward Model Ensembles (BRME) op te nemen om de onzekerheidsset van beloningsfuncties te modelleren. Dit stelt het framework in staat om zowel nominale prestaties als minimale beloningsignalen te integreren, wat zorgt voor stabieler leren zelfs met imperfecte beloningsmodellen. Empirische resultaten tonen aan dat ons framework consequent beter presteert dan traditioneel RLHF over diverse benchmarks, met verbeterde nauwkeurigheid en langetermijnstabiliteit. We bieden ook een theoretische analyse die aantoont dat beloning-robuuste RLHF benaderingen de stabiliteit van constante beloningsinstellingen benaderen, wat effectief blijkt te zijn in een stochastische-case analyse. Samen benadrukken deze bijdragen het potentieel van het framework om zowel de prestaties als de stabiliteit van LLM-afstemming met RLHF te verbeteren.
Traditionele benaderingen van Named Entity Recognition (NER) kaderen de taak als een BIO-sequentie-labelprobleem. Hoewel deze systemen vaak uitblinken in de daaropvolgende taak, vereisen ze uitgebreide geannoteerde gegevens en hebben ze moeite om te generaliseren naar inputdomeinen buiten de distributie en ongeziene entiteitstypen. Aan de andere kant hebben Large Language Models (LLMs) sterke zero-shot mogelijkheden aangetoond. Hoewel verschillende werken Zero-Shot NER in het Engels behandelen, is er weinig gedaan in andere talen. In dit artikel definiëren we een evaluatiekader voor Zero-Shot NER en passen het toe op de Italiaanse taal. Bovendien introduceren we SLIMER-IT, de Italiaanse versie van SLIMER, een instructie-afstemmingsbenadering voor zero-shot NER die gebruikmaakt van prompts verrijkt met definitie en richtlijnen. Vergelijkingen met andere state-of-the-art modellen tonen de superioriteit van SLIMER-IT op nooit eerder geziene entiteitstags.
Beloningsmodellen (RMs) spelen een cruciale rol bij het afstemmen van grote taalmodellen (LLMs) op menselijke voorkeuren. Traditionele RM-training, die vertrouwt op responsparen gekoppeld aan specifieke prompts, worstelt echter om prompt-gestuurde voorkeuren te onderscheiden van prompt-onafhankelijke artefacten, zoals lengte en opmaak van de respons. In dit werk onthullen we een fundamentele beperking van de huidige RM-trainingsmethoden, waar RMs er niet in slagen om effectief onderscheid te maken tussen contextuele signalen en irrelevante artefacten bij het bepalen van voorkeuren. Om dit aan te pakken, introduceren we een causaal kader dat voorkeuren leert onafhankelijk van deze artefacten en stellen we een nieuwe gegevensvermeerderingstechniek voor die is ontworpen om ze te elimineren. Uitgebreide experimenten tonen aan dat onze aanpak succesvol ongewenste artefacten filtert, resulterend in een robuuster beloningsmodel (RRM). Onze RRM verbetert de prestaties van een paarsgewijs beloningsmodel getraind op Gemma-2-9b-it, op RewardBench, waarbij de nauwkeurigheid stijgt van 80,61% naar 84,15%. Daarnaast trainen we twee DPO-beleidslijnen met zowel de RM als de RRM, waarbij wordt aangetoond dat de RRM aanzienlijk bijdraagt aan DPO-gealigneerde beleidslijnen, met verbetering van MT-Bench-scores van 7,27 naar 8,31 en lengte-gecontroleerde winstpercentages in AlpacaEval-2 van 33,46% naar 52,49%.
Imitatieleren heeft zich bewezen als een krachtig instrument voor het trainen van complexe visuomotorische beleidslijnen. Echter, huidige methoden vereisen vaak honderden tot duizenden expertdemonstraties om om te gaan met visuele observaties met een hoog dimensionaal karakter. Een belangrijke reden voor deze slechte gegevensefficiëntie is dat visuele representaties voornamelijk ofwel vooraf getraind zijn op data buiten het domein of rechtstreeks getraind worden via een objectief voor gedragskloon. In dit werk presenteren we DynaMo, een nieuwe in-domein, zelf-supervisie methode voor het leren van visuele representaties. Gegeven een set van expertdemonstraties, leren we gezamenlijk een latente inverse dynamisch model en een voorwaarts dynamisch model over een reeks van beeld-embeddings, waarbij we het volgende frame voorspellen in latente ruimte, zonder augmentaties, contrastieve bemonstering, of toegang tot grondwaarheidacties. Belangrijk is dat DynaMo geen data buiten het domein vereist, zoals internetdatasets of datasets van verschillende lichamen. Op een reeks van zes gesimuleerde en echte omgevingen tonen we aan dat representaties die zijn geleerd met DynaMo aanzienlijk de prestaties van imitatieleren verbeteren ten opzichte van eerdere zelf-supervisie leerdoelen en vooraf getrainde representaties. Voordelen van het gebruik van DynaMo gelden voor beleidsklassen zoals Behavior Transformer, Diffusion Policy, MLP, en dichtstbijzijnde buren. Tot slot voeren we ablatie uit over belangrijke componenten van DynaMo en meten we de impact ervan op de prestaties van beleidslijnen. Robotvideo's zijn het beste te bekijken op https://dynamo-ssl.github.io
Het genereren van synthetische tabulaire data is cruciaal in machine learning, vooral wanneer echte data beperkt of gevoelig is. Traditionele generatieve modellen ondervinden vaak uitdagingen door de unieke kenmerken van tabulaire data, zoals gemengde datatypen en gevarieerde verdelingen, en vereisen complexe voorverwerking of grote vooraf getrainde modellen. In dit artikel introduceren we een nieuw, verliesvrij binair transformatiemethode die elke tabulaire data omzet in binaire representaties van vaste grootte, en een bijbehorend nieuw generatief model genaamd Binaire Diffusie, specifiek ontworpen voor binaire data. Binaire Diffusie maakt gebruik van de eenvoud van XOR-operaties voor ruis toevoeging en verwijdering en maakt gebruik van binaire kruis-entropie verlies voor training. Onze benadering elimineert de noodzaak voor uitgebreide voorverwerking, complexe ruisparameterafstemming en vooraf trainen op grote datasets. We evalueren ons model op verschillende populaire tabulaire benchmark datasets, waarbij we aantonen dat Binaire Diffusie beter presteert dan bestaande state-of-the-art modellen op de datasets van Reizen, Inkomen van Volwassenen en Diabetes, terwijl het aanzienlijk kleiner is in omvang.