Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Transformers hebben vrijwel alle taken in natuurlijke taalverwerking (NLP) gerevolutioneerd, maar kampen met een geheugen- en rekencomplexiteit die kwadratisch schaalt met de sequentielengte. Daarentegen vertonen recurrent neural networks (RNN's) een lineaire schaling in geheugen- en rekenvereisten, maar hebben ze moeite om dezelfde prestaties te behalen als Transformers vanwege beperkingen in parallelisatie en schaalbaarheid. Wij stellen een nieuwe modelarchitectuur voor, Receptance Weighted Key Value (RWKV), die de efficiënte paralleliseerbare training van Transformers combineert met de efficiënte inferentie van RNN's. Onze aanpak maakt gebruik van een lineair aandachtmechanisme en stelt ons in staat het model te formuleren als een Transformer of een RNN, wat berekeningen paralleliseert tijdens de training en een constante reken- en geheugencomplexiteit behoudt tijdens de inferentie, wat resulteert in de eerste niet-Transformer-architectuur die is geschaald naar tientallen miljarden parameters. Onze experimenten tonen aan dat RWKV presteert op hetzelfde niveau als vergelijkbaar grote Transformers, wat suggereert dat toekomstig werk deze architectuur kan benutten om efficiëntere modellen te creëren. Dit werk vormt een belangrijke stap in het verzoenen van de afwegingen tussen rekenkundige efficiëntie en modelprestaties bij sequentieverwerkingstaken.
Recente ontwikkelingen in grote taalmodellen (LLMs) zijn indrukwekkend. Echter, deze modellen vertonen soms inconsistenties en problematisch gedrag, zoals het verzinnen van feiten, het genereren van foutieve code, of het creëren van aanstootgevende en giftige inhoud. In tegenstelling tot deze modellen, maken mensen doorgaans gebruik van externe tools om hun initiële inhoud te controleren en te verfijnen, zoals het gebruik van een zoekmachine voor feitencontrole, of een code-interpreter voor debugging. Geïnspireerd door deze observatie introduceren we een raamwerk genaamd CRITIC dat LLMs, die in wezen "black boxes" zijn, in staat stelt om hun eigen uitvoer te valideren en progressief te verbeteren op een manier die vergelijkbaar is met menselijke interactie met tools. Meer specifiek, beginnend met een initiële uitvoer, interageert CRITIC met geschikte tools om bepaalde aspecten van de tekst te evalueren, en reviseert vervolgens de uitvoer op basis van de feedback die tijdens dit validatieproces wordt verkregen. Uitgebreide evaluaties met betrekking tot vrij-formulier vraagbeantwoording, wiskundige programma-synthese, en toxiciteitsreductie tonen aan dat CRITIC consistent de prestaties van LLMs verbetert. Tegelijkertijd benadrukt ons onderzoek het cruciale belang van externe feedback bij het bevorderen van de voortdurende zelfverbetering van LLMs.
Tekstgestuurde diffusiemodellen hebben ongekende mogelijkheden ontgrendeld in beeldgeneratie, terwijl hun videotegenhanger nog achterblijft vanwege de buitensporige trainingskosten van temporele modellering. Naast de trainingslast lijden de gegenereerde video's ook aan inconsistentie in uiterlijk en structurele flikkeringen, vooral bij lange videosynthese. Om deze uitdagingen aan te pakken, hebben we een trainingsvrij raamwerk ontworpen genaamd ControlVideo om natuurlijke en efficiënte tekst-naar-video-generatie mogelijk te maken. ControlVideo, aangepast van ControlNet, benut grove structurele consistentie van ingevoerde bewegingssequenties en introduceert drie modules om videogeneratie te verbeteren. Ten eerste, om uiterlijke samenhang tussen frames te waarborgen, voegt ControlVideo volledige cross-frame-interactie toe in self-attention-modules. Ten tweede, om het flikkereffect te verminderen, introduceert het een interleaved-frame smoother die frame-interpolatie toepast op afwisselende frames. Tot slot, om efficiënt lange video's te produceren, maakt het gebruik van een hiërarchische sampler die elk kort clipje afzonderlijk synthetiseert met holistische samenhang. Uitgerust met deze modules, overtreft ControlVideo de state-of-the-art op uitgebreide bewegingsprompt-paren zowel kwantitatief als kwalitatief. Opmerkelijk is dat het, dankzij de efficiënte ontwerpen, zowel korte als lange video's binnen enkele minuten genereert met één NVIDIA 2080Ti. Code is beschikbaar op https://github.com/YBYBZhang/ControlVideo.
De vooruitgang van autonoom webnavigatie is belemmerd door de afhankelijkheid van miljarden verkennende interacties via online reinforcement learning, en domeinspecifieke modelontwerpen die het moeilijk maken om generalisatie te benutten vanuit rijke out-of-domain data. In dit werk bestuderen we data-gedreven offline training voor webagents met vision-language foundation models. We stellen een instructie-volgend multimodaal agent voor, WebGUM, die zowel webpagina-screenshots als HTML-pagina's observeert en webnavigatieacties uitvoert, zoals klikken en typen. WebGUM wordt getraind door gezamenlijk een instructie-finetuned taalmodel en een vision transformer te finetunen op een grote corpus van demonstraties. We tonen empirisch aan dat deze aanpak het vermogen van de agent verbetert op het gebied van gegronde visuele perceptie, HTML-begrip en meerstaps redeneren, en daarmee eerdere werken met een aanzienlijke marge overtreft. Op de MiniWoB-benchmark verbeteren we met meer dan 31,9% ten opzichte van de beste offline methoden, en komen we dicht in de buurt van de online-finetuned state-of-the-art (SoTA). Op de WebShop-benchmark behaalt ons 3-miljard-parameter model superieure prestaties ten opzichte van de bestaande SoTA, PaLM-540B. We verzamelen ook 347K hoogwaardige demonstraties met onze getrainde modellen, 38 keer groter dan eerder werk, en stellen deze beschikbaar om toekomstig onderzoek in deze richting te bevorderen.
Diffusiemodellen vormen een klasse van flexibele generatieve modellen die getraind worden met een benadering van het log-waarschijnlijkheidsdoel. Echter, de meeste toepassingen van diffusiemodellen richten zich niet op waarschijnlijkheden, maar op downstream-doelen zoals door mensen waargenomen beeldkwaliteit of geneesmiddelwerking. In dit artikel onderzoeken we methoden voor reinforcement learning om diffusiemodellen rechtstreeks te optimaliseren voor dergelijke doelen. We beschrijven hoe het formuleren van ruisverwijdering als een meerstaps beslissingsprobleem een klasse van policy gradient-algoritmen mogelijk maakt, die we denoising diffusion policy optimization (DDPO) noemen, en die effectiever zijn dan alternatieve benaderingen met beloning-gewogen waarschijnlijkheid. Empirisch gezien is DDPO in staat om tekst-naar-beeld diffusiemodellen aan te passen aan doelen die moeilijk uit te drukken zijn via prompts, zoals beeldcompressie, en doelen die afgeleid zijn van menselijke feedback, zoals esthetische kwaliteit. Tot slot tonen we aan dat DDPO de afstemming tussen prompt en beeld kan verbeteren met behulp van feedback van een visie-taalmodel, zonder dat er aanvullende gegevensverzameling of menselijke annotatie nodig is.
In de afgelopen jaren heeft beeldgeneratie een grote sprong voorwaarts gemaakt in prestaties, waarbij diffusiemodellen een centrale rol spelen. Hoewel deze modellen hoogwaardige beelden genereren, zijn ze voornamelijk gebaseerd op tekstuele beschrijvingen. Dit roept de vraag op: "hoe kunnen we dergelijke modellen aanpassen om te worden gebaseerd op andere modaliteiten?". In dit artikel stellen we een nieuwe methode voor die gebruikmaakt van latente diffusiemodellen die zijn getraind voor tekst-naar-beeldgeneratie om beelden te genereren die gebaseerd zijn op audio-opnames. Met behulp van een vooraf getraind audio-encoderingsmodel codeert de voorgestelde methode audio in een nieuwe token, die kan worden beschouwd als een aanpassingslaag tussen de audio- en tekstrepresentaties. Een dergelijk modelparadigma vereist een klein aantal trainbare parameters, waardoor de voorgestelde aanpak aantrekkelijk is voor lichtgewicht optimalisatie. De resultaten suggereren dat de voorgestelde methode superieur is aan de geëvalueerde baseline-methoden, zowel wat betreft objectieve als subjectieve metrieken. Code en voorbeelden zijn beschikbaar op: https://pages.cs.huji.ac.il/adiyoss-lab/AudioToken.
Gepopulariseerd door de Differentiable Search Index, herformuleert het opkomende paradigma van generatief ophalen het klassieke informatie-ophaalprobleem tot een sequence-to-sequence modelleertaak, waarbij externe indexen worden achterwege gelaten en een volledig documentencorpus wordt gecodeerd binnen een enkele Transformer. Hoewel er veel verschillende benaderingen zijn voorgesteld om de effectiviteit van generatief ophalen te verbeteren, zijn deze alleen geëvalueerd op documentencorpora van ongeveer 100k in omvang. Wij voeren de eerste empirische studie uit van generatieve ophaaltechnieken over verschillende corpusgroottes, waarbij we uiteindelijk opschalen naar de volledige MS MARCO passage-rankingtaak met een corpus van 8,8 miljoen passages en modelgroottes evalueren tot 11B parameters. We ontdekken verschillende bevindingen over het opschalen van generatief ophalen naar miljoenen passages; met name het centrale belang van het gebruik van synthetische queries als documentrepresentaties tijdens het indexeren, de ineffectiviteit van bestaande voorgestelde architectuuraanpassingen wanneer rekening wordt gehouden met rekencosten, en de grenzen van het naïef opschalen van modelparameters met betrekking tot ophaalprestaties. Hoewel we vaststellen dat generatief ophalen concurrerend is met state-of-the-art duale encoders op kleine corpora, blijft het opschalen naar miljoenen passages een belangrijk en onopgelost vraagstuk. Wij geloven dat deze bevindingen waardevol zullen zijn voor de gemeenschap om de huidige stand van generatief ophalen te verduidelijken, de unieke uitdagingen te benadrukken en nieuwe onderzoeksrichtingen te inspireren.
De recente snelle vooruitgang in het vooraf trainen van grote taalmodel(len) is gebaseerd op het gebruik van zelfgesuperviseerde taalmodelleerdoelen zoals voorspelling van het volgende token of span corruptie. Aan de andere kant worden machinevertalingssystemen meestal getraind met behulp van cross-linguale supervisie die uitgelijnde gegevens tussen bron- en doeltalen vereist. Wij tonen aan dat het vooraf trainen van grote taalmodel(len) op een mengsel van een zelfgesuperviseerd taalmodelleerdoel en het gesuperviseerde machinevertalingsdoel, en dus het opnemen van cross-linguale parallelle gegevens tijdens het vooraf trainen, modellen oplevert met betere in-context leer vaardigheden. Omdat vooraf trainen een zeer resource-intensief proces is en een grid search naar de beste mengverhouding tussen de twee doelen buitensporig duur is, stellen we een eenvoudige maar effectieve strategie voor om deze tijdens het vooraf trainen te leren.
Grote taalmodellen (LLM's) kunnen worden gebruikt om kleinere, meer verfijnde datasets te genereren via few-shot prompting voor benchmarking, fine-tuning of andere toepassingen. Het begrijpen en evalueren van deze datasets is echter moeilijk, en de faalmodi van door LLM gegenereerde data zijn nog steeds niet goed begrepen. Specifiek kan de data op verrassende manieren repetitief zijn, niet alleen semantisch maar ook syntactisch en lexicaal. Wij presenteren LinguisticLens, een nieuw interactief visualisatietool om syntactische diversiteit van door LLM gegenereerde datasets te begrijpen en te analyseren. LinguisticLens clustert tekst langs syntactische, lexicale en semantische assen. Het ondersteunt hiërarchische visualisatie van een tekstdataset, waardoor gebruikers snel een overzicht kunnen scannen en individuele voorbeelden kunnen inspecteren. De live demo is beschikbaar op shorturl.at/zHOUV.
Grote Taalmodellen (LLMs) staan erom bekend aanzienlijke delen van hun trainingsdata te onthouden. Het is aangetoond dat delen van deze onthouden inhoud kunnen worden geëxtraheerd door simpelweg het model te bevragen, wat een privacyrisico vormt. Wij presenteren een nieuwe aanpak die prompt-tuning gebruikt om de extractiesnelheden van onthouden inhoud in LLMs te beheersen. We presenteren twee prompt-trainingsstrategieën om de extractiesnelheden te verhogen en te verlagen, wat respectievelijk overeenkomt met een aanval en een verdediging. We demonstreren de effectiviteit van onze technieken door modellen uit de GPT-Neo-familie te gebruiken op een openbare benchmark. Voor het GPT-Neo-model met 1,3 miljard parameters resulteert onze aanval in een stijging van 9,3 procentpunt in de extractiesnelheid vergeleken met onze baseline. Onze verdediging kan worden afgestemd om verschillende privacy-nuttigheidstrade-offs te bereiken via een door de gebruiker gespecificeerde hyperparameter. We bereiken een reductie in extractiesnelheid van tot 97,7% ten opzichte van onze baseline, met een toename in perplexiteit van 16,9%.
Op het gebied van audioverwerking heeft Transfer Learning de opkomst van Self-Supervised Learning en Zero-Shot Learning-technieken mogelijk gemaakt. Deze benaderingen hebben geleid tot de ontwikkeling van veelzijdige modellen die in staat zijn een breed scala aan taken aan te pakken, terwijl ze state-of-the-art prestaties leveren. Huidige modellen missen echter inherent de capaciteit om de vereiste taal te produceren voor open-eindetaken, zoals Audio Captioning of Audio Question & Answering. Wij introduceren Pengi, een nieuw Audio Language Model dat gebruikmaakt van Transfer Learning door alle audiotaken te formuleren als tekstgeneratietaken. Het neemt als invoer een audio-opname en tekst, en genereert vrije tekst als uitvoer. De invoeraudio wordt weergegeven als een reeks continue embeddings door een audio-encoder. Een tekst-encoder doet hetzelfde voor de corresponderende tekstinvoer. Beide reeksen worden gecombineerd als een voorvoegsel om een vooraf getraind bevroren taalmodel aan te sturen. De uniforme architectuur van Pengi maakt zowel open-eindetaken als gesloten taken mogelijk zonder aanvullende fine-tuning of taakspecifieke uitbreidingen. Bij evaluatie op 22 downstreamtaken levert onze benadering state-of-the-art prestaties op bij verschillende ervan. Onze resultaten tonen aan dat het verbinden van taalmodelen met audiomodelen een belangrijke stap is in de richting van algemeen bruikbaar audiobegrip.
Ontwikkelingspsychologen hebben decennia besteed aan het ontwerpen van experimenten om de intelligentie en kennis van baby's en kinderen te testen, waarbij ze de oorsprong van cruciale concepten en capaciteiten hebben onderzocht. Bovendien zijn experimentele technieken in de ontwikkelingspsychologie zorgvuldig ontworpen om de cognitieve capaciteiten die ten grondslag liggen aan specifiek gedrag te onderscheiden. Wij stellen voor dat het gebruik van klassieke experimenten uit de kinderontwikkeling een bijzonder effectieve manier is om de computationele vaardigheden van AI-modellen in het algemeen, en van grote taalmodellen (LLMs) in het bijzonder, te onderzoeken. Ten eerste kunnen de methodologische technieken van de ontwikkelingspsychologie, zoals het gebruik van nieuwe stimuli om rekening te houden met eerdere ervaringen of controlecondities om te bepalen of kinderen eenvoudige associaties gebruiken, even nuttig zijn voor het beoordelen van de capaciteiten van LLMs. Tegelijkertijd kan het op deze manier testen van LLMs ons vertellen of de informatie die in tekst is gecodeerd voldoende is om specifieke reacties mogelijk te maken, of of die reacties afhankelijk zijn van andere soorten informatie, zoals informatie uit de verkenning van de fysieke wereld. In dit werk passen we klassieke ontwikkelingspsychologische experimenten aan om de capaciteiten van LaMDA, een groot taalmodel van Google, te evalueren. We introduceren een nieuwe metriek, de LLM Response Score (LRS), die kan worden gebruikt om andere taalmodellen, zoals GPT, te evalueren. We ontdekken dat LaMDA passende reacties genereert die vergelijkbaar zijn met die van kinderen in experimenten die betrekking hebben op sociaal begrip, wat mogelijk bewijs levert dat kennis van deze domeinen via taal wordt ontdekt. Aan de andere kant verschillen de reacties van LaMDA bij taken die betrekking hebben op vroeg object- en actiebegrip, theory of mind, en vooral causale redenering sterk van die van jonge kinderen, wat mogelijk aantoont dat deze domeinen meer real-world, zelf geïnitieerde verkenning vereisen en niet eenvoudigweg kunnen worden geleerd uit patronen in taalinput.
Large Language Models (LLM) hebben populariteit verworven en opmerkelijke resultaten behaald in open-domeintaken, maar hun prestaties in echte industriële domeinspecifieke scenario's zijn gemiddeld, omdat er geen specifieke kennis in aanwezig is. Dit probleem heeft brede aandacht getrokken, maar er zijn weinig relevante benchmarks beschikbaar. In dit artikel bieden we een benchmark Question Answering (QA)-dataset genaamd MSQA, die gaat over Microsoft-producten en IT-technische problemen waar klanten tegenaan lopen. Deze dataset bevat industrieel cloud-specifieke QA-kennis, die niet beschikbaar is voor algemene LLM's, waardoor deze zeer geschikt is voor het evalueren van methoden die gericht zijn op het verbeteren van domeinspecifieke capaciteiten van LLM's. Daarnaast stellen we een nieuw modelinteractieparadigma voor dat LLM's kan versterken om betere prestaties te leveren in domeinspecifieke taken waar ze niet bedreven in zijn. Uitgebreide experimenten tonen aan dat de aanpak die ons modelfusiekader volgt, beter presteert dan de veelgebruikte LLM's met retrievemethoden.
De opkomst van grote taalmodelen (LLMs) heeft een aanzienlijke invloed gehad op natuurlijke taalverwerking, waarbij uitzonderlijke resultaten zijn aangetoond voor diverse taken. In deze studie gebruiken we ``Introspectieve Tips'' om LLMs te ondersteunen bij het zelfoptimaliseren van hun besluitvorming. Door trajecten introspectief te onderzoeken, verfijnt het LLM zijn beleid door beknopte en waardevolle tips te genereren. Onze methode verbetert de prestaties van de agent in zowel few-shot als zero-shot leersituaties door drie essentiële scenario's te overwegen: leren van eerdere ervaringen van de agent, het integreren van expertdemonstraties en generaliseren over diverse spellen. Belangrijk is dat we deze verbeteringen bereiken zonder de parameters van het LLM te fine-tunen; in plaats daarvan passen we de prompt aan om inzichten te generaliseren uit de drie genoemde situaties. Ons framework ondersteunt niet alleen, maar benadrukt ook het voordeel van het inzetten van LLM bij in-context besluitvorming. Experimenten met meer dan 100 spellen in TextWorld illustreren de superieure prestaties van onze aanpak.
Het formuleren van selectieve informatiebehoeften resulteert in zoekopdrachten die impliciet verzamelingsoperaties specificeren, zoals doorsnede, vereniging en verschil. Bijvoorbeeld, men zou kunnen zoeken naar "steltlopers die geen strandlopers zijn" of "sciencefictionfilms opgenomen in Engeland". Om het vermogen van retrievalsystemen om aan dergelijke informatiebehoeften te voldoen te bestuderen, construeren we QUEST, een dataset van 3357 natuurlijke taal zoekopdrachten met impliciete verzamelingsoperaties, die worden gekoppeld aan een set entiteiten die corresponderen met Wikipediadocumenten. De dataset daagt modellen uit om meerdere beperkingen die in zoekopdrachten worden genoemd te matchen met overeenkomstig bewijs in documenten en correct verschillende verzamelingsoperaties uit te voeren. De dataset is semi-automatisch geconstrueerd met behulp van Wikipedia-categorienamen. Zoekopdrachten worden automatisch samengesteld uit individuele categorieën, vervolgens geparafraseerd en verder gevalideerd op natuurlijkheid en vloeiendheid door crowdworkers. Crowdworkers beoordelen ook de relevantie van entiteiten op basis van hun documenten en markeren de toeschrijving van zoekopdrachtbeperkingen aan tekstgedeelten in documenten. We analyseren verschillende moderne retrievalsystemen en constateren dat ze vaak moeite hebben met dergelijke zoekopdrachten. Zoekopdrachten met ontkenning en conjunctie zijn bijzonder uitdagend en systemen worden verder op de proef gesteld met combinaties van deze operaties.
Representaties van transformer-gebaseerde unidirectionele taalmodelen staan bekend als effectief in het voorspellen van hersenreacties op natuurlijke taal. De meeste studies die taalmodelen vergelijken met hersenen hebben echter GPT-2 of vergelijkbaar grote taalmodelen gebruikt. Hier hebben we getest of grotere open-source modellen, zoals die uit de OPT- en LLaMA-families, beter zijn in het voorspellen van hersenreacties gemeten met fMRI. In lijn met schaalresultaten uit andere contexten, vonden we dat de voorspellingsprestatie van de hersenen log-lineair schaalt met de grootte van het model, van modellen met 125M tot 30B parameters, met een ~15% verbeterde encoderingsprestatie gemeten aan de hand van correlatie met een afgezonderde testset over 3 proefpersonen. Een vergelijkbaar log-lineair gedrag werd waargenomen bij het schalen van de grootte van de fMRI-trainingsset. We hebben ook de schaling gekarakteriseerd voor akoestische encoderingsmodellen die gebruikmaken van HuBERT, WavLM en Whisper, en vonden vergelijkbare verbeteringen met de grootte van het model. Een ruisplafondanalyse van deze grote, hoogpresterende encoderingsmodellen toonde aan dat de prestaties het theoretische maximum naderen voor hersengebieden zoals de precuneus en de hogere auditieve cortex. Deze resultaten suggereren dat het vergroten van de schaal van zowel modellen als data uiterst effectieve modellen van taalverwerking in de hersenen zal opleveren, wat een beter wetenschappelijk begrip mogelijk maakt, evenals toepassingen zoals decodering.
Stereotype benchmarkdatasets zijn cruciaal om sociale stereotypen over groepen mensen in NLP-modellen te detecteren en te mitigeren. Bestaande datasets zijn echter beperkt in omvang en dekking, en zijn grotendeels beperkt tot stereotypen die prevalent zijn in de westerse samenleving. Dit is vooral problematisch omdat taaltechnologieën wereldwijd aan populariteit winnen. Om deze kloof te overbruggen, presenteren we SeeGULL, een breed gedekt stereotypedataset, gebouwd door gebruik te maken van de generatieve mogelijkheden van grote taalmodelen zoals PaLM en GPT-3, en door een wereldwijd diverse groep beoordelaars in te zetten om de prevalentie van deze stereotypen in de samenleving te valideren. SeeGULL is in het Engels en bevat stereotypen over identiteitsgroepen uit 178 landen verspreid over 8 verschillende geopolitieke regio's op 6 continenten, evenals staatsniveau-identiteiten binnen de VS en India. We nemen ook fijnmazige aanstootgevendheidsscores op voor verschillende stereotypen en demonstreren hun wereldwijde verschillen. Bovendien nemen we vergelijkende annotaties op over dezelfde groepen door annotators die in de regio wonen versus diegenen die in Noord-Amerika zijn gevestigd, en tonen we aan dat binnen-regio stereotypen over groepen verschillen van die welke prevalent zijn in Noord-Amerika. INHOUDWAARSCHUWING: Dit artikel bevat stereotype voorbeelden die aanstootgevend kunnen zijn.
De opkomst van automatisering in specifieke Software Engineering (SE) taken is van theorie naar realiteit overgegaan. Talrijke wetenschappelijke artikelen hebben de succesvolle toepassing van Kunstmatige Intelligentie (AI) gedocumenteerd om problemen aan te pakken op gebieden zoals projectmanagement, modellering, testen en ontwikkeling. Een recente innovatie is de introductie van ChatGPT, een met machine learning (ML) verrijkte chatbot, die wordt geprezen als een hulpmiddel dat bekwaam is in het genereren van programmeercodes en het formuleren van softwareteststrategieën voor ontwikkelaars en testers respectievelijk. Hoewel er speculatie bestaat dat AI-gebaseerde berekeningen de productiviteit kunnen verhogen en zelfs software engineers kunnen vervangen in softwareontwikkeling, ontbreekt het momenteel aan empirisch bewijs om dit te verifiëren. Bovendien krijgen, ondanks de primaire focus op het verbeteren van de nauwkeurigheid van AI-systemen, niet-functionele vereisten zoals energie-efficiëntie, kwetsbaarheid, eerlijkheid (d.w.z. menselijke vooroordelen) en veiligheid vaak onvoldoende aandacht. Dit artikel stelt dat een uitgebreide vergelijking van software engineers en AI-gebaseerde oplossingen, rekening houdend met verschillende evaluatiecriteria, cruciaal is voor het bevorderen van mens-machine samenwerking, het verbeteren van de betrouwbaarheid van AI-gebaseerde methoden en het begrijpen van taakgeschiktheid voor mensen of AI. Bovendien vergemakkelijkt het de effectieve implementatie van coöperatieve werkstructuren en human-in-the-loop processen. Dit artikel voert een empirisch onderzoek uit, waarbij de prestaties van software engineers en AI-systemen, zoals ChatGPT, worden vergeleken aan de hand van verschillende evaluatiemetrics. De empirische studie omvat een geval waarin ChatGPT-gegenereerde code wordt beoordeeld tegenover code die door ontwikkelaars is geproduceerd en geüpload in Leetcode.
We introduceren Multi-Objective Counterfactuals for Design (MCD), een nieuwe methode voor counterfactuele optimalisatie in ontwerpproblemen. Counterfactuals zijn hypothetische situaties die kunnen leiden tot een andere beslissing of keuze. In dit artikel formuleren de auteurs het counterfactuele zoekprobleem als een ontwerpadviesinstrument dat kan helpen bij het identificeren van aanpassingen aan een ontwerp, wat leidt tot betere functionele prestaties. MCD verbetert bestaande counterfactuele zoekmethoden door ondersteuning te bieden voor multi-objectieve queries, die cruciaal zijn in ontwerpproblemen, en door het counterfactuele zoek- en samplingproces te ontkoppelen, waardoor de efficiëntie wordt verbeterd en de visualisatie van doelafwegingen wordt vergemakkelijkt. Het artikel demonstreert de kernfunctionaliteit van MCD aan de hand van een tweedimensionale testcase, gevolgd door drie casestudies over fietsontwerp die de effectiviteit van MCD in real-world ontwerpproblemen laten zien. In de eerste casestudie blinkt MCD uit in het aanbevelen van aanpassingen aan query-ontwerpen die de functionele prestaties aanzienlijk kunnen verbeteren, zoals gewichtsbesparing en verbeteringen aan de structurele veiligheidsfactor. De tweede casestudie toont aan dat MCD kan werken met een vooraf getraind taalmodel om effectief ontwerpwijzigingen voor te stellen op basis van een subjectieve tekstprompt. Ten slotte geven de auteurs MCD de opdracht om de gelijkenis van een query-ontwerp met een doelafbeelding en tekstprompt te vergroten, terwijl tegelijkertijd het gewicht wordt verminderd en de structurele prestaties worden verbeterd, wat de prestaties van MCD op een complexe multimodale query demonstreert. Over het algemeen heeft MCD het potentieel om waardevolle aanbevelingen te bieden voor praktijkmensen en onderzoekers op het gebied van ontwerpautomatisatie die antwoorden zoeken op hun "Wat als"-vragen door hypothetische ontwerpwijzigingen en hun impact op meerdere ontwerpdoelen te verkennen. De code, testproblemen en datasets die in het artikel worden gebruikt, zijn openbaar beschikbaar op decode.mit.edu/projects/counterfactuals/.