Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De kostbare self-attention lagen in moderne Transformers vereisen geheugen en rekencapaciteit die kwadratisch toenemen met de sequentielengte. Bestaande benaderingsmethoden presteren meestal ondermaats en slagen er niet in om significante snelheidswinst te behalen in de praktijk. Hier presenteren we SwitchHead - een nieuwe methode die zowel de reken- als geheugenvereisten vermindert en een snelheidswinst in werkelijke tijd bereikt, terwijl de taalmodelprestaties van baseline Transformers met hetzelfde parameterbudget worden geëvenaard. SwitchHead gebruikt Mixture-of-Experts (MoE) lagen voor de value- en outputprojecties en vereist 4 tot 8 keer minder aandachtmatrices dan standaard Transformers. Onze nieuwe aandacht kan ook worden gecombineerd met MoE MLP lagen, wat resulteert in een efficiënt volledig-MoE "SwitchAll" Transformer model. Onze code is openbaar.
Hoewel op diffusie gebaseerde videogeneratie snelle vooruitgang heeft geboekt, vertonen de inferentieresultaten van bestaande modellen nog steeds onbevredigende temporele consistentie en onnatuurlijke dynamiek. In dit artikel duiken we diep in de ruisinitialisatie van videodiffusiemodellen en ontdekken we een impliciete kloof tussen training en inferentie die bijdraagt aan de onbevredigende inferentiekwaliteit. Onze belangrijkste bevindingen zijn: 1) de ruimtelijk-temporele frequentieverdeling van de initiële latentie tijdens inferentie is intrinsiek anders dan die tijdens training, en 2) het ruisverwijderingsproces wordt aanzienlijk beïnvloed door de lagefrequentiecomponenten van de initiële ruis. Gemotiveerd door deze observaties stellen we een beknopte maar effectieve inferentie-samplingstrategie voor, FreeInit, die de temporele consistentie van door diffusiemodellen gegenereerde video's aanzienlijk verbetert. Door de ruimtelijk-temporele lagefrequentiecomponenten van de initiële latentie tijdens inferentie iteratief te verfijnen, is FreeInit in staat om de initialisatiekloof tussen training en inferentie te compenseren, waardoor het uiterlijk van het onderwerp en de temporele consistentie van de generatieresultaten effectief worden verbeterd. Uitgebreide experimenten tonen aan dat FreeInit de generatieresultaten van verschillende tekst-naar-video-generatiemodellen consistent verbetert zonder aanvullende training.
Visuele taalmodellen (VLMs) hebben een snelle vooruitgang geboekt dankzij het recente succes van grote taalmodellen. Er zijn steeds meer inspanningen geleverd voor visuele instructieafstemming om het LLM uit te breiden met visuele invoer, maar er ontbreekt een diepgaande studie van het visuele taalvooraf-trainingsproces, waarbij het model leert om gezamenlijke modellering uit te voeren op beide modaliteiten. In dit werk onderzoeken we de ontwerpkeuzes voor VLM-vooraf-training door het LLM stapsgewijs uit te breiden naar een VLM via controleerbare vergelijkingen. We introduceren drie belangrijke bevindingen: (1) het bevriezen van LLMs tijdens de vooraf-training kan een behoorlijke zero-shot prestatie bereiken, maar mist de mogelijkheid tot in-context leren, wat vereist dat het LLM wordt ontdooid; (2) interleaved vooraf-trainingsdata is gunstig, terwijl beeld-tekstparen alleen niet optimaal zijn; (3) het opnieuw mengen van tekst-only instructiedata met beeld-tekstdata tijdens instructie-finetuning herstelt niet alleen de degradatie van tekst-only taken, maar verhoogt ook de nauwkeurigheid van VLM-taken. Met een verbeterd vooraf-trainingsrecept bouwen we VILA, een familie van Visuele Taalmodellen die consistent de state-of-the-art modellen, zoals LLaVA-1.5, overtreft op de belangrijkste benchmarks zonder extra toeters en bellen. Multi-modale vooraf-training helpt ook om aantrekkelijke eigenschappen van VILA te onthullen, waaronder redeneren met meerdere afbeeldingen, verbeterd in-context leren en betere wereldkennis.
Diffusiemodellen hebben een opmerkelijke beeldgeneratiekwaliteit bereikt die eerdere generatieve modellen overtreft. Een opvallende beperking van diffusiemodellen, in vergelijking met GANs, is echter hun moeilijkheid om soepel te interpoleren tussen twee beeldmonsters, vanwege hun sterk ongestructureerde latente ruimte. Zo'n soepele interpolatie is intrigerend omdat het van nature een oplossing biedt voor de beeldmorfingtaak met veel toepassingen. In dit werk presenteren we DiffMorpher, de eerste aanpak die soepele en natuurlijke beeldinterpolatie mogelijk maakt met behulp van diffusiemodellen. Onze kernidee is om de semantiek van de twee afbeeldingen vast te leggen door respectievelijk twee LoRA's aan te passen, en te interpoleren tussen zowel de LoRA-parameters als de latente ruis om een soepele semantische overgang te garanderen, waarbij correspondentie automatisch ontstaat zonder de noodzaak van annotatie. Daarnaast stellen we een techniek voor aandachtinterpolatie en -injectie voor, evenals een nieuw bemonsteringsschema om de soepelheid tussen opeenvolgende afbeeldingen verder te verbeteren. Uitgebreide experimenten tonen aan dat DiffMorpher aanzienlijk betere beeldmorfingeffecten bereikt dan eerdere methoden over een verscheidenheid aan objectcategorieën, waardoor een kritieke functionele kloof wordt overbrugd die diffusiemodellen onderscheidde van GANs.
Recente benaderingen zoals ControlNet bieden gebruikers fijnmazige ruimtelijke controle over tekst-naar-beeld (T2I) diffusiemodellen. Echter moeten aanvullende modules worden getraind voor elk type ruimtelijke conditie, modelarchitectuur en checkpoint, wat ze in conflict brengt met de diverse intenties en voorkeuren die een menselijke ontwerper aan de AI-modellen wil overbrengen tijdens het contentcreatieproces. In dit werk presenteren we FreeControl, een trainingsvrije benadering voor controleerbare T2I-generatie die meerdere condities, architecturen en checkpoints tegelijk ondersteunt. FreeControl ontwerpt structuurbegeleiding om de structuurafstemming met een begeleidingsbeeld te vergemakkelijken, en uiterlijkbegeleiding om het delen van uiterlijk tussen beelden die met hetzelfde seed zijn gegenereerd mogelijk te maken. Uitgebreide kwalitatieve en kwantitatieve experimenten tonen de superieure prestaties van FreeControl aan over een verscheidenheid aan vooraf getrainde T2I-modellen. In het bijzonder vergemakkelijkt FreeControl handige trainingsvrije controle over veel verschillende architecturen en checkpoints, staat het uitdagende invoercondities toe waarop de meeste bestaande trainingsvrije methoden falen, en bereikt het een competitieve synthesekwaliteit met trainingsgebaseerde benaderingen.
De evaluatie van grote taalmodellen (LLMs) is cruciaal om hun prestaties te beoordelen en mogelijke beveiligingsrisico's te beperken. In dit artikel introduceren we PromptBench, een geïntegreerde bibliotheek voor het evalueren van LLMs. Deze bestaat uit verschillende kerncomponenten die eenvoudig kunnen worden gebruikt en uitgebreid door onderzoekers: promptconstructie, promptengineering, het laden van datasets en modellen, adversariële promptaanvallen, dynamische evaluatieprotocollen en analysetools. PromptBench is ontworpen als een open, algemeen en flexibel codebase voor onderzoeksdoeleinden, dat origineel onderzoek kan faciliteren bij het creëren van nieuwe benchmarks, het implementeren van downstreamtoepassingen en het ontwerpen van nieuwe evaluatieprotocollen. De code is beschikbaar op: https://github.com/microsoft/promptbench en zal continu worden ondersteund.
We onderzoeken toepassingen van vooraf getrainde foundation modellen in robotica. Traditionele deep learning-modellen in robotica worden getraind op kleine datasets die zijn afgestemd op specifieke taken, wat hun aanpassingsvermogen over diverse toepassingen beperkt. Daarentegen lijken foundation modellen die vooraf zijn getraind op internet-schaal data superieure generalisatiecapaciteiten te hebben, en vertonen in sommige gevallen een emergent vermogen om zero-shot oplossingen te vinden voor problemen die niet in de trainingsdata aanwezig zijn. Foundation modellen kunnen het potentieel hebben om verschillende componenten van de robotautonomiestack te verbeteren, van perceptie tot besluitvorming en controle. Grote taalmodellen kunnen bijvoorbeeld code genereren of gezond verstand redeneren, terwijl visie-taalmodellen open-vocabulair visuele herkenning mogelijk maken. Er blijven echter aanzienlijke open onderzoeksuitdagingen bestaan, met name rond de schaarste van robot-relevante trainingsdata, veiligheidsgaranties en onzekerheidskwantificering, en real-time uitvoering. In dit onderzoek bestuderen we recente papers die foundation modellen hebben gebruikt of gebouwd om robotica-problemen op te lossen. We onderzoeken hoe foundation modellen bijdragen aan het verbeteren van robotcapaciteiten op het gebied van perceptie, besluitvorming en controle. We bespreken de uitdagingen die de adoptie van foundation modellen in robotautonomie belemmeren en bieden kansen en potentiële wegen voor toekomstige vooruitgang. Het GitHub-project dat bij dit paper hoort (Voorlopige release. We zijn toegewijd aan het verder verbeteren en updaten van dit werk om de kwaliteit en relevantie te waarborgen) is hier te vinden: https://github.com/robotics-survey/Awesome-Robotics-Foundation-Models
Vanwege de aanzienlijke omvang van Large Language Models (LLM's) blijkt de directe toepassing van conventionele compressiemethoden onpraktisch. De rekenkundige eisen die gepaard gaan met zelfs minimale gradientupdates vormen uitdagingen, met name op consumentenhardware. Dit artikel introduceert een innovatieve benadering voor de parametrische en praktische compressie van LLM's, gebaseerd op reduced order modelling, wat een lage-rang-decompositie binnen de feature space en herparameterisatie in de weight space inhoudt. Opmerkelijk is dat deze compressietechniek laaggewijs werkt, waardoor een GPU-apparaat overbodig wordt en het mogelijk wordt om modellen op miljardenschaal te comprimeren binnen strikte beperkingen van zowel geheugen als tijd. Onze methode vertegenwoordigt een significante vooruitgang in modelcompressie door gebruik te maken van matrixdecompositie, waarbij superieure effectiviteit wordt aangetoond in vergelijking met de heersende state-of-the-art gestructureerde pruning-methode.
Recent onderzoek heeft aanzienlijke vooruitgang geboekt in het toepassen van alignmenttechnieken om de behulpzaamheid en onschadelijkheid van grote taalmodellen (LLM's) te verbeteren in overeenstemming met menselijke intenties. In dit artikel benadrukken we het belang van alignment voor eerlijkheid, waarbij LLM's proactief weigeren vragen te beantwoorden wanneer ze de kennis ontberen, zonder daarbij overdreven conservatief te zijn. Een cruciaal aspect van alignment voor eerlijkheid is echter het vaststellen van de grenzen van de kennis van een LLM, wat verre van eenvoudig is. Deze uitdaging vereist uitgebreide oplossingen op het gebied van metriekontwikkeling, benchmarkcreatie en trainingsmethodologieën. In dit artikel gaan we deze uitdagingen aan door eerst een precieze probleemdefinitie vast te stellen en "eerlijkheid" te definiëren, geïnspireerd door de Analecten van Confucius. Dit dient als hoeksteen voor het ontwikkelen van metrieken die de eerlijkheid van een LLM effectief meten door de vooruitgang na alignment te kwantificeren. Verder introduceren we een flexibel trainingsframework dat verder wordt geconcretiseerd door verschillende efficiëne fine-tuningtechnieken die eerlijkheid benadrukken zonder de prestaties op andere taken op te offeren. Onze uitgebreide experimenten tonen aan dat deze gealigneerde modellen een duidelijke toename in eerlijkheid vertonen, zoals aangegeven door onze voorgestelde metrieken. We maken een schat aan bronnen openbaar om toekomstig onderzoek te vergemakkelijken op https://github.com/GAIR-NLP/alignment-for-honesty, waaronder eerlijkheid-gealigneerde modellen, trainings- en evaluatiedatasets voor eerlijkheidsalignment, een conceptglossarium, evenals alle relevante broncode.
In Multimodale Large Language Models (MLLMs) speelt een visuele projector een cruciale rol bij het verbinden van vooraf getrainde visuele encoders met LLMs, waardoor diepgaand visueel begrip mogelijk wordt terwijl de robuuste capaciteiten van LLMs worden benut. Ondanks het belang van de visuele projector is deze relatief weinig onderzocht. In deze studie identificeren we eerst twee essentiële eigenschappen van de projector: (i) flexibiliteit in het beheren van het aantal visuele tokens, cruciaal voor de algehele efficiëntie van MLLMs, en (ii) het behoud van lokale context uit visuele kenmerken, essentieel voor ruimtelijk begrip. Op basis van deze bevindingen stellen we een nieuw projectorontwerp voor dat zowel flexibel als lokaal versterkt is, waardoor het effectief aan de twee gewenste eigenschappen voldoet. Daarnaast presenteren we uitgebreide strategieën om meerdere en veelzijdige instructiedatasets effectief te benutten. Door middel van uitgebreide experimenten onderzoeken we de impact van individuele ontwerpkeuzes. Ten slite presteert onze voorgestelde MLLM, Honeybee, opmerkelijk beter dan eerdere state-of-the-art methoden op verschillende benchmarks, waaronder MME, MMBench, SEED-Bench en LLaVA-Bench, en behaalt het aanzienlijk hogere efficiëntie. Code en modellen zijn beschikbaar op https://github.com/kakaobrain/honeybee.
We presenteren FIND, een gegeneraliseerde interface voor het uitlijnen van embeddings van foundation modellen. Zoals getoond in de teaser-afbeelding, is een lichtgewicht transformer-interface zonder het afstemmen van foundation model-gewichten voldoende voor een geïntegreerd beeld (segmentatie) en datasetniveau (retrieval) begrip. De voorgestelde interface heeft de volgende gunstige eigenschappen: (1) Generaliseerbaar. Het is toepasbaar op verschillende taken zoals retrieval, segmentatie, etc., onder dezelfde architectuur en gewichten. (2) Prototypeerbaar. Verschillende taken kunnen worden geïmplementeerd door het prototypen van aandachtmaskers en embeddingtypes. (3) Uitbreidbaar. De voorgestelde interface is aanpasbaar aan nieuwe taken en nieuwe modellen. (4) Verweven. Met het voordeel van multi-task multi-modale training, creëert de voorgestelde interface een verweven gedeelde embeddingruimte. In het licht van de verweven embeddingruimte introduceren we de FIND-Bench, die nieuwe trainings- en evaluatieannotaties toevoegt aan de COCO-dataset voor verweven segmentatie en retrieval. Onze aanpak behaalt state-of-the-art prestaties op FIND-Bench en competitieve prestaties op standaard retrieval- en segmentatie-instellingen. De trainings-, evaluatie- en democode, evenals de dataset, zijn vrijgegeven op https://github.com/UX-Decoder/FIND.
Consistentiemodellen (CMs) hebben hun potentieel getoond bij het efficiënt en hoogwaardig creëren van visuele inhoud. Echter, de manier om nieuwe conditionele controles toe te voegen aan vooraf getrainde CMs is nog niet onderzocht. In dit technische rapport beschouwen we alternatieve strategieën voor het toevoegen van ControlNet-achtige conditionele controle aan CMs en presenteren we drie belangrijke bevindingen. 1) ControlNet, getraind voor diffusiemodellen (DMs), kan direct worden toegepast op CMs voor hoogwaardige semantische controles, maar heeft moeite met controle op laagniveau en realisme. 2) CMs vormen een onafhankelijke klasse van generatieve modellen, waarop ControlNet vanaf nul kan worden getraind met behulp van Consistentietraining zoals voorgesteld door Song et al. 3) Een lichtgewicht adapter kan gezamenlijk worden geoptimaliseerd onder meerdere condities via Consistentietraining, waardoor een snelle overdracht van DMs-gebaseerde ControlNet naar CMs mogelijk wordt. We bestuderen deze drie oplossingen voor verschillende conditionele controles, waaronder randen, diepte, menselijke houding, laagresolutiebeelden en gemaskeerde afbeeldingen met tekst-naar-beeld latentieconsistentiemodellen.
Hoewel neurale rendering indrukwekkende vooruitgang heeft geboekt in scène-reconstructie en de synthese van nieuwe gezichtspunten, is het sterk afhankelijk van nauwkeurig vooraf berekende cameraposities. Om deze beperking te versoepelen, zijn er meerdere inspanningen geleverd om Neural Radiance Fields (NeRFs) te trainen zonder vooraf verwerkte cameraposities. De impliciete representaties van NeRFs bieden echter extra uitdagingen om zowel de 3D-structuur als de cameraposities tegelijkertijd te optimaliseren. Aan de andere kant biedt het recent voorgestelde 3D Gaussian Splatting nieuwe mogelijkheden vanwege zijn expliciete puntenwolkrepresentaties. Dit artikel maakt gebruik van zowel de expliciete geometrische representatie als de continuïteit van de invoervideostream om synthese van nieuwe gezichtspunten uit te voeren zonder enige SfM-preprocessing. We verwerken de invoerframes op een sequentiële manier en breiden de set van 3D Gaussians geleidelijk uit door één invoerframe per keer te nemen, zonder de noodzaak om de cameraposities vooraf te berekenen. Onze methode verbetert aanzienlijk ten opzichte van eerdere benaderingen in gezichtspuntsynthese en camerapositie-estimatie bij grote bewegingsveranderingen. Onze projectpagina is https://oasisyang.github.io/colmap-free-3dgs.
We introduceren Contrastive Activation Addition (CAA), een innovatieve methode voor het sturen van taalmodel(len) door activaties tijdens hun forward passes aan te passen. CAA berekent "stuurvectoren" door het gemiddelde te nemen van het verschil in activaties van de residual stream tussen paren van positieve en negatieve voorbeelden van een bepaald gedrag, zoals feitelijke versus hallucinerende reacties. Tijdens inferentie worden deze stuurvectoren op alle tokenposities toegevoegd na de prompt van de gebruiker, met een positieve of negatieve coëfficiënt, wat nauwkeurige controle over de mate van het beoogde gedrag mogelijk maakt. We evalueren de effectiviteit van CAA op Llama 2 Chat met behulp van zowel multiple-choice gedragsvraagdatasets als open-ended generatietaken. We tonen aan dat CAA het modelgedrag significant verandert, traditionele methoden zoals finetunen en few-shot prompting overtreft, en de capaciteiten minimaal reduceert. Bovendien krijgen we door het gebruik van verschillende interpretatiemethoden voor de activatieruimte dieper inzicht in de mechanismen van CAA. CAA stuurt niet alleen modeloutputs nauwkeurig, maar werpt ook licht op hoe hoogwaardige concepten worden gerepresenteerd in Large Language Models (LLM's).
Er is recentelijk veel vooruitgang geboekt op het gebied van tekst-naar-video-generatie, waarbij state-of-the-art modellen in staat zijn hoogwaardige, realistische video's te genereren. Deze modellen missen echter de mogelijkheid voor gebruikers om interactief controle uit te oefenen en video's te genereren, wat potentieel nieuwe toepassingsgebieden kan ontsluiten. Als eerste stap naar dit doel pakken we het probleem aan om op diffusie gebaseerde videogeneratiemodellen uit te rusten met interactieve spatio-temporele controle over hun output. Hiervoor putten we inspiratie uit recente vooruitgang in de segmentatieliteratuur om een nieuwe spatio-temporele gemaskeerde aandachtmodule voor te stellen - Peekaboo. Deze module is een toevoeging zonder trainings- of inferentie-overhead aan standaard videogeneratiemodellen, die spatio-temporele controle mogelijk maakt. We stellen ook een evaluatiebenchmark voor voor de taak van interactieve videogeneratie. Door uitgebreide kwalitatieve en kwantitatieve evaluatie tonen we aan dat Peekaboo gecontroleerde videogeneratie mogelijk maakt en zelfs een verbetering van tot 3,8x in mIoU behaalt ten opzichte van baseline-modellen.
In machine learning is generalisatie tegen distributieverschuivingen -- waarbij implementatieomstandigheden afwijken van de trainingsscenario's -- cruciaal, met name in domeinen zoals klimaatmodellering, biomedische wetenschappen en autonoom rijden. De opkomst van foundation models, gekenmerkt door hun uitgebreide voorafgaande training en veelzijdigheid in taken, heeft geleid tot een groeiende interesse in hun aanpassingsvermogen aan distributieverschuivingen. GPT-4V(ision) fungeert als het meest geavanceerde publiek toegankelijke multimodale foundation model, met brede toepassingen in diverse domeinen, waaronder anomaliedetectie, videobegrip, beeldgeneratie en medische diagnose. Echter, de robuustheid tegenover datadistributies blijft grotendeels onontgonnen. Om deze leemte aan te pakken, evalueert deze studie grondig het aanpassings- en generalisatievermogen van GPT-4V in dynamische omgevingen, waarbij het benchmarkt tegen prominente modellen zoals CLIP en LLaVA. We verdiepen ons in de zero-shot generalisatie van GPT-4V over 13 diverse datasets die natuurlijke, medische en moleculaire domeinen beslaan. We onderzoeken verder het aanpassingsvermogen aan gecontroleerde dataperturbaties en onderzoeken de effectiviteit van in-context learning als een hulpmiddel om de aanpassing te verbeteren. Onze bevindingen schetsen de grenzen van GPT-4V's mogelijkheden bij distributieverschuivingen, waarbij de sterke en zwakke punten in verschillende scenario's worden belicht. Belangrijk is dat dit onderzoek bijdraagt aan ons begrip van hoe AI foundation models generaliseren naar distributieverschuivingen, en biedt cruciale inzichten in hun aanpassingsvermogen en robuustheid. Code is publiekelijk beschikbaar op https://github.com/jameszhou-gl/gpt-4v-distribution-shift.
Diffusion Transformers hebben recentelijk opmerkelijke effectiviteit getoond bij het genereren van hoogwaardige 3D-puntenwolken. Het trainen van voxelgebaseerde diffusiemodellen voor hoogresolutie 3D-voxels blijft echter extreem kostbaar vanwege de kubische complexiteit van aandachtoperatoren, die voortkomt uit de extra dimensie van voxels. Gemotiveerd door de inherente redundantie van 3D in vergelijking met 2D, stellen we FastDiT-3D voor, een nieuwe gemaskerde diffusion transformer die is afgestemd op efficiënte 3D-puntenwolkengeneratie, waardoor de trainingskosten aanzienlijk worden verlaagd. Specifiek putten we inspiratie uit gemaskerde autoencoders om het denoisingsproces dynamisch uit te voeren op gemaskerde gevoxeliseerde puntenwolken. We introduceren ook een nieuwe voxelbewuste maskerstrategie om adaptief achtergrond-/voorgrondinformatie te aggregeren uit gevoxeliseerde puntenwolken. Onze methode behaalt state-of-the-art prestaties met een extreme maskeringsratio van bijna 99%. Bovendien introduceren we Mixture-of-Expert (MoE) in het 3D-diffusiemodel om de multi-categorie 3D-generatie te verbeteren. Elke categorie kan een apart diffusiepad leren met verschillende experts, waardoor gradientconflicten worden verlicht. Experimentele resultaten op de ShapeNet-dataset tonen aan dat onze methode state-of-the-art prestaties bereikt op het gebied van hoogwaardige en diverse 3D-puntenwolkengeneratie. Onze FastDiT-3D verbetert de 1-Nearest Neighbor Accuracy en Coverage-metrics bij het genereren van 128-resolutie voxel-puntenwolken, terwijl slechts 6,5% van de oorspronkelijke trainingskosten wordt gebruikt.
Een cruciale factor voor het succes van beslissingsondersteunende systemen is het nauwkeurig modelleren van gebruikersvoorkeuren. Onderzoek in de psychologie heeft aangetoond dat gebruikers vaak hun voorkeuren ontwikkelen tijdens het elicitatietraject, wat het essentiële belang van systeem-gebruikerinteractie benadrukt bij het ontwikkelen van gepersonaliseerde systemen. Dit artikel introduceert een nieuwe aanpak, waarbij Large Language Models (LLM's) worden gecombineerd met Constraint Programming om interactieve beslissingsondersteuning te faciliteren. We bestuderen dit hybride raamwerk aan de hand van vergaderplanning, een tijdrovende dagelijkse activiteit waarmee veel informatieprofessionals te maken hebben. We voeren drie studies uit om het nieuwe raamwerk te evalueren, waaronder een dagboekstudie (n=64) om contextuele planningsvoorkeuren te karakteriseren, een kwantitatieve evaluatie van de prestaties van het systeem, en een gebruikersstudie (n=10) met een prototypesysteem. Ons werk benadrukt het potentieel van een hybride LLM- en optimalisatieaanpak voor iteratieve voorkeurelicitatie en ontwerpoverwegingen voor het bouwen van systemen die mens-systeem samenwerkende besluitvormingsprocessen ondersteunen.