Dagelijks geselecteerde AI onderzoekspapers met vertalingen
In het traditionele RAG-framework zijn de basiseenheden voor retrieval doorgaans kort. Veelgebruikte retrievers zoals DPR werken normaal gesproken met Wikipedia-paragrafen van 100 woorden. Een dergelijk ontwerp dwingt de retriever om in een grote corpus te zoeken naar de 'naald'-eenheid. Daarentegen hoeven de readers alleen antwoorden te extraheren uit de korte, opgehaalde eenheden. Een dergelijk onevenwichtig ontwerp met een 'zware' retriever en een 'lichte' reader kan leiden tot suboptimale prestaties. Om dit onevenwicht te verlichten, stellen we een nieuw framework voor, LongRAG, bestaande uit een 'lange retriever' en een 'lange reader'. LongRAG verwerkt de volledige Wikipedia in eenheden van 4K tokens, wat 30x langer is dan voorheen. Door de eenheidsgrootte te vergroten, verminderen we het totale aantal eenheden aanzienlijk van 22M naar 700K. Dit verlaagt de belasting van de retriever aanzienlijk, wat leidt tot een opmerkelijke retrievalscore: answer recall@1=71% op NQ (voorheen 52%) en answer recall@2=72% (voorheen 47%) op HotpotQA (full-wiki). Vervolgens voeren we de top-k opgehaalde eenheden (ongeveer 30K tokens) naar een bestaande LLM met lange context om zero-shot antwoordextractie uit te voeren. Zonder enige training te vereisen, behaalt LongRAG een EM van 62,7% op NQ, wat het beste bekende resultaat is. LongRAG behaalt ook 64,3% op HotpotQA (full-wiki), wat gelijk is aan het SoTA-model. Onze studie biedt inzichten in de toekomstige roadmap voor het combineren van RAG met LLM's met lange context.
Het LLM-as-a-judge paradigma biedt een veelbelovende oplossing voor de schaalbaarheidsuitdagingen die gepaard gaan met menselijke evaluatie en wint snel aan populariteit als benadering voor het evalueren van grote taalmodellen (LLM's). Er zijn echter nog veel open vragen over de sterke en zwakke punten van dit paradigma, en over de mogelijke vooroordelen die het kan bevatten. In dit artikel presenteren we een uitgebreide studie naar de prestaties van verschillende LLM's die als beoordelaar fungeren. We gebruiken TriviaQA als benchmark om het objectieve kennisredeneren van LLM's te beoordelen en evalueren deze naast menselijke annotaties, waarvan we vaststelden dat ze een hoge inter-annotatorovereenstemming hebben. Onze studie omvat 9 beoordelaarsmodellen en 9 examenkandidatenmodellen – zowel basis- als instructie-afgestemde modellen. We beoordelen de overeenstemming van het beoordelaarsmodel over verschillende modelgroottes, families en beoordelaarsprompts. Onder andere resultaten herontdekt ons onderzoek het belang van het gebruik van Cohen's kappa als maatstaf voor overeenstemming in plaats van simpele procentuele overeenstemming, waarbij we aantonen dat beoordelaars met een hoge procentuele overeenstemming nog steeds sterk verschillende scores kunnen toekennen. We constateren dat zowel Llama-3 70B als GPT-4 Turbo een uitstekende overeenstemming met mensen hebben, maar wat betreft het rangschikken van examenkandidatenmodellen worden ze overtroffen door zowel JudgeLM-7B als de lexicale beoordelaar Contains, die tot 34 punten lagere menselijke overeenstemming hebben. Door foutenanalyse en diverse andere studies, waaronder de effecten van instructielengte en mildheidsbias, hopen we waardevolle lessen te bieden voor het gebruik van LLM's als beoordelaars in de toekomst.
Videocontentmakers hebben efficiënte tools nodig om content te hergebruiken, een taak die vaak complexe handmatige of geautomatiseerde zoekopdrachten vereist. Het maken van een nieuwe video uit grote videobibliotheken blijft een uitdaging. In dit artikel introduceren we de taak van Video Library Question Answering (VLQA) via een interoperabele architectuur die Retrieval Augmented Generation (RAG) toepast op videobibliotheken. We stellen een systeem voor dat grote taalmodelen (LLMs) gebruikt om zoekopdrachten te genereren, waarbij relevante videomomenten worden opgehaald die zijn geïndexeerd op basis van spraak- en visuele metadata. Een antwoordgeneratiemodule integreert vervolgens gebruikersvragen met deze metadata om antwoorden te produceren met specifieke videotijdstempels. Deze aanpak toont potentieel op het gebied van multimedia-inhoudsretrieval en AI-ondersteunde videocontentcreatie.
Hoewel Transformers uitgebreid worden gebruikt voor taken binnen Natural Language Processing, met name voor machinaal vertalen, beschikken ze niet over een expliciet geheugen om sleutelconcepten van verwerkte teksten op te slaan. Dit artikel onderzoekt de eigenschappen van de inhoud van symbolisch werkgeheugen dat aan de decoder van het Transformermodel is toegevoegd. Dergelijk werkgeheugen verbetert de kwaliteit van modelvoorspellingen bij machinaal vertalen en fungeert als een neuraal-symbolische representatie van informatie die belangrijk is voor het model om correcte vertalingen te maken. De studie van de geheugeninhoud toonde aan dat sleutelwoorden van de vertaalde tekst in het werkgeheugen worden opgeslagen, wat wijst op de relevantie van de geheugeninhoud voor de verwerkte tekst. Bovendien correleert de diversiteit van tokens en woordsoorten die in het geheugen zijn opgeslagen met de complexiteit van de corpora voor de taak van machinaal vertalen.
De afgelopen jaren hebben grote vooruitgang geboekt op het gebied van videogeneratie. De ontwikkeling van automatische videometrieken blijft echter aanzienlijk achter. Geen van de bestaande metrieken is in staat betrouwbare scores te geven voor gegenereerde video's. De belangrijkste belemmering is het ontbreken van een grootschalige dataset met menselijke annotaties. In dit artikel introduceren we VideoFeedback, de eerste grootschalige dataset die door mensen verstrekte scores op meerdere aspecten bevat voor 37.6K gesynthetiseerde video's van 11 bestaande videogeneratieve modellen. We trainen MantisScore (geïnitialiseerd vanuit Mantis) op basis van VideoFeedback om automatische videokwaliteitsbeoordeling mogelijk te maken. Experimenten tonen aan dat de Spearman-correlatie tussen MantisScore en menselijke beoordelaars 77.1 kan bereiken op VideoFeedback-test, wat de vorige beste metrieken met ongeveer 50 punten verslaat. Verdere resultaten op andere datasets zoals EvalCrafter, GenAI-Bench en VBench laten zien dat MantisScore consistent een veel hogere correlatie heeft met menselijke beoordelaars dan andere metrieken. Vanwege deze resultaten geloven we dat MantisScore een uitstekende vervanging kan zijn voor menselijke beoordelaars om (1) verschillende videomodellen te beoordelen en vooruitgang te volgen, en (2) gedetailleerde menselijke feedback te simuleren in Reinforcement Learning with Human Feedback (RLHF) om huidige videogeneratiemodellen te verbeteren.
Uitdagingen bij de geautomatiseerde evaluatie van Retrieval-Augmented Generation (RAG) vraag-antwoord (QA) systemen omvatten hallucinatieproblemen in domeinspecifieke kennis en het ontbreken van gouden standaard benchmarks voor bedrijfsinterne taken. Dit resulteert in moeilijkheden bij het evalueren van RAG-varianten, zoals RAG-Fusion (RAGF), in de context van een product QA-taak bij Infineon Technologies. Om deze problemen op te lossen, stellen we een uitgebreid evaluatiekader voor, dat gebruik maakt van Large Language Models (LLMs) om grote datasets van synthetische vragen te genereren op basis van echte gebruikersvragen en domeinspecifieke documenten, LLM-as-a-judge gebruikt om opgehaalde documenten en antwoorden te beoordelen, de kwaliteit van antwoorden evalueert, en verschillende varianten van Retrieval-Augmented Generation (RAG) agents rangschikt met RAGElo's geautomatiseerde Elo-gebaseerde competitie. De LLM-as-a-judge beoordeling van een willekeurige steekproef van synthetische vragen toont een matige, positieve correlatie met domeinexpertbeoordelingen in relevantie, nauwkeurigheid, volledigheid en precisie. Hoewel RAGF RAG overtrof in Elo-score, toont een significantieanalyse tegen expertannotaties ook aan dat RAGF significant beter presteert dan RAG in volledigheid, maar onderpresteert in precisie. Daarnaast toonde Infineon's RAGF-assistent een iets hogere prestaties in documentrelevantie op basis van MRR@5-scores. We constateren dat RAGElo positief aansluit bij de voorkeuren van menselijke annotators, hoewel voorzichtigheid nog steeds geboden is. Tot slot leidt de aanpak van RAGF tot volledigere antwoorden op basis van expertannotaties en betere antwoorden in het algemeen op basis van RAGElo's evaluatiecriteria.
Text-to-image-modellen worden steeds populairder en revolutioneren het landschap van digitale kunstcreatie door het mogelijk te maken van zeer gedetailleerde en creatieve visuele inhoud. Deze modellen worden op grote schaal ingezet in verschillende domeinen, met name in kunstgeneratie, waar ze een breed spectrum aan creatieve expressie faciliteren en de toegang tot artistieke creatie democratiseren. In dit artikel introduceren we STYLEBREEDER, een uitgebreide dataset van 6,8 miljoen afbeeldingen en 1,8 miljoen prompts gegenereerd door 95.000 gebruikers op Artbreeder, een platform dat is uitgegroeid tot een belangrijk centrum voor creatieve verkenning met meer dan 13 miljoen gebruikers. We introduceren een reeks taken met deze dataset die gericht zijn op het identificeren van diverse artistieke stijlen, het genereren van gepersonaliseerde inhoud en het aanbevelen van stijlen op basis van gebruikersinteresses. Door unieke, door gebruikers gegenereerde stijlen te documenteren die conventionele categorieën zoals 'cyberpunk' of 'Picasso' overstijgen, onderzoeken we het potentieel voor unieke, door de menigte gegenereerde stijlen die diepgaande inzichten kunnen bieden in het collectieve creatieve bewustzijn van gebruikers wereldwijd. We evalueren ook verschillende personalisatiemethoden om artistieke expressie te versterken en introduceren een stijlatlas, waarbij deze modellen beschikbaar worden gesteld in LoRA-formaat voor publiek gebruik. Ons onderzoek toont het potentieel aan van text-to-image-diffusiemodellen om unieke artistieke expressies te ontdekken en te bevorderen, waardoor AI in de kunst verder wordt gedemocratiseerd en een meer diverse en inclusieve artistieke gemeenschap wordt bevorderd. De dataset, code en modellen zijn beschikbaar op https://stylebreeder.github.io onder een Public Domain (CC0)-licentie.
Event-based vision heeft steeds meer aandacht getrokken vanwege zijn unieke kenmerken, zoals een hoge temporele resolutie en een hoog dynamisch bereik. Het is recentelijk gebruikt in video-superresolutie (VSR) om de stromingsschatting en temporele uitlijning te verbeteren. In plaats van voor bewegingstraining, stellen we in dit artikel de eerste VSR-methode voor die eventsignalen benut voor textuurverbetering. Onze methode, genaamd EvTexture, maakt gebruik van hoogfrequente details van events om textuurgebieden in VSR beter te herstellen. In onze EvTexture wordt een nieuwe textuurverbeteringstak gepresenteerd. We introduceren verder een iteratieve textuurverbeteringsmodule om progressief de hoog-temporele-resolutie eventinformatie te verkennen voor textuurherstel. Hierdoor kunnen textuurgebieden geleidelijk worden verfijnd over meerdere iteraties, wat leidt tot nauwkeurigere en rijkere hoogresolutiedetails. Experimentele resultaten tonen aan dat onze EvTexture state-of-the-art prestaties behaalt op vier datasets. Voor de Vid4-dataset met rijke texturen kan onze methode een winst tot 4,67 dB behalen in vergelijking met recente event-based methoden. Code: https://github.com/DachunKai/EvTexture.
De brede toepasbaarheid en toenemende alomtegenwoordigheid van LLM's hebben de behoefte aangewakkerd om LLM-reacties af te stemmen op de voorkeuren van gebruikers en belanghebbenden. Er zijn veel voorkeursoptimalisatiebenaderingen voorgesteld die de parameters van LLM's finetunen om een goede afstemming te bereiken. Het is echter bekend dat dergelijke parameterafstemming de modelprestaties op veel taken kan verstoren. Bovendien is het in zo'n situatie lastig om bij te blijven met verschuivende gebruikersvoorkeuren. Afstemming tijdens het decoderen met begeleiding van een beloningsmodel lost deze problemen op, maar ten koste van een langere inferentietijd. De meeste van dergelijke methoden slagen er echter niet in om de juiste balans te vinden tussen exploratie en exploitatie van beloningen – vaak door de verweven formulering van deze twee aspecten – om goed afgestemde reacties te geven. Om dit te verhelpen, ontkoppelen we deze twee aspecten en implementeren we ze op een evolutionaire manier: exploratie wordt afgedwongen door te decoderen vanuit gemuteerde instructies, en exploitatie wordt vertegenwoordigd als de periodieke vervanging van slecht beloonde generaties door goed beloonde. Empirisch bewijs geeft aan dat deze strategie veel voorkeursoptimalisatie- en decode-time-afstemmingsbenaderingen overtreft op twee algemeen aanvaarde afstemmingsbenchmarks, AlpacaEval 2 en MT-Bench. Onze implementatie zal beschikbaar zijn op: https://darwin-alignment.github.io.
Hoewel de situatie voor tekstmodellen is verbeterd, lijkt het momenteel opnieuw het geval te zijn dat multimodale (tekst en beeld) modellen zich sneller ontwikkelen dan de manieren om ze te evalueren. In dit artikel brengen we een recent ontwikkeld evaluatieparadigma van tekstmodellen naar multimodale modellen, namelijk evaluatie via doelgericht spel (zelf) spelen, als aanvulling op referentie- en voorkeursgebaseerde evaluatie. Specifiek definiëren we spellen die het vermogen van een model uitdagen om een situatie te representeren op basis van visuele informatie en dergelijke representaties af te stemmen via dialoog. We constateren dat de grootste gesloten modellen behoorlijk goed presteren op de spellen die we definiëren, terwijl zelfs de beste open-weight modellen er moeite mee hebben. Bij verdere analyse ontdekken we dat de uitzonderlijke diepe beeldbeschrijvingscapaciteiten van de grootste modellen een deel van de prestaties verklaren. Er is nog ruimte voor verbetering voor beide soorten modellen, wat de blijvende relevantie van de benchmark waarborgt.
De brede adoptie van grote taalmodellen (LLMs) heeft zorgen gewekt over hun veiligheid en betrouwbaarheid, met name wat betreft hun kwetsbaarheid voor adversariële aanvallen. In dit artikel presenteren we een nieuw perspectief dat deze kwetsbaarheid toeschrijft aan beloningsmisspecificatie tijdens het alignatieproces. We introduceren een metriek genaamd ReGap om de omvang van beloningsmisspecificatie te kwantificeren en tonen de effectiviteit en robuustheid ervan aan bij het detecteren van schadelijke backdoor-prompten. Op basis van deze inzichten presenteren we ReMiss, een systeem voor geautomatiseerde red teaming dat adversariële prompten genereert tegen verschillende doel-LLMs. ReMiss behaalt state-of-the-art aanvalssuccespercentages op de AdvBench-benchmark, terwijl de menselijke leesbaarheid van de gegenereerde prompten behouden blijft. Gedetailleerde analyse benadrukt de unieke voordelen van het voorgestelde beloningsmisspecificatie-objectief in vergelijking met eerdere methoden.
Taalmodellen hebben indrukwekkende prestaties getoond bij diverse taken binnen natuurlijke taalverwerking, maar ze hebben moeite met planningsopdrachten die multi-stapsimulaties vereisen. Geïnspireerd door menselijke cognitieve processen, onderzoekt dit artikel het optimale planningsvermogen van taalmodellen die een cognitieve kaart van een gegeven omgeving kunnen construeren. Onze experimenten tonen aan dat een cognitieve kaart de prestaties aanzienlijk verbetert bij zowel het genereren van optimale als bereikbare plannen in de Gridworld-padplanningsopdracht. We observeren dat onze methode twee belangrijke kenmerken vertoont die vergelijkbaar zijn met menselijke cognitie: generalisatie van het planningsvermogen naar geëxtrapoleerde omgevingen en snelle aanpassing met beperkte trainingsdata. We hopen dat onze bevindingen in de Gridworld-opdracht inzichten bieden in het modelleren van menselijke cognitieve processen in taalmodellen, wat mogelijk kan leiden tot de ontwikkeling van geavanceerdere en robuustere systemen die meer lijken op menselijke cognitie.
De opkomst van virtual reality en augmented reality (VR/AR)-technologieën heeft geleid tot een groeiende vraag naar het creëren van hoogwaardige, meeslepende en dynamische omgevingen. Bestaande generatieve technieken richten zich echter ofwel uitsluitend op dynamische objecten of voeren outpaintings uit vanuit een enkel perspectiefbeeld, waardoor ze niet voldoen aan de behoeften van VR/AR-toepassingen. In dit werk pakken we de uitdagende taak aan om een enkele panorama te verheffen tot een meeslepende 4D-ervaring. Voor het eerst demonstreren we de mogelijkheid om omnidirectionele dynamische scènes te genereren met 360-graden weergave in 4K-resolutie, waardoor een meeslepende gebruikerservaring wordt geboden. Onze methode introduceert een pijplijn die natuurlijke scène-animaties vergemakkelijkt en een set van 4D Gaussians optimaliseert met efficiënte splatting-technieken voor real-time exploratie. Om het gebrek aan geannoteerde 4D-gegevens en modellen op scèneschaal, vooral in panoramische formaten, te overwinnen, stellen we een nieuwe Panoramic Denoiser voor die generieke 2D diffusie-priors aanpast om consistent te animeren in 360-graden beelden, waardoor ze worden omgezet in panoramische video's met dynamische scènes in doelgebieden. Vervolgens verheffen we de panoramische video naar een 4D meeslepende omgeving terwijl ruimtelijke en temporele consistentie behouden blijft. Door voorkennis over te dragen van 2D-modellen in het perspectiefdomein naar het panoramische domein en de 4D-verheffing met ruimtelijke uiterlijk- en geometrie-regularisatie, bereiken we voor het eerst hoogwaardige Panorama-naar-4D-generatie met een resolutie van (4096 keer 2048). Zie de projectwebsite op https://4k4dgen.github.io.
De ondoorzichtigheid bij het ontwikkelen van grote taalmmodellen (LLM's) wekt toenemende zorgen over de mogelijke besmetting van openbare benchmarks in de voorafgaande trainingsdata. Bestaande methoden voor het detecteren van besmetting zijn doorgaans gebaseerd op tekstoverlap tussen trainings- en evaluatiedata, wat te oppervlakkig kan zijn om diepere vormen van besmetting te weerspiegelen. In dit artikel presenteren we eerst een cross-linguale vorm van besmetting die de prestaties van LLM's opblaast terwijl ze huidige detectiemethoden ontwijkt, doelbewust geïnjecteerd door LLM's te overfitten op vertaalde versies van benchmark-test sets. Vervolgens stellen we generalisatie-gebaseerde benaderingen voor om dergelijke diep verborgen besmetting te ontmaskeren. Specifiek onderzoeken we de prestatieverandering van het LLM na het aanpassen van de originele benchmark door de foute antwoordkeuzes te vervangen door correcte uit andere vragen. Besmette modellen kunnen zich moeilijk aanpassen aan dergelijke eenvoudigere situaties, waar de foute keuzes zelfs niet fout kunnen zijn, aangezien alle keuzes correct zijn in hun geheugen. Experimentele resultaten tonen aan dat cross-linguale besmetting bestaande detectiemethoden gemakkelijk kan misleiden, maar niet de onze. Daarnaast bespreken we het potentiële gebruik van cross-linguale besmetting bij het interpreteren van de werkingsmechanismen van LLM's en bij het post-trainen van LLM's voor verbeterde meertalige capaciteiten. De code en dataset die we gebruiken zijn beschikbaar op https://github.com/ShangDataLab/Deep-Contam.
Met de opkomst van domeinspecifieke modellen is modelmerging naar voren gekomen als een reeks technieken die de mogelijkheden van meerdere modellen combineren tot één model dat multitasking kan uitvoeren zonder de kosten van aanvullende training. In dit artikel stellen we een nieuwe modelmergingtechniek voor, genaamd Drop and rEscaLe via sampLing with mAgnitude (DELLA-Merging), die gebruikmaakt van een nieuwe pruningtechniek, MAGPRUNE, die aanzienlijke voordelen laat zien ten opzichte van DARE en TIES. MAGPRUNE rangschikt eerst de parameters op basis van hun grootte en wijst hogere dropoutkansen (p) toe aan parameters met lagere rangen die overeenkomen met kleinere grootten. Om de oorspronkelijke embeddings te benaderen, past MAGPRUNE een herschalingsoperatie toe op de parameters die het willekeurige droppen overleven, met een factor van 1/(1 - p). Op drie verschillende expertmodellen die in aanmerking worden genomen voor merging (LM, Math, Code) en bijbehorende benchmarkdatasets (AlpacaEval, GSM8K, MBPP), laat DELLA een gemiddelde verbetering zien van 2,4 punten ten opzichte van baseline-methoden die delta-parameterpruning toepassen (een verbetering van 3,6 punten ten opzichte van TIES, 1,2 punten ten opzichte van DARE), en 11,1 punten ten opzichte van de baseline zonder pruning (TA). We hebben de broncode vrijgegeven op: https://github.com/declare-lab/della.
Retrieval Augmented Generation (RAG) vertegenwoordigt een belangrijke vooruitgang in kunstmatige intelligentie door een retrievalfase te combineren met een generatieve fase, waarbij de laatste doorgaans wordt aangedreven door grote taalmodellen (LLM's). De huidige gangbare praktijken in RAG omvatten het gebruik van "geïnstrueerde" LLM's, die zijn verfijnd met gesuperviseerde training om hun vermogen om instructies op te volgen te verbeteren en die zijn afgestemd op menselijke voorkeuren met behulp van state-of-the-art technieken. In tegenstelling tot wat vaak wordt gedacht, toont ons onderzoek aan dat basismodellen hun geïnstrueerde tegenhangers in RAG-taken gemiddeld met 20% overtreffen onder onze experimentele omstandigheden. Deze bevinding daagt de heersende aannames over de superioriteit van geïnstrueerde LLM's in RAG-toepassingen uit. Verdere onderzoeken onthullen een genuanceerdere situatie, waarbij fundamentele aspecten van RAG in twijfel worden getrokken en de noodzaak wordt gesuggereerd voor bredere discussies over het onderwerp; of, zoals Fromm het zou zeggen: "Zelden is een blik op de statistieken voldoende om de betekenis van de cijfers te begrijpen".
Het voorspellen van de werkzaamheid en veiligheid van geneesmiddelen in vivo vereist informatie over biologische reacties (bijvoorbeeld celmorfologie en genexpressie) op verstoringen door kleine moleculen. Huidige methoden voor het leren van moleculaire representaties bieden echter geen uitgebreid beeld van celtoestanden onder deze verstoringen en hebben moeite om ruis te verwijderen, wat de generalisatie van modellen belemmert. Wij introduceren de Information Alignment (InfoAlign)-benadering om moleculaire representaties te leren via de informatieknelpuntenmethode in cellen. We integreren moleculen en gegevens over cellulaire reacties als knooppunten in een contextgrafiek, waarbij we ze verbinden met gewogen randen op basis van chemische, biologische en computationele criteria. Voor elk molecuul in een trainingsbatch optimaliseert InfoAlign de latente representatie van de encoder met een minimaliteitsdoel om overbodige structurele informatie te verwijderen. Een toereikendheidsdoel decodeert de representatie om deze af te stemmen op verschillende kenmerkruimtes uit de omgeving van het molecuul in de contextgrafiek. We tonen aan dat het voorgestelde toereikendheidsdoel voor afstemming strikter is dan bestaande encoder-gebaseerde contrastieve methoden. Empirisch valideren we representaties van InfoAlign in twee downstream taken: het voorspellen van moleculaire eigenschappen tegen maximaal 19 baseline-methoden over vier datasets, plus zero-shot molecuul-morfologie matching.
We stellen Ruby Teaming voor, een methode die Rainbow Teaming verbetert door een geheugencache als derde dimensie toe te voegen. De geheugendimensie biedt aanwijzingen aan de mutator om prompts van hogere kwaliteit te genereren, zowel wat betreft aanvalssuccespercentage (ASR) als kwaliteitsdiversiteit. Het promptarchief gegenereerd door Ruby Teaming heeft een ASR van 74%, wat 20% hoger is dan de baseline. Wat betreft kwaliteitsdiversiteit presteert Ruby Teaming 6% en 3% beter dan Rainbow Teaming op respectievelijk Shannon's Evenness Index (SEI) en Simpson's Diversity Index (SDI).
We stellen een eenvoudige maar effectieve pipeline voor voor het styliseren van een 3D-scène, waarbij we gebruikmaken van de kracht van 2D-beelddiffusiemodellen. Gegeven een NeRF-model dat is gereconstrueerd uit een set multi-view beelden, voeren we 3D-stijloverdracht uit door het bron-NeRF-model te verfijnen met behulp van gestileerde beelden die zijn gegenereerd door een stijlgealigneerd beeld-naar-beeld diffusiemodel. Gegeven een doelstijlprompt, genereren we eerst perceptueel vergelijkbare multi-view beelden door gebruik te maken van een dieptegeconditioneerd diffusiemodel met een aandacht-delen mechanisme. Vervolgens stellen we voor om, gebaseerd op de gestileerde multi-view beelden, het stijloverdrachtproces te begeleiden met het gesneden Wasserstein-verlies op basis van de kenmerkkaarten die zijn geëxtraheerd uit een vooraf getraind CNN-model. Onze pipeline bestaat uit ontkoppelde stappen, waardoor gebruikers verschillende promptideeën kunnen testen en het gestileerde 3D-resultaat kunnen bekijken voordat ze doorgaan naar de NeRF-finetuningfase. We demonstreren dat onze methode diverse artistieke stijlen kan overbrengen naar realistische 3D-scènes met concurrerende kwaliteit.
Het benchmarken van visiegestuurde rijbeleidsystemen is uitdagend. Enerzijds is open-loop evaluatie met echte data eenvoudig, maar deze resultaten weerspiegelen niet de prestaties in een gesloten systeem. Anderzijds is gesloten-loop evaluatie mogelijk in simulatie, maar moeilijk op te schalen vanwege de aanzienlijke rekenkundige eisen. Bovendien vertonen de huidige simulators een grote domeinkloof ten opzichte van echte data. Dit heeft geresulteerd in een onvermogen om duidelijke conclusies te trekken uit het snel groeiende onderzoeksveld van end-to-end autonoom rijden. In dit artikel presenteren we NAVSIM, een middenweg tussen deze evaluatieparadigma's, waarbij we grote datasets combineren met een niet-reactieve simulator om grootschalige benchmarking in de echte wereld mogelijk te maken. Specifiek verzamelen we simulatiegebaseerde metrieken, zoals voortgang en tijd tot botsing, door vogelvluchtabstracties van de testscènes uit te rollen voor een korte simulatiehorizon. Onze simulatie is niet-reactief, wat betekent dat het geëvalueerde beleid en de omgeving elkaar niet beïnvloeden. Zoals we empirisch aantonen, maakt deze ontkoppeling het mogelijk om open-loop metrieken te berekenen terwijl het beter aansluit bij gesloten-loop evaluaties dan traditionele verplaatsingsfouten. NAVSIM heeft een nieuwe competitie mogelijk gemaakt die werd gehouden op CVPR 2024, waar 143 teams 463 inzendingen indienden, wat resulteerde in verschillende nieuwe inzichten. Op een grote set van uitdagende scenario's observeren we dat eenvoudige methoden met matige rekenkundige eisen, zoals TransFuser, kunnen concurreren met recente grootschalige end-to-end rijarchitecturen zoals UniAD. Ons modulaire raamwerk kan mogelijk worden uitgebreid met nieuwe datasets, datacuratiestrategieën en metrieken, en zal voortdurend worden onderhouden om toekomstige uitdagingen te hosten. Onze code is beschikbaar op https://github.com/autonomousvision/navsim.
Grootschalige generatieve taal- en visueel-taalmodelen (LLM's en VLM's) blinken uit in few-shot in-context leren voor besluitvorming en het opvolgen van instructies. Ze vereisen echter hoogwaardige voorbeelden die in hun contextvenster worden opgenomen. In dit werk stellen we de vraag: Kunnen LLM's en VLM's hun eigen promptvoorbeelden genereren uit generieke, suboptimale demonstraties? We introduceren In-Context Abstractie Leren (ICAL), een methode die een geheugen opbouwt van multimodale ervaringsinzichten uit suboptimale demonstraties en menselijke feedback. Gegeven een rommelige demonstratie in een nieuw domein, abstraheren VLM's de trajecten naar een algemeen programma door inefficiënte acties te corrigeren en cognitieve abstracties te annoteren: taakrelaties, objectstatuswijzigingen, temporele subdoelen en taakinterpretaties. Deze abstracties worden interactief verfijnd en aangepast via menselijke feedback terwijl de agent probeert het traject uit te voeren in een vergelijkbare omgeving. De resulterende abstracties, wanneer gebruikt als voorbeelden in de prompt, verbeteren de besluitvorming aanzienlijk in retrieval-augmented LLM- en VLM-agenten. Onze ICAL-agent overtreft de state-of-the-art in dialooggestuurd instructieopvolgen in TEACh, multimodale webagenten in VisualWebArena, en actieanticipering in Ego4D. In TEACh behalen we een verbetering van 12,6% in doelgerichte succesratio. In VisualWebArena verbetert onze taaksuccesratio van 14,3% naar 22,7% ten opzichte van de SOTA. In Ego4D-actievoorspelling verbeteren we ten opzichte van few-shot GPT-4V en blijven we competitief met gesuperviseerde modellen. We tonen aan dat het finetunen van onze retrieval-augmented in-context agent aanvullende verbeteringen oplevert. Onze aanpak vermindert de afhankelijkheid van door experts gemaakte voorbeelden aanzienlijk en presteert consistent beter dan in-context leren uit actieplannen die dergelijke inzichten missen.
Grote taalmmodellen (LLM's) die zijn afgestemd voor tekstretrieval hebben state-of-the-art resultaten laten zien op verschillende benchmarks voor informatiezoeken (IR). Het trainen van deze modellen met supervisie vereist echter veel gelabelde voorbeelden, die over het algemeen niet beschikbaar zijn of duur zijn om te verkrijgen. In dit werk onderzoeken we de effectiviteit van het uitbreiden van reverse engineered adaptatie naar de context van informatiezoeken (RE-AdaptIR). We gebruiken RE-AdaptIR om LLM-gebaseerde IR-modellen te verbeteren met alleen ongelabelde data. We tonen verbeterde prestaties aan, zowel in de trainingsdomeinen als zero-shot in domeinen waar de modellen geen queries hebben gezien. We analyseren prestatieveranderingen in verschillende afstemscenario's en bieden bevindingen die direct bruikbaar zijn voor praktijkmensen.
Multimodale Foundation Models (MMFM's) hebben opmerkelijke prestaties getoond bij diverse taken op het gebied van computer vision en natuurlijke taalverwerking. Hun prestaties op specifieke taken, zoals documentbegrip, blijven echter beperkt. Bovendien vereisen ze meer rekenkracht, tijd en technische middelen om te finetunen en te implementeren in vergelijking met traditionele, unimodale modellen. In dit rapport presenteren we Multimodale Gestructureerde Generatie, een algemeen framework dat de uitvoerlogits van bevroren MMFM's beperkt om ze te dwingen te redeneren voordat ze gestructureerde uitvoer genereren die downstream API's kunnen parsen en gebruiken. We geven een gedetailleerd verslag van onze aanpak, inclusief de technische details, theoretische discussies en de uiteindelijke evaluatieresultaten in de 2e Multimodale Foundation Models Challenge, georganiseerd door de Computer Vision and Pattern Recognition (CVPR) conferentie. Onze aanpak behaalde de op één na hoogste score in de verborgen testset voor Fase 2 en de op twee na hoogste score overall. Dit toont het vermogen van de methode om te generaliseren naar onbekende taken. En dat eenvoudige technische aanpassingen dure en ingewikkelde modelleringsstappen kunnen overtreffen, zoals we eerder bespraken in ons paper, Retrieval Augmented Structured Generation: Business Document Information Extraction as Tool Use. Al onze scripts, implementatiestappen en evaluatieresultaten zijn beschikbaar op https://github.com/leloykun/MMFM-Challenge.
We presenteren een nieuwe aanpak gebaseerd op het Personalized Federated Learning-algoritme MeritFed, dat kan worden toegepast op Natural Language Tasks met heterogene data. We evalueren het op de taak van Low-Resource Machine Translation, waarbij we gebruikmaken van de dataset van de Large-Scale Multilingual Machine Translation Shared Task (Small Track #2) en de subset van Sami-talen uit de meertalige benchmark voor Fins-Oegrische talen. Naast de effectiviteit is MeritFed ook zeer interpreteerbaar, omdat het kan worden gebruikt om de impact van elke taal die voor training wordt gebruikt te volgen. Onze analyse toont aan dat de grootte van de doeldataset de gewichtsverdeling over hulptalen beïnvloedt, dat niet-verwante talen de training niet verstoren, en dat parameters van de hulpoptimizer een minimale impact hebben. Onze aanpak is eenvoudig toe te passen met een paar regels code, en we bieden scripts voor het reproduceren van de experimenten op https://github.com/VityaVitalich/MeritFed.
Bestaande modellen voor het detecteren van giftige inhoud kampen met aanzienlijke beperkingen, zoals een gebrek aan transparantie, aanpasbaarheid en reproduceerbaarheid. Deze uitdagingen zijn het gevolg van de gesloten aard van hun trainingsdata en het gebrek aan uitleg over hun evaluatiemechanisme. Om deze problemen aan te pakken, stellen we een mechanisme voor het creëren van datasets voor dat stemprocessen en keten-van-gedachtenprocessen integreert, wat resulteert in een hoogwaardige open-source dataset voor het detecteren van giftige inhoud. Onze methodologie zorgt voor diverse classificatiemetrics voor elk sample en omvat zowel classificatiescores als verklarende redeneringen voor de classificaties. We gebruiken de dataset die is gemaakt via ons voorgestelde mechanisme om ons model te trainen, dat vervolgens wordt vergeleken met bestaande veelgebruikte detectoren. Onze aanpak verbetert niet alleen de transparantie en aanpasbaarheid, maar maakt ook betere fine-tuning mogelijk voor specifieke use cases. Dit werk draagt bij aan een robuust raamwerk voor het ontwikkelen van modellen voor het detecteren van giftige inhoud, met nadruk op openheid en aanpasbaarheid, en opent zo de weg naar effectievere en gebruikersspecifieke oplossingen voor contentmoderatie.
Grote Taalmodellen (LLMs) proberen menselijk gedrag na te bootsen door op een manier te reageren die mensen behaagt, inclusief het aanhouden van hun waarden. Mensen komen echter uit diverse culturen met verschillende waarden. Het is cruciaal om te begrijpen of LLMs verschillende waarden aan de gebruiker tonen op basis van de stereotiepe waarden van het bekende land van de gebruiker. We geven verschillende LLMs een reeks adviesverzoeken op basis van 5 Hofstede Cultuurdimensies – een kwantificeerbare manier om de waarden van een land weer te geven. In elke prompt integreren we persona's die 36 verschillende landen vertegenwoordigen en, afzonderlijk, talen die voornamelijk aan elk land zijn verbonden, om de consistentie in het culturele begrip van de LLMs te analyseren. Uit onze analyse van de reacties blijkt dat LLMs onderscheid kunnen maken tussen de ene kant van een waarde en de andere, en begrijpen dat landen verschillende waarden hebben, maar niet altijd deze waarden zullen handhaven bij het geven van advies, en er niet in slagen om in te zien dat ze anders moeten antwoorden op basis van verschillende culturele waarden. Geworteld in deze bevindingen presenteren we aanbevelingen voor het trainen van waarde-afgestemde en cultureel gevoelige LLMs. Belangrijker nog, de methodologie en het raamwerk die hier zijn ontwikkeld, kunnen helpen om cultuur- en taalafstemmingsproblemen met LLMs verder te begrijpen en te mitigeren.