HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

16 papers found

Visiontaalmodellen zijn blind.
Vision language models are blind

Jul 9

ByPooyan Rahmanzadehgervi, Logan Bolton, Mohammad Reza Taesiri, Anh Totti Nguyen

Grote taalmodellen met visuele mogelijkheden (VLMs), zoals GPT-4o en Gemini 1.5 Pro, maken talloze beeld-teksttoepassingen mogelijk en scoren hoog op veel benchmarks voor visueel begrip. Toch ontdekken we dat VLMs falen op 7 visuele taken die voor mensen absurd eenvoudig zijn, zoals het identificeren van (a) of twee cirkels elkaar overlappen; (b) of twee lijnen elkaar snijden; (c) welke letter in een woord wordt omcirkeld; en (d) het tellen van het aantal cirkels in een logo dat lijkt op dat van de Olympische Spelen. De schokkend slechte prestaties van vier state-of-the-art VLMs suggereren dat hun visie, op zijn best, lijkt op die van een persoon met bijziendheid die fijne details wazig ziet, en op zijn slechtst, op een intelligente persoon die blind is en gefundeerde gokken maakt. Code is beschikbaar op: https://vlmsareblind.github.io/

AgentInstruct: Op weg naar generatief lesgeven met agentische stromen
AgentInstruct: Toward Generative Teaching with Agentic Flows

Jul 3

ByArindam Mitra, Luciano Del Corro, Guoqing Zheng, Shweti Mahajan, Dany Rouhana, Andres Codas, Yadong Lu, Wei-ge Chen, Olga Vrousgos, Corby Rosset, Fillipe Silva, Hamed Khanpour, Yash Lara, Ahmed Awadallah

Synthetische data wordt steeds belangrijker voor het versnellen van de ontwikkeling van taalmodellen, zowel grote als kleine. Ondanks verschillende succesvolle toepassingen, hebben onderzoekers ook zorgen geuit over modelcollaps en de nadelen van het imiteren van andere modellen. Deze tegenstrijdigheid kan worden toegeschreven aan het feit dat synthetische data varieert in kwaliteit en diversiteit. Effectief gebruik van synthetische data vereist meestal aanzienlijke menselijke inspanning bij het cureren van de data. Wij richten ons op het gebruik van synthetische data voor post-training, specifiek het creëren van data door krachtige modellen om een nieuwe vaardigheid of gedrag aan een ander model aan te leren, wat wij Generative Teaching noemen. Wij introduceren AgentInstruct, een uitbreidbaar agent-gebaseerd framework voor het automatisch creëren van grote hoeveelheden diverse en hoogwaardige synthetische data. AgentInstruct kan zowel de prompts als de reacties genereren, waarbij alleen ruwe databronnen zoals tekstdocumenten en codebestanden als uitgangspunt worden gebruikt. Wij demonstreren de bruikbaarheid van AgentInstruct door een post-training dataset van 25M paren te creëren om taalmodellen verschillende vaardigheden aan te leren, zoals tekstbewerking, creatief schrijven, toolgebruik, coderen, leesbegrip, enz. De dataset kan worden gebruikt voor instructie-afstemming van elk basismodel. Wij post-trainen Mistral-7b met de data. Wanneer we het resulterende model Orca-3 vergelijken met Mistral-7b-Instruct (dat hetzelfde basismodel gebruikt), observeren we significante verbeteringen op vele benchmarks. Bijvoorbeeld, 40% verbetering op AGIEval, 19% verbetering op MMLU, 54% verbetering op GSM8K, 38% verbetering op BBH en 45% verbetering op AlpacaEval. Daarnaast presteert het consistent beter dan andere modellen zoals LLAMA-8B-instruct en GPT-3.5-turbo.

Internet of Agents: Het Weven van een Web van Heterogene Agents voor Collaboratieve Intelligentie
Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence

Jul 9

ByWeize Chen, Ziming You, Ran Li, Yitong Guan, Chen Qian, Chenyang Zhao, Cheng Yang, Ruobing Xie, Zhiyuan Liu, Maosong Sun

De snelle vooruitgang van grote taalmodellen (LLM's) heeft de weg vrijgemaakt voor de ontwikkeling van zeer capabele autonome agents. Bestaande multi-agent frameworks hebben echter vaak moeite met het integreren van diverse, capabele externe agents vanwege hun afhankelijkheid van agents die binnen hun eigen ecosystemen zijn gedefinieerd. Daarnaast worstelen ze met het simuleren van gedistribueerde omgevingen, aangezien de meeste frameworks beperkt zijn tot opstellingen op één apparaat. Bovendien vertrouwen deze frameworks vaak op vastgelegde communicatiekanalen, wat hun aanpassingsvermogen aan dynamische taakeisen beperkt. Geïnspireerd door het concept van het internet, stellen we het Internet of Agents (IoA) voor, een nieuw framework dat deze beperkingen aanpakt door een flexibel en schaalbaar platform te bieden voor LLM-gebaseerde multi-agent samenwerking. IoA introduceert een agentintegratieprotocol, een ontwerparchitectuur die lijkt op instant messaging, en dynamische mechanismen voor agentteaming en gespreksstroombeheer. Door uitgebreide experimenten op algemene assistenttaken, embodied AI-taken en retrieval-augmented generation benchmarks, tonen we aan dat IoA consistent beter presteert dan state-of-the-art baselines, wat zijn vermogen aantoont om effectieve samenwerking tussen heterogene agents te faciliteren. IoA vertegenwoordigt een stap in de richting van het verbinden van diverse agents in een internetachtige omgeving, waar agents naadloos kunnen samenwerken om grotere intelligentie en capaciteiten te bereiken. Onze codebase is vrijgegeven op https://github.com/OpenBMB/IoA.

Video-STaR: Zelf-training maakt video-instructieafstemming mogelijk met elke vorm van supervisie
Video-STaR: Self-Training Enables Video Instruction Tuning with Any Supervision

Jul 8

ByOrr Zohar, Xiaohan Wang, Yonatan Bitton, Idan Szpektor, Serena Yeung-Levy

De prestaties van Large Vision Language Models (LVLMs) zijn afhankelijk van de omvang en kwaliteit van hun trainingsdatasets. Bestaande video-instructieafstemmingsdatasets missen diversiteit omdat ze zijn afgeleid door grote taalmodellen te stimuleren met videobijschriften om vraag-antwoordparen te genereren, en zijn daarom meestal beschrijvend. Tegelijkertijd bestaan er veel gelabelde videodatasets met diverse labels en supervisie - echter, we constateren dat hun integratie in LVLMs niet triviaal is. Hier presenteren we Video Self-Training with augmented Reasoning (Video-STaR), de eerste video-zelf-trainingsbenadering. Video-STaR maakt het mogelijk om elke gelabelde videodataset te gebruiken voor video-instructieafstemming. In Video-STaR doorloopt een LVLM een cyclus van instructiegeneratie en finetuning, wat we aantonen (I) het algemene videobegrip verbetert en (II) LVLMs aanpast aan nieuwe downstream-taken met bestaande supervisie. Tijdens de generatie wordt een LVLM gestimuleerd om een antwoord voor te stellen. De antwoorden worden vervolgens gefilterd op alleen die welke de originele videolabels bevatten, en de LVLM wordt vervolgens opnieuw getraind op de gegenereerde dataset. Door alleen te trainen op gegenereerde antwoorden die de juiste videolabels bevatten, maakt Video-STaR gebruik van deze bestaande videolabels als zwakke supervisie voor video-instructieafstemming. Onze resultaten tonen aan dat Video-STaR-verbeterde LVLMs betere prestaties vertonen in (I) algemene video-QA, waar de prestaties van TempCompass met 10% verbeterden, en (II) bij downstream-taken, waar Video-STaR de nauwkeurigheid van Kinetics700-QA met 20% verbeterde en de actiekwaliteitsbeoordeling op FineDiving met 15%.

RodinHD: Generatie van hoogwaardige 3D-avatars met diffusiemodellen
RodinHD: High-Fidelity 3D Avatar Generation with Diffusion Models

Jul 9

ByBowen Zhang, Yiji Cheng, Chunyu Wang, Ting Zhang, Jiaolong Yang, Yansong Tang, Feng Zhao, Dong Chen, Baining Guo

We presenteren RodinHD, dat hoogwaardige 3D-avatars kan genereren vanuit een portretfoto. Bestaande methoden slagen er niet in om complexe details zoals kapsels vast te leggen, wat wij in dit artikel aanpakken. We identificeren eerst een over het hoofd gezien probleem van catastrofaal vergeten dat ontstaat bij het sequentieel aanpassen van triplanes op veel avatars, veroorzaakt door het delen van het MLP-decoder schema. Om dit probleem te overwinnen, introduceren we een nieuwe dataplanningstrategie en een gewichtsconsolidatie regularisatieterm, wat het vermogen van de decoder verbetert om scherpere details weer te geven. Daarnaast optimaliseren we het sturende effect van de portretfoto door een fijnmazigere hiërarchische representatie te berekenen die rijke 2D-textuurcues vastlegt, en deze op meerdere lagen in het 3D-diffusiemodel te injecteren via cross-attention. Wanneer het model wordt getraind op 46K avatars met een ruisschema geoptimaliseerd voor triplanes, kan het resulterende model 3D-avatars genereren met aanzienlijk betere details dan eerdere methoden en kan het generaliseren naar portretinput uit de echte wereld.

LLM's aanpassen aan het Hebreeuws: Onthulling van DictaLM 2.0 met verbeterde vocabulaire en instructiecapaciteiten
Adapting LLMs to Hebrew: Unveiling DictaLM 2.0 with Enhanced Vocabulary and Instruction Capabilities

Jul 9

ByShaltiel Shmidman, Avi Shmidman, Amir DN Cohen, Moshe Koppel

Het trainen van grote taalmmodellen (LLMs) in talen met beperkte bronnen, zoals Hebreeuws, brengt unieke uitdagingen met zich mee. In dit artikel introduceren we DictaLM2.0 en DictaLM2.0-Instruct, twee LLMs die zijn afgeleid van het Mistral-model en getraind zijn op een omvangrijk corpus van ongeveer 200 miljard tokens in zowel Hebreeuws als Engels. Het aanpassen van een vooraf getraind model aan een nieuwe taal vereist gespecialiseerde technieken die aanzienlijk verschillen van het trainen van een model vanaf nul of het verder trainen van bestaande modellen op talen met veel bronnen, zoals Engels. We beschrijven deze nieuwe trainingsmethodologieën, die effectief leren en aanpassing aan de linguïstische eigenschappen van Hebreeuws mogelijk maken. Daarnaast hebben we DictaLM2.0-Instruct verfijnd op een uitgebreide instruct-dataset om de prestaties op taakspecifieke instructies te verbeteren. Om onze modellen grondig te evalueren, introduceren we een nieuwe benchmark-suite voor de evaluatie van Hebreeuwse LLMs, die een diverse set taken omvat, waaronder Vraag Beantwoorden, Sentimentanalyse, Winograd Schema Challenge, Vertaling en Samenvatting. Ons werk behandelt niet alleen de complexiteit van het trainen van LLMs in talen met beperkte bronnen, maar stelt ook een raamwerk voor dat kan worden gebruikt om andere LLMs aan te passen aan verschillende niet-Engelse talen, wat bijdraagt aan het bredere veld van meertalige NLP.

MiraData: Een grootschalige videodataset met lange duur en gestructureerde bijschriften
MiraData: A Large-Scale Video Dataset with Long Durations and Structured Captions

Jul 8

ByXuan Ju, Yiming Gao, Zhaoyang Zhang, Ziyang Yuan, Xintao Wang, Ailing Zeng, Yu Xiong, Qiang Xu, Ying Shan

Sora's hoge bewegingsintensiteit en lange consistente video's hebben een aanzienlijke impact gehad op het gebied van videogeneratie, waardoor ongekende aandacht is ontstaan. Bestaande openbaar beschikbare datasets zijn echter ontoereikend voor het genereren van Sora-achtige video's, omdat ze voornamelijk korte video's bevatten met een lage bewegingsintensiteit en korte bijschriften. Om deze problemen aan te pakken, stellen we MiraData voor, een hoogwaardige videodataset die eerdere datasets overtreft in videoduur, detailniveau van bijschriften, bewegingssterkte en visuele kwaliteit. We hebben MiraData samengesteld uit diverse, handmatig geselecteerde bronnen en hebben de data zorgvuldig verwerkt om semantisch consistente clips te verkrijgen. GPT-4V wordt gebruikt om gestructureerde bijschriften te annoteren, waarbij gedetailleerde beschrijvingen vanuit vier verschillende perspectiven worden gegeven, samen met een samenvattende dichte bijschrift. Om temporele consistentie en bewegingsintensiteit in videogeneratie beter te kunnen beoordelen, introduceren we MiraBench, dat bestaande benchmarks versterkt door 3D-consistentie en op tracking gebaseerde bewegingssterkte-metrics toe te voegen. MiraBench omvat 150 evaluatieprompts en 17 metrics die temporele consistentie, bewegingssterkte, 3D-consistentie, visuele kwaliteit, tekst-video-alignering en distributiegelijkenis bestrijken. Om de bruikbaarheid en effectiviteit van MiraData aan te tonen, voeren we experimenten uit met ons op DiT gebaseerde videogeneratiemodel, MiraDiT. De experimentele resultaten op MiraBench demonstreren de superioriteit van MiraData, met name op het gebied van bewegingssterkte.

BM25S: Ordes van grootte snellere lexicale zoekopdrachten via eager sparse scoring
BM25S: Orders of magnitude faster lexical search via eager sparse scoring

Jul 4

ByXing Han Lù

We introduceren BM25S, een efficiënte Python-implementatie van BM25 die alleen afhankelijk is van Numpy en Scipy. BM25S behaalt een snelheidswinst van tot 500x vergeleken met het meest populaire Python-framework door BM25-scores tijdens het indexeren direct te berekenen en op te slaan in sparse matrices. Het behaalt ook aanzienlijke snelheidswinsten vergeleken met sterk geoptimaliseerde Java-implementaties, die worden gebruikt door populaire commerciële producten. Ten slotte reproduceert BM25S de exacte implementatie van vijf BM25-varianten gebaseerd op Kamphuis et al. (2020) door directe scoreberekening uit te breiden naar niet-sparse varianten met behulp van een nieuwe score-shiftmethode. De code is te vinden op https://github.com/xhluca/bm25s.

Kenniscompositie met taakvectoren met geleerde anisotropische schaling
Knowledge Composition using Task Vectors with Learned Anisotropic Scaling

Jul 3

ByFrederic Z. Zhang, Paul Albert, Cristian Rodriguez-Opazo, Anton van den Hengel, Ehsan Abbasnejad

Voorgetrainde modellen produceren sterke generieke representaties die kunnen worden aangepast via fine-tuning. Het geleerde gewichtsverschil ten opzichte van het voorgetrainde model, bekend als een taakvector, karakteriseert de richting en stapgrootte van fine-tuning. Het belang van taakvectoren is zodanig dat eenvoudige rekenkundige bewerkingen erop kunnen worden gebruikt om diverse representaties uit verschillende domeinen te combineren. Dit artikel bouwt voort op deze eigenschappen van taakvectoren en streeft ernaar te beantwoorden (1) of componenten van taakvectoren, met name parameterblokken, vergelijkbare kenmerken vertonen, en (2) hoe dergelijke blokken kunnen worden gebruikt om kenniscompositie en -overdracht te verbeteren. Hiertoe introduceren we aTLAS, een algoritme dat parameterblokken lineair combineert met verschillende geleerde coëfficiënten, wat resulteert in anisotropische schaling op het niveau van de taakvector. We tonen aan dat dergelijke lineaire combinaties expliciet gebruikmaken van de lage intrinsieke dimensionaliteit van voorgetrainde modellen, waarbij slechts enkele coëfficiënten de leerbare parameters zijn. Bovendien maakt de compositie van parameterblokken gebruik van de reeds geleerde representaties, waardoor de afhankelijkheid van grote hoeveelheden data wordt verminderd. We demonstreren de effectiviteit van onze methode in taakrekenkunde, few-shot herkenning en testtijd-aanpassing, met begeleide of onbegeleide doelen. In het bijzonder tonen we aan dat (1) geleerde anisotropische schaling taakvectoren meer ontward maakt, wat minder interferentie veroorzaakt bij compositie; (2) taakvectorcompositie uitblinkt bij schaarse of geen gelabelde data en is minder gevoelig voor domeinverschuiving, wat leidt tot betere generaliseerbaarheid; (3) het mengen van de meest informatieve parameterblokken over verschillende taakvectoren vóór de training het geheugenverbruik kan verminderen en de flexibiliteit van kennisoverdracht kan verbeteren. Bovendien tonen we het potentieel van aTLAS als een PEFT-methode, vooral bij minder data, en demonstreren we de schaalbaarheid ervan.

TheoremLlama: Het transformeren van algemene LLM's naar Lean4-experts
TheoremLlama: Transforming General-Purpose LLMs into Lean4 Experts

Jul 3

ByRuida Wang, Jipeng Zhang, Yizhen Jia, Rui Pan, Shizhe Diao, Renjie Pi, Tong Zhang

Het bewijzen van wiskundige stellingen met behulp van computer-verifieerbare formele talen zoals Lean heeft een aanzienlijke impact op wiskundig redeneren. Een benadering voor formeel stellingen bewijzen omvat het genereren van complete bewijzen met behulp van Large Language Models (LLMs) op basis van Natural Language (NL) bewijzen. Soortgelijke methoden hebben veelbelovende resultaten laten zien bij codegeneratie. De meeste moderne LLMs presteren echter suboptimaal vanwege de schaarste aan afgestemde NL- en Formele Taal (FL) gegevens voor stellingen bewijzen. Deze schaarste resulteert in een gebrek aan methodologieën voor het trainen van LLMs en technieken om hun mogelijkheden volledig te benutten bij het opstellen van formele bewijzen. Om deze uitdagingen aan te pakken, stelt dit artikel **TheoremLlama** voor, een end-to-end framework om een algemeen toepasbare LLM op te leiden tot een Lean4-expert. Dit framework omvat methoden voor het genereren van NL-FL afgestemde datasets, trainingsbenaderingen voor de LLM formele stellingenbewijzer, en technieken voor het schrijven van Lean4-bewijzen door LLMs. Met behulp van de datasetgeneratiemethode bieden we *Open Bootstrapped Theorems* (OBT), een NL-FL afgestemde en gebootstrapte dataset. Een belangrijke innovatie in dit framework is de NL-FL bootstrapping-methode, waarbij NL-bewijzen worden geïntegreerd in Lean4-code voor trainingsdatasets, waardoor het NL-redeneervermogen van LLMs wordt benut voor formeel redeneren. Het **TheoremLlama** framework behaalt cumulatieve nauwkeurigheden van 36,48% en 33,61% op respectievelijk de MiniF2F-Valid en Test datasets, wat de GPT-4-basislijn van 22,95% en 25,41% overtreft. We hebben ook onze modelcheckpoints en gegenereerde dataset open-source gemaakt, en zullen binnenkort alle code publiekelijk beschikbaar stellen.

Lookback Lens: Detecteren en Mitigeren van Contextuele Hallucinaties in Grote Taalmodellen met Uitsluitend Gebruik van Attention Maps
Lookback Lens: Detecting and Mitigating Contextual Hallucinations in Large Language Models Using Only Attention Maps

Jul 9

ByYung-Sung Chuang, Linlu Qiu, Cheng-Yu Hsieh, Ranjay Krishna, Yoon Kim, James Glass

Wanneer grote taalmodellen (LLMs) worden gevraagd om artikelen samen te vatten of vragen te beantwoorden op basis van een gegeven passage, kunnen ze details verzinnen en reageren met ongefundeerde antwoorden die onnauwkeurig zijn ten opzichte van de ingevoerde context. Dit artikel beschrijft een eenvoudige aanpak voor het detecteren van dergelijke contextuele hallucinaties. We veronderstellen dat contextuele hallucinaties gerelateerd zijn aan de mate waarin een LLM aandacht besteedt aan informatie in de aangeboden context versus zijn eigen generaties. Op basis van deze intuïtie stellen we een eenvoudig hallucinatiedetectiemodel voor waarvan de invoerkenmerken worden gegeven door de verhouding van aandachtswaarden op de context versus nieuw gegenereerde tokens (voor elke aandachtseenheid). We ontdekken dat een lineaire classifier gebaseerd op deze lookback ratio-kenmerken even effectief is als een rijkere detector die gebruikmaakt van de volledige verborgen toestanden van een LLM of een tekstgebaseerd entailment-model. De lookback ratio-gebaseerde detector – Lookback Lens – blijkt overdraagbaar te zijn tussen taken en zelfs modellen, waardoor een detector die is getraind op een 7B-model kan worden toegepast (zonder hertraining) op een groter 13B-model. We passen deze detector verder toe om contextuele hallucinaties te verminderen, en ontdekken dat een eenvoudige classifier-gestuurde decodeerbenadering in staat is om de hoeveelheid hallucinatie te verminderen, bijvoorbeeld met 9,6% in de XSum-samenvattings taak.

Grafiekgebaseerde Onderschriften: Visuele Beschrijvingen Verbeteren door Regio-onderschriften met Elkaar te Verbinden
Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions

Jul 9

ByYu-Guan Hsieh, Cheng-Yu Hsieh, Shih-Ying Yeh, Louis Béthune, Hadi Pour Ansari, Pavan Kumar Anasosalu Vasu, Chun-Liang Li, Ranjay Krishna, Oncel Tuzel, Marco Cuturi

Mensen beschrijven complexe scènes met compositionele vaardigheden, door eenvoudige tekstbeschrijvingen te verrijken met verwijzingen en relaties. Hoewel vision-language-onderzoek ernaar streeft om modellen te ontwikkelen met compositionele begripsvaardigheden, wordt dit nog niet weerspiegeld in bestaande datasets, die voor het grootste deel nog steeds gewone tekst gebruiken om afbeeldingen te beschrijven. In dit werk stellen we een nieuwe annotatiestrategie voor, grafiekgebaseerde bijschriften (Graph-Based Captioning, GBC), die een afbeelding beschrijft met behulp van een gelabelde grafiekstructuur met knooppunten van verschillende typen. De knooppunten in GBC worden in een eerste fase gemaakt met behulp van objectdetectie en dense captioning-tools, die recursief worden ingezet om entiteitsknooppunten te ontdekken en te beschrijven. In een tweede fase worden deze verder aan elkaar gekoppeld door, met behulp van nieuwe typen knooppunten, composities en relaties tussen entiteiten te benadrukken. Omdat alle GBC-knooppunten gewone tekstbeschrijvingen bevatten, behoudt GBC de flexibiliteit van natuurlijke taal, maar kan het ook hiërarchische informatie coderen in zijn verbindingen. We demonstreren dat GBC automatisch kan worden geproduceerd met behulp van kant-en-klare multimodale LLM's en open-vocabulary detectiemodellen, door een nieuwe dataset, GBC10M, te bouwen die GBC-annotaties verzamelt voor ongeveer 10 miljoen afbeeldingen uit de CC12M-dataset. We gebruiken GBC10M om de rijkdom aan knooppuntbijschriften die door GBC wordt onthuld, te illustreren, zoals gemeten met CLIP-training. We laten zien dat het gebruik van GBC-knooppuntannotaties – met name die in compositie- en relatieknooppunten – resulteert in een significante prestatieverbetering van downstreammodellen in vergelijking met andere datasetformaten. Om de mogelijkheden van GBC verder te verkennen, stellen we ook een nieuw aandachtmechanisme voor dat de volledige GBC-grafiek kan benutten, met bemoedigende experimentele resultaten die de extra voordelen van het incorporeren van de grafiekstructuur aantonen. Onze datasets zijn vrijgegeven op https://huggingface.co/graph-based-captions.

VIMI: Videogeneratie verankeren via multi-modale instructie
VIMI: Grounding Video Generation through Multi-modal Instruction

Jul 8

ByYuwei Fang, Willi Menapace, Aliaksandr Siarohin, Tsai-Shien Chen, Kuan-Chien Wang, Ivan Skorokhodov, Graham Neubig, Sergey Tulyakov

Bestaande tekst-naar-video diffusiemodellen vertrouwen uitsluitend op tekstencoders voor hun voorafgaande training. Deze beperking komt voort uit het ontbreken van grootschalige multimodale prompt-videodatasets, wat resulteert in een gebrek aan visuele verankering en hun veelzijdigheid en toepassing in multimodale integratie beperkt. Om dit aan te pakken, construeren we een grootschalige multimodale promptdataset door retrievemethoden te gebruiken om in-contextvoorbeelden te koppelen aan de gegeven tekstprompts en vervolgens een tweefasige trainingsstrategie te gebruiken om diverse videogeneratietaken binnen hetzelfde model mogelijk te maken. In de eerste fase stellen we een multimodaal conditioneel videogeneratieframework voor voor de voorafgaande training op deze uitgebreide datasets, waarmee een basis wordt gelegd voor verankerde videogeneratie. In de tweede fase finetunen we het model uit de eerste fase op drie videogeneratietaken, waarbij multimodale instructies worden geïntegreerd. Dit proces verfijnt verder het vermogen van het model om diverse invoer en taken te verwerken, waardoor een naadloze integratie van multimodale informatie wordt gegarandeerd. Na dit tweefasige trainingsproces toont VIMI multimodale begripscapaciteiten, waarbij contextueel rijke en gepersonaliseerde video's worden geproduceerd die verankerd zijn in de verstrekte invoer, zoals weergegeven in Figuur 1. In vergelijking met eerdere methoden voor visueel verankerde videogeneratie, kan VIMI consistente en temporeel coherente video's synthetiseren met grote bewegingen terwijl de semantische controle behouden blijft. Tot slot behaalt VIMI ook state-of-the-art tekst-naar-videogeneratieresultaten op de UCF101-benchmark.

Van Loops naar Oeps: Terugvalgedrag van Taalmodellen bij Onzekerheid
From Loops to Oops: Fallback Behaviors of Language Models Under Uncertainty

Jul 8

ByMaor Ivgi, Ori Yoran, Jonathan Berant, Mor Geva

Grote taalmodellen (LLMs) vertonen vaak ongewenst gedrag, zoals hallucinaties en sequentiële herhalingen. Wij stellen voor om dit gedrag te beschouwen als terugvalgedrag dat modellen vertonen bij onzekerheid, en onderzoeken het verband daartussen. We categoriseren terugvalgedrag — sequentiële herhalingen, gedegenereerde tekst en hallucinaties — en analyseren dit uitgebreid in modellen uit dezelfde familie die verschillen in het aantal vooraf getrainde tokens, het aantal parameters, of de toevoeging van training voor instructievolging. Onze experimenten onthullen een duidelijke en consistente volgorde van terugvalgedrag, over al deze aspecten: hoe geavanceerder een LLM is (d.w.z. getraind op meer tokens, meer parameters heeft, of instructiegetraind is), verschuift het terugvalgedrag van sequentiële herhalingen, naar gedegenereerde tekst, en vervolgens naar hallucinaties. Bovendien wordt dezelfde volgorde waargenomen gedurende een enkele generatie, zelfs voor de best presterende modellen; naarmate de onzekerheid toeneemt, verschuiven modellen van het genereren van hallucinaties naar het produceren van gedegenereerde tekst en vervolgens sequentiële herhalingen. Tot slot tonen we aan dat hoewel veelgebruikte decodeertechnieken, zoals willekeurige steekproeven, sommige ongewenste gedragingen zoals sequentiële herhalingen kunnen verminderen, ze moeilijker te detecteren hallucinaties juist vergroten.

Hoe weet je dat? Het aanleren van generatieve taalmodelen om antwoorden op biomedische vragen te refereren
How do you know that? Teaching Generative Language Models to Reference Answers to Biomedical Questions

Jul 6

ByBojana Bašaragin, Adela Ljajić, Darija Medvecki, Lorenzo Cassano, Miloš Košprdić, Nikola Milošević

Grote taalmodellen (LLM's) zijn recentelijk de belangrijkste bron geworden voor het beantwoorden van gebruikersvragen online. Ondanks hun vermogen om welsprekende antwoorden te geven, kunnen hun nauwkeurigheid en betrouwbaarheid een aanzienlijke uitdaging vormen. Dit geldt vooral voor gevoelige domeinen zoals de biomedische wetenschap, waar een grotere behoefte bestaat aan feitelijk correcte antwoorden. Dit artikel introduceert een biomedisch retrieval-augmented generation (RAG)-systeem dat is ontworpen om de betrouwbaarheid van gegenereerde antwoorden te verbeteren. Het systeem is gebaseerd op een fijn afgestemd LLM voor het beantwoorden van vragen met referenties, waarbij relevante samenvattingen uit PubMed worden doorgegeven aan de context van het LLM als invoer via een prompt. De uitvoer is een antwoord gebaseerd op PubMed-samenvattingen, waarbij elke bewering dienovereenkomstig wordt gerefereerd, zodat gebruikers het antwoord kunnen verifiëren. Ons retrievalsysteem behaalt een absolute verbetering van 23% vergeleken met de PubMed-zoekmachine. Op basis van een handmatige evaluatie van een kleine steekproef behaalt onze fijn afgestemde LLM-component vergelijkbare resultaten met GPT-4 Turbo in het refereren van relevante samenvattingen. We maken de dataset die is gebruikt om de modellen fijn af te stemmen en de fijn afgestemde modellen gebaseerd op Mistral-7B-instruct-v0.1 en v0.2 publiekelijk beschikbaar.

LETS-C: Benutten van Taalembeddingen voor Tijdreeksclassificatie
LETS-C: Leveraging Language Embedding for Time Series Classification

Jul 9

ByRachneet Kaur, Zhen Zeng, Tucker Balch, Manuela Veloso

Recente ontwikkelingen in taalmodellering hebben veelbelovende resultaten laten zien wanneer ze worden toegepast op tijdreeksgegevens. Met name het finetunen van vooraf getrainde grote taalmodellen (LLM's) voor tijdreeksclassificatietaken heeft state-of-the-art (SOTA) prestaties behaald op standaard benchmarks. Deze LLM-gebaseerde modellen hebben echter een belangrijk nadeel vanwege de grote modelomvang, met het aantal trainbare parameters in de miljoenen. In dit artikel stellen we een alternatieve aanpak voor om het succes van taalmodellering in het domein van tijdreeksen te benutten. In plaats van LLM's te finetunen, gebruiken we een taalembeddingmodel om tijdreeksen in te bedden en koppelen we deze embeddings aan een eenvoudige classificatiekop die bestaat uit convolutionele neurale netwerken (CNN) en een meerlaags perceptron (MLP). We hebben uitgebreide experimenten uitgevoerd op goed gevestigde benchmarkdatasets voor tijdreeksclassificatie. We hebben aangetoond dat LETS-C niet alleen de huidige SOTA overtreft in classificatienauwkeurigheid, maar ook een lichtgewicht oplossing biedt, waarbij gemiddeld slechts 14,5% van de trainbare parameters wordt gebruikt in vergelijking met het SOTA-model. Onze bevindingen suggereren dat het gebruik van taalencoders om tijdreeksgegevens in te bedden, gecombineerd met een eenvoudige maar effectieve classificatiekop, een veelbelovende richting biedt voor het bereiken van hoogwaardige tijdreeksclassificatie terwijl een lichtgewicht modelarchitectuur behouden blijft.

Grafiekgebaseerde Onderschriften: Visuele Beschrijvingen Verbeteren door Regio-onderschriften met Elkaar te Verbinden
Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions

Jul 9

ByYu-Guan Hsieh, Cheng-Yu Hsieh, Shih-Ying Yeh, Louis Béthune, Hadi Pour Ansari, Pavan Kumar Anasosalu Vasu, Chun-Liang Li, Ranjay Krishna, Oncel Tuzel, Marco Cuturi