Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote Taalmodellen (LLM's) hebben opmerkelijke prestaties vertoond bij redeneertaken. Ze maken gebruik van autoregressieve token-generatie om redeneertrajecten te construeren, waardoor de ontwikkeling van een coherente keten van gedachten mogelijk wordt. In dit werk onderzoeken we de impact van individuele tokens op de uiteindelijke resultaten van redeneertaken. We identificeren het bestaan van "kritieke tokens" die leiden tot onjuiste redeneertrajecten in LLM's. Specifiek vinden we dat LLM's geneigd zijn positieve resultaten te produceren wanneer ze gedwongen worden andere tokens te decoderen in plaats van kritieke tokens. Gemotiveerd door deze observatie stellen we een nieuwe benadering voor - cDPO - ontworpen om automatisch kritieke tokens te herkennen en tokenniveau-beloningen uit te voeren tijdens het afstemmingsproces. Specifiek ontwikkelen we een contrastieve schattingsbenadering om kritieke tokens automatisch te identificeren. Dit wordt bereikt door de generatiekans van positieve en negatieve modellen met elkaar te vergelijken. Om dit te bereiken, stemmen we de positieve en negatieve modellen afzonderlijk af op verschillende redeneertrajecten, waardoor ze in staat zijn kritieke tokens te identificeren binnen onjuiste trajecten die bijdragen aan foutieve resultaten. Bovendien, om het model verder af te stemmen op de informatie van de kritieke tokens tijdens het afstemmingsproces, breiden we de conventionele DPO-algoritmen uit naar tokenniveau DPO en gebruiken we het differentiële kansheidsverschil van het eerder genoemde positieve en negatieve model als belangrijk gewicht voor tokenniveau DPO-leren. Experimentele resultaten op GSM8K en MATH500 benchmarks met twee veelgebruikte modellen Llama-3 (8B en 70B) en deepseek-math (7B) tonen de effectiviteit van de voorgestelde benadering cDPO aan.
Huidige videogeneratiemodellen blinken uit in het genereren van korte clips, maar hebben nog steeds moeite met het maken van meerdelige, filmachtige video's. Bestaande modellen die zijn getraind op grootschalige gegevens met behulp van rijke rekenbronnen, zijn begrijpelijkerwijs ontoereikend voor het handhaven van een logisch verhaal en visuele consistentie over meerdere shots van een samenhangend script, aangezien ze vaak zijn getraind met een single-shot doelstelling. Om dit te verhelpen, stellen wij VideoGen-of-Thought (VGoT) voor, een samenwerkings- en trainingvrije architectuur die specifiek is ontworpen voor het genereren van meerdelige video's. VGoT is ontworpen met drie doelen in gedachten als volgt. Meerdelige Videogeneratie: We verdelen het videogeneratieproces in een gestructureerde, modulaire reeks, inclusief (1) Scriptgeneratie, die een beknopt verhaal vertaalt naar gedetailleerde aanwijzingen voor elk shot; (2) Keyframegeneratie, verantwoordelijk voor het creëren van visueel consistente keyframes die trouw zijn aan de karakterportretten; en (3) Shot-Level Videogeneratie, die informatie uit scripts en keyframes omzet in shots; (4) Mechanisme voor het gladstrijken dat zorgt voor een consistente meerdelige output. Redelijke Narratieve Ontwerp: Geïnspireerd door cinematografisch scenarioschrijven, bestrijkt onze aanpak voor promptgeneratie vijf belangrijke domeinen, waarbij logische consistentie, karakterontwikkeling en narratieve flow over de hele video worden gewaarborgd. Cross-Shot Consistentie: We zorgen voor temporele en identiteitsconsistentie door gebruik te maken van identiteitsbehoudende (IP) embeddings over shots, die automatisch worden gecreëerd uit het verhaal. Daarnaast nemen we een cross-shot gladstrijkmechanisme op, dat een resetgrens integreert die effectief latente kenmerken van aangrenzende shots combineert, resulterend in soepele overgangen en het handhaven van visuele coherentie gedurende de video. Onze experimenten tonen aan dat VGoT bestaande methoden voor videogeneratie overtreft in het produceren van hoogwaardige, coherente, meerdelige video's.
Het mogelijk maken van effectieve samenwerking tussen LLM's is een cruciale stap naar het ontwikkelen van autonome systemen die in staat zijn complexe problemen op te lossen. Hoewel LLM's doorgaans worden gebruikt als generatoren van enkelvoudige modellen, waar mensen hun resultaten beoordelen en verfijnen, blijft het potentieel voor gezamenlijk getrainde samenwerkingsmodellen grotendeels onontgonnen. Ondanks veelbelovende resultaten in multi-agent communicatie- en debatomgevingen, is er weinig vooruitgang geboekt in het trainen van modellen om samen te werken aan taken. In dit artikel presenteren we een eerste stap naar "Multi-agent LLM-training" (MALT) voor redeneervraagstukken. Onze aanpak maakt gebruik van een sequentiële multi-agent opstelling met heterogene LLM's die gespecialiseerde rollen krijgen toegewezen: een generator, verifier en verfijningsmodel die iteratief problemen oplossen. We stellen een synthetisch datageneratieproces voor op basis van trajectuitbreiding en een credittoewijzingsstrategie die wordt gestuurd door beloningen op basis van gezamenlijke uitkomsten. Dit stelt onze post-training opstelling in staat om zowel positieve als negatieve trajecten te benutten om autonoom de gespecialiseerde mogelijkheden van elk model te verbeteren als onderdeel van een gezamenlijk sequentieel systeem. We evalueren onze aanpak over MATH, GSM8k en CQA, waar MALT op Llama 3.1 8B-modellen relatieve verbeteringen van respectievelijk 14,14%, 7,12% en 9,40% behaalt ten opzichte van hetzelfde basismodel. Dit toont een vroege vooruitgang in de coöperatieve mogelijkheden van multi-agenten voor prestaties op wiskundige en gezond verstand redeneervragen. Meer in het algemeen biedt ons werk een concrete richting voor onderzoek naar benaderingen voor multi-agent LLM-training.
In tegenstelling tot zijn tegenhanger uitkomstbeloningsmodellen (ORM's), die de volledige antwoorden evalueren, beoordeelt een procesbeloningsmodel (PRM) een redeneertraject stap voor stap, waardoor dichtere en fijnkorreligere beloningen worden gegeven. Het trainen van een PRM vereist echter labels die geannoteerd zijn op elk tussenliggend punt, wat aanzienlijke uitdagingen met zich meebrengt voor zowel handmatige als automatische gegevensverzameling. Dit artikel heeft tot doel deze uitdaging aan te pakken. Zowel theoretisch als empirisch tonen we aan dat een impliciet PRM zonder extra kosten kan worden verkregen door eenvoudigweg een ORM te trainen op de goedkopere responsniveau-labels. De enige aanname is om de uitkomstbeloning te parametriseren als de log-waarschijnlijkheidsverhoudingen van de beleids- en referentiemodellen, die geoptimaliseerd kunnen worden ongeacht de specifieke keuze van verliesdoelstellingen. In experimenten instantiëren we onze impliciete PRM's met verschillende doelstellingen en evalueren hun prestaties op MATH. We tonen aan dat onze impliciete PRM beter presteert dan een sterke op MCTS gebaseerde baseline à la Math-Shepherd met minder dan 1/38 van de trainingsgegevens. De prestaties kunnen verder worden verbeterd met meerderheidsstemming. We ontdekken verder dat het opschalen van instructies en antwoorden voordelig is voor onze impliciete PRM, waarbij het laatste een grotere winst oplevert. In het bijzonder blijkt dat onze impliciete PRM, wanneer geïnstantieerd met het kruis-entropie (CE) verlies, meer gegevensefficiënt is en generatiemodellen blijft verbeteren, zelfs wanneer getraind met slechts één respons per instructie, de opstelling die lijdt onder extreme gegevensschaarste en onevenwichtigheid. Verder moeten instructies relevant zijn voor downstreamtaken, terwijl de diversiteit van antwoorden geen voordelen oplevert. Verrassend genoeg brengt training op extra Math-Shepherd staplabels geen verdere verbeteringen aan onze impliciete PRM die alleen is getraind op uitkomstgegevens. We hopen dat ons werk zal bijdragen aan een heroverweging van PRM-trainingsbenaderingen en zal bijdragen aan het toegankelijker maken van het trainen van PRM's.
Grote taalmodellen (LLM's) hebben de ontwikkeling mogelijk gemaakt van multimodale LLM's die een sterke begrip van visuele gegevens zoals afbeeldingen en video's vertonen. Echter, deze modellen vertrouwen meestal op uitgebreide visuele tokens van visuele encoders, wat resulteert in hoge rekenkundige eisen, waardoor hun toepasbaarheid beperkt is in omgevingen met beperkte middelen en voor taken met een lange context. In dit werk stellen we een trainingvrije adaptieve inferentiemethode voor multimodale LLM's voor die een breed scala aan efficiëntie-eisen kan accommoderen met een minimaal prestatieverlies. Onze methode bestaat uit a) iteratieve token-samenvoeging op basis van insluitingssimilariteit vóór LLM's, en b) progressieve token-snoei binnen LLM-lagen op basis van multimodale belangrijkheid. Met een minimalistisch ontwerp kan onze methode worden toegepast op zowel video- als afbeeldings-LLM's. Uitgebreide experimenten op diverse video- en afbeeldingsbenchmarks tonen aan dat onze methode aanzienlijk de rekenbelasting vermindert (bijv. een 7-voudige vermindering in FLOPs) terwijl de prestaties van video- en afbeeldings-LLM's behouden blijven. Bovendien presteert onze methode beter dan de state-of-the-art methoden in het begrip van lange video's (bijv. +4.6 op MLVU) onder een vergelijkbare rekenkundige kost. Daarnaast biedt onze diepgaande analyse inzichten in token redundantie en LLM-laaggedrag, wat richting geeft voor toekomstig onderzoek bij het ontwerpen van efficiënte multimodale LLM's. Onze code zal beschikbaar zijn op https://github.com/LaVi-Lab/AIM.
Retrieval-augmented Generation (RAG) verbetert Large Language Models (LLMs) door externe kennis te integreren om hallucinaties te verminderen en actuele informatie op te nemen zonder opnieuw te trainen. Als een essentieel onderdeel van RAG worden externe kennisbanken doorgaans opgebouwd door gestructureerde gegevens uit ongestructureerde PDF-documenten te extraheren met behulp van Optische Tekstkarakterherkenning (OCR). Echter, gezien de onvolmaakte voorspelling van OCR en de inherente niet-uniforme representatie van gestructureerde gegevens, bevatten kennisbanken onvermijdelijk verschillende OCR-ruis. In dit artikel introduceren we OHRBench, de eerste benchmark voor het begrijpen van de cascaderende impact van OCR op RAG-systemen. OHRBench omvat 350 zorgvuldig geselecteerde ongestructureerde PDF-documenten uit zes RAG-toepassingsdomeinen in de echte wereld, samen met Vraag & Antwoord afgeleid van multimodale elementen in documenten, waarbij bestaande OCR-oplossingen die worden gebruikt voor RAG worden uitgedaagd. Om het effect van OCR op RAG-systemen beter te begrijpen, identificeren we twee primaire soorten OCR-ruis: Semantische Ruis en Opmaakruis en passen we verstoring toe om een set gestructureerde gegevens te genereren met variërende gradaties van elke OCR-ruis. Met behulp van OHRBench voeren we eerst een uitgebreide evaluatie uit van huidige OCR-oplossingen en onthullen dat geen enkele bekwaam is voor het construeren van hoogwaardige kennisbanken voor RAG-systemen. Vervolgens evalueren we systematisch de impact van deze twee soorten ruis en tonen we de kwetsbaarheid van RAG-systemen aan. Verder bespreken we het potentieel van het inzetten van Vision-Language Modellen (VLMs) zonder OCR in RAG-systemen. Code: https://github.com/opendatalab/OHR-Bench
Recentelijk hebben multimodale grote taalmodellen (MLLM's), zoals GPT-4o, Gemini 1.5 Pro en Reka Core, hun mogelijkheden uitgebreid om ook visuele en auditieve modaliteiten te omvatten. Hoewel deze modellen indrukwekkende prestaties laten zien bij een breed scala aan audiovisuele toepassingen, onthult ons voorgestelde DeafTest dat MLLM's vaak moeite hebben met eenvoudige taken die mensen als triviaal beschouwen: 1) bepalen welk van twee geluiden harder is, en 2) bepalen welk van twee geluiden een hogere toonhoogte heeft. Gemotiveerd door deze observaties introduceren we AV-Odyssey Bench, een uitgebreide audiovisuele benchmark ontworpen om te beoordelen of die MLLM's daadwerkelijk de audiovisuele informatie kunnen begrijpen. Deze benchmark omvat 4.555 zorgvuldig samengestelde problemen, elk met tekstuele, visuele en auditieve componenten. Om antwoorden succesvol af te leiden, moeten modellen effectief aanwijzingen uit zowel visuele als auditieve invoer benutten. Om een nauwkeurige en objectieve evaluatie van MLLM-reacties te waarborgen, hebben we de vragen gestructureerd als meerkeuzevragen, waardoor de noodzaak voor menselijke evaluatie of LLM-ondersteunde beoordeling wordt geëlimineerd. We benchmarken een reeks gesloten en open-source modellen en vatten de observaties samen. Door de beperkingen van huidige modellen bloot te leggen, streven we ernaar nuttig inzicht te bieden voor toekomstige datasetverzameling en modelontwikkeling.
Na de introductie van Grote Taalmodellen (LLM's) zijn er aanzienlijke verbeteringen opgetreden in de prestaties van taken voor Natuurlijke Taalgeneratie (NLG), waaronder Tekstsamenvatting en Machinale Vertaling. Desalniettemin produceren LLM's nog steeds uitvoer met hallucinaties, dat wil zeggen, inhoud die niet gebaseerd is op feitelijke informatie. Daarom is het dringend noodzakelijk om methoden te ontwikkelen om de feitelijkheid van LLM's te beoordelen. Er zijn inderdaad recentelijk bronnen voor feitelijkheidsevaluatie ontstaan. Hoewel uitdagend, hebben deze bronnen een of meer van de volgende beperkingen: (i) ze zijn afgestemd op een specifieke taak of domein; (ii) ze zijn beperkt in omvang, waardoor het trainen van nieuwe feitelijkheidsevaluatoren wordt belemmerd; (iii) ze zijn ontworpen voor eenvoudigere verificatietaken, zoals claimverificatie. Om deze problemen aan te pakken, introduceren we LLM-Oasis, naar ons beste weten de grootste bron voor het trainen van end-to-end feitelijkheidsevaluatoren. LLM-Oasis is samengesteld door claims uit Wikipedia te extraheren, een subset van deze claims te falsificeren, en paren van feitelijke en onfeitelijke teksten te genereren. Vervolgens vertrouwen we op menselijke annotatoren om zowel de kwaliteit van ons dataset te valideren als een gouden standaard testset te creëren voor het benchmarken van feitelijkheidsevaluatiesystemen. Onze experimenten tonen aan dat LLM-Oasis een aanzienlijke uitdaging vormt voor state-of-the-art LLM's, waarbij GPT-4o tot wel 60% nauwkeurigheid behaalt in onze voorgestelde end-to-end feitelijkheidsevaluatietaak, wat het potentieel benadrukt om toekomstig onderzoek op dit gebied te stimuleren.
Bewegingsbesturing is cruciaal voor het genereren van expressieve en boeiende videobeelden; echter vertrouwen de meeste bestaande videogeneratiemodellen voornamelijk op tekstprompts voor de besturing, die moeite hebben om de nuances van dynamische acties en temporele composities vast te leggen. Met dit doel trainen we een videogeneratiemodel dat geconditioneerd is op spaat-temporeel schaarse of dichte bewegingstrajecten. In tegenstelling tot eerdere bewegingsconditioneringswerk, kan deze flexibele representatie elk aantal trajecten, object-specifieke of globale scènebeweging, en temporeel schaarse beweging coderen; vanwege zijn flexibiliteit verwijzen we naar deze conditionering als bewegingsprompts. Hoewel gebruikers schaarse trajecten direct kunnen specificeren, laten we ook zien hoe we hoog-niveau gebruikersverzoeken kunnen vertalen naar gedetailleerde, semi-dichte bewegingsprompts, een proces dat we bewegingspromptuitbreiding noemen. We tonen de veelzijdigheid van onze aanpak aan via verschillende toepassingen, waaronder camera- en objectbewegingsbesturing, "interactie" met een afbeelding, bewegingsoverdracht en beeldbewerking. Onze resultaten tonen opkomende gedragingen, zoals realistische natuurkunde, wat wijst op het potentieel van bewegingsprompts voor het onderzoeken van videomodellen en interactie met toekomstige generatieve wereldmodellen. Tot slot evalueren we kwantitatief, voeren we een menselijke studie uit, en tonen we sterke prestaties aan. Videoreusltaten zijn beschikbaar op onze webpagina: https://motion-prompting.github.io/
We introduceren OmniCreator, een nieuw framework dat tekstgestuurde verenigde (beeld+video) generatie en bewerking kan uitvoeren op één plek. OmniCreator verwerft generatieve en universele bewerkingsmogelijkheden op een zelftoezichtige manier, waarbij originele tekst-video paren als condities worden gebruikt, terwijl dezelfde video als doelwit voor denoising wordt gebruikt om de semantische overeenkomst tussen video en tekst te leren. Tijdens inferentie, wanneer gepresenteerd met een tekstprompt en een video, is OmniCreator in staat om een doelwit te genereren dat trouw is aan beide, waardoor een universeel bewerkingseffect wordt bereikt dat onbeperkt is in tegenstelling tot bestaand bewerkingswerk dat voornamelijk gericht is op bepaalde bewerkingstypen of afhankelijk is van aanvullende controles (bijv. structurele condities, aandachtskenmerken of DDIM-inversie). Aan de andere kant, wanneer alleen gepresenteerd met een tekstprompt, wordt OmniCreator generatief en produceert het hoogwaardige video als resultaat van de geleerde semantische overeenkomst. Belangrijk is dat we hebben vastgesteld dat dezelfde mogelijkheden ook gelden voor afbeeldingen, waardoor OmniCreator een werkelijk verenigd framework is. Verder, vanwege het ontbreken van bestaande generatieve video-bewerkingsbenchmarks, introduceren we de OmniBench-99 dataset, ontworpen om de prestaties van generatieve video-bewerkingsmodellen uitgebreid te evalueren. Uitgebreide experimenten tonen aan dat OmniCreator aanzienlijk superieur is aan alle andere modellen.
Onderzoek naar 3D Vision-Language Modellen (3D-VLM's) krijgt steeds meer aandacht, wat cruciaal is voor de ontwikkeling van embodied AI binnen 3D-scènes, zoals visuele navigatie en embodied vraagbeantwoording. Vanwege de hoge dichtheid van visuele kenmerken, vooral in grote 3D-scènes, is het uitdagend om nauwkeurig taakrelevante visuele informatie te lokaliseren. Bestaande werken proberen alle objecten te segmenteren en beschouwen hun kenmerken als scène-representaties. Echter, deze taakagnostische objectkenmerken bevatten veel overbodige informatie en missen details voor het taakrelevante gebied. Om deze problemen aan te pakken, stellen we LSceneLLM voor, een adaptief raamwerk dat automatisch taakrelevante gebieden identificeert door gebruik te maken van LLM's visuele voorkeur voor verschillende taken, gevolgd door een plug-and-play scène-vergrotende module om gedetailleerde details in gefocuste gebieden vast te leggen. Specifiek onderzoekt een dichte tokenselector de aandachtskaart van LLM om visuele voorkeuren voor de instructie-invoer te identificeren. Vervolgens vergroot het fijne details van het focusgebied. Een adaptieve zelfaandachtsmodule wordt ingezet om de grofkorrelige en geselecteerde fijne visuele informatie te combineren. Om de grote scènebegripsvaardigheid van 3D-VLM's uitgebreid te evalueren, introduceren we verder een cross-room begripsbenchmark, XR-Scene, die een reeks grote scènebegripstaken bevat, waaronder XR-QA, XR-EmbodiedPlanning en XR-SceneCaption. Experimenten tonen aan dat onze methode bestaande methoden overtreft op zowel grote scènebegripstaken als bestaande scènebegripbenchmarks. Het toevoegen van onze scène-vergrotende module aan bestaande 3D-VLM's levert ook aanzienlijke verbetering op.
Vision tokenizers hebben veel aandacht gekregen vanwege hun schaalbaarheid en compactheid; eerdere werken zijn afhankelijk van ouderwetse GAN-gebaseerde hyperparameters, bevooroordeelde vergelijkingen, en een gebrek aan uitgebreide analyse van de schaalbaarheidsgedragingen. Om deze problemen aan te pakken, introduceren we Grouped Spherical Quantization (GSQ), met sferische codeboekinitialisatie en lookup-regulering om het codeboeklatent te beperken tot een sferisch oppervlak. Onze empirische analyse van trainingsstrategieën voor beeldtokenizer toont aan dat GSQ-GAN superieure reconstructiekwaliteit behaalt ten opzichte van state-of-the-art methoden met minder trainingsiteraties, wat een solide basis biedt voor schaalstudies. Voortbouwend hierop onderzoeken we systematisch de schaalbaarheidsgedragingen van GSQ, specifiek in latente dimensionaliteit, codeboekgrootte en compressieverhoudingen, en hun impact op de modelprestaties. Onze bevindingen onthullen verschillende gedragingen bij hoge en lage ruimtelijke compressieniveaus, waarbij de uitdagingen in het representeren van hoog-dimensionale latente ruimtes worden benadrukt. We tonen aan dat GSQ hoog-dimensionale latenties kan herstructureren naar compacte, laag-dimensionale ruimtes, waardoor efficiënte schaling met verbeterde kwaliteit mogelijk is. Als gevolg hiervan behaalt GSQ-GAN een 16x down-sampling met een reconstructie FID (rFID) van 0.50.
Het Refererende Beeldsegmentatie (RBS) is een geavanceerde visie-taal taak die het identificeren en segmenteren van objecten binnen een afbeelding omvat zoals beschreven in vrije tekstbeschrijvingen. Terwijl eerdere studies gericht waren op het afstemmen van visuele en taalkundige kenmerken, blijft het verkennen van trainingsmethoden, zoals gegevensaugmentatie, onderbelicht. In dit werk verkennen we effectieve gegevensaugmentatie voor RBS en stellen we een nieuw trainingskader voor genaamd Gemaskerde Refererende Beeldsegmentatie (MaskRBS). We constateren dat de conventionele beeldaugmentaties tekortschieten voor RBS, wat leidt tot prestatievermindering, terwijl eenvoudig willekeurig maskeren de prestaties van RBS aanzienlijk verbetert. MaskRBS maakt gebruik van zowel beeld- als tekstmaskering, gevolgd door Verdraaiingsbewust Contextueel Leren (VCL) om volledig te profiteren van de voordelen van de maskerstrategie. Deze aanpak kan de robuustheid van het model verbeteren ten opzichte van verduisteringen, onvolledige informatie en verschillende taalkundige complexiteiten, resulterend in een aanzienlijke prestatieverbetering. Experimenten tonen aan dat MaskRBS gemakkelijk kan worden toegepast op verschillende RBS-modellen, bestaande methoden overtreft in zowel volledig begeleide als zwak begeleide instellingen. Ten slotte behaalt MaskRBS nieuwe state-of-the-art prestaties op de RefCOCO, RefCOCO+ en RefCOCOg datasets. De code is beschikbaar op https://github.com/naver-ai/maskris.
Het AIPC-concept wint aan populariteit en steeds meer hybride CPU's zullen AI-modellen uitvoeren op clientapparaten. Echter, het huidige AI-inferentiekader negeert de onevenwichtige hardwarecapaciteit van hybride CPU's, wat leidt tot lage inferentieprestaties. Om dit probleem aan te pakken, hebben we een dynamische parallelle methode geïntroduceerd voor hybride CPU's, die de inferentieprestaties van LLM aanzienlijk verhoogt door de werklast te balanceren voor elke kern van een hybride CPU voordat het parallelle werk begint. Deze methode heeft Neural Speed in staat gesteld om meer dan 90% (gemiddeld) van de geheugenbandbreedte te bereiken op twee hybride Intel CPU's.
AI-technologieën bewegen zich snel van onderzoek naar productie. Met de populariteit van Foundation Modellen (FMs) die tekst, afbeeldingen en video genereren, nemen AI-gebaseerde systemen in complexiteit toe. Vergeleken met traditionele op AI gebaseerde software zijn systemen die FMs gebruiken, of GenAI-gebaseerde systemen, moeilijker te ontwerpen vanwege hun omvang en veelzijdigheid. Dit maakt het noodzakelijk om best practices te documenteren, bekend als ontwerppatronen in software-engineering, die kunnen worden toegepast in GenAI-toepassingen. Onze eerste bijdrage is het formaliseren van twee technieken, Taakdecompositie en Retrieval-Augmented Generation (RAG), als ontwerppatronen voor GenAI-gebaseerde systemen. We bespreken hun afwegingen op het gebied van softwarekwaliteitskenmerken en geven commentaar op alternatieve benaderingen. We raden AI-praktijkmensen aan om deze technieken niet alleen vanuit een wetenschappelijk perspectief te overwegen, maar ook vanuit het oogpunt van gewenste technische eigenschappen zoals flexibiliteit, onderhoudbaarheid, veiligheid en beveiliging. Als tweede bijdrage beschrijven we onze industriële ervaring met het toepassen van Taakdecompositie en RAG om een complexe GenAI-toepassing voor zakelijke gebruikers te bouwen: Workflowgeneratie. De taak van het genereren van workflows omvat het maken van een specifiek plan met behulp van gegevens uit de systeemomgeving, waarbij een gebruikersvereiste als invoer wordt genomen. Aangezien deze twee patronen de gehele AI-ontwikkelingscyclus beïnvloeden, leggen we uit hoe ze van invloed waren op de datasetcreatie, modeltraining, modelevaluatie en implementatiefasen.
Video Highlight Detection en Moment Retrieval (HD/MR) zijn essentieel in videoanalyse. Recente transformermodellen voor gezamenlijke voorspelling verwaarlozen vaak de dynamiek tussen taken en de afstemming en verfijning van video-tekst. Bovendien maken de meeste modellen typisch gebruik van beperkte, eenzijdige aandachtsmechanismen, wat resulteert in zwak geïntegreerde representaties en suboptimale prestaties bij het vastleggen van de onderlinge afhankelijkheid tussen video- en tekstmodaliteiten. Hoewel grote taal- en visie-taalmodellen (LLM/LVLM's) aan populariteit hebben gewonnen in verschillende domeinen, blijft hun toepassing op dit gebied relatief onderbelicht. Hier stellen we VideoLights voor, een nieuw HD/MR-framework dat deze beperkingen aanpakt door (i) Convolutional Projection en Feature Refinement modules met een afstemmingsverlies voor betere afstemming van video-tekstkenmerken, (ii) een Bi-Directional Cross-Modal Fusion-netwerk voor sterk gekoppelde query-bewuste cliprepresentaties, en (iii) een Uni-directioneel gezamenlijk-taak-feedbackmechanisme dat beide taken verbetert door correlatie. Daarnaast introduceren we (iv) harde positieve/negatieve verliezen voor adaptieve foutbestraffing en verbeterd leren, en (v) maken we gebruik van LVLM's zoals BLIP-2 voor verbeterde multimodale kenmerkintegratie en intelligent vooraf trainen met behulp van synthetische gegevens gegenereerd door LVLM's. Uitgebreide experimenten op QVHighlights, TVSum en Charades-STA benchmarks tonen eersteklas prestaties aan. De codes en modellen zijn beschikbaar op https://github.com/dpaul06/VideoLights.