Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Retrieval-Augmented Generation (RAG) is een krachtige strategie om het probleem van het genereren van feitelijk onjuiste uitvoer in basismodellen aan te pakken door externe kennis die relevant is voor vragen op te halen en deze in hun generatieproces op te nemen. Bestaande RAG-benaderingen hebben zich echter voornamelijk gericht op tekstuele informatie, waarbij sommige recente ontwikkelingen beginnen om ook afbeeldingen te overwegen, en ze zien grotendeels video's over het hoofd, een rijke bron van multimodale kennis die gebeurtenissen, processen en contextuele details effectiever kan weergeven dan enige andere modaliteit. Hoewel enkele recente studies de integratie van video's in het responsgeneratieproces verkennen, definiëren ze ofwel vooraf query-geassocieerde video's zonder deze op te halen op basis van vragen, of zetten ze video's om in tekstuele beschrijvingen zonder hun multimodale rijkdom te benutten. Om deze uitdagingen aan te pakken, introduceren we VideoRAG, een nieuw raamwerk dat niet alleen dynamisch relevante video's ophaalt op basis van hun relevantie met vragen, maar ook zowel visuele als tekstuele informatie van video's gebruikt in de uitvoergeneratie. Verder draait onze methode om de recente vooruitgang van Grote Video Taalmodellen (LVLM's), die het directe verwerken van videomateriaal mogelijk maken om het te representeren voor ophalen en naadloze integratie van de opgehaalde video's gezamenlijk met vragen. We valideren experimenteel de effectiviteit van VideoRAG, waarbij we aantonen dat het superieur is aan relevante baselines.
Ondanks hun opmerkelijke prestaties staat de ontwikkeling van Grote Taalmodellen (LLMs) voor een cruciale uitdaging op het gebied van schaalbare controle: het bieden van effectieve feedback voor taken waar menselijke evaluatie moeilijk is of waar LLMs mensen overtreffen. Hoewel er steeds meer interesse is in het gebruik van LLMs voor kritiek, vertrouwen huidige benaderingen nog steeds op menselijke annotaties of krachtigere modellen, waardoor het verbeteren van de kritiekcapaciteiten zonder externe supervisie onopgelost blijft. Wij introduceren SCRIT (Zelf-evoluerende CRITicus), een raamwerk dat echte zelfevolutie van kritiekvaardigheden mogelijk maakt. Technisch gezien verbetert SCRIT zichzelf door te trainen op synthetische gegevens, gegenereerd door een contrastieve zelfkritiek die referentieoplossingen gebruikt voor stapsgewijze kritiek, en een zelfvalidatiemechanisme dat kritiekkwaliteit waarborgt via correctie-uitkomsten. Geïmplementeerd met Qwen2.5-72B-Instruct, een van de krachtigste LLMs, behaalt SCRIT tot wel 10,3% verbetering op kritiek-correctie- en foutidentificatie-benchmarks. Onze analyse onthult dat de prestaties van SCRIT positief schalen met gegevens- en modelgrootte, alternatieve benaderingen overtreffen, en kritisch profiteert van zijn zelfvalidatiecomponent.
Redeneren is een fundamentele vaardigheid voor het oplossen van complexe meerstapsproblemen, met name in visuele contexten waar sequentiële stapsgewijze begrip essentieel is. Bestaande benaderingen missen een allesomvattend kader voor het evalueren van visueel redeneren en benadrukken niet stapsgewijs probleemoplossen. Om deze reden stellen wij een allesomvattend kader voor ter bevordering van stapsgewijs visueel redeneren in grote taalmodellen (LMM's) door middel van drie belangrijke bijdragen. Ten eerste introduceren we een visuele redeneerbenchmark die specifiek is ontworpen om meerstapsredeneertaken te evalueren. De benchmark presenteert een gevarieerde set uitdagingen met acht verschillende categorieën, variërend van complex visueel waarnemen tot wetenschappelijk redeneren met in totaal meer dan 4k redeneerstappen, waardoor een robuuste evaluatie van de mogelijkheden van LLM's om nauwkeurig en interpreteerbaar visueel redeneren over meerdere stappen uit te voeren mogelijk is. Ten tweede stellen we een nieuwe metriek voor die de kwaliteit van visueel redeneren beoordeelt op het niveau van individuele stappen, waarbij zowel correctheid als logische coherentie worden benadrukt. De voorgestelde metriek biedt diepgaandere inzichten in redeneerprestaties in vergelijking met traditionele nauwkeurigheidsmetrieken voor eindtaken. Ten derde presenteren we een nieuw multimodaal visueel redeneringsmodel, genaamd LlamaV-o1, getraind met behulp van een aanpak voor curriculum learning in meerdere stappen, waarbij taken progressief worden georganiseerd om incrementele vaardigheidsverwerving en probleemoplossing te vergemakkelijken. De voorgestelde LlamaV-o1 is ontworpen voor meerstapsredeneren en leert stapsgewijs via een gestructureerd trainingsparadigma. Uitgebreide experimenten tonen aan dat onze LlamaV-o1 beter presteert dan bestaande open-source modellen en gunstig presteert ten opzichte van gesloten-source eigen modellen. Vergeleken met de recente Llava-CoT behaalt onze LlamaV-o1 een gemiddelde score van 67.3 met een absoluut winstpercentage van 3.8\% over zes benchmarks, terwijl het 5 keer sneller is tijdens inferentie-schaalvergroting. Onze benchmark, model en code zijn openbaar beschikbaar.
De ontwikkeling van algemene robotica systemen die in staat zijn om te manipuleren in ongestructureerde omgevingen is een significante uitdaging. Terwijl Vision-Language Modellen (VLM) uitblinken in hoog-niveau gezond verstand redenering, missen ze het gedetailleerde 3D ruimtelijk begrip dat nodig is voor precieze manipulatietaken. Het fijnafstemmen van VLM op robotdatasets om Vision-Language-Action Modellen (VLA) te creëren is een potentieel oplossing, maar wordt belemmerd door hoge kosten voor gegevensverzameling en generalisatieproblemen. Om deze uitdagingen aan te pakken, stellen we een nieuw object-gecentreerde representatie voor die de kloof overbrugt tussen het hoog-niveau redeneren van VLM en de laag-niveau precisie die vereist is voor manipulatie. Ons belangrijk inzicht is dat de canonieke ruimte van een object, gedefinieerd door zijn functionele mogelijkheden, een gestructureerde en semantisch zinvolle manier biedt om interactieprimitieven, zoals punten en richtingen, te beschrijven. Deze primitieven fungeren als een brug, waarbij het gezond verstand redeneren van VLM wordt vertaald naar bruikbare 3D ruimtelijke beperkingen. In deze context introduceren we een dubbel gesloten-lus, open-vocabulaire robotische manipulatiesysteem: één lus voor hoog-niveau planning via primitieve hermonsterneming, interactie-rendering en VLM-controle, en een andere voor laag-niveau uitvoering via 6D pose tracking. Deze ontwerp zorgt voor robuuste, real-time controle zonder dat VLM fijnafstemming nodig is. Uitgebreide experimenten tonen sterke zero-shot generalisatie aan over diverse robotische manipulatietaken, waarbij het potentieel van deze benadering voor het automatiseren van grootschalige simulatiegegevensgeneratie wordt benadrukt.
Temporeel Bewustzijn, het vermogen om dynamisch te redeneren op basis van het tijdstip waarop een vraag wordt gesteld, is het belangrijkste onderscheid tussen offline en online video LLM's. In tegenstelling tot offline modellen, die vertrouwen op volledige video's voor statische, post-hoc analyse, verwerken online modellen videostreams incrementeel en passen ze dynamisch hun reacties aan op basis van het tijdstip waarop de vraag wordt gesteld. Ondanks de relevantie ervan is temporeel bewustzijn nog niet adequaat geëvalueerd in bestaande benchmarks. Om deze lacune op te vullen, presenteren we OVO-Bench (Online-VideO-Benchmark), een nieuwe videobenchmark die het belang van tijdstempels benadrukt voor geavanceerde online videobegrip-capaciteitsbenchmarking. OVO-Bench evalueert het vermogen van video LLM's om te redeneren en te reageren op gebeurtenissen die zich voordoen op specifieke tijdstippen onder drie verschillende scenario's: (1) Terugwaarts traceren: terugkeren naar eerdere gebeurtenissen om de vraag te beantwoorden. (2) Real-time begrip: gebeurtenissen begrijpen en erop reageren terwijl ze zich ontvouwen op het huidige tijdstip. (3) Vooruit actief reageren: de reactie uitstellen totdat voldoende toekomstige informatie beschikbaar is om de vraag nauwkeurig te beantwoorden. OVO-Bench omvat 12 taken, met 644 unieke video's en ongeveer 2.800 fijnmazige metagegevens met precieze tijdstempels die door mensen zijn samengesteld. We combineren geautomatiseerde generatiepijplijnen met menselijke samenstelling. Met deze hoogwaardige monsters hebben we verder een evaluatiepijplijn ontwikkeld om systematisch video LLM's langs de videotijdlijn te bevragen. Evaluaties van negen Video-LLM's tonen aan dat, ondanks vooruitgang op traditionele benchmarks, huidige modellen moeite hebben met het begrijpen van online video's, wat een aanzienlijke kloof laat zien in vergelijking met menselijke agenten. We hopen dat OVO-Bench vooruitgang zal stimuleren in video LLM's en toekomstig onderzoek naar online videoredenering zal inspireren. Onze benchmark en code zijn beschikbaar op https://github.com/JoeLeelyf/OVO-Bench.
De recente vooruitgang van Multimodale Grote Taalmodellen (MLLM's) heeft aanzienlijk bijgedragen aan hun gedetailleerde waarneming van enkele afbeeldingen en algemeen begrip over meerdere afbeeldingen. Echter, bestaande MLLM's ondervinden nog steeds uitdagingen bij het bereiken van nauwkeurige verankering in complexe multi-afbeeldingsscenario's. Om dit aan te pakken, verkennen we eerst een Chain-of-Thought (CoT) framework dat enkele-afbeelding verankering integreert met multi-afbeelding begrip. Hoewel gedeeltelijk effectief, blijft het instabiel en worstelt het om abstracte visuele informatie vast te leggen vanwege zijn niet-end-to-end karakter. Daarom introduceren we Migician, het eerste multi-afbeelding verankeringsmodel dat in staat is tot het uitvoeren van vrije en nauwkeurige verankering over meerdere afbeeldingen. Om dit te ondersteunen, presenteren we het MGrounding-630k dataset, dat gegevens omvat voor verschillende multi-afbeelding verankerings taken afgeleid van bestaande datasets, samen met nieuw gegenereerde vrije-vorm verankerings instructie-volg gegevens. Bovendien stellen we MIG-Bench voor, een uitgebreide benchmark specifiek ontworpen voor het evalueren van multi-afbeelding verankeringsmogelijkheden. Experimentele resultaten tonen aan dat ons model aanzienlijk superieure multi-afbeelding verankeringsmogelijkheden behaalt, de beste bestaande MLLM's overtreft met 21.61% en zelfs veel grotere 70B modellen overtreft. Onze code, model, dataset en benchmark zijn volledig open-source.
Grote taalmodellen (LLM's) hebben de afgelopen jaren opmerkelijke prestaties behaald, maar worden fundamenteel beperkt door de onderliggende trainingsdata. Om modellen te verbeteren buiten de trainingsdata, hebben recente werken onderzocht hoe LLM's kunnen worden gebruikt om synthetische data te genereren voor autonome zelfverbetering. Echter, opeenvolgende stappen van zelfverbetering kunnen een punt van afnemende meeropbrengsten bereiken. In dit werk stellen we een aanvullende benadering voor zelfverbetering voor waarbij fine-tuning wordt toegepast op een multi-agent samenleving van taalmodellen. Een groep taalmodellen, allemaal startend vanuit hetzelfde basismodel, wordt onafhankelijk gespecialiseerd door elk model bij te werken met data gegenereerd door multi-agent interacties tussen de modellen. Door elk model te trainen op onafhankelijke datasets, illustreren we hoe deze benadering specialisatie over modellen mogelijk maakt en diversificatie over de set van modellen. Als gevolg hiervan is ons algehele systeem in staat diverse redeneringsketens te behouden en autonoom te verbeteren over veel meer rondes van fine-tuning dan methoden voor zelfverbetering met één agent. We illustreren kwantitatief de doeltreffendheid van de benadering over een breed scala van redeneertaken.
Tekst-naar-video generatie heeft opmerkelijke vooruitgang geboekt door diffusiemodellen. Echter, Multi-Concept Video Aanpassing (MCVC) blijft een significante uitdaging. We identificeren twee belangrijke uitdagingen in deze taak: 1) het identiteitsontkoppelingsprobleem, waarbij het direct overnemen van bestaande aanpassingsmethoden onvermijdelijk attributen vermengt bij het gelijktijdig behandelen van meerdere concepten, en 2) de schaarste aan video-entiteitparen van hoge kwaliteit, wat cruciaal is voor het trainen van een dergelijk model dat verschillende concepten goed vertegenwoordigt en ontkoppelt. Om deze uitdagingen aan te pakken, introduceren we ConceptMaster, een innovatief raamwerk dat effectief de kritieke kwesties van identiteitsontkoppeling aanpakt terwijl het conceptgetrouwheid behoudt in aangepaste video's. Specifiek introduceren we een nieuwe strategie van het leren van ontkoppelde multi-concept insluitingen die op zichzelf in de diffusiemodellen worden geïnjecteerd, wat effectief de kwaliteit van aangepaste video's met meerdere identiteiten garandeert, zelfs voor zeer vergelijkbare visuele concepten. Om verder de schaarste aan hoogwaardige MCVC-gegevens te overwinnen, stellen we zorgvuldig een gegevensconstructiepijplijn op, die systematische verzameling van nauwkeurige multi-concept video-entiteitgegevens over diverse concepten mogelijk maakt. Een uitgebreide benchmark is ontworpen om de effectiviteit van ons model te valideren vanuit drie kritieke dimensies: conceptgetrouwheid, identiteitsontkoppelingsvermogen en videogeneratiekwaliteit over zes verschillende conceptcompositie scenario's. Uitgebreide experimenten tonen aan dat onze ConceptMaster aanzienlijk beter presteert dan eerdere benaderingen voor deze taak, waardoor de weg wordt vrijgemaakt voor het genereren van gepersonaliseerde en semantisch nauwkeurige video's over meerdere concepten.
Gestructureerd beeldbegrip, zoals het interpreteren van tabellen en grafieken, vereist strategische heroriëntatie over verschillende structuren en teksten binnen een afbeelding, waarbij een redeneringssequentie wordt gevormd om tot het uiteindelijke antwoord te komen. Huidige multimodale grote taalmodellen (LLM's) missen echter deze multihop selectieve aandachtsmogelijkheid. In dit werk introduceren we ReFocus, een eenvoudig maar effectief kader dat multimodale LLM's in staat stelt om "visuele gedachten" te genereren door visuele bewerkingen op de invoerafbeelding uit te voeren via code, waarbij ze hun visuele focus verplaatsen en verfijnen. Specifiek stelt ReFocus multimodale LLM's in staat om Python-codes te genereren om tools aan te roepen en de invoerafbeelding te wijzigen, waarbij ze sequentieel vakken tekenen, secties markeren en gebieden maskeren, waardoor het visuele redeneerproces wordt verbeterd. We experimenteren met een breed scala aan taken voor gestructureerd beeldbegrip met tabellen en grafieken. ReFocus verbetert aanzienlijk de prestaties op alle taken ten opzichte van GPT-4o zonder visuele bewerking, resulterend in een gemiddelde winst van 11,0% bij taaktaken en 6,8% bij grafiektaken. We presenteren een diepgaande analyse van de effecten van verschillende visuele bewerkingen en redenen waarom ReFocus de prestaties kan verbeteren zonder extra informatie te introduceren. Verder verzamelen we een trainingsset van 14k met behulp van ReFocus, en bewijzen dat een dergelijke visuele denkreeks met tussenliggende informatie een betere supervisie biedt dan standaard V&A-gegevens, met een gemiddelde winst van 8,0% ten opzichte van hetzelfde model dat is getraind met V&A-paren en 2,6% ten opzichte van CoT.
Video personalisatiemethoden stellen ons in staat om video's te synthetiseren met specifieke concepten zoals mensen, huisdieren en plaatsen. Echter, bestaande methoden richten zich vaak op beperkte domeinen, vereisen tijdrovende optimalisatie per onderwerp, of ondersteunen slechts één onderwerp. Wij presenteren Video Alchemist - een videomodel met ingebouwde multi-onderwerp, open-set personalisatiemogelijkheden voor zowel voorgrondobjecten als achtergrond, waardoor de noodzaak voor tijdrovende optimalisatie bij testtijd wordt geëlimineerd. Ons model is gebaseerd op een nieuw Diffusion Transformer-module die elk conditioneel referentiebeeld en de bijbehorende tekstprompt op onderwerpniveau fuseert met cross-attentionlagen. Het ontwikkelen van zo'n groot model brengt twee belangrijke uitdagingen met zich mee: dataset en evaluatie. Ten eerste, aangezien gekoppelde datasets van referentiebeelden en video's extreem moeilijk te verzamelen zijn, monsteren we geselecteerde videoframes als referentiebeelden en synthetiseren een fragment van de doelvideo. Echter, terwijl modellen trainingvideo's gemakkelijk kunnen denoiseren met referentieframes, falen ze in generalisatie naar nieuwe contexten. Om dit probleem te verlichten, ontwerpen we een nieuw automatisch gegevensconstructieproces met uitgebreide beeldaugmentaties. Ten tweede is het evalueren van open-set video personalisatie op zichzelf een uitdaging. Om dit aan te pakken, introduceren we een personalisatiebenchmark die zich richt op nauwkeurige onderwerpfideliteit en diverse personalisatiescenario's ondersteunt. Tot slot tonen onze uitgebreide experimenten aan dat onze methode aanzienlijk beter presteert dan bestaande personalisatiemethoden in zowel kwantitatieve als kwalitatieve evaluaties.
Deze studie toont een nieuwe benadering voor het testen van de beveiligingsgrenzen van Vision-Large Language Model (VLM/LLM) met behulp van het EICAR-testbestand dat is ingebed in JPEG-afbeeldingen. We hebben succesvol vier verschillende protocollen uitgevoerd op meerdere LLM-platforms, waaronder OpenAI GPT-4o, Microsoft Copilot, Google Gemini 1.5 Pro, en Anthropic Claude 3.5 Sonnet. De experimenten bevestigden dat een aangepaste JPEG met de EICAR-handtekening kon worden geüpload, gemanipuleerd en mogelijk uitgevoerd binnen LLM virtuele werkruimtes. Belangrijke bevindingen omvatten: 1) consistente mogelijkheid om de EICAR-string in de metagegevens van de afbeelding te verbergen zonder detectie, 2) succesvolle extractie van het testbestand met behulp van op Python gebaseerde manipulatie binnen LLM-omgevingen, en 3) demonstratie van meerdere verhullingstechnieken, waaronder base64-codering en stringomkering. Dit onderzoek breidt het "Penetration Testing Rules of Engagement"-raamwerk van Microsoft Research uit om de beveiligingsgrenzen van op de cloud gebaseerde generatieve AI en LLM te evalueren, met name gericht op bestandshandling en uitvoeringsmogelijkheden binnen gecontaineriseerde omgevingen.
De traditionele Celluloid (Cel) Animatieproductiepijplijn omvat meerdere essentiële stappen, waaronder storyboarding, lay-outontwerp, keyframe-animatie, inbetweening en kleuring, die aanzienlijke handmatige inspanning, technische expertise en aanzienlijke tijdsinvestering vereisen. Deze uitdagingen hebben historisch gezien de efficiëntie en schaalbaarheid van Cel-Animatieproductie belemmerd. De opkomst van generatieve kunstmatige intelligentie (GenAI), met grote taalmodellen, multimodale modellen en diffusiemodellen, biedt innovatieve oplossingen door taken zoals het genereren van inbetween frames, kleuring en storyboardcreatie te automatiseren. Deze verkenning onderzoekt hoe de integratie van GenAI de traditionele animatieworkflows revolutioneert door technische barrières te verlagen, de toegankelijkheid voor een breder scala aan makers te vergroten via tools zoals AniDoc, ToonCrafter en AniSora, en kunstenaars in staat te stellen zich meer te richten op creatieve expressie en artistieke innovatie. Ondanks het potentieel blijven kwesties zoals het handhaven van visuele consistentie, het waarborgen van stilistische coherentie en het aanpakken van ethische overwegingen uitdagingen vormen. Bovendien bespreekt dit artikel toekomstige richtingen en verkent potentiële vooruitgang in door AI ondersteunde animatie. Voor verdere verkenning en bronnen, bezoek alstublieft ons GitHub-repository: https://github.com/yunlong10/Awesome-AI4Animation
Domein-adaptieve post-training van grote taalmodellen (LLM's) is naar voren gekomen als een veelbelovende benadering voor gespecialiseerde domeinen zoals geneeskunde en financiën. Er blijven echter aanzienlijke uitdagingen bestaan bij het identificeren van optimale aanpassingscriteria en trainingsstrategieën over verschillende gegevens- en modelconfiguraties. Om deze uitdagingen aan te pakken, introduceren we FINDAP, een systematisch en gedetailleerd onderzoek naar domein-adaptieve post-training van LLM's voor het financiële domein. Onze aanpak begint met het identificeren van de kerncapaciteiten die vereist zijn voor het doeldomein en het ontwerpen van een uitgebreide evaluatiesuite die aansluit bij deze behoeften. Vervolgens analyseren we de effectiviteit van belangrijke post-training fasen, waaronder voortdurende voorbereiding, instructie-afstemming en voorkeursuitlijning. Voortbouwend op deze inzichten stellen we een effectief trainingsrecept voor dat gericht is op een nieuwe methode voor het distilleren van voorkeursgegevens, die gebruikmaakt van procesignalen van een generatief beloningsmodel. Het resulterende model, Llama-Fin, behaalt state-of-the-art prestaties over een breed scala aan financiële taken. Onze analyse benadrukt ook hoe elke post-training fase bijdraagt aan onderscheidende capaciteiten, waarbij specifieke uitdagingen en effectieve oplossingen worden blootgelegd, wat waardevolle inzichten biedt voor domeinadaptatie van LLM's. Projectpagina: https://github.com/SalesforceAIResearch/FinDap