Dagelijks geselecteerde AI onderzoekspapers met vertalingen
LLM's en RAG-systemen zijn nu in staat om miljoenen invoertokens of meer te verwerken. Het evalueren van de uitvoerkwaliteit van dergelijke systemen bij taken met lange context blijft echter een uitdaging, aangezien taken zoals 'Needle-in-a-Haystack' gebrek hebben aan complexiteit. In dit werk beargumenteren we dat samenvatting een centrale rol kan spelen bij dergelijke evaluaties. We ontwerpen een procedure om 'Hooibergen' van documenten te synthetiseren, waarbij we ervoor zorgen dat specifieke inzichten zich herhalen over verschillende documenten. De taak 'Samenvatting van een Hooiberg' (SummHay) vereist vervolgens dat een systeem de Hooiberg verwerkt en, gegeven een query, een samenvatting genereert die de relevante inzichten identificeert en de brondocumenten nauwkeurig citeert. Aangezien we precies weten welke inzichten in een samenvatting van een hooiberg zouden moeten voorkomen en welke documenten geciteerd zouden moeten worden, implementeren we een zeer reproduceerbare automatische evaluatie die samenvattingen kan beoordelen op twee aspecten: Dekking en Citatie. We genereren Hooibergen in twee domeinen (gesprekken, nieuws) en voeren een grootschalige evaluatie uit van 10 LLM's en bijbehorende 50 RAG-systemen. Onze bevindingen geven aan dat SummHay een open uitdaging is voor huidige systemen, aangezien zelfs systemen die voorzien zijn van een Oraclesignaal van documentrelevantie onze schatting van menselijke prestaties (56%) met meer dan 10 punten achterblijven op een Gecombineerde Score. Zonder een retriever scoren lange-context LLM's zoals GPT-4o en Claude 3 Opus onder de 20% op SummHay. We laten zien dat SummHay ook gebruikt kan worden om bedrijfs-RAG-systemen en positiebias in lange-context modellen te bestuderen. We hopen dat toekomstige systemen de menselijke prestaties op SummHay kunnen evenaren en overtreffen.
Recente vooruitgang in grote taalmodellen (LLMs) heeft de automatisering van softwareontwikkelingstaken aanzienlijk bevorderd, waaronder codesynthese, programmaherstel en testgeneratie. Meer recentelijk hebben onderzoekers en praktijkmensen in de industrie verschillende autonome LLM-agents ontwikkeld om end-to-end softwareontwikkelingstaken uit te voeren. Deze agents zijn uitgerust met het vermogen om tools te gebruiken, commando's uit te voeren, feedback uit de omgeving te observeren en toekomstige acties te plannen. De complexiteit van deze agent-gebaseerde benaderingen, samen met de beperkte mogelijkheden van huidige LLMs, roept echter de volgende vraag op: Moeten we echt complexe autonome softwareagents inzetten? Om deze vraag te beantwoorden, hebben we Agentless ontwikkeld – een agentloze benadering om softwareontwikkelingsproblemen automatisch op te lossen. In vergelijking met de uitgebreide en complexe opzet van agent-gebaseerde benaderingen, hanteert Agentless een eenvoudig tweefasenproces van lokalisatie gevolgd door herstel, zonder dat het LLM toekomstige acties bepaalt of met complexe tools werkt. Onze resultaten op de populaire SWE-bench Lite-benchmark laten verrassend genoeg zien dat de eenvoudige Agentless zowel de hoogste prestaties (27,33%) als de laagste kosten (\$0,34) kan behalen in vergelijking met alle bestaande open-source softwareagents! Bovendien hebben we de problemen in SWE-bench Lite handmatig geclassificeerd en problemen gevonden met exacte grondwaarde-patches of onvoldoende/misleidende probleembeschrijvingen. Daarom hebben we SWE-bench Lite-S geconstrueerd door dergelijke problematische kwesties uit te sluiten om een strengere evaluatie en vergelijking uit te voeren. Ons werk benadrukt het huidige over het hoofd geziene potentieel van een eenvoudige, interpreteerbare techniek in autonome softwareontwikkeling. We hopen dat Agentless de basislijn, het startpunt en de horizon voor autonome softwareagents zal helpen herdefiniëren en toekomstig werk in deze cruciale richting zal inspireren.
Text-to-video (T2V)-generatie heeft recentelijk aanzienlijke aandacht gekregen dankzij het grote multimodale model Sora. T2V-generatie staat echter nog steeds voor twee belangrijke uitdagingen: 1) Het ontbreekt aan een precies open-source hoogwaardige dataset. De eerder populaire videodatasets, zoals WebVid-10M en Panda-70M, zijn ofwel van lage kwaliteit of te groot voor de meeste onderzoeksinstellingen. Daarom is het uitdagend maar cruciaal om een precieze, hoogwaardige verzameling tekst-video-paren te verzamelen voor T2V-generatie. 2) Het negeren van het volledig benutten van tekstuele informatie. Recente T2V-methoden hebben zich gericht op vision-transformers, waarbij een eenvoudige cross-attention-module wordt gebruikt voor videogeneratie, wat tekortschiet in het grondig extraheren van semantische informatie uit tekstprompts. Om deze problemen aan te pakken, introduceren we OpenVid-1M, een precieze, hoogwaardige dataset met expressieve bijschriften. Deze open-scenario dataset bevat meer dan 1 miljoen tekst-video-paren, wat onderzoek naar T2V-generatie vergemakkelijkt. Bovendien hebben we 433K 1080p-video's uit OpenVid-1M geselecteerd om OpenVidHD-0.4M te creëren, wat de generatie van hoogwaardige video's bevordert. Daarnaast stellen we een nieuwe Multi-modal Video Diffusion Transformer (MVDiT) voor, die zowel structuurinformatie uit visuele tokens als semantische informatie uit teksttokens kan ontginnen. Uitgebreide experimenten en ablatiestudies bevestigen de superioriteit van OpenVid-1M ten opzichte van eerdere datasets en de effectiviteit van onze MVDiT.
De computationele uitdagingen van inferentie met Large Language Models (LLM's) blijven een aanzienlijke belemmering voor hun brede inzet, vooral omdat de lengte van prompts blijft toenemen. Door de kwadratische complexiteit van de aandachtberekening duurt het 30 minuten voor een 8B LLM om een prompt van 1M tokens te verwerken (d.w.z. de pre-filling fase) op een enkele A100 GPU. Bestaande methoden om pre-filling te versnellen slagen er vaak niet in om aanvaardbare nauwkeurigheid of efficiëntie te behouden wanneer ze worden toegepast op LLM's met lange contexten. Om deze kloof te overbruggen, introduceren we MInference (Milliontokens Inference), een sparse berekeningsmethode die is ontworpen om pre-filling van lange sequentieverwerking te versnellen. Specifiek identificeren we drie unieke patronen in aandachtmatrices met lange contexten—het A-vormige, Verticale-Slash en Blok-Sparse patroon—die kunnen worden benut voor efficiënte sparse berekeningen op GPU's. We bepalen het optimale patroon voor elke aandachtskop offline en bouwen dynamisch sparse indices op basis van het toegewezen patroon tijdens de inferentie. Met het patroon en de sparse indices voeren we efficiënte sparse aandachtberekeningen uit via onze geoptimaliseerde GPU-kernels om de latentie in de pre-filling fase van LLM's met lange contexten aanzienlijk te verminderen. Onze voorgestelde techniek kan direct worden toegepast op bestaande LLM's zonder wijzigingen aan de pre-trainingsopzet of aanvullende fine-tuning. Door evaluatie op een breed scala aan downstream taken, waaronder InfiniteBench, RULER, PG-19 en Needle In A Haystack, en modellen zoals LLaMA-3-1M, GLM4-1M, Yi-200K, Phi-3-128K en Qwen2-128K, tonen we aan dat MInference de inferentielatentie voor pre-filling op een A100 effectief met tot wel 10x vermindert, terwijl de nauwkeurigheid behouden blijft. Onze code is beschikbaar op https://aka.ms/MInference.
Voorkeursafstemming is een cruciaal onderdeel geworden bij het verbeteren van de prestaties van Large Language Models (LLMs), maar de impact ervan in Multimodale Large Language Models (MLLMs) is nog relatief onderbelicht. Net als bij taalmmodellen, ondervinden MLLMs voor beeldbegriptaken uitdagingen zoals hallucinatie. In MLLMs kan hallucinatie niet alleen optreden door het vermelden van onjuiste feiten, maar ook door het produceren van reacties die inconsistent zijn met de beeldinhoud. Een primair doel van afstemming voor MLLMs is om deze modellen aan te moedigen reacties nauwer te laten aansluiten bij de beeldinformatie. Recentelijk hebben meerdere werken voorkeursdatasets voor MLLMs geïntroduceerd en verschillende afstemmingsmethoden onderzocht, waaronder Direct Preference Optimization (DPO) en Proximal Policy Optimization (PPO). Echter, vanwege variaties in datasets, basismodeltypen en afstemmingsmethoden, blijft het onduidelijk welke specifieke elementen het meest bijdragen aan de gerapporteerde verbeteringen in deze werken. In dit artikel analyseren we onafhankelijk elk aspect van voorkeursafstemming in MLLMs. We beginnen met het categoriseren van de afstemmingsalgoritmen in twee groepen, offline (zoals DPO) en online (zoals online-DPO), en laten zien dat het combineren van offline en online methoden de prestaties van het model in bepaalde scenario's kan verbeteren. We bespreken een verscheidenheid aan gepubliceerde multimodale voorkeursdatasets en bespreken hoe de details van hun constructie de modelprestaties beïnvloeden. Op basis van deze inzichten introduceren we een nieuwe manier om multimodale voorkeursdata te creëren, genaamd Bias-Driven Hallucination Sampling (BDHS), die noch aanvullende annotatie noch externe modellen nodig heeft, en laten zien dat het competitieve prestaties kan bereiken in vergelijking met eerder gepubliceerde afstemmingswerkzaamheden voor multimodale modellen over een reeks benchmarks.
We presenteren Magic Insert, een methode voor het slepen-en-neerzetten van onderwerpen uit een door de gebruiker aangeleverde afbeelding in een doelafbeelding met een andere stijl, op een fysiek plausibele manier terwijl de stijl van de doelafbeelding wordt nagebootst. Dit werk formaliseert het probleem van stijlbewust slepen-en-neerzetten en presenteert een methode om dit aan te pakken door twee subproblemen te behandelen: stijlbewuste personalisatie en realistische objectinvoeging in gestileerde afbeeldingen. Voor stijlbewuste personalisatie fine-tunt onze methode eerst een vooraf getraind tekst-naar-afbeelding diffusiemodel met behulp van LoRA en geleerde teksttokens op de onderwerpafbeelding, en infuseert het vervolgens met een CLIP-representatie van de doelstijl. Voor objectinvoeging gebruiken we Bootstrapped Domain Adaption om een domeinspecifiek fotorealistisch objectinvoegingsmodel aan te passen aan het domein van diverse artistieke stijlen. Over het algemeen presteert de methode aanzienlijk beter dan traditionele benaderingen zoals inpainting. Tot slot presenteren we een dataset, SubjectPlop, om evaluatie en toekomstige vooruitgang op dit gebied te faciliteren. Projectpagina: https://magicinsert.github.io/
Grote Taalmodellen (LLMs) die getraind zijn op uitgebreide corpora behouden onvermijdelijk gevoelige gegevens, zoals persoonlijke privacyinformatie en auteursrechtelijk beschermd materiaal. Recente vooruitgang in kennisverwijdering omvat het bijwerken van LLM-parameters om specifieke kennis te wissen. Huidige paradigma's voor kennisverwijdering kampen echter met vage grenzen voor vergeten, waarbij vaak kennis ongericht wordt gewist. In dit werk introduceren we KnowUnDo, een benchmark die auteursrechtelijk beschermde inhoud en gebruikersprivacydomeinen bevat om te evalueren of het verwijderingsproces onbedoeld essentiële kennis wist. Onze bevindingen geven aan dat bestaande verwijderingsmethoden vaak lijden onder overmatig wissen. Om dit aan te pakken, stellen we een eenvoudige maar effectieve methode voor, MemFlex, die gebruikmaakt van gradientinformatie om gevoelige parameters precies te targeten en te verwijderen. Experimentele resultaten tonen aan dat MemFlex superieur is aan bestaande methoden in zowel precieze kennisverwijdering als het behouden van algemene kennis in LLMs. Code en dataset zullen worden vrijgegeven op https://github.com/zjunlp/KnowUnDo.
Flow matching (FM) is een algemeen raamwerk voor het definiëren van waarschijnlijkheidspaden via Gewone Differentiaalvergelijkingen (ODE's) om transformaties tussen ruis- en datamonsters te realiseren. Recente benaderingen proberen deze stroomtrajecten te rechtlijnen om hoogwaardige monsters te genereren met minder functie-evaluaties, meestal via iteratieve rectificatiemethoden of optimale transportoplossingen. In dit artikel introduceren we Consistency Flow Matching (Consistency-FM), een nieuwe FM-methode die expliciet zelfconsistentie in het snelheidsveld afdwingt. Consistency-FM definieert rechtstreeks rechte stromen die vanaf verschillende tijdstippen naar hetzelfde eindpunt lopen, waarbij beperkingen worden opgelegd aan hun snelheidswaarden. Daarnaast stellen we een multi-segment trainingsaanpak voor Consistency-FM voor om de expressiviteit te vergroten, waardoor een betere balans tussen monstergeneratiekwaliteit en snelheid wordt bereikt. Voorlopige experimenten tonen aan dat onze Consistency-FM de trainingsefficiëntie aanzienlijk verbetert door 4,4x sneller te convergeren dan consistentiemodellen en 1,7x sneller dan gecorrigeerde stroommodellen, terwijl een betere generatiekwaliteit wordt bereikt. Onze code is beschikbaar op: https://github.com/YangLing0818/consistency_flow_matching
Het blootleggen van latente waarden en meningen in grote taalmodellen (LLMs) kan helpen om vooroordelen te identificeren en mogelijke schade te beperken. Recentelijk is dit benaderd door LLMs enquêtevragen voor te leggen en hun standpunten ten opzichte van moreel en politiek geladen uitspraken te kwantificeren. Echter kunnen de standpunten die door LLMs worden gegenereerd sterk variëren afhankelijk van hoe ze worden geprompt, en er zijn vele manieren om voor of tegen een bepaalde positie te argumenteren. In dit werk stellen we voor om dit aan te pakken door een grote en robuuste dataset van 156k LLM-reacties op de 62 stellingen van de Political Compass Test (PCT) te analyseren, gegenereerd door 6 LLMs met behulp van 420 promptvariaties. We voeren een grofkorrelige analyse uit van hun gegenereerde standpunten en een fijnkorrelige analyse van de tekstuele rechtvaardigingen voor die standpunten. Voor de fijnkorrelige analyse stellen we voor om tropen in de reacties te identificeren: semantisch vergelijkbare zinnen die terugkerend en consistent zijn over verschillende prompts, wat patronen in de tekst onthult die een bepaald LLM geneigd is te produceren. We constateren dat demografische kenmerken die aan prompts worden toegevoegd de uitkomsten op de PCT significant beïnvloeden, wat vooroordelen weerspiegelt, evenals verschillen tussen de resultaten van tests bij het oproepen van gesloten versus open domeinreacties. Daarnaast tonen patronen in de tekstuele rechtvaardigingen via tropen aan dat vergelijkbare rechtvaardigingen herhaaldelijk worden gegenereerd over modellen en prompts heen, zelfs bij uiteenlopende standpunten.
Recente vooruitgang in diffusiegebaseerde videogeneratie heeft opmerkelijke resultaten laten zien, maar de kloof tussen synthetische en real-world video's blijft onderbelicht. In deze studie onderzoeken we deze kloof vanuit drie fundamentele perspectieven: uiterlijk, beweging en geometrie, waarbij we real-world video's vergelijken met video's die gegenereerd zijn door een state-of-the-art AI-model, Stable Video Diffusion. Om dit te bereiken, trainen we drie classificatoren met behulp van 3D-convolutionele netwerken, elk gericht op verschillende aspecten: vision foundation model features voor uiterlijk, optische stroom voor beweging en monoculaire diepte voor geometrie. Elke classificator vertoont sterke prestaties in het detecteren van nepvideo's, zowel kwalitatief als kwantitatief. Dit geeft aan dat AI-gegenereerde video's nog steeds gemakkelijk te detecteren zijn en dat er een aanzienlijke kloof blijft bestaan tussen echte en nepvideo's. Bovendien gebruiken we Grad-CAM om systematische fouten in AI-gegenereerde video's op het gebied van uiterlijk, beweging en geometrie te identificeren. Ten slotte stellen we een Ensemble-of-Experts model voor dat informatie over uiterlijk, optische stroom en diepte integreert voor de detectie van nepvideo's, wat resulteert in verbeterde robuustheid en generalisatievermogen. Ons model is in staat om video's die gegenereerd zijn door Sora met hoge nauwkeurigheid te detecteren, zelfs zonder blootstelling aan enige Sora-video's tijdens de training. Dit suggereert dat de kloof tussen echte en nepvideo's gegeneraliseerd kan worden over verschillende videogeneratieve modellen. Projectpagina: https://justin-crchang.github.io/3DCNNDetection.github.io/
We bestuderen Neural Foley, de automatische generatie van hoogwaardige geluidseffecten die gesynchroniseerd zijn met video's, waardoor een meeslepende audiovisuele ervaring mogelijk wordt. Ondanks de brede toepassingsmogelijkheden, kampen bestaande benaderingen met beperkingen wanneer het gaat om het gelijktijdig synthetiseren van hoogwaardige en video-uitgelijnde (d.w.z. semantisch relevante en temporeel gesynchroniseerde) geluiden. Om deze beperkingen te overwinnen, stellen we FoleyCrafter voor, een nieuw framework dat gebruikmaakt van een vooraf getraind tekst-naar-audio-model om hoogwaardige audiogeneratie te garanderen. FoleyCrafter bestaat uit twee belangrijke componenten: de semantische adapter voor semantische uitlijning en de temporele controller voor precieze audio-video-synchronisatie. De semantische adapter maakt gebruik van parallelle cross-attention-lagen om audiogeneratie te conditioneren op videokenmerken, waardoor realistische geluidseffecten worden geproduceerd die semantisch relevant zijn voor de visuele inhoud. Tegelijkertijd incorporeert de temporele controller een onset-detector en een timestamp-gebaseerde adapter om precieze audio-video-uitlijning te bereiken. Een opmerkelijk voordeel van FoleyCrafter is de compatibiliteit met tekstprompts, waardoor het gebruik van tekstbeschrijvingen mogelijk wordt om controleerbare en diverse video-naar-audio-generatie te bereiken volgens de intenties van de gebruiker. We voeren uitgebreide kwantitatieve en kwalitatieve experimenten uit op standaardbenchmarks om de effectiviteit van FoleyCrafter te verifiëren. Modellen en code zijn beschikbaar op https://github.com/open-mmlab/FoleyCrafter.
Recente vooruitgang in microscopie heeft de snelle generatie van terabytes aan beeldgegevens in celbiologie en biomedisch onderzoek mogelijk gemaakt. Vision-language models (VLMs) bieden een veelbelovende oplossing voor grootschalige biologische beeldanalyse, waardoor de efficiëntie van onderzoekers wordt verbeterd, nieuwe beeldbiomarkers worden geïdentificeerd, en de hypothesegeneratie en wetenschappelijke ontdekking worden versneld. Er is echter een gebrek aan gestandaardiseerde, diverse en grootschalige vision-language benchmarks om de perceptie- en cognitiecapaciteiten van VLMs in het begrijpen van biologische beelden te evalueren. Om deze kloof te dichten, introduceren we {\mu}-Bench, een door experts samengestelde benchmark die 22 biomedische taken omvat binnen verschillende wetenschappelijke disciplines (biologie, pathologie), microscopie-modaliteiten (elektronen, fluorescentie, licht), schalen (subcellulair, cellulair, weefsel), en organismen in zowel normale als abnormale toestanden. We evalueren state-of-the-art biomedische, pathologie- en algemene VLMs op {\mu}-Bench en constateren dat: i) huidige modellen moeite hebben met alle categorieën, zelfs voor basistaken zoals het onderscheiden van microscopie-modaliteiten; ii) huidige specialistische modellen die zijn afgestemd op biomedische gegevens vaak slechter presteren dan algemene modellen; iii) afstemming in specifieke microscopiedomeinen kan leiden tot catastrofale vergetelheid, waardoor eerder gecodeerde biomedische kennis in hun basismodel wordt uitgehold; iv) gewichtsinterpolatie tussen afgestemde en vooraf getrainde modellen biedt een oplossing voor vergetelheid en verbetert de algemene prestaties over biomedische taken. We geven {\mu}-Bench vrij onder een permissieve licentie om het onderzoek en de ontwikkeling van microscopie foundation models te versnellen.