Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Methoden van computationele kwantumchemie bieden nauwkeurige benaderingen van moleculaire eigenschappen die cruciaal zijn voor computerondersteunde geneesmiddelenontdekking en andere gebieden van de chemische wetenschap. De hoge computationele complexiteit beperkt echter de schaalbaarheid van hun toepassingen. Neurale netwerkpotentialen (NNPs) vormen een veelbelovend alternatief voor kwantumchemische methoden, maar vereisen grote en diverse datasets voor training. Dit werk presenteert een nieuwe dataset en benchmark genaamd nabla^2DFT, gebaseerd op nablaDFT. Het bevat twee keer zoveel moleculaire structuren, drie keer meer conformaties, nieuwe datatypen en taken, en state-of-the-art modellen. De dataset omvat energieën, krachten, 17 moleculaire eigenschappen, Hamiltoniaanse en overlapmatrices, en een golffunctie-object. Alle berekeningen werden uitgevoerd op DFT-niveau (omegaB97X-D/def2-SVP) voor elke conformatie. Bovendien is nabla^2DFT de eerste dataset die relaxatietrajecten bevat voor een aanzienlijk aantal geneesmiddelachtige moleculen. We introduceren ook een nieuwe benchmark voor het evalueren van NNPs in taken zoals moleculaire eigenschapsvoorspelling, Hamiltoniaanse voorspelling en conformationele optimalisatie. Tot slot stellen we een uitbreidbaar framework voor voor het trainen van NNPs en implementeren we 10 modellen binnen dit framework.
Onbewaakt multitask-pre-training is de cruciale methode geweest achter het recente succes van taalmodelen (LMs). Toch blijft bewaakt multitask-leren aanzienlijke belofte houden, aangezien het opschalen ervan in de post-trainingsfase neigt naar betere generalisatie. In dit artikel onderzoeken we bewaakt multitask-pre-training door Instruction Pre-Training voor te stellen, een raamwerk dat op schaalbare wijze enorme ruwe corpora verrijkt met instructie-responsparen om LMs voor te trainen. De instructie-responsparen worden gegenereerd door een efficiënte instructiesynthesizer die is gebouwd op open-source modellen. In onze experimenten synthetiseren we 200M instructie-responsparen die meer dan 40 taakcategorieën beslaan om de effectiviteit van Instruction Pre-Training te verifiëren. Bij pre-training vanaf nul verbetert Instruction Pre-Training niet alleen consistent de voorgetrainde basismodellen, maar profiteert het ook meer van verdere instructieafstemming. Bij voortgezette pre-training stelt Instruction Pre-Training Llama3-8B in staat om vergelijkbaar te zijn met of zelfs Llama3-70B te overtreffen. Ons model, code en data zijn beschikbaar op https://github.com/microsoft/LMOps.
De taak van het manipuleren van attributen van echte afbeeldingen via StyleGAN-inversie is uitgebreid onderzocht. Dit proces omvat het zoeken naar latente variabelen van een goed getrainde StyleGAN-generator die een echte afbeelding kunnen synthetiseren, het aanpassen van deze latente variabelen, en vervolgens het synthetiseren van een afbeelding met de gewenste aanpassingen. Er moet een balans worden gevonden tussen de kwaliteit van de reconstructie en de mogelijkheid om aanpassingen te maken. Eerdere studies maakten gebruik van de laagdimensionale W-ruimte voor het zoeken naar latente variabelen, wat effectieve aanpassingen mogelijk maakte maar moeite had met het reconstrueren van ingewikkelde details. Recenter onderzoek is uitgeweken naar de hoogdimensionale kenmerkruimte F, die de invoerafbeelding succesvol inverseert maar veel details verliest tijdens het aanpassen. In dit artikel introduceren we StyleFeatureEditor -- een nieuwe methode die aanpassingen mogelijk maakt in zowel w-latente als F-latente variabelen. Deze techniek maakt niet alleen de reconstructie van fijnere afbeeldingsdetails mogelijk, maar zorgt er ook voor dat deze behouden blijven tijdens het aanpassen. We presenteren ook een nieuwe trainingspipeline die specifiek is ontworpen om ons model te trainen om F-latente variabelen nauwkeurig aan te passen. Onze methode wordt vergeleken met state-of-the-art encoderingsbenaderingen, wat aantoont dat ons model uitblinkt in termen van reconstructiekwaliteit en in staat is om zelfs uitdagende voorbeelden buiten het domein aan te passen. Code is beschikbaar op https://github.com/AIRI-Institute/StyleFeatureEditor.
Menselijke voorkennis speelt een cruciale rol bij het efficiënt benutten van data in deep learning. Met de ontwikkeling van grote taalmmodellen (LLMs) is er echter een toenemende nadruk op het opschalen van zowel de modelgrootte als de datavolume, wat vaak het belang van menselijke voorkennis bij dataconstructie vermindert. Onder invloed van deze trends vertrouwen bestaande Kleine Taalmodellen (SLMs) voornamelijk op grootschalige trainingsdata die van het web zijn geschraapt, waarbij de juiste integratie van menselijke voorkennis wordt verwaarloosd. Deze omissie beperkt de trainings efficiëntie van taalmmodellen in omgevingen met beperkte middelen. In dit artikel stellen we een principe voor om menselijke voorkennis te benutten voor dataconstructie. Dit principe benadrukt het bereiken van hoogwaardige SLMs door te trainen op een beknopte dataset die zowel semantische diversiteit als consistentie in data kwaliteit omvat, terwijl het lekken van benchmarkdata wordt vermeden. Volgens dit principe trainen we een SLM genaamd HARE-1.1B. Uitgebreide experimenten op grootschalige benchmarkdatasets tonen aan dat HARE-1.1B gunstig presteert in vergelijking met state-of-the-art SLMs, wat de effectiviteit van het voorgestelde principe bevestigt. Daarnaast biedt dit nieuwe inzichten in efficiënte training van taalmmodellen in omgevingen met beperkte middelen vanuit het perspectief van menselijke voorkennis.
Vision Language Models (VLMs) tonen een opmerkelijke vaardigheid in het aanpakken van een breed scala aan visuele vragen, wat sterke perceptie- en redeneervaardigheden vereist. Het onafhankelijk beoordelen van deze twee competenties is cruciaal voor modelverfijning, ondanks de inherente moeilijkheid vanwege de verweven aard van zien en redeneren in bestaande VLMs. Om dit probleem aan te pakken, presenteren we Prism, een innovatief framework ontworpen om de perceptie- en redeneerprocessen bij het oplossen van visuele vragen te ontwarren. Prism bestaat uit twee afzonderlijke fasen: een perceptiefase die een VLM gebruikt om visuele informatie te extraheren en in tekstuele vorm te articuleren, en een redeneerfase die antwoorden formuleert op basis van de geëxtraheerde visuele informatie met behulp van een Large Language Model (LLM). Deze modulaire ontwerp maakt het mogelijk om zowel propriëtaire als open-source VLMs systematisch te vergelijken en te beoordelen op hun perceptie- en redeneerkracht. Ons analytische framework biedt verschillende waardevolle inzichten, die het potentieel van Prism als een kosteneffectieve oplossing voor visueel-taaltaken onderstrepen. Door een gestroomlijnde VLM gericht op perceptie te combineren met een krachtige LLM afgestemd op redeneren, behaalt Prism superieure resultaten in algemene visueel-taaltaken terwijl de trainings- en operationele kosten aanzienlijk worden verlaagd. Kwantitatieve evaluaties tonen aan dat Prism, wanneer geconfigureerd met een standaard 2B LLaVA en vrij toegankelijke GPT-3.5, prestaties levert die vergelijkbaar zijn met VLMs die 10 keer groter zijn op de rigoureuze multimodale benchmark MMStar. Het project is vrijgegeven op: https://github.com/SparksJoe/Prism.
De opkomst van grote visie-taalmodellen (LVLMs) heeft onderzoek gestimuleerd naar hun toepassingen in multimodale contexten, met name op het gebied van videobegrip. Traditionele VideoQA-benchmarks, hoewel ze kwantitatieve metriek bieden, slagen er vaak niet in het volledige spectrum van video-inhoud te omvatten en beoordelen de temporele begripsvaardigheden van modellen onvoldoende. Om deze beperkingen aan te pakken, introduceren we MMBench-Video, een kwantitatieve benchmark die ontworpen is om de vaardigheid van LVLMs in videobegrip rigoureus te evalueren. MMBench-Video omvat lange video's van YouTube en maakt gebruik van open vragen, wat praktische use cases weerspiegelt. De benchmark is zorgvuldig opgesteld om de temporele redeneervaardigheden van modellen te testen, waarbij alle vragen door mensen zijn geannoteerd volgens een zorgvuldig opgestelde vaardigheidstaxonomie. We gebruiken GPT-4 voor geautomatiseerde beoordeling, wat een superieure nauwkeurigheid en robuustheid laat zien in vergelijking met eerdere LLM-gebaseerde evaluaties. Met behulp van MMBench-Video hebben we uitgebreide evaluaties uitgevoerd die zowel propriëtaire als open-source LVLMs voor afbeeldingen en video's omvatten. MMBench-Video vormt een waardevolle bron voor de onderzoeksgemeenschap, die een verbeterde evaluatie van LVLMs mogelijk maakt en vooruitgang in het veld van videobegrip stimuleert. De evaluatiecode van MMBench-Video zal worden geïntegreerd in VLMEvalKit: https://github.com/open-compass/VLMEvalKit.
Het samenvoegen van grote taalmodellen (LLMs) is een kosteneffectieve techniek om meerdere gespecialiseerde LLMs te combineren tot één veelzijdig model, waarbij de expertise van de originele modellen behouden blijft. Huidige benaderingen negeren echter vaak het belang van veiligheidsuitlijning tijdens het samenvoegen, wat leidt tot sterk verkeerd uitgelijnde modellen. Dit onderzoek bestudeert de effecten van modelsamenvoeging op uitlijning. We evalueren verschillende populaire technieken voor modelsamenvoeging en tonen aan dat bestaande methoden niet alleen domeinexpertise overdragen, maar ook verkeerde uitlijning doorgeven. We stellen een eenvoudige tweestapsaanpak voor om dit probleem aan te pakken: (i) het genereren van synthetische veiligheids- en domeinspecifieke data, en (ii) het integreren van deze gegenereerde data in het optimalisatieproces van bestaande data-afhankelijke modelsamenvoegingstechnieken. Hierdoor kunnen we uitlijning behandelen als een vaardigheid die gemaximaliseerd kan worden in het resulterende samengevoegde LLM. Onze experimenten illustreren de effectiviteit van het integreren van uitlijninggerelateerde data tijdens het samenvoegen, wat resulteert in modellen die uitblinken in zowel domeinexpertise als uitlijning.
Wanneer ze worden geconfronteerd met vragen die visueel denken vereisen, schakelen mensen van nature tussen redeneermodi, waarbij ze vaak mentale beelden vormen of visuele hulpmiddelen tekenen. Grote taalmodelmodellen hebben veelbelovende resultaten getoond bij rekenkundig en symbolisch redeneren door tussenliggende redeneringen in tekst uit te drukken als een keten van gedachten, maar hebben moeite om deze vaardigheid uit te breiden naar tekstuele vragen die eenvoudig op te lossen zijn door visueel redeneren, zelfs met uitgebreide multimodale voorafgaande training. We introduceren een eenvoudige methode, genaamd whiteboard-of-thought prompting, om de visuele redeneervaardigheden van multimodale grote taalmodelmodellen over verschillende modaliteiten heen te ontgrendelen. Whiteboard-of-thought prompting biedt multimodale grote taalmodelmodellen een metaforisch 'whiteboard' om redeneerstappen als afbeeldingen uit te tekenen, en geeft deze afbeeldingen vervolgens terug aan het model voor verdere verwerking. We ontdekken dat dit kan worden bereikt zonder demonstraties of gespecialiseerde modules, maar door gebruik te maken van de bestaande mogelijkheden van modellen om code te schrijven met bibliotheken zoals Matplotlib en Turtle. Deze eenvoudige aanpak toont state-of-the-art resultaten op vier moeilijke natuurlijke taal taken die visueel en ruimtelijk redeneren vereisen. We identificeren meerdere situaties waarin GPT-4o met behulp van chain-of-thought dramatisch faalt, waaronder meer dan één situatie waarin het een nauwkeurigheid van 0% bereikt, terwijl whiteboard-of-thought in dezelfde situaties een nauwkeurigheid van tot wel 92% mogelijk maakt. We presenteren een gedetailleerde verkenning van waar de techniek slaagt, evenals de bronnen van fouten.
Diffusiedistillatie vertegenwoordigt een zeer veelbelovende richting voor het bereiken van getrouwe tekst-naar-beeldgeneratie in slechts enkele samplingstappen. Ondanks recente successen bieden bestaande gedistilleerde modellen echter nog steeds niet het volledige spectrum van diffusiecapaciteiten, zoals echte beeldinversie, wat veel precieze beeldmanipulatiemethoden mogelijk maakt. Dit werk heeft als doel om gedistilleerde tekst-naar-beeld diffusiemodellen te verrijken met de mogelijkheid om effectief echte afbeeldingen in hun latente ruimte te coderen. Hiertoe introduceren we omkeerbare Consistentie Distillatie (iCD), een gegeneraliseerd consistentiedistillatiekader dat zowel hoogwaardige beeldgeneratie als nauwkeurige beeldcodering mogelijk maakt in slechts 3-4 inferentiestappen. Hoewel het inversieprobleem voor tekst-naar-beeld diffusiemodellen wordt verergerd door hoge classifier-free guidance-schalen, merken we op dat dynamische guidance reconstructiefouten aanzienlijk vermindert zonder merkbare verslechtering in de generatieprestaties. Als resultaat tonen we aan dat iCD, uitgerust met dynamische guidance, kan dienen als een zeer effectief hulpmiddel voor zero-shot tekstgestuurde beeldbewerking, en kan concurreren met duurdere state-of-the-art alternatieven.
Informatie-extractietaken vereisen zowel nauwkeurige, efficiënte als generaliseerbare modellen. Klassieke, begeleide deep learning-benaderingen kunnen de vereiste prestaties leveren, maar ze hebben grote datasets nodig en zijn beperkt in hun vermogen om zich aan te passen aan verschillende taken. Aan de andere kant tonen grote taalmmodellen (LLMs) goede generalisatie, wat betekent dat ze zich kunnen aanpassen aan veel verschillende taken op basis van gebruikersverzoeken. LLMs zijn echter rekenkundig duur en hebben de neiging om gestructureerde outputs niet goed te genereren. In dit artikel introduceren we een nieuw soort GLiNER-model dat kan worden gebruikt voor diverse informatie-extractietaken, terwijl het een klein encodermodel blijft. Ons model behaalde state-of-the-art prestaties op zero-shot NER-benchmarks en leidende prestaties op vraag-antwoord-, samenvattings- en relatie-extractietaken. Daarnaast zullen we in dit artikel experimentele resultaten bespreken over zelflerende benaderingen voor named entity recognition met behulp van GLiNER-modellen.
Recente vooruitgang in Grote Multimodale Modellen (LMMs) heeft gebruikgemaakt van uitgebreide multimodale datasets om de mogelijkheden in complexe kennisgedreven taken te verbeteren. Aanhoudende uitdagingen op het gebied van perceptuele en redeneerfouten beperken echter hun effectiviteit, met name bij het interpreteren van ingewikkelde visuele gegevens en het afleiden van multimodale relaties. Om deze problemen aan te pakken, introduceren we een nieuw datasetformaat, PIN (Gekoppelde en INterleaved multimodale documenten), dat is ontworpen om zowel de diepte als de breedte van multimodale training aanzienlijk te verbeteren. Het PIN-formaat is gebaseerd op drie fundamentele principes: kennisintensiteit, schaalbaarheid en ondersteuning voor diverse trainingsmodaliteiten. Dit innovatieve formaat combineert markdown-bestanden en uitgebreide afbeeldingen om de trainingsdata te verrijken met een dichte kennisstructuur en veelzijdige trainingsstrategieën. We presenteren PIN-14M, een open-source dataset bestaande uit 14 miljoen samples afkomstig uit een diverse reeks Chinese en Engelse bronnen, afgestemd op het opnemen van complexe web- en wetenschappelijke inhoud. Deze dataset is zorgvuldig opgebouwd om de kwaliteit van de gegevens en ethische integriteit te waarborgen, met als doel geavanceerde trainingsstrategieën te faciliteren en de robuustheid van modellen tegen veelvoorkomende multimodale trainingsvalkuilen te verbeteren. Onze eerste resultaten, die de basis vormen van dit technische rapport, suggereren aanzienlijk potentieel voor het PIN-formaat in het verfijnen van LMM-prestaties, met plannen voor toekomstige uitbreidingen en gedetailleerde evaluaties van de impact op modelmogelijkheden.
Trainingscorpora voor vision-language-modellen (VLMs) bevatten doorgaans onvoldoende hoeveelheden beslissingsgerichte data. Dit maakt standaard VLMs suboptimaal voor besluitvormingstaken, zoals het besturen van apparaten in de praktijk via grafische gebruikersinterfaces (GUI's). Hoewel training met statische demonstraties enige belofte heeft getoond, laten we zien dat dergelijke methoden tekortschieten voor het besturen van echte GUI's vanwege hun onvermogen om om te gaan met real-world stochastiek en non-stationariteit die niet worden vastgelegd in statische observatiedata. Dit artikel introduceert een nieuwe autonome RL-benadering, genaamd DigiRL, voor het trainen van agents voor het besturen van apparaten in de praktijk door middel van fine-tuning van een vooraf getraind VLM in twee fasen: offline RL om het model te initialiseren, gevolgd door offline-naar-online RL. Hiervoor bouwen we een schaalbare en paralleliseerbare Android-leeromgeving uitgerust met een VLM-gebaseerde evaluator en ontwikkelen we een eenvoudige maar effectieve RL-benadering voor leren in dit domein. Onze benadering voert advantage-weighted RL uit met advantage-schatters die zijn versterkt om rekening te houden met stochastiek, samen met een automatisch curriculum voor het afleiden van maximaal leersignaal. We demonstreren de effectiviteit van DigiRL met behulp van de Android-in-the-Wild (AitW) dataset, waar ons 1,3B VLM getraind met RL een absolute verbetering van 49,5% behaalt -- van 17,7 naar 67,2% slagingspercentage -- ten opzichte van supervised fine-tuning met statische menselijke demonstratiedata. Deze resultaten overtreffen niet alleen de beste eerdere agents, waaronder AppAgent met GPT-4V (8,3% slagingspercentage) en de 17B CogAgent getraind met AitW-data (38,5%), maar ook de beste eerdere autonome RL-benadering gebaseerd op gefilterde behavior cloning (57,8%), waarmee een nieuwe state-of-the-art wordt gevestigd voor digitale agents voor het besturen van apparaten in de praktijk.
Een kerncapaciteit van grote taalmodellen (LLMs) is het volgen van natuurlijke taal instructies. Het probleem van het automatisch construeren van hoogwaardige trainingsdata om de complexe instructievolgcapaciteiten van LLMs te verbeteren zonder handmatige annotatie blijft echter onopgelost. In dit artikel introduceren we AutoIF, de eerste schaalbare en betrouwbare methode voor het automatisch genereren van instructievolg-trainingsdata. AutoIF transformeert de validatie van de kwaliteit van instructievolgdata in codeverificatie, waarbij LLMs instructies moeten genereren, de bijbehorende code om de correctheid van de instructieresponsen te controleren, en unit testvoorbeelden om de correctheid van de code te verifiëren. Vervolgens kan uitvoeringsfeedback-gebaseerde afkeuringssteekproef data genereren voor Supervised Fine-Tuning (SFT) en Reinforcement Learning from Human Feedback (RLHF) training. AutoIF behaalt significante verbeteringen over drie trainingsalgoritmen, SFT, Offline DPO en Online DPO, wanneer toegepast op de top open-source LLMs, Qwen2 en LLaMA3, in zelfalignatie en strong-to-weak distillatie-instellingen. Onze code is publiekelijk beschikbaar op https://github.com/QwenLM/AutoIF.
In dit artikel introduceren we een nieuw low-latency inferentiekader voor grote taalmodelinferentie (LLMs) dat LLMs in staat stelt inferenties uit te voeren met onvolledige prompts. Door rekenprocessen te herverdelen naar de promptinvoerfase, bereiken we een aanzienlijke vermindering van de latentie, waardoor de interactieve ervaring voor gebruikers van LLMs aanzienlijk wordt verbeterd. Het kader beheert op bekwame wijze de zichtbaarheid van de streaming prompt voor het model, waardoor het kan afleiden uit onvolledige prompts of kan wachten op aanvullende prompts. In vergelijking met traditionele inferentiemethoden die gebruikmaken van volledige prompts, toont onze aanpak een gemiddelde vermindering van 59% in responslatentie op de MMLU-Pro dataset, terwijl een vergelijkbare nauwkeurigheid wordt behouden. Daarnaast vergemakkelijkt ons kader collaboratieve inferentie en output over verschillende modellen. Door een LLM te gebruiken voor inferentie en een klein taalmodel (SLM) voor output, bereiken we een gemiddelde vermindering van 68% in responslatentie, naast een verbetering van 5,5% in nauwkeurigheid op de MMLU-Pro dataset in vergelijking met de SLM-basislijn. Voor lange prompts van meer dan 20 zinnen kan de responslatentie met maximaal 93% worden verminderd.
Common sense redeneren is fundamenteel gebaseerd op multimodale kennis. Echter, bestaande grote taalmodellen (LLMs) worden voornamelijk getraind met alleen tekstuele data, wat hun vermogen beperkt om essentiële visuele informatie te integreren. Daarentegen falen visuele taalmodellen, die uitblinken in visueel georiënteerde taken, vaak bij niet-visuele taken zoals basis common sense redeneren. Deze divergentie benadrukt een kritieke uitdaging - de integratie van robuust visueel begrip met fundamenteel tekstgebaseerd taalredeneren. Hiertoe introduceren we een methode gericht op het verbeteren van het visuele common sense van LLMs. Specifiek genereert onze methode meerdere afbeeldingen op basis van de ingevoerde tekstprompt en integreert deze in het besluitvormingsproces van het model door hun voorspellingskansen te combineren. Om multimodaal verankerd taalmodelleren te faciliteren, gebruiken we een late-fusielaag die de geprojecteerde visuele kenmerken combineert met de uitvoer van een vooraf getraind LLM dat alleen op tekst is gebaseerd. Deze late-fusielaag maakt voorspellingen mogelijk op basis van uitgebreide beeld-tekstkennis, evenals alleen tekst wanneer dit nodig is. We evalueren onze aanpak met behulp van verschillende visuele common sense redeneertaken samen met traditionele NLP-taken, waaronder common sense redeneren en leesbegrip. Onze experimentele resultaten tonen een significante superioriteit ten opzichte van bestaande baseline-modellen. Wanneer toegepast op recente state-of-the-art LLMs (bijv. Llama3), observeren we verbeteringen niet alleen in visueel common sense, maar ook in traditionele NLP-benchmarks. Code en modellen zijn beschikbaar op https://github.com/guyyariv/vLMIG.
Direct Preference Optimization (DPO), een standaardmethode voor het afstemmen van taalmodelen op menselijke voorkeuren, wordt traditioneel toegepast op offline voorkeuren. Recente studies tonen aan dat DPO baat heeft bij iteratieve training met online voorkeuren die zijn gelabeld door een getraind beloningsmodel. In dit werk identificeren we een valkuil van standaard iteratieve DPO: een verbeterde responskwaliteit kan leiden tot meer uitgebreidheid. Om dit aan te pakken, introduceren we iteratieve lengte-gereguleerde DPO (iLR-DPO) om de responslengte te bestraffen. Onze empirische resultaten laten zien dat iLR-DPO een 7B-model kan verbeteren om op hetzelfde niveau te presteren als GPT-4 zonder de uitgebreidheid te vergroten. Specifiek behaalt ons 7B-model een lengte-gecontroleerde winratio van 50,5% tegenover GPT-4 Preview op AlpacaEval 2.0, en presteert het uitstekend op standaardbenchmarks zoals MT-Bench, Arena-Hard en de OpenLLM Leaderboard. Deze resultaten demonstreren de effectiviteit van iteratieve DPO bij het afstemmen van taalmodelen op menselijke feedback.
Het vermogen van CodeLLMs om uitvoerbare en functioneel correcte code te genereren op het niveau van een repository is grotendeels onontgonnen gebied. Wij introduceren RepoExec, een nieuwe benchmark voor het evalueren van codegeneratie op repositoryniveau. RepoExec richt zich op drie hoofdaspecten: uitvoerbaarheid, functionele correctheid door middel van geautomatiseerde testcasegeneratie met een hoge dekkingsgraad, en zorgvuldig samengestelde contexten over meerdere bestanden heen om code nauwkeurig te genereren. Ons werk verkent een gecontroleerd scenario waarin ontwikkelaars de benodigde codeafhankelijkheden specificeren, wat het model uitdaagt om deze nauwkeurig te integreren. Experimenten tonen aan dat hoewel vooraf getrainde LLMs beter presteren in correctheid, instructie-getrainde modellen beter zijn in het benutten van de verstrekte afhankelijkheden en het demonstreren van debugmogelijkheden. We introduceren ook een nieuwe instructie-getrainde dataset die zich richt op codeafhankelijkheden en laten zien dat CodeLLMs die zijn afgestemd op onze dataset een beter vermogen hebben om deze afhankelijkheden effectief te benutten. RepoExec beoogt een uitgebreide evaluatie te bieden van codefunctionaliteit en afstemming op de intentie van de ontwikkelaar, waardoor de weg wordt geëffend voor betrouwbaardere en toepasbaardere CodeLLMs in realistische scenario's. De dataset en broncode zijn te vinden op~https://github.com/FSoft-AI4Code/RepoExec.
Recentelijk hebben vooruitgangen in videosynthese aanzienlijke aandacht getrokken. Videosynthesemodellen zoals AnimateDiff en Stable Video Diffusion hebben de praktische toepasbaarheid van diffusiemodellen aangetoond bij het creëren van dynamische visuele content. De opkomst van SORA heeft het potentieel van videogeneratietechnologieën verder belicht. Desalniettemin is de verlenging van videolengtes beperkt door de beperkingen in rekenbronnen. De meeste bestaande videosynthesemodellen kunnen alleen korte videoclips genereren. In dit artikel stellen we een nieuwe post-tuningmethodologie voor videosynthesemodellen voor, genaamd ExVideo. Deze aanpak is ontworpen om de capaciteit van huidige videosynthesemodellen te verbeteren, waardoor ze content over langere tijdsduren kunnen produceren tegen lagere trainingskosten. In het bijzonder ontwerpen we uitbreidingsstrategieën voor veelvoorkomende temporele modelarchitecturen, waaronder 3D-convolutie, temporele aandacht en positionele inbedding. Om de effectiviteit van onze voorgestelde post-tuningaanpak te evalueren, voeren we uitbreidingstraining uit op het Stable Video Diffusion-model. Onze aanpak vergroot de capaciteit van het model om tot 5 keer het oorspronkelijke aantal frames te genereren, met slechts 1,5k GPU-uren training op een dataset bestaande uit 40k video's. Belangrijk is dat de aanzienlijke toename in videolengte de inherente generalisatiecapaciteiten van het model niet aantast, en het model toont zijn voordelen in het genereren van video's van diverse stijlen en resoluties. We zullen de broncode en het verbeterde model openbaar vrijgeven.
Bestaande benchmarks testen taalagentschappen niet op hun interactie met menselijke gebruikers of hun vermogen om domeinspecifieke regels te volgen, terwijl beide cruciaal zijn voor de inzet ervan in real-world toepassingen. Wij stellen tau-bench voor, een benchmark die dynamische gesprekken nabootst tussen een gebruiker (gesimuleerd door taalmodelen) en een taalagentschap dat is uitgerust met domeinspecifieke API-tools en beleidsrichtlijnen. We gebruiken een efficiënt en betrouwbaar evaluatieproces dat de databasestatus aan het einde van een gesprek vergelijkt met de geannoteerde doelstatus. We introduceren ook een nieuwe metriek (pass^k) om de betrouwbaarheid van het gedrag van het agentschap over meerdere trials te evalueren. Onze experimenten tonen aan dat zelfs state-of-the-art functieaanroepende agentschappen (zoals gpt-4o) in minder dan 50% van de taken slagen en behoorlijk inconsistent zijn (pass^8 <25% in retail). Onze bevindingen wijzen op de noodzaak voor methoden die het vermogen van agentschappen kunnen verbeteren om consistent te handelen en regels betrouwbaar te volgen.
Het waarborgen van de verifieerbaarheid van modelantwoorden is een fundamentele uitdaging voor retrieval-augmented generation (RAG) in het domein van vraag-antwoord (QA). Onlangs werd self-citation prompting voorgesteld om grote taalmodellen (LLMs) citaties naar ondersteunende documenten te laten genereren samen met hun antwoorden. Self-citerende LLMs hebben echter vaak moeite om het vereiste formaat aan te houden, verwijzen naar niet-bestaande bronnen en slagen er niet in om het gebruik van de context door LLMs gedurende de generatie nauwkeurig weer te geven. In dit werk presenteren we MIRAGE -- Model Internals-based RAG Explanations -- een plug-and-play benadering die gebruikmaakt van modelinterne informatie voor betrouwbare antwoordtoeschrijving in RAG-toepassingen. MIRAGE detecteert contextgevoelige antwoordtokens en koppelt deze aan opgehaalde documenten die bijdragen aan hun voorspelling via saliency-methoden. We evalueren onze voorgestelde aanpak op een meertalige extractieve QA-dataset en vinden een hoge overeenstemming met menselijke antwoordtoeschrijving. Bij open-einde QA bereikt MIRAGE een citatiekwaliteit en efficiëntie die vergelijkbaar is met self-citation, terwijl het ook een fijnmazigere controle van toeschrijvingsparameters mogelijk maakt. Onze kwalitatieve evaluatie benadrukt de betrouwbaarheid van MIRAGE's toeschrijvingen en onderstreept de veelbelovende toepassing van modelinterne informatie voor RAG-antwoordtoeschrijving.
Het begrijpen van de semantiek van visuele scènes is een fundamentele uitdaging in Computer Vision. Een belangrijk aspect van deze uitdaging is dat objecten die vergelijkbare semantische betekenissen of functies delen, opvallende visuele verschillen kunnen vertonen, wat een nauwkeurige identificatie en categorisering bemoeilijkt. Recente vooruitgang in tekst-naar-beeld frameworks heeft geleid tot modellen die impliciet natuurlijke scènestatistieken vastleggen. Deze frameworks houden rekening met de visuele variabiliteit van objecten, evenals complexe objectco-voorkomens en bronnen van ruis, zoals diverse lichtomstandigheden. Door gebruik te maken van grootschalige datasets en cross-attention conditionering genereren deze modellen gedetailleerde en contextueel rijke scènevoorstellingen. Deze mogelijkheid opent nieuwe wegen voor het verbeteren van objectherkenning en scènebegrip in uiteenlopende en uitdagende omgevingen. Ons werk presenteert StableSemantics, een dataset bestaande uit 224 duizend door mensen samengestelde prompts, verwerkte natuurlijke taal bijschriften, meer dan 2 miljoen synthetische afbeeldingen en 10 miljoen aandachtkaarten die corresponderen met individuele naamwoordgroepen. We maken expliciet gebruik van door mensen gegenereerde prompts die overeenkomen met visueel interessante stable diffusion generaties, bieden 10 generaties per frase, en extraheren cross-attention kaarten voor elke afbeelding. We onderzoeken de semantische verdeling van gegenereerde afbeeldingen, bestuderen de verdeling van objecten binnen afbeeldingen, en benchmarken bijschrijvings- en open vocabulaire segmentatiemethoden op onze data. Voor zover wij weten, zijn wij de eersten die een diffusiedataset met semantische attributies vrijgeven. We verwachten dat onze voorgestelde dataset vooruitgang zal stimuleren in het begrijpen van visuele semantiek en een basis zal bieden voor het ontwikkelen van meer geavanceerde en effectieve visuele modellen. Website: https://stablesemantics.github.io/StableSemantics
Onderzoek naar tekstsamenvatting heeft verschillende significante transformaties ondergaan met de opkomst van diepe neurale netwerken, vooraf getrainde taalmodelen (PLM's) en recente grote taalmodelen (LLM's). Dit overzicht biedt daarom een uitgebreide evaluatie van de onderzoeksvooruitgang en evolutie in tekstsamenvatting door de lens van deze paradigmaverschuivingen. Het is georganiseerd in twee hoofdonderdelen: (1) een gedetailleerd overzicht van datasets, evaluatiemetrics en samenvattingsmethoden vóór het LLM-tijdperk, inclusief traditionele statistische methoden, deep learning-benaderingen en PLM-finetuningtechnieken, en (2) het eerste gedetailleerde onderzoek naar recente vooruitgang in benchmarking, modellering en evaluatie van samenvatting in het LLM-tijdperk. Door bestaande literatuur samen te vatten en een samenhangend overzicht te presenteren, bespreekt dit overzicht ook onderzoektendensen, openstaande uitdagingen en stelt het veelbelovende onderzoeksrichtingen voor in samenvatting, met als doel onderzoekers te begeleiden door het evoluerende landschap van samenvattingsonderzoek.
Interpretabiliteit en analyse (IA) onderzoek is een groeiend subveld binnen NLP met als doel een dieper begrip te ontwikkelen van het gedrag of de interne werking van NLP-systemen en -methoden. Ondanks de groeiende interesse in het subveld, is een veelgehoorde kritiek dat het gebrek aan bruikbare inzichten heeft en daarom weinig impact heeft op NLP. In dit artikel streven we ernaar de impact van IA onderzoek op het bredere veld van NLP te kwantificeren. We benaderen dit met een mixed-methods analyse van: (1) een citatiegrafiek van 185K+ artikelen gebouwd uit alle artikelen gepubliceerd op ACL- en EMNLP-conferenties van 2018 tot 2023, en (2) een enquête onder 138 leden van de NLP-gemeenschap. Onze kwantitatieve resultaten tonen aan dat IA-werk goed wordt geciteerd buiten IA, en centraal staat in de NLP-citatiegrafiek. Door middel van kwalitatieve analyse van enquêtereacties en handmatige annotatie van 556 artikelen, vinden we dat NLP-onderzoekers voortbouwen op bevindingen uit IA-werk en het belangrijk achten voor vooruitgang in NLP, meerdere subvelden, en vertrouwen op de bevindingen en terminologie voor hun eigen werk. Veel nieuwe methoden worden voorgesteld op basis van IA bevindingen en worden er sterk door beïnvloed, maar zeer invloedrijk niet-IA werk citeert IA-bevindingen zonder erdoor gedreven te worden. We sluiten af met een samenvatting van wat er ontbreekt in IA-werk vandaag en geven een oproep tot actie, om de weg te effenen voor een toekomst van IA-onderzoek met meer impact.
We presenteren een latent diffusiemodel voor 3D-scènes, dat getraind kan worden met alleen 2D-beeldgegevens. Om dit te bereiken, ontwerpen we eerst een autoencoder die multi-view beelden afbeeldt op 3D Gaussische splats, en tegelijkertijd een gecomprimeerde latente representatie van deze splats opbouwt. Vervolgens trainen we een multi-view diffusiemodel over de latente ruimte om een efficiënt generatief model te leren. Deze pijplijn vereist geen objectmaskers noch dieptes, en is geschikt voor complexe scènes met willekeurige cameraposities. We voeren zorgvuldige experimenten uit op twee grootschalige datasets van complexe real-world scènes — MVImgNet en RealEstate10K. We tonen aan dat onze aanpak het mogelijk maakt om 3D-scènes te genereren in slechts 0,2 seconden, ofwel vanaf nul, vanuit een enkele invoerweergave, of vanuit spaarzame invoerweergaven. Het produceert diverse en hoogwaardige resultaten terwijl het een orde van grootte sneller werkt dan niet-latente diffusiemodellen en eerdere NeRF-gebaseerde generatieve modellen.