Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Contrastive Language-Image Pretraining (CLIP) wordt veel gebruikt om modellen te trainen voor het uitlijnen van afbeeldingen en teksten in een gemeenschappelijke inbeddingsruimte door ze af te beelden op vaste-grootte vectoren. Deze modellen zijn essentieel voor multimodale informatiezoekopdrachten en gerelateerde taken. CLIP-modellen presteren echter over het algemeen minder goed in tekstspecifieke taken in vergelijking met gespecialiseerde tekstmodellen. Dit leidt tot inefficiënties in informatiezoekopdracht-systemen die afzonderlijke inbeddingen en modellen aanhouden voor tekstspecifieke en multimodale taken. Wij stellen een nieuwe, multi-task contrastieve trainingsmethode voor om dit probleem aan te pakken, die we gebruiken om het jina-clip-v1 model te trainen om state-of-the-art prestaties te behalen in zowel tekst-afbeelding als tekst-tekst zoekopdrachten.
De afgelopen jaren hebben grote taalmodelen (LLM's) opmerkelijke prestaties geleverd in verschillende domeinen. Echter, de vertraging en kosten van kennisupdates, samen met hallucinatieproblemen van LLM's, hebben hun toepassingen in kennisintensieve taken beperkt, waar retrieval-augmented generation (RAG) van nut kan zijn. Niettemin gebruiken bestaande retrieval-augmented modellen doorgaans gelijkenis als een brug tussen queries en documenten en volgen ze een retrieve-then-read procedure. In dit werk betogen wij dat gelijkenis niet altijd de oplossing is en dat volledig vertrouwen op gelijkenis soms de prestaties van retrieval-augmented generation kan verslechteren. Daarom stellen wij MetRag voor, een Multi-layered Thoughts enhanced Retrieval Augmented Generation framework. Om te beginnen, gaan we verder dan de bestaande gelijkenisgerichte gedachte en omarmen we een kleinschalig utility-model dat supervisie ontvangt van een LLM voor utility-gerichte gedachte, en komen we tot een slimmer model door de gelijkenis- en utility-gerichte gedachten uitgebreid te combineren. Bovendien, gezien het feit dat de verzameling opgehaalde documenten vaak groot is en het gebruik ervan in isolatie het moeilijk maakt om de gemeenschappelijke kenmerken en eigenschappen daartussen te vatten, stellen wij voor om een LLM in te zetten als een taakadaptieve samenvatter om retrieval-augmented generation te voorzien van compactheid-gerichte gedachte. Ten slotte, met multi-layered gedachten uit de voorgaande fasen, wordt een LLM ingezet voor kennis-augmented generation. Uitgebreide experimenten op kennisintensieve taken hebben de superioriteit van MetRag aangetoond.
Dit onderzoek duikt in het domein van multi-modaliteit (d.w.z. video- en bewegingsmodaliteiten) voor het begrijpen van menselijk gedrag door gebruik te maken van de krachtige mogelijkheden van Large Language Models (LLMs). In tegenstelling tot recente LLMs die zijn ontworpen voor alleen video- of alleen bewegingsbegrip, stellen wij dat het begrijpen van menselijk gedrag gezamenlijke modellering vereist van zowel video's als bewegingssequenties (bijv. SMPL-sequenties) om de dynamiek en semantiek van lichaamsdelen effectief vast te leggen. In dit licht presenteren wij MotionLLM, een eenvoudig maar effectief raamwerk voor het begrijpen, beschrijven en redeneren over menselijke bewegingen. Specifiek hanteert MotionLLM een geïntegreerde video-bewegingstrainingstrategie die gebruikmaakt van de complementaire voordelen van bestaande grove video-tekstgegevens en fijnmazige beweging-tekstgegevens om rijke ruimtelijk-temporele inzichten te verkrijgen. Bovendien hebben wij een omvangrijke dataset, MoVid, samengesteld die diverse video's, bewegingen, bijschriften en instructies bevat. Daarnaast stellen wij de MoVid-Bench voor, met zorgvuldig handmatige annotaties, voor een betere evaluatie van het begrip van menselijk gedrag op basis van video en beweging. Uitgebreide experimenten tonen de superioriteit van MotionLLM aan op het gebied van bijschriften, ruimtelijk-temporeel begrip en redeneervermogen.
In dit werk presenteren we Xwin-LM, een uitgebreide suite van afstemmingsmethodologieën voor grote taalmodellen (LLM's). Deze suite omvat verschillende belangrijke technieken, waaronder supervised finetuning (SFT), reward modeling (RM), rejection sampling finetuning (RS) en direct preference optimization (DPO). De belangrijkste componenten zijn als volgt: (1) Xwin-LM-SFT, modellen die aanvankelijk zijn gefinetuned met hoogwaardige instructiedata; (2) Xwin-Pair, een grootschalige, multi-turn voorkeursdataset die nauwkeurig is geannoteerd met behulp van GPT-4; (3) Xwin-RM, beloningsmodellen getraind op Xwin-Pair, ontwikkeld op schalen van 7B, 13B en 70B parameters; (4) Xwin-Set, een multiwise voorkeursdataset waarin elke prompt is gekoppeld aan 64 unieke reacties gegenereerd door Xwin-LM-SFT en gescoord door Xwin-RM; (5) Xwin-LM-RS, modellen gefinetuned met de hoogst scorende reacties uit Xwin-Set; (6) Xwin-LM-DPO, modellen verder geoptimaliseerd op Xwin-Set met behulp van het DPO-algoritme. Onze evaluaties op AlpacaEval en MT-bench tonen consistente en significante verbeteringen in de hele pipeline, wat de kracht en schaalbaarheid van Xwin-LM aantoont. De repository https://github.com/Xwin-LM/Xwin-LM zal voortdurend worden bijgewerkt om gemeenschapsonderzoek te bevorderen.
We presenteren MOFA-Video, een geavanceerde methode voor controleerbare beeldanimatie die video genereert vanuit een gegeven afbeelding met behulp van diverse aanvullende controleerbare signalen (zoals menselijke referentiepunten, handmatige trajecten en zelfs een andere geleverde video) of hun combinaties. Dit verschilt van eerdere methoden die slechts in een specifiek bewegingsdomein kunnen werken of zwakke controlecapaciteiten vertonen met een diffusieprior. Om ons doel te bereiken, ontwerpen we verschillende domeinbewuste bewegingsveldadapters (\ie, MOFA-Adapters) om de gegenereerde bewegingen in de videogeneratiepijplijn te controleren. Voor de MOFA-Adapters houden we rekening met de temporele bewegingsconsistentie van de video en genereren we eerst de dichte bewegingsstroom vanuit de gegeven schaarse controlecondities, waarna de multi-schaal kenmerken van de gegeven afbeelding worden verpakt als een geleide feature voor stabiele videodiffusiegeneratie. We trainen naïef twee bewegingsadapters voor de handmatige trajecten en de menselijke referentiepunten afzonderlijk, aangezien beide schaarse informatie over de controle bevatten. Na de training kunnen de MOFA-Adapters in verschillende domeinen ook samenwerken voor meer controleerbare videogeneratie.
3D-generatie heeft de afgelopen jaren opmerkelijke vooruitgang geboekt. Bestaande technieken, zoals score-distillatiemethoden, leveren indrukwekkende resultaten op, maar vereisen uitgebreide optimalisatie per scène, wat de tijdefficiëntie beïnvloedt. Reconstructiegebaseerde benaderingen daarentegen prioriteren efficiëntie, maar leveren in op kwaliteit vanwege hun beperkte omgang met onzekerheid. Wij introduceren GECO, een nieuwe methode voor hoogwaardige 3D-generatieve modellering die binnen een seconde opereert. Onze aanpak adresseert de veelvoorkomende problemen van onzekerheid en inefficiëntie in huidige methoden via een tweestapsbenadering. In de eerste fase trainen we een eenstaps multi-view generatief model met score-distillatie. Vervolgens wordt een tweede distillatiefase toegepast om de uitdaging van view-inconsistentie vanuit de multi-view voorspelling aan te pakken. Dit tweestapsproces zorgt voor een gebalanceerde benadering van 3D-generatie, waarbij zowel kwaliteit als efficiëntie worden geoptimaliseerd. Onze uitgebreide experimenten tonen aan dat GECO hoogwaardige image-to-3D-generatie bereikt met een ongekend niveau van efficiëntie.
Beheersbare muziekgeneratiemethoden zijn cruciaal voor mensgerichte, AI-gebaseerde muziekcreatie, maar worden momenteel beperkt door snelheid, kwaliteit en afwegingen in controledesign. Diffusion Inference-Time T-optimization (DITTO) biedt in het bijzonder state-of-the-art resultaten, maar is meer dan 10x langzamer dan realtime, wat het praktische gebruik beperkt. Wij stellen Distilled Diffusion Inference-Time T-Optimization (of DITTO-2) voor, een nieuwe methode om inference-time optimalisatiegebaseerde controle te versnellen en sneller-dan-realtime generatie mogelijk te maken voor een breed scala aan toepassingen zoals muziekinpainting, outpaintin, intensiteit, melodie en muzikale structuurcontrole. Onze methode werkt door (1) een vooraf getraind diffusiemodel te destilleren voor snelle sampling via een efficiënt, aangepast consistentie- of consistentietrajectdestillatieproces, (2) inference-time optimalisatie uit te voeren met ons gedestilleerde model met één-stap sampling als een efficiënte surrogaatoptimalisatietaak en (3) een finale multi-stap sampling generatie (decodering) uit te voeren met onze geschatte ruislatenten voor hoogwaardige, snelle, beheersbare generatie. Door grondige evaluatie ontdekken we dat onze methode niet alleen de generatie met meer dan 10-20x versnelt, maar tegelijkertijd ook de controle-adherentie en generatiekwaliteit verbetert. Bovendien passen we onze aanpak toe op een nieuwe toepassing van het maximaliseren van tekstadherentie (CLAP-score) en tonen we aan dat we een onvoorwaardelijk diffusiemodel zonder tekstinputs kunnen omzetten in een model dat state-of-the-art tekstcontrole oplevert. Geluidsvoorbeelden zijn te vinden op https://ditto-music.github.io/ditto2/.
Het evalueren van de programmeervaardigheden van Large Language Models (LLMs) blijft een open vraag. We constateren dat bestaande benchmarks slecht aansluiten bij echte code repositories en onvoldoende zijn om de programmeervaardigheden van LLMs te evalueren. Om deze kennislacune aan te pakken, stellen we een nieuwe benchmark voor genaamd DevEval, die drie verbeteringen biedt. (1) DevEval sluit aan bij echte repositories op meerdere dimensies, zoals codeverdelingen en afhankelijkheidsverdelingen. (2) DevEval is geannoteerd door 13 ontwikkelaars en bevat uitgebreide annotaties (bijv. vereisten, originele repositories, referentiecode en referentieafhankelijkheden). (3) DevEval bestaat uit 1.874 testsamples afkomstig uit 117 repositories, die 10 populaire domeinen bestrijken (bijv. Internet, Database). Op basis van DevEval stellen we repository-level codegeneratie voor en evalueren we 8 populaire LLMs op DevEval (bijv. gpt-4, gpt-3.5, StarCoder 2, DeepSeek Coder, CodeLLaMa). Onze experimenten onthullen de programmeervaardigheden van deze LLMs in echte code repositories. Zo is in onze experimenten het hoogste Pass@1 van gpt-4-turbo slechts 53,04%. We analyseren ook de mislukte gevallen van LLMs en vatten hun tekortkomingen samen. We hopen dat DevEval de ontwikkeling van LLMs in echte code repositories kan bevorderen. DevEval, prompts en de voorspellingen van LLMs zijn vrijgegeven.
Naarmate tekst-geconditioneerde diffusiemodellen (DMs) doorbraken bereiken in beeld-, video- en 3D-generatie, is de focus van de onderzoeksgemeenschap verschoven naar de uitdagendere taak van tekst-naar-4D-synthese, waarbij een temporele dimensie wordt geïntroduceerd om dynamische 3D-objecten te genereren. In deze context identificeren we Score Distillation Sampling (SDS), een veelgebruikte techniek voor tekst-naar-3D-synthese, als een belangrijke belemmering voor tekst-naar-4D-prestaties vanwege zijn Janus-faced en textuur-onrealistische problemen in combinatie met hoge computationele kosten. In dit artikel stellen we Pixel-Level Alignments for Text-to-4D Gaussian Splatting (PLA4D) voor, een nieuwe methode die tekst-naar-videoframes gebruikt als expliciete pixeluitlijningsdoelen om statische 3D-objecten te genereren en beweging erin te injecteren. Specifiek introduceren we Focal Alignment om cameraposes te kalibreren voor rendering en GS-Mesh Contrastive Learning om geometrische prioriteiten te destilleren uit gerenderde beeldcontrasten op pixelniveau. Daarnaast ontwikkelen we Motion Alignment met behulp van een vervormingsnetwerk om veranderingen in Gaussians aan te sturen en implementeren we Reference Refinement voor gladde 4D-objectoppervlakken. Deze technieken stellen 4D Gaussian Splatting in staat om geometrie, textuur en beweging uit te lijnen met gegenereerde video's op pixelniveau. In vergelijking met eerdere methoden produceert PLA4D gesynthetiseerde uitvoer met betere textuurdetails in minder tijd en vermindert het effectief het Janus-faced-probleem. PLA4D is volledig geïmplementeerd met open-source modellen en biedt een toegankelijke, gebruiksvriendelijke en veelbelovende richting voor 4D-digitale contentcreatie. Onze projectpagina: https://github.com/MiaoQiaowei/PLA4D.github.io{https://github.com/MiaoQiaowei/PLA4D.github.io}.
Onlangs hebben videogeneratietechnieken een snelle vooruitgang geboekt. Gezien de populariteit van video-inhoud op sociale mediaplatforms, versterken deze modellen de zorgen over de verspreiding van valse informatie. Daarom is er een groeiende vraag naar detectoren die in staat zijn om nep AI-gegenereerde video's te onderscheiden en de potentiële schade veroorzaakt door valse informatie te beperken. Het ontbreken van grootschalige datasets van de meest geavanceerde videogeneratoren vormt echter een belemmering voor de ontwikkeling van dergelijke detectoren. Om dit gat te dichten, introduceren we de eerste AI-gegenereerde videodetectiedataset, GenVideo. Deze heeft de volgende kenmerken: (1) een groot volume aan video's, waaronder meer dan een miljoen AI-gegenereerde en echte video's die zijn verzameld; (2) een rijke diversiteit aan gegenereerde inhoud en methodologieën, die een breed spectrum aan videocategorieën en generatietechnieken bestrijken. We hebben uitgebreide studies van de dataset uitgevoerd en twee evaluatiemethoden voorgesteld die zijn afgestemd op realistische scenario's om de prestaties van detectoren te beoordelen: de cross-generator videoclassificatietaak beoordeelt de generaliseerbaarheid van getrainde detectoren op generatoren; de gedegradeerde videoclassificatietaak evalueert de robuustheid van detectoren om video's te verwerken die in kwaliteit zijn verslechterd tijdens de verspreiding. Bovendien hebben we een plug-and-play module geïntroduceerd, genaamd Detail Mamba (DeMamba), die is ontworpen om de detectoren te verbeteren door AI-gegenereerde video's te identificeren via de analyse van inconsistenties in temporele en ruimtelijke dimensies. Onze uitgebreide experimenten tonen de superieure generaliseerbaarheid en robuustheid van DeMamba op GenVideo aan in vergelijking met bestaande detectoren. We geloven dat de GenVideo-dataset en de DeMamba-module het veld van AI-gegenereerde videodetectie aanzienlijk zullen bevorderen. Onze code en dataset zullen beschikbaar zijn op https://github.com/chenhaoxing/DeMamba.
De opkomst van grote taalmodellen (LLM's) heeft de weg vrijgemaakt voor LLM-gebaseerde applicaties (ook wel AI-agents of co-pilots genoemd), een nieuw softwareparadigma dat de kracht van LLM's combineert met conventionele software. Diverse LLM-applicaties van verschillende partijen kunnen complexe workflows ontwerpen met behulp van meerdere LLM-verzoeken om één taak te voltooien. Echter, moeten zij gebruikmaken van de overgesimplificeerde API op verzoekniveau die door de huidige openbare LLM-diensten wordt aangeboden, waardoor essentiële informatie op applicatieniveau verloren gaat. Openbare LLM-diensten zijn gedwongen om individuele LLM-verzoeken blindelings te optimaliseren, wat leidt tot suboptimale end-to-end prestaties van LLM-applicaties. Dit artikel introduceert Parrot, een LLM-dienstsysteem dat zich richt op de end-to-end ervaring van LLM-gebaseerde applicaties. Parrot stelt Semantic Variable voor, een uniforme abstractie om kennis op applicatieniveau bloot te leggen aan openbare LLM-diensten. Een Semantic Variable annoteert een invoer/uitvoer-variabele in de prompt van een verzoek en creëert de datapijplijn bij het verbinden van meerdere LLM-verzoeken, wat een natuurlijke manier biedt om LLM-applicaties te programmeren. Het blootleggen van Semantic Variables aan de openbare LLM-dienst stelt deze in staat om conventionele dataflow-analyse uit te voeren om de correlatie tussen meerdere LLM-verzoeken te ontdekken. Deze correlatie opent een geheel nieuwe optimalisatieruimte voor de end-to-end prestaties van LLM-gebaseerde applicaties. Uitgebreide evaluaties tonen aan dat Parrot een verbetering tot een orde van grootte kan bereiken voor populaire en praktische use cases van LLM-applicaties.