Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Taalagentschappen hebben indrukwekkende probleemoplossende vaardigheden getoond binnen afgebakende omgevingen en korte tijdsbestekken. Echter, met de voortdurend evoluerende complexiteiten van open-wereld simulaties, is er een dringende behoefte aan agentschappen die flexibel kunnen aanpassen aan complexe omgevingen en consistent een langetermijngeheugen kunnen behouden om samenhangende acties te waarborgen. Om de kloof tussen taalagentschappen en open-wereld spellen te overbruggen, introduceren we Language Agent for Role-Playing (LARP), dat een cognitieve architectuur omvat die geheugenverwerking en een besluitvormingsassistent bevat, een module voor omgevingsinteractie met een feedback-gestuurde leerbare actieruimte, en een nabewerkingsmethode die de afstemming van verschillende persoonlijkheden bevordert. Het LARP-raamwerk verfijnt de interacties tussen gebruikers en agentschappen, die vooraf zijn gedefinieerd met unieke achtergronden en persoonlijkheden, en verbetert uiteindelijk de spelervaring in open-wereld contexten. Bovendien benadrukt het de diverse toepassingen van taalmodelen in een reeks gebieden zoals entertainment, onderwijs en verschillende simulatiescenario's. De projectpagina is vrijgegeven op https://miao-ai-lab.github.io/LARP/.
Diffusiemodellen hebben een revolutie teweeggebracht in beeld-naar-beeld (I2I) synthese en dringen nu door in video's. De vooruitgang van video-naar-video (V2V) synthese is echter belemmerd door de uitdaging om temporele consistentie tussen videoframes te behouden. Dit artikel stelt een consistent V2V-syntheseraamwerk voor door gezamenlijk gebruik te maken van ruimtelijke condities en temporele optische stroomaanwijzingen binnen de bronvideo. In tegenstelling tot eerdere methoden die strikt vasthouden aan optische stroom, benut onze aanpak de voordelen ervan terwijl de imperfectie in stroomschatting wordt afgehandeld. We coderen de optische stroom via warping vanaf het eerste frame en gebruiken deze als aanvullende referentie in het diffusiemodel. Hierdoor kan ons model video's synthetiseren door het eerste frame te bewerken met gangbare I2I-modellen en vervolgens de bewerkingen naar opeenvolgende frames te verspreiden. Ons V2V-model, FlowVid, toont opmerkelijke eigenschappen: (1) Flexibiliteit: FlowVid werkt naadloos samen met bestaande I2I-modellen, waardoor verschillende aanpassingen mogelijk zijn, waaronder stilisering, objectverwisselingen en lokale bewerkingen. (2) Efficiëntie: Het genereren van een 4 seconden durende video met 30 FPS en een resolutie van 512x512 duurt slechts 1,5 minuut, wat respectievelijk 3,1x, 7,2x en 10,5x sneller is dan CoDeF, Rerender en TokenFlow. (3) Hoge kwaliteit: In gebruikersstudies wordt onze FlowVid 45,7% van de tijd verkozen boven CoDeF (3,5%), Rerender (10,2%) en TokenFlow (40,4%).
De recente trend bij grote taalmodellen (LLMs) is het vergroten van zowel de schaal van het model (d.w.z. het aantal parameters) als de dataset om een betere generatieve capaciteit te bereiken, wat duidelijk wordt bewezen door veel werk, zoals de bekende GPT en Llama. Grote modellen brengen echter vaak enorme rekenkosten met zich mee, en praktische toepassingen kunnen zich zulke hoge kosten niet veroorloven. Toch wordt de methode voor het construeren van een sterke modelarchitectuur voor LLMs zelden besproken. We analyseren eerst de state-of-the-art taalmodelarchitecturen en observeren het probleem van feature collapse. Op basis van de theoretische analyse stellen we voor dat nonlineariteit ook zeer belangrijk is voor taalmodellen, wat meestal wordt bestudeerd in convolutionele neurale netwerken voor visuele taken. De series informed activatiefunctie wordt vervolgens geïntroduceerd met minimale berekeningen die kunnen worden verwaarloosd, en een augmented shortcut wordt verder gebruikt om de modelnonlineariteit te versterken. We demonstreren vervolgens dat de voorgestelde aanpak zeer effectief is voor het verbeteren van de modelnonlineariteit door zorgvuldig ontworpen ablatie-experimenten; zo presenteren we een nieuwe efficiënte modelarchitectuur voor het opzetten van moderne modellen, namelijk PanGu-pi. Experimenten worden vervolgens uitgevoerd met dezelfde dataset en trainingsstrategie om PanGu-pi te vergelijken met state-of-the-art LLMs. De resultaten laten zien dat PanGu-pi-7B een vergelijkbare prestaties kan bereiken als benchmarks met ongeveer 10% snellere inferentie, en PanGu-pi-1B kan state-of-the-art prestaties bereiken wat betreft nauwkeurigheid en efficiëntie. Daarnaast hebben we PanGu-pi-7B geïmplementeerd in de hoogwaardige domeinen van financiën en recht, waarbij we een LLM genaamd YunShan hebben ontwikkeld voor praktische toepassing. De resultaten laten zien dat YunShan andere modellen van vergelijkbare schaal op benchmarks kan overtreffen.
We introduceren SynCLR, een nieuwe aanpak voor het leren van visuele representaties uitsluitend vanuit synthetische afbeeldingen en synthetische bijschriften, zonder enige echte data. We genereren een grote dataset van beeldbijschriften met behulp van LLM's (Large Language Models) en gebruiken vervolgens een standaard tekst-naar-beeldmodel om meerdere afbeeldingen te genereren die corresponderen met elk synthetisch bijschrift. We voeren visuele representatieleer uit op deze synthetische afbeeldingen via contrastief leren, waarbij we afbeeldingen die hetzelfde bijschrift delen behandelen als positieve paren. De resulterende representaties transfereren goed naar veel downstream taken en concurreren gunstig met andere algemene visuele representatieleermethoden zoals CLIP en DINO v2 in beeldclassificatietaken. Bovendien presteert SynCLR in dense prediction taken zoals semantische segmentatie aanzienlijk beter dan eerdere zelfgesuperviseerde methoden, bijvoorbeeld door 6,2 en 4,3 mIoU te verbeteren ten opzichte van MAE en iBOT op ADE20k voor ViT-B/16.
De groeiende interesse in Multimodale Large Language Models (MLLMs), zoals OpenAI's GPT-4V(ision), heeft een aanzienlijke impact gehad op zowel academische als industriële domeinen. Deze modellen verrijken Large Language Models (LLMs) met geavanceerde visuele begripscapaciteiten, waardoor hun toepassing in diverse multimodale taken wordt vergemakkelijkt. Onlangs introduceerde Google Gemini, een state-of-the-art MLLM dat specifiek is ontworpen voor multimodale integratie. Ondanks zijn vooruitgang, geven eerste benchmarks aan dat Gemini achterblijft bij GPT-modellen in taken die gezond verstand vereisen. Deze beoordeling, gebaseerd op een beperkte dataset (d.w.z. HellaSWAG), geeft echter niet volledig weer wat het werkelijke potentieel van Gemini is op het gebied van gezond verstand. Om dit hiaat aan te pakken, onderneemt onze studie een grondige evaluatie van de prestaties van Gemini in complexe redeneertaken die de integratie van gezond verstand over verschillende modaliteiten vereisen. We voeren een uitgebreide analyse uit van 12 datasets voor gezond verstand, variërend van algemene tot domeinspecifieke taken. Dit omvat 11 datasets die zich uitsluitend op taal richten, evenals één dataset die multimodale elementen bevat. Onze experimenten met vier LLMs en twee MLLMs tonen de competitieve redeneercapaciteiten van Gemini op het gebied van gezond verstand. Daarnaast identificeren we gemeenschappelijke uitdagingen waar huidige LLMs en MLLMs tegenaan lopen bij het aanpakken van problemen die gezond verstand vereisen, wat de noodzaak benadrukt van verdere vooruitgang in het verbeteren van de redeneercapaciteiten van deze modellen.