每日精選AI研究論文及翻譯
語言代理人在明確設定和簡短時間內展現了令人印象深刻的問題解決能力。然而,隨著開放世界模擬的不斷演進複雜性,迫切需要能靈活適應複雜環境並始終保持長期記憶以確保一致行動的代理人。為了彌合語言代理人和開放世界遊戲之間的差距,我們引入了角色扮演語言代理人(LARP),其中包括一個涵蓋記憶處理和決策輔助的認知架構,一個帶有反饋驅動可學習行動空間的環境交互模塊,以及一種促進各種個性對齊的後處理方法。LARP框架完善了用戶和代理人之間的互動,預先定義了獨特背景和個性,最終增強了在開放世界情境中的遊戲體驗。此外,它突顯了語言模型在娛樂、教育和各種模擬場景等多個領域的多樣用途。該項目頁面已在 https://miao-ai-lab.github.io/LARP/ 上發布。
擴散模型已經改變了影像合成,並且現在正逐漸應用於影片。然而,影片合成的進展受到了在影片幀之間保持時間一致性的挑戰所阻礙。本文提出了一個一致的影片合成框架,通過共同利用源影片中的空間條件和時間光流線索。與先前嚴格遵循光流的方法相反,我們的方法利用了光流的優勢,同時處理了光流估計中的不完美之處。我們通過從第一幀進行變形編碼光流,並將其作為擴散模型中的補充參考。這使得我們的模型能夠通過使用任何主流的影像合成模型編輯第一幀,然後將編輯擴散到後續幀。我們的影片合成模型 FlowVid 具有卓越的特性:(1) 彈性:FlowVid 與現有的影像合成模型無縫配合,實現各種修改,包括風格化、對象交換和局部編輯。 (2) 效率:生成一個30 FPS、512x512 分辨率的4秒影片僅需1.5 分鐘,比 CoDeF、Rerender 和 TokenFlow 分別快 3.1 倍、7.2 倍和 10.5 倍。 (3) 高質量:在用戶研究中,我們的 FlowVid 在45.7% 的時間被首選,優於 CoDeF (3.5%)、Rerender (10.2%) 和 TokenFlow (40.4%)。
我們介紹了 SynCLR,一種新穎的方法,專門從合成圖像和合成標題中學習視覺表示,而不使用任何真實數據。我們使用LLM合成了一個大型圖像標題數據集,然後利用現成的文本到圖像模型生成與每個合成標題對應的多個圖像。我們通過對比學習在這些合成圖像上進行視覺表示學習,將共享相同標題的圖像視為正對。結果的表示在許多下游任務上轉移效果良好,與其他通用視覺表示學習者(如CLIP和DINO v2)在圖像分類任務中競爭激烈。此外,在密集預測任務(如語義分割)中,SynCLR在性能上明顯優於以前的自監督方法,例如在ADE20k上,對於ViT-B/16,其在MAE和iBOT上的mIoU分別提高了6.2和4.3。
近來大型語言模型(LLMs)的趨勢是增加模型大小(參數數量)和數據集的規模,以實現更好的生成能力,這在許多工作中已被證實,如著名的GPT和Llama。然而,大型模型往往涉及巨大的計算成本,實際應用無法負擔如此高昂的價格。然而,建構強大的LLMs模型架構的方法很少被討論。我們首先分析了最先進的語言模型架構,並觀察到特徵崩潰問題。基於理論分析,我們提出非線性對於語言模型也非常重要,這通常在用於視覺任務的卷積神經網絡中研究。然後引入了一系列資訊激活函數,通過可以忽略的微小計算,進一步使用擴展的捷徑來增強模型的非線性。然後,我們證明了所提出的方法通過精心設計的消融實驗對增強模型的非線性效果顯著;因此,我們提出了一種新的高效模型架構,即PanGu-pi。然後使用相同的數據集和訓練策略進行實驗,將PanGu-pi與最先進的LLMs進行比較。結果顯示,PanGu-pi-7B可以實現與基準相當的性能,並且推理速度提高約10%,而PanGu-pi-1B在準確性和效率方面可以實現最先進的性能。此外,我們已在金融和法律等高價值領域部署了PanGu-pi-7B,開發了一個名為YunShan的LLM用於實際應用。結果表明,YunShan在基準測試中可以超越其他相似規模的模型。
對於多模式大型語言模型(MLLMs)的興趣日益增長,例如OpenAI的GPT-4V(ision),已經顯著影響了學術界和工業界。這些模型通過先進的視覺理解能力增強了大型語言模型(LLMs),促進了它們在各種多模式任務中的應用。最近,Google推出了Gemini,這是一款專為多模式整合而設計的尖端MLLM。儘管Gemini取得了進展,但初步基準顯示Gemini在常識推理任務上落後於GPT模型。然而,這一評估基於有限的數據集(即HellaSWAG),並未完全揭示Gemini在真實常識推理潛力方面。為彌補這一差距,我們的研究對Gemini在需要跨模式整合常識知識的複雜推理任務中的表現進行了全面評估。我們對12個常識推理數據集進行了全面分析,涵蓋了從一般到特定領域任務的範圍。這包括11個僅關注語言的數據集,以及一個包含多模式元素的數據集。我們在四個LLMs和兩個MLLMs上進行的實驗表明Gemini具有競爭力的常識推理能力。此外,我們確定了當前LLMs和MLLMs在解決常識問題時面臨的共同挑戰,強調了需要進一步改進這些模型的常識推理能力的必要性。