每日精選AI研究論文及翻譯
我們提出 Sapiens,這是一個針對四個基本以人為中心的視覺任務的模型系列 - 包括 2D 姿勢估計、身體部位分割、深度估計和表面法向量預測。我們的模型原生支援 1K 高解析度推論,並且非常容易通過簡單微調在超過 3 億張野外人類圖像上預訓練的模型來適應個別任務。我們觀察到,在相同的計算預算下,對一個經過精心策劃的人類圖像數據集進行自監督預訓練顯著提升了多樣的以人為中心任務的性能。結果模型展現出對野外數據的卓越泛化能力,即使標註數據稀缺或完全是合成的情況下也是如此。我們簡單的模型設計還帶來了可擴展性 - 隨著參數數量從 0.3 億擴展到 20 億,模型在各任務上的性能都有所提升。Sapiens 在各種以人為中心的基準測試中始終優於現有基準。我們在 Humans-5K(姿勢)上相對 mAP 提高了 7.6%,Humans-2K(部位分割)上相對 mIoU 提高了 17.1%,Hi4D(深度)上相對 RMSE 提高了 22.4%,以及 THuman2(法向量)上相對角度誤差提高了 53.5%。
在自然語言處理(NLP)中,大型語言模型(LLMs)展現出高質量的文本生成能力。然而,在實際應用中,LLMs必須滿足日益複雜的需求。除了避免誤導或不當內容外,LLMs還應該滿足特定用戶需求,例如模仿特定的寫作風格或生成具有詩意豐富性的文本。這些多樣化的需求推動了可控文本生成(CTG)技術的發展,確保輸出符合預定的控制條件,如安全性、情感、主題一致性和語言風格,同時保持高水準的幫助性、流暢性和多樣性。 本文系統地回顧了LLMs的CTG的最新進展,提供了其核心概念的全面定義,並澄清了控制條件和文本質量的要求。我們將CTG任務分為兩種主要類型:內容控制和屬性控制。討論了關鍵方法,包括模型重新訓練、微調、強化學習、提示工程、潛在空間操作和解碼時間干預。我們分析了每種方法的特點、優勢和局限性,提供了實珵洞察,以實現生成控制。此外,我們還回顧了CTG的評估方法,總結了其在各個領域的應用,並解決了當前研究中的關鍵挑戰,包括流暢性和實用性的降低。我們還提出了一些建議,例如在未來研究中更加重視實際應用。本文旨在為該領域的研究人員和開發人員提供有價值的指導。我們的參考文獻和中文版本均在https://github.com/IAAR-Shanghai/CTGSurvey上開源。
大型語言模型(LLMs)已廣泛應用於金融領域,但通常缺乏足夠的金融知識,並且在涉及表格和時間序列數據等多模態輸入的任務中遇到困難。為解決這些限制,我們引入了Open-FinLLMs,一系列金融LLMs。我們首先推出了FinLLaMA,它在一個包含520億令牌的金融語料庫上預訓練,並結合文本、表格和時間序列數據以嵌入全面的金融知識。然後,對FinLLaMA進行573K金融指令的指導微調,得到了增強任務性能的FinLLaMA-instruct。最後,我們提出了FinLLaVA,這是一個多模態LLM,通過1.43M圖像文本指令進行訓練,以處理複雜的金融數據類型。廣泛的評估顯示,FinLLaMA在19個和4個數據集的零樣本和少樣本設置中優於LLaMA3-8B、LLaMA3.1-8B和BloombergGPT。FinLLaMA-instruct在15個數據集上優於GPT-4和其他金融LLMs。FinLLaVA在4個多模態任務中擅長理解表格和圖表。此外,FinLLaMA在交易模擬中實現了令人印象深刻的夏普比率,突顯了其強大的金融應用能力。我們將持續維護和改進我們的模型和基準,以支持學術界和工業界持續創新。
指導(或“聊天”)微調模型已成為大多數人與大型語言模型互動的主要方式。與“基礎”或“基礎”模型相反,指導微調模型被優化以回應命令性陳述。我們提出了Hermes 3,一個中立對齊的通用指導和工具使用模型,具有強大的推理和創造能力。其最大版本,Hermes 3 405B,在幾個公共基準測試中實現了開放權重模型的最新性能。
我們提出了一個統一的Transformer模型,即Show-o,它統一了多模態理解和生成。與完全自回歸模型不同,Show-o將自回歸和(離散)擴散建模統一起來,以自適應地處理各種和混合模態的輸入和輸出。這個統一模型靈活地支持廣泛的視覺語言任務,包括視覺問答、文本到圖像生成、文本引導的修補/外推,以及混合模態生成。在各種基準測試中,它展示了與現有針對理解或生成而定制的具有相同或更多參數的個別模型相當或更優越的性能。這顯著突顯了它作為下一代基礎模型的潛力。代碼和模型已在https://github.com/showlab/Show-o 上發布。
我們提出了xGen-VideoSyn-1,一個文本到視頻(T2V)生成模型,能夠從文本描述中生成逼真的場景。借鑒了最近的進展,如OpenAI的Sora,我們探索了潛在擴散模型(LDM)架構並引入了視頻變分自編碼器(VidVAE)。VidVAE在空間和時間上壓縮視頻數據,顯著降低了視覺標記的長度以及生成長序列視頻所需的計算需求。為了進一步應對計算成本,我們提出了一種分割和合併策略,以保持視頻片段之間的時間一致性。我們的擴散Transformer(DiT)模型融合了空間和時間自注意力層,實現了在不同時間框架和寬高比之間的強大泛化。我們從一開始設計了數據處理流水線,並收集了超過1300萬高質量的視頻文本對。該流水線包括多個步驟,如剪輯、文本檢測、運動估計、美學評分以及基於我們內部視頻-LLM模型的密集字幕生成。訓練VidVAE和DiT模型分別需要約40和642 H100天。我們的模型支持端到端的超過14秒720p視頻生成,並展示了與最先進的T2V模型競爭力的表現。
我們提出Jamba-1.5,這是基於我們的Jamba架構的新型指令調整大型語言模型。Jamba是一種混合Transformer-Mamba專家結構,提供高吞吐量和低內存使用量,同時保留了與Transformer模型相同或更好的質量。我們釋出兩種模型尺寸:Jamba-1.5-Large,具有94B活躍參數,以及Jamba-1.5-Mini,具有12B活躍參數。這兩個模型都經過微調,用於各種對話和遵循指令的能力,並具有256K令牌的有效上下文長度,這是開放權重模型中最大的。為了支持具有成本效益的推理,我們引入了ExpertsInt8,這是一種新穎的量化技術,可以在處理256K令牌上下文時,無需降低質量即可將Jamba-1.5-Large安裝在具有8個80GB GPU的機器上。在一系列學術和聊天機器人基準測試中進行評估時,Jamba-1.5模型取得了出色的結果,同時提供高吞吐量,在長上下文基準測試中優於其他開放權重模型。兩種尺寸的模型權重根據Jamba開放模型許可證公開提供,我們也釋出ExpertsInt8作為開源。
我們正處於數位媒體蓬勃發展的時代,每個人都有潛力成為個人電影製作人。目前關於電影風格轉移的研究賦予製片人重現和操控視覺元素(例如攝影和角色行為)從經典鏡頭中。然而,在重新想像的電影中,角色仍然依賴手動製作,這涉及重大的技術複雜性和高成本,使普通用戶難以實現。此外,他們估計的攝影由於對幀間運動的不足捕捉和物理軌跡建模而缺乏流暢性。幸運的是,2D和3D AIGC的卓越成功開啟了有效生成符合用戶需求的角色、多樣化攝影的可能性。在本文中,我們提出了DreamCinema,一個開創性將生成式人工智慧引入電影製作範式的新型電影風格轉移框架,旨在促進用戶友好的電影創作。具體而言,我們首先提取電影元素(即人類和攝影機姿勢)並優化攝影機軌跡。然後,我們應用角色生成器有效地創建具有人類結構先驗的高質量3D角色。最後,我們開發了一種結構引導的運動轉移策略,將生成的角色納入電影創作並通過3D圖形引擎平滑轉移。大量實驗證明了我們的方法對於創建具有自由攝影機和3D角色的高質量電影的有效性。
嵌入模型在自然語言處理(NLP)中扮演著重要角色,通過創建文本嵌入來支持各種任務,如信息檢索和評估語義文本相似性。本文專注於與俄語嵌入模型相關的研究。它介紹了一個名為ru-en-RoSBERTa的新俄語嵌入模型,以及ruMTEB基準,這是擴展了大規模文本嵌入基準(MTEB)的俄語版本。我們的基準包括七個任務類別,如語義文本相似性、文本分類、重新排名和檢索。該研究還評估了一組代表性的俄語和多語言模型在所提出的基準上的表現。研究結果顯示,新模型在俄語方面取得了與最先進模型相當的結果。我們釋出了ru-en-RoSBERTa模型,而ruMTEB框架附帶開源代碼、集成到原始框架以及一個公開排行榜。
我們介紹了AiM,這是一種基於Mamba架構的自回歸(AR)圖像生成模型。AiM採用了Mamba,一種新型的狀態空間模型,其以線性時間複雜度在長序列建模方面表現出色,以取代常用的Transformer在AR圖像生成模型中,旨在實現更優質的生成品質和增強的推理速度。與現有方法不同,這些方法通過多方向掃描來適應Mamba以處理二維信號,而AiM直接利用下一個標記預測範式進行自回歸圖像生成。這種方法避免了需要進行大量修改以使Mamba學習2D空間表示的必要性。通過為視覺生成任務實施直接且具有策略性的修改,我們保留了Mamba的核心結構,充分利用其高效的長序列建模能力和可擴展性。我們提供了各種規模的AiM模型,參數數量從148M到1.3B不等。在ImageNet1K 256*256基準測試中,我們最佳的AiM模型實現了2.21的FID,超越了所有具有相同參數數量的現有AR模型,並展示了與擴散模型的顯著競爭力,推理速度快2到10倍。代碼可在https://github.com/hp-l33/AiM找到。
在本報告中,我們介紹了 Vintern-1B,一個可靠的 10 億參數多模態大型語言模型(MLLM),用於越南語任務。通過將 Qwen2-0.5B-Instruct 語言模型與 InternViT-300M-448px 視覺模型整合,Vintern-1B 適用於各種應用,包括光學字符識別(OCR)、文檔提取以及越南語境下的一般問答。該模型在超過 300 萬個圖像問題答案對的大型數據集上進行了微調,實現了穩健的性能,並在多個越南語基準測試中取得可靠的結果,如 OpenViVQA 和 ViTextVQA。Vintern-1B 尺寸適中,易於應用於各種設備上。此外,我們開源了幾個越南語視覺問答(VQA)數據集,涵蓋文本和圖表,使用 Gemini 1.5 Flash 創建。我們的模型可在以下網址獲得:https://huggingface.co/5CD-AI/Vintern-1B-v2。
我們提出金字塔關注廣播(PAB),這是一種實時、高質量且無需訓練的基於DiT的視頻生成方法。我們的方法建立在一個觀察基礎上,即擴散過程中的關注差異呈現U形模式,表明存在顯著的冗餘性。我們通過以金字塔風格將關注輸出廣播到後續步驟來緩解這一問題。根據它們的變異性,對每個基於關注的廣播應用不同的策略以獲得最佳效率。我們進一步引入了廣播序列並行以進行更有效的分佈式推理。與基準模型相比,PAB在三個模型中展示出優越的結果,實現了高達720p視頻的實時生成。我們預計我們這種簡單而有效的方法將作為一個堅固的基準,並促進未來視頻生成研究和應用。
本文中,我們提出了一種名為「策略家」的新方法,利用語言模型(LLMs)通過自我改進過程獲取在多智能體遊戲中遊戲的新技能。我們的方法通過自我對弈模擬和蒙特卡羅樹搜索以及基於LLMs的反思來收集高質量的反饋,這些反饋可以用於學習高層次的戰略技能,例如如何評估指導低層次執行的狀態。我們展示了我們的方法如何在遊戲行動規劃和對話生成的背景下使用,在這兩個任務上取得良好的表現。具體來說,我們證明了我們的方法可以幫助訓練出比傳統基於強化學習方法和其他基於LLMs技能學習方法在包括「純策略遊戲」(GOPS)和「抵抗組織:亞瓦隆」在內的遊戲中表現更好的智能體。
大規模視覺語言模型(LVLMs)在與文本對齊的視覺輸入方面取得了顯著進展。通過將文本模態與視覺輸入對齊,它們在計算機視覺任務中取得了顯著進展。還有努力將多視覺傳感器納入其中,包括熱像、深度和醫學X射線圖像。然而,我們觀察到當前的LVLMs將從多視覺傳感器拍攝的圖像視為同一個RGB域,而沒有考慮多視覺傳感器的物理特性。它們未能從數據集中適當地傳達基本的多視覺傳感器信息和相應的上下文知識。因此,實際物理環境和文本信息之間的對齊並未正確實現,這使得難以回答考慮物理環境的複雜傳感器相關問題。在本文中,我們旨在建立一個名為SPARK的多視覺傳感器感知和推理基準,可以減少圖像與多視覺傳感器之間的基本信息差距。我們自動生成了6,248個視覺語言測試樣本,以研究多視覺感知和多視覺推理對不同格式的物理傳感器知識熟練度的影響,涵蓋不同類型的與傳感器相關的問題。我們利用這些樣本來評估十個領先的LVLMs。結果顯示,大多數模型在多視覺推理方面存在不同程度的缺陷。代碼和數據可在 https://github.com/top-yun/SPARK 上找到。
大型語言模型(LLMs)在許多學科中取得了令人印象深刻的進展,然而知識衝突這一重要問題,作為幻覺的主要來源,卻鮮少受到研究。只有少數研究探討了LLMs固有知識與檢索到的上下文知識之間的衝突。然而,對LLMs中知識衝突的全面評估仍然缺乏。受到這一研究空白的激勵,我們提出ConflictBank,這是第一個全面的基準,旨在系統地評估來自三個方面的知識衝突:(i)在檢索知識中遇到的衝突,(ii)模型編碼知識內部的衝突,以及(iii)這些衝突形式之間的相互作用。我們的研究深入探討了四個模型系列和十二個LLM實例,細緻分析了由於錯誤信息、時間差異和語義分歧而產生的衝突。基於我們提出的新型構建框架,我們創建了7,453,853個主張-證據對和553,117個問答對。我們提出了關於模型規模、衝突原因和衝突類型的眾多發現。我們希望我們的ConflictBank基準能幫助社群更好地理解模型在衝突中的行為,並開發出更可靠的LLMs。
最近,多模式大型語言模型(MLLMs)展示了卓越的知覺和推理能力,通常包括視覺編碼器、適配器和大型語言模型(LLM)。適配器在視覺和語言組件之間扮演關鍵橋樑的角色。然而,使用圖像級監督訓練適配器通常會導致顯著的不一致,損害了LLMs的能力並限制了多模式LLMs的潛力。為了解決這個問題,我們引入了監督嵌入對齊(SEA),這是一種利用視覺-語言預訓練模型(如CLIP)的標記級對齊方法,通過對比學習將視覺標記與LLM的嵌入空間對齊。這種方法確保了視覺和語言表示更一致地整合,增強了多模式LLMs的性能和可解釋性,同時保留了它們固有的能力。大量實驗表明,SEA有效地改善了MLLMs,特別是對於較小的模型,而無需添加額外數據或推理計算。SEA還為開發更通用和適應性解決方案以增強多模式系統奠定了基礎。
傳統動畫生成方法依賴訓練具有人類標註數據的生成模型,這需要一個複雜的多階段流程,需要大量人力投入並產生高昂的訓練成本。由於受限於提示計劃,這些方法通常生成簡短、信息匱乏和上下文不連貫的動畫。為了克服這些限制並自動化動畫製作過程,我們開創性地引入了大型多模型模型(LMMs)作為核心處理器,構建一個名為Anim-Director的自主動畫製作代理人。該代理人主要利用LMMs和生成式人工智能工具的先進理解和推理能力,從簡潔的敘事或簡單的指示中創建動畫視頻。具體而言,它分為三個主要階段:首先,Anim-Director從用戶輸入生成一個連貫的故事情節,接著是一份詳細的導演劇本,包括角色設定和內部/外部描述,以及上場角色、內部或外部和場景事件的上下文連貫的場景描述。其次,我們利用LMMs與圖像生成工具來生成設置和場景的視覺圖像。這些圖像旨在通過一種視覺語言提示方法來保持不同場景之間的視覺一致性,該方法結合了場景描述和出現角色和設置的圖像。第三,場景圖像作為生成動畫視頻的基礎,LMMs生成提示來引導這個過程。整個過程明顯是自主的,無需手動干預,因為LMMs與生成工具無縫互動,生成提示,評估視覺質量,並選擇最佳提示以優化最終輸出。
由散射材料製成的物體的3D重建和重新照明面臨著重大挑戰,這是由表面下複雜的光線傳輸所導致的。3D高斯飛濺引入了高質量的新視角合成,實時速度。儘管3D高斯有效地近似了物體的表面,但它們無法捕捉到次表面散射的體積特性。我們提出了一個框架,用於優化物體的形狀以及給定多視角OLAT(一次一個光源)數據的輻射轉移場。我們的方法將場景分解為一個明確的表面,以3D高斯表示,具有空間變化的BRDF,以及散射組件的隱式體積表示。一個學習的入射光場考慮陰影。我們通過射線追踪的可微渲染聯合優化所有參數。我們的方法實現了材料編輯、重新照明和新視角合成,並以互動速率展示。我們展示了對合成數據的成功應用,並介紹了在燈光舞台設置中獲得的新的多視角多光線數據集。與以往的工作相比,我們在優化和渲染時間的一小部分內實現了可比或更好的結果,同時實現了對材料屬性的詳細控制。項目頁面https://sss.jdihlmann.com/
Foley音效合成對於多媒體製作至關重要,透過在時間和語義上同步音頻和視頻,增強使用者體驗。最近關於通過視頻生成音效來自動化這一勞動密集型過程的研究面臨著重大挑戰。缺乏明確時間特徵的系統容易出現控制性和對齊性不佳的問題,而基於時間戳的模型則需要昂貴且主觀的人工標註。我們提出了Video-Foley,一種使用均方根(RMS)作為時間事件條件的視頻至音效系統,並搭配語義音色提示(音頻或文本)。RMS是一種與音頻語義密切相關的幀級強度包絡特徵,確保了高度可控性和同步性。這種無需標註的自監督學習框架包括兩個階段,Video2RMS和RMS2Sound,並融入了包括RMS離散化和具有預訓練文本至音頻模型的RMS-ControlNet在內的新思想。我們的廣泛評估顯示,Video-Foley在音頻和視覺對齊以及聲音時間、強度、音色和細微差異的可控性方面實現了最先進的性能。程式碼、模型權重和演示可在附帶網站上找到。(https://jnwnlee.github.io/video-foley-demo)
鑒於社交媒體上廣泛傳播的錯誤資訊,實施針對線上主張的事實核查機制至關重要。手動驗證每個主張極具挑戰性,凸顯了自動事實核查系統的必要性。本文介紹了我們設計的系統,旨在應對此問題。我們利用Averitec數據集來評估主張的真實性。除了真實性預測外,我們的系統還提供支持證據,這些證據是從數據集中提取的。我們開發了一個檢索和生成(RAG)流程,從知識庫中提取相關證據句子,然後將其與主張一起輸入到大型語言模型(LLM)進行分類。我們還評估了多個LLM的少樣本上下文學習(ICL)能力。我們的系統實現了0.33的「Averitec」得分,比基準線提高了22%。所有代碼將在https://github.com/ronit-singhal/evidence-backed-fact-checking-using-rag-and-few-shot-in-context-learning-with-llms 上提供。