每日精選AI研究論文及翻譯
我們介紹了 EXAONE 3.0 指令調校語言模型,這是由 LG AI 研究開發的大型語言模型(LLMs)家族中首個開放模型。在不同的模型尺寸中,我們公開釋出了 78 億個指令調校模型,以促進開放研究和創新。通過在廣泛的公共和內部基準測試中進行詳盡評估,EXAONE 3.0 展示了與其他同等尺寸的最新開放模型相比具有高度競爭力的真實世界表現,並具有遵循指令的能力。我們的比較分析顯示,EXAONE 3.0 在韓文方面表現出色,同時在一般任務和複雜推理方面取得了引人注目的表現。憑藉其強大的真實世界效能和雙語能力,我們希望 EXAONE 繼續為專家級 AI 的進步做出貢獻。我們的 EXAONE 3.0 指令調校模型可在以下網址獲得:https://huggingface.co/LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct
在人工智慧領域中,打造一個通用智能體一直是一個久遠的願景。現有的智能體在許多領域取得了顯著進展,但仍然難以完成開放世界中的長視程任務。我們認為這是由於缺乏必要的世界知識和多模態經驗,這些知識和經驗可以引導智能體完成各種長視程任務。在本文中,我們提出了一個混合多模態記憶模組來應對上述挑戰。該模組 1) 將知識轉化為階層式導向知識圖,使智能體能夠明確表示和學習世界知識,並 2) 將歷史信息總結為抽象多模態經驗池,為智能體提供豐富的參考資料以進行上下文學習。在混合多模態記憶模組之上,構建了一個多模態智能體 Optimus-1,該智能體具有專用的知識引導規劃器和經驗驅動反射器,在面對《Minecraft》中的長視程任務時有更好的規劃和反思能力。大量實驗結果顯示,Optimus-1在具有挑戰性的長視程任務基準上顯著優於所有現有的智能體,並在許多任務上展現出接近人類水平的表現。此外,我們引入了各種多模態大型語言模型(MLLMs)作為 Optimus-1 的基礎。實驗結果表明,在混合多模態記憶模組的幫助下,Optimus-1在許多任務上優於 GPT-4V 基準,展現出強大的泛化能力。
在真實世界任務中達到人類水準的速度和表現是機器人研究社區的目標。這項工作邁出了邁向該目標的一步,提出了第一個在競爭性乒乓球比賽中達到業餘人類水準表現的學習機器人代理。乒乓球是一項需要人類選手經過多年訓練才能達到高級熟練水準的體育運動。在本文中,我們貢獻了(1) 一種階層式和模塊化的策略架構,包括(i) 具有詳細技能描述的低層控制器,這些描述模擬了代理的能力並有助於彌合模擬與現實之間的差距,以及(ii) 選擇低層技能的高層控制器,(2) 實現零樣本模擬到現實的技術,包括通過迭代方法定義以真實世界為基礎的任務分配並定義自動課程,以及(3) 對未知對手進行實時適應。通過29場機器人對人類的比賽評估了策略表現,其中機器人贏得了45%的比賽(13/29)。所有人類都是未曾見過的玩家,他們的技能水平從初學者到比賽級別不等。儘管機器人在與最高級別玩家的比賽中全部失利,但在與初學者的比賽中贏得了100%的比賽,在與中級玩家的比賽中贏得了55%的比賽,展示了堅實的業餘人類水準表現。比賽的視頻可在以下網址查看:https://sites.google.com/view/competitive-robot-table-tennis
大型語言模型(LLMs)在像HumanEval和MBPP這樣的獨立代碼任務中表現出色,但在處理整個代碼庫時卻遇到困難。這一挑戰促使研究人員開展研究,以增強LLM-代碼庫之間的互動,實現代碼庫規模上的提升。目前的解決方案依賴基於相似性的檢索或手動工具和API,但各自存在顯著缺點。基於相似性的檢索在複雜任務中通常召回率低,而手動工具和API通常是特定任務的,需要專業知識,降低了它們在各種代碼任務和現實應用中的通用性。為了克服這些限制,我們引入了CodexGraph,這是一個系統,將LLM代理與從代碼庫中提取的圖形數據庫接口集成在一起。通過利用圖形數據庫的結構特性和圖形查詢語言的靈活性,CodexGraph使LLM代理能夠構建和執行查詢,從而實現精確、代碼結構感知的上下文檢索和代碼導航。我們使用三個基準測試CrossCodeEval、SWE-bench和EvoCodeBench來評估CodexGraph。此外,我們開發了五個現實世界的編碼應用程序。通過統一的圖形數據庫模式,CodexGraph展示了在學術和現實環境中的競爭性表現和潛力,展示了它在軟件工程中的多功能性和有效性。我們的應用演示: https://github.com/modelscope/modelscope-agent/tree/master/apps/codexgraph_agent.
WalledEval是一個全面的人工智慧安全測試工具包,旨在評估大型語言模型(LLMs)。它支持各種模型,包括開放權重和基於API的模型,並提供超過35個安全基準,涵蓋多語言安全、誇大安全和提示注入等領域。該框架支持LLM和評審基準測試,並整合了自定義變異器,以測試針對各種文本風格變異(如未來時態和改寫)的安全性。此外,WalledEval還引入了WalledGuard,一個新的、小型且高效的內容審查工具,以及SGXSTest,用於評估文化背景下誇大安全性的基準。我們將WalledEval公開提供,網址為https://github.com/walledai/walledevalA。
最近,3D 高斯飄點(3D Gaussian splatting,3DGS)作為一種替代表示方法嶄露頭角,利用基於 3D 高斯的表示並引入近似體積渲染,實現非常快速的渲染速度和有前途的圖像質量。此外,後續研究成功將 3DGS 擴展到動態 3D 場景,展示其廣泛的應用範圍。然而,一個重要的缺點是,3DGS 及其後續方法需要大量的高斯點來保持渲染圖像的高保真度,這需要大量的內存和存儲空間。為了解決這一關鍵問題,我們特別強調兩個關鍵目標:減少高斯點的數量而不影響性能,以及壓縮高斯屬性,如視角相依性顏色和協方差。為此,我們提出了一種可學習的遮罩策略,顯著減少高斯數量同時保持高性能。此外,我們提出了一種緊湊但有效的視角相依性顏色表示方法,採用基於網格的神經場,而不是依賴球面調和。最後,我們通過學習代碼書來緊湊表示幾何和時間屬性,採用殘差向量量化。通過模型壓縮技術,如量化和熵編碼,我們在靜態場景中展示了與 3DGS 相比超過 25 倍的存儲減少和增強的渲染速度,同時保持場景表示的質量。對於動態場景,我們的方法實現了超過 12 倍的存儲效率,並與現有最先進的方法相比保持高質量的重建。我們的工作為 3D 場景表示提供了一個全面的框架,實現高性能、快速訓練、緊湊性和實時渲染。我們的項目頁面位於 https://maincold2.github.io/c3dgs/。
近期的圖像生成模型擅長從簡短描述中創建高質量圖像。然而,當遇到冗長上下文時,這些模型在跨圖像多個實例的一致性上表現不佳。這種不一致性主要是由於現有訓練數據集中缺乏對實例特徵進行細粒度標記。為了應對這些問題,我們引入了Openstory++,這是一個大規模數據集,結合了額外的實例級標註、圖像和文本。此外,我們開發了一種強調實體為中心的圖像-文本生成訓練方法,確保模型學習有效地交織視覺和文本信息。具體來說,Openstory++ 簡化了從開放域視頻中提取關鍵幀的過程,利用視覺語言模型生成標題,然後通過大型語言模型進行敘事連貫性的修飾。它通過提供更豐富的開放域資源,包括自動標題生成、針對實例計數量身定制的高分辨率圖像以及用於時間一致性的廣泛幀序列,勝過了以往的數據集。此外,我們還提出了 Cohere-Bench,這是一個用於評估當提供長多模態上下文時的圖像生成任務的開創性基準框架,包括保持給定上下文中背景、風格和實例的一致性能力。與現有基準相比,我們的工作填補了多模態生成中的關鍵空白,推動了能夠熟練生成和解釋開放域環境中複雜敘事的模型的發展。在 Cohere-Bench 中進行的實驗證實了 Openstory++ 在培育高質量視覺故事模型方面的優越性,增強了它們應對開放域生成任務的能力。更多詳細信息請參見 https://openstorypp.github.io/
我們提出了Speech-MASSIVE,這是一個多語言口語語言理解(SLU)數據集,包括MASSIVE文本語料庫的語音對應部分。Speech-MASSIVE涵蓋了來自不同語系的12種語言,並從MASSIVE繼承了意圖預測和槽填充任務的標註。我們擴展了這一數據集,是為了應對極度多語言SLU數據集的稀缺性,以及對評估基礎模型(如LLMs、語音編碼器)跨語言和任務的多功能語音數據集的日益增長需求。我們提供了一個多模態、多任務、多語言的數據集,並在各種訓練情景(零-shot、少-shot和完全微調)中使用串聯和端到端架構報告了SLU基準線。此外,我們展示了Speech-MASSIVE用於其他任務(如語音轉錄、語言識別和語音翻譯)基準測試的適用性。數據集、模型和代碼均可在以下鏈接公開獲取:https://github.com/hlt-mt/Speech-MASSIVE
基於可微分體積渲染的方法在新視角合成方面取得了顯著進展。一方面,創新方法已將神經輻射場(NeRF)網絡替換為具有局部參數化結構的方法,使得在合理時間內能夠生成高質量的渲染。另一方面,一些方法使用了可微分的塗抹(splatting)來取代 NeRF 的光線投射,以使用高斯核快速優化輻射場,實現對場景的精細適應。然而,雖然塗抹實現了快速渲染,但容易產生明顯可見的瑕疵。 我們的工作填補了這一空白,提供了對發射輻射 c 和密度 {\sigma} 進行物理上一致的公式化,使用與球形高斯/調和相關聯的高斯函數進行全頻色度表示。我們還引入了一種方法,通過一種集成輻射場的算法,利用 BVH 結構逐層進行不規則分佈高斯的可微分光線投射。這使得我們的方法能夠對場景進行精細適應,同時避免塗抹的瑕疵。因此,我們實現了比最先進技術更優秀的渲染質量,同時保持合理的訓練時間,並在 Blender 數據集上實現了每秒 25 幀的推理速度。項目頁面連結,包含視頻和代碼:https://raygauss.github.io/
本文提出了一種將動畫圖形分解為精靈(sprites)的方法,這些精靈是基本元素或層。我們的方法建立在優化精靈參數以配合光柵視頻的基礎上。為了提高效率,我們假設精靈使用靜態紋理,以減少搜索空間,同時使用紋理先驗模型來防止產生瑕疵。為了進一步加快優化過程,我們引入了使用預先訓練的視頻物體分割模型和用戶輸入的單幀標註來初始化精靈參數。在我們的研究中,我們從在線設計服務中構建了Crello Animation數據集,並定義了量化指標來衡量提取的精靈的質量。實驗表明,我們的方法在質量/效率平衡方面顯著優於類似分解任務的基準方法。
電影音訊源分離(CASS)是音訊源分離的一個相對新的子任務。CASS的典型設置是一個三聲道問題,旨在將混音分離為對話聲道(DX)、音樂聲道(MX)和效果聲道(FX)。然而,在實踐中,存在一些邊緣情況,因為某些音源無法清晰地歸入這三個聲道之一,需要在製作中使用額外的輔助聲道。一個非常常見的邊緣情況是電影音頻中的歌唱聲音,根據電影情境的不同可能屬於DX或MX中的一個。在這項工作中,我們展示了將專用解碼器Bandit和基於查詢的單解碼器Banquet模型擴展為四聲道問題的非常直接的方法,將非音樂對話、器樂音樂、歌唱聲音和效果視為獨立的聲道。有趣的是,基於查詢的Banquet模型表現優於專用解碼器Bandit模型。我們假設這是由於FiLM層所強制執行的瓶頸處的更好特徵對齊。數據集和模型實現將在https://github.com/kwatcharasupat/source-separation-landing提供。