每日精選AI研究論文及翻譯
本文介紹了OtterHD-8B,一個創新的多模型,從Fuyu-8B進化而來,專門設計用於以精細粒度解釋高解析度視覺輸入。與受固定大小視覺編碼器限制的傳統模型不同,OtterHD-8B具有處理靈活輸入尺寸的能力,確保其在各種推理需求上的多功能性。除了這個模型,我們還引入了MagnifierBench,一個評估框架,旨在審查模型識別微小物件的細節和空間關係的能力。我們的比較分析顯示,當前領先的模型在這個基準測試上表現不佳,而OtterHD-8B,在直接處理高解析度輸入時,表現優於同類型模型相當大的幅度。研究結果闡明了不同模型在視覺信息處理中的結構差異,以及視覺編碼器的預訓練解析度差異對模型在這些基準測試中有效性的影響。我們的研究突顯了在大型多模型中靈活性和高解析度輸入能力的關鍵作用,同時也展示了Fuyu架構處理複雜視覺數據的潛力。
多模式大型語言模型(MLLMs)已展示出在各種開放式任務中具有令人印象深刻的指導能力。然而,先前的方法主要集中在增強多模式能力上。在這項工作中,我們介紹了一個多功能的多模式大型語言模型,mPLUG-Owl2,它有效地利用模態協作來提高文本和多模式任務的表現。mPLUG-Owl2採用模塊化網絡設計,語言解碼器作為管理不同模式的通用接口。具體而言,mPLUG-Owl2包含共享功能模塊以促進模態協作,並引入保留模態特定特徵的模態適應模塊。廣泛的實驗顯示,mPLUG-Owl2能夠泛化文本任務和多模式任務,並以單一通用模型實現最先進的性能。值得注意的是,mPLUG-Owl2是第一個在純文本和多模式情境中展示模態協作現象的MLLM模型,為未來多模式基礎模型的發展開辟了先鋒之路。
最近對於大型語言模型(LLMs)的進展已經通過將複雜問題分解為更易處理的語言序列,即所謂的「思維」,徹底改變了決策過程。一個有效的思維設計應該考慮三個關鍵觀點:性能、效率和靈活性。然而,現有的思維最多只能展現這三個屬性中的兩個。為了解決這些限制,我們引入了一種新穎的思維提示方法,稱為「一切思維」(XoT),以打破現有思維範式的「彭羅斯三角定律」。XoT利用預訓練的強化學習和蒙特卡羅樹搜索(MCTS)將外部領域知識納入思維中,從而增強LLMs的能力,使其能夠高效地泛化到未見問題。通過MCTS-LLM協作思維修訂框架的應用,這種方法能夠自主地生成高質量的全面認知映射,並最大程度地減少LLM的交互作用。此外,XoT賦予LLMs參與無限制思考的能力,從而為具有多個解決方案的問題提供靈活的認知映射。
一個房間的聲學特性是房間的幾何形狀、房間內的物體以及它們的具體位置的結果。一個房間的聲學特性可以通過源位置和聆聽者位置之間的脈衝響應(RIR),或者從房間中存在的自然信號的錄音中粗略推斷。房間中物體的位置變化可以影響房間的聲學特性,如RIR所描述的那樣。現有的RIR數據集要麼沒有系統地變化環境中物體的位置,要麼只包含模擬的RIR。我們提出了SoundCam,這是迄今為止公開發布的最大的野外房間獨特RIR數據集。它包括5,000個10通道的真實世界房間脈衝響應測量和3個不同房間中音樂的2,000個10通道錄音,包括一個受控的聲學實驗室、一個野外客廳和一個會議室,每個房間中都有不同位置的人類。我們展示這些測量可以用於有趣的任務,例如檢測和識別人類,以及跟踪他們的位置。
隨著大型語言模型(LLMs)在現實世界中承擔越來越多的責任,能夠可靠地指定和約束這些系統行為變得至關重要。模型開發人員可能希望為模型設定明確的規則,例如「不生成辱罵內容」,但這些規則可能被越獄技術規避。評估LLMs在面對對抗性輸入時如何遵循開發人員提供的規則通常需要手動審查,這會減慢監控和方法開發的速度。為了解決這個問題,我們提出了「遵循規則語言評估場景」(RuLES),這是一個用於測量LLMs遵循規則能力的程序框架。RuLES包括15個簡單的文本場景,在這些場景中,模型被要求用自然語言遵守一組規則與人類用戶互動。每個場景都有一個簡潔的評估程序,用於確定模型在對話中是否違反了任何規則。通過在我們的場景中手動探索模型行為,我們識別了6種攻擊策略類別並收集了兩套測試用例:一套包括手動測試的獨特對話,另一套系統地實施了來自6個類別的策略。在各種流行的專有和開放模型(如GPT-4和Llama 2)中,我們發現所有模型都容易受到各種對抗性手工製作的用戶輸入的影響,儘管GPT-4是表現最佳的模型。此外,我們對開放模型進行了基於梯度的攻擊評估,發現存在顯著的漏洞。我們提出RuLES作為一個具有挑戰性的新研究環境,用於探索和防禦LLMs面臨的手動和自動攻擊。
Neural MMO 2.0 是一個用於強化學習研究的大規模多智能體環境。這個新版本的關鍵特點是一個靈活的任務系統,允許使用者定義廣泛的目標和獎勵信號。我們挑戰研究人員訓練能夠泛化到在訓練過程中從未見過的任務、地圖和對手的智能體。Neural MMO 具有128個智能體的程序生成地圖,在標準設置中,並支持多達。2.0 版本是其前身的完全重寫,性能提高了三倍,並與 CleanRL 兼容。我們將該平台作為免費和開源軟件發布,提供全面的文檔,可在 neuralmmo.github.io 獲得,並且有一個活躍的社區 Discord。為了激發對這個新平台的初步研究,我們同時在 NeurIPS 2023 舉辦一場競賽。
傳統的視訊抠像在視訊幀中為所有實例輸出一個 alpha 抠像,因此無法區分各個實例。而視訊實例分割提供了時間一致的實例遮罩,但由於應用了二值化,對於抠像應用來說結果並不滿意。為了補救這一不足,我們提出了視訊實例抠像(VIM),即在視頻序列的每一幀中估計每個實例的 alpha 抠像。為應對這一具有挑戰性的問題,我們提出了 MSG-VIM,一種 Mask Sequence Guided Video Instance Matting 神經網絡,作為 VIM 的一種新基準模型。MSG-VIM 利用一系列遮罩增強來使預測對不準確和不一致的遮罩引導具有魯棒性。它結合了時間遮罩和時間特徵引導,以改善 alpha 抠像預測的時間一致性。此外,我們建立了一個新的 VIM 基準,稱為 VIM50,其中包括 50 個視頻剪輯,具有多個人類實例作為前景對象。為了評估在 VIM 任務上的性能,我們引入了一個適合的指標,稱為 Video Instance-aware Matting Quality(VIMQ)。我們提出的模型 MSG-VIM 在 VIM50 基準上確立了一個強大的基準線,並且在很大程度上優於現有方法。該項目在 https://github.com/SHI-Labs/VIM 上開源。
隨著大型語言模型變得更加普及,其可能帶來有害或不當回應的問題引起了關注。本文介紹了一個獨特的數據集,其中包含以問題形式的對抗性示例,我們稱之為AttaQ,旨在引發此類有害或不當回應。我們通過分析各種模型在受到此數據集影響時的弱點來評估我們數據集的有效性。此外,我們引入了一種新穎的自動方法,用於識別和命名易受攻擊的語義區域 - 模型可能會產生有害輸出的輸入語義區域。這是通過應用專門的聚類技術實現的,該技術考慮了輸入攻擊的語義相似性和模型回應的有害性。自動識別易受攻擊的語義區域有助於評估模型的弱點,促進針對性地改進其安全機制和整體可靠性。
自我監督的表示學習在很大程度上依賴於數據擴增,以指定表示中編碼的不變性。先前的研究表明,應用多樣化的數據擴增對下游性能至關重要,但擴增技術仍未得到充分探索。在這項研究中,我們提出了一個基於高斯隨機場的新型本地變換家族,用於生成用於自我監督表示學習的圖像擴增。這些變換概括了廣泛確立的仿射和顏色變換(平移、旋轉、色彩抖動等),通過允許從像素到像素的變換參數值的變化,大大擴展了擴增的空間。這些參數被視為空間坐標的連續函數,並被建模為獨立的高斯隨機場。實證結果顯示了新變換對於自我監督表示學習的有效性。具體而言,在ImageNet下游分類中,我們實現了比基準模型高1.7%的top-1準確度改善,並在分布外的iNaturalist下游分類中實現了3.6%的改善。然而,由於新變換的靈活性,學習到的表示對超參數敏感。儘管輕微的變換可以改善表示,但我們觀察到強烈的變換可能會破壞圖像的結構,這表明平衡擴增的多樣性和強度對於改善學習表示的泛化能力至關重要。
正式驗證可以證明保證關鍵系統軟體的正確性,但長期以來高證明負擔一直阻礙了其廣泛應用。最近,大型語言模型(LLMs)在程式碼分析和合成方面取得了成功。本文介紹了LLMs和靜態分析相結合,用於為名為Verus的基於Rust的正式驗證框架合成不變量、斷言和其他證明結構。在少樣本設置中,LLMs展示了在生成事後條件和循環不變量方面的出色邏輯能力,特別是在分析短程式碼片段時。然而,LLMs缺乏保留和傳播上下文信息的能力,這是傳統靜態分析的優勢。基於這些觀察,我們開發了一個基於OpenAI的GPT-4模型的原型。我們的原型將驗證任務分解為多個較小的任務,迭代地查詢GPT-4,並將其輸出與輕量級靜態分析結合。我們通過在20個向量操作程式中將開發人員置於自動化迴圈中來評估該原型。結果表明,它顯著減少了編寫入門級證明程式所需的人力。