每日精選AI研究論文及翻譯
現有的視覺語言模型(VLMs)主要依賴視覺編碼器來提取視覺特徵,然後使用大型語言模型(LLMs)進行視覺語言任務。然而,視覺編碼器在提取視覺表示方面設定了強烈的歸納偏差,例如解析度、長寬比和語義先驗,這可能會影響VLMs的靈活性和效率。訓練純粹的VLMs,即接受無縫視覺和語言輸入,即沒有視覺編碼器,仍然具有挑戰性且鮮少被探索。實證觀察顯示,直接訓練而無編碼器導致收斂速度緩慢且性能差距大。在這項工作中,我們彌合了基於編碼器和無編碼器模型之間的差距,提出了一個簡單而有效的訓練方法,以實現純粹的VLMs。具體來說,我們透過深入實驗揭示了有效訓練無編碼器VLMs的關鍵方面:(1)在一個統一的解碼器內建立視覺語言表示;(2)通過額外監督來增強視覺識別能力。憑藉這些策略,我們推出了EVE,一個無編碼器的視覺語言模型,可以高效地進行訓練和推理。值得注意的是,僅利用3500萬個公開可訪問的數據,EVE在多個視覺語言基準測試中令人印象深刻地與容量相似的基於編碼器的VLMs相媲美。它明顯優於具有神秘訓練程序和未公開訓練數據的對應模型Fuyu-8B。我們相信EVE為跨模態開發純粹的僅解碼器架構提供了一條透明且高效的途徑。我們的代碼和模型可在以下鏈接公開獲取:https://github.com/baaivision/EVE。
本報告介紹了FunAudioLLM,這是一個旨在增強人類與大型語言模型(LLMs)之間自然語音互動的模型系列。其核心包括兩個創新模型:SenseVoice,負責多語音識別、情感識別和音頻事件檢測;以及CosyVoice,可控制多種語言、音色、說話風格和說話者身份,促進自然語音生成。 SenseVoice-Small 提供了極低延遲的5種語言語音識別(ASR),而 SenseVoice-Large 支持50多種語言的高精度 ASR,CosyVoice 則擅長多語音生成、零樣本上下文學習、跨語言語音克隆和遵循指示的能力。 與 SenseVoice 和 CosyVoice 相關的模型已在 Modelscope 和 Huggingface 上進行了開源,相應的訓練、推斷和微調代碼也在 GitHub 上釋出。通過將這些模型與 LLMs 整合,FunAudioLLM 實現了語音到語音翻譯、情感語音聊天、互動式播客和生動的有聲書敘述等應用,從而推動了語音互動技術的界限。演示可在 https://fun-audio-llm.github.io 查看,代碼可在 https://github.com/FunAudioLLM 存取。
自我關注在長文本中表現良好,但具有二次複雜度。現有的循環神經網絡層具有線性複雜度,但在長文本中的表現受到其隱藏狀態表達能力的限制。我們提出一種新的序列建模層類型,具有線性複雜度和豐富的隱藏狀態。關鍵思想是將隱藏狀態設計為一個機器學習模型本身,並將更新規則設計為一個自監督學習步驟。由於隱藏狀態是通過在測試序列上進行訓練而更新的,我們的層被稱為測試時間訓練(TTT)層。我們考慮兩種實例化:TTT-Linear 和 TTT-MLP,其隱藏狀態分別是一個線性模型和一個兩層 MLP。我們在 1.25 億至 13 億參數的規模上評估我們的實例化,與一個強大的Transformer和一個現代的RNN Mamba進行比較。TTT-Linear 和 TTT-MLP 都與基準相匹配或超越。與Transformer類似,它們可以通過對更多標記進行條件獲得不斷降低的困惑度,而Mamba 在 16k 上下文後無法實現。通過初步系統優化,TTT-Linear 在 8k 上下文時已經比Transformer更快,並與Mamba在實際時間上相匹配。TTT-MLP 在記憶體I/O方面仍然面臨挑戰,但在長文本中展現出更大的潛力,為未來研究指明了一個有前途的方向。
生成式人工智慧的進步擴展了大型語言模型(LLMs)在自主代理開發中的潛在應用。實現真正的自主性需要積累並更新從與環境互動中獲得的知識,並有效利用它。目前基於LLM的方法利用過去的經驗,使用完整的觀察歷史、摘要或檢索增強。然而,這些非結構化記憶表示並不促進複雜決策所需的推理和規劃。在我們的研究中,我們介紹了AriGraph,一種新穎的方法,其中代理構建一個記憶圖,整合語義和情節記憶,同時探索環境。這種圖結構有助於有效地聯想檢索相互關聯的概念,與代理的當前狀態和目標相關,因此作為一個有效的環境模型,增強了代理的探索和規劃能力。我們展示了我們的Ariadne LLM代理,配備了這種提出的記憶架構,增強了規劃和決策,能夠在TextWorld環境中以零樣本基礎有效處理複雜任務。我們的方法在各種任務中明顯優於已建立的方法,如完整歷史、摘要和檢索增強生成,包括第一屆TextWorld Problems競賽中的烹飪挑戰以及新任務,如清潔房屋和解謎尋寶。
最近出現的醫學大型視覺語言模型(Med-LVLMs)已增強醫學診斷的能力。然而,目前的Med-LVLMs經常遇到事實問題,通常生成的回應與確立的醫學事實不一致。檢索增強生成(RAG)利用外部知識,可以提高這些模型的事實準確性,但也帶來兩個主要挑戰。首先,有限的檢索上下文可能無法涵蓋所有必要信息,而過多的檢索可能會引入無關和不準確的參考,干擾模型的生成。其次,在模型原本回答正確的情況下,應用RAG可能導致對檢索上下文的過度依賴,導致答案不正確。為解決這些問題,我們提出RULE,包括兩個組件。首先,我們引入一種經證明有效的策略,通過校準選擇檢索上下文數量來控制事實風險。其次,基於對檢索上下文依賴過多導致錯誤的樣本,我們編纂了一個偏好數據集來微調模型,平衡其對內在知識和檢索上下文的依賴以進行生成。我們在三個醫學VQA數據集上展示了RULE的有效性,實現了事實準確性平均提高20.8%。我們在https://github.com/richard-peng-xia/RULE 上公開發布了我們的基準和代碼。
鑑於圖表在各行業和科學領域作為數據分析、視覺化和決策工具的普及,人們對開發預訓練基礎模型以及通用指導調整模型以進行圖表理解和推理的興趣日益增長。然而,現有方法存在兩個關鍵軸上的重要缺陷,影響著圖表表示模型的性能:它們是在從圖表的基礎數據表生成的數據上進行訓練,忽略了圖表圖像中的視覺趨勢和模式,並使用弱對齊的視覺-語言骨幹模型進行特定領域的訓練,限制了它們在遇到實際圖表時的泛化能力。我們解決了這些重要缺陷,並介紹了ChartGemma,這是一個新穎的圖表理解和推理模型,是在PaliGemma之上開發的。ChartGemma不依賴於基礎數據表,而是在直接從圖表圖像生成的指導調整數據上進行訓練,從而捕捉來自各種圖表的高層趨勢和低層視覺信息。我們的簡單方法在涵蓋圖表摘要、問答和事實核查的5個基準測試中取得了最先進的結果,我們對真實世界圖表進行了詳盡的定性研究,結果顯示ChartGemma相對於其同行者生成了更加真實和事實準確的摘要。我們在https://github.com/vis-nlp/ChartGemma 發布了代碼、模型檢查點、數據集和演示。
人們通過即時通訊工具在對話中分享與個人經驗相關的各種圖像。然而,現有的研究主要關注於(1)單一會話中的圖像分享行為,導致長期社交互動有限,以及(2)缺乏個性化的圖像分享行為。在本研究中,我們介紹了Stark,一個大規模長期多模態對話數據集,涵蓋多種社交人物角色、多模態格式、時間間隔和圖像。為了自動構建Stark,我們提出了一個新穎的多模態情境化框架Mcu,從ChatGPT和我們提出的Plan-and-Execute圖像對齊器中提取出長期多模態對話。利用我們的Stark,我們訓練了一個多模態對話模型Ultron 7B,展示出令人印象深刻的視覺想像能力。此外,我們展示了我們數據集在人類評估中的有效性。我們將我們的源代碼和數據集公開提供。
大型語言模型(LLMs)在處理簡單數學問題方面取得了令人印象深刻的進展,但在應對更具挑戰性和複雜的數學任務方面仍然存在困難。本文介紹了一系列採用思維分解、程式碼輔助和自我校正進行數學推理的LLMs,被稱為DotaMath。DotaMath模型通過將複雜的數學任務分解為更簡單的邏輯子任務,利用程式碼來解決這些子任務,從程式碼解譯器獲取細粒度反饋,並進行自我反思和校正。通過對GSM8K和MATH數據集進行多樣互動工具使用軌跡的標註,並使用查詢演進生成DotaMathQA,其中包含574K個查詢-響應對。我們在DotaMathQA上使用模仿學習訓練了一系列基礎LLMs,從而產生了與各種領域內外基準相比表現出色的DotaMath模型。值得注意的是,DotaMath-deepseek-7B在具競爭力的MATH數據集上表現出色,達到64.8%,在GSM8K上達到86.7%。此外,DotaMath-deepseek-7B在一系列領域內外基準上保持著強大的競爭力(平均80.1%)。展望未來,我們預期DotaMath範式將開辟應對複雜數學問題的新途徑。我們的程式碼可在https://github.com/ChengpengLi1003/DotaMath 公開獲取。
本文介紹了LLM-jp,這是一個跨組織的項目,旨在研究和開發日文大型語言模型(LLMs)。LLM-jp的目標是開發開源且強大的日文LLMs,截至本文撰寫時,已有來自學術界和工業界的1,500多名參與者共同為此目的而努力。本文介紹了LLM-jp成立的背景、其活動摘要,以及LLM-jp開發的LLMs的技術報告。有關最新活動,請訪問https://llm-jp.nii.ac.jp/en/。
受益於大型語言模型和跨模態對齊的進展,現有的多模態視頻理解方法在離線場景中取得了顯著的表現。然而,在現實世界中作為最常見的媒體形式之一,線上視頻流卻鮮少受到關注。與離線視頻相比,線上視頻流的「動態」特性對現有模型的直接應用提出了挑戰,並引入了新問題,例如存儲極長期信息、連續視覺內容與「異步」用戶問題之間的交互作用。因此,在本文中,我們提出了Flash-VStream,一種模擬人類記憶機制的視頻語言模型。我們的模型能夠實時處理極長的視頻流並同時回應用戶查詢。與現有模型相比,Flash-VStream在推理延遲和VRAM消耗方面實現了顯著的降低,這與對線上流視頻進行理解密切相關。此外,鑒於現有的視頻理解基準主要集中在離線場景,我們提出了VStream-QA,一個專門為線上視頻流理解設計的新型問答基準。在所提出的基準上與流行的現有方法進行比較,證明了我們的方法在這種具有挑戰性的設置下的優越性。為驗證我們方法的泛化能力,我們進一步在現有的視頻理解基準上進行評估,並在離線場景中實現了最先進的性能。所有代碼、模型和數據集均可在https://invinciblewyq.github.io/vstream-page/ 上獲得。
可擴展的監督協議旨在使人類能夠準確監督超級智能人工智能。本文研究辯論,其中兩個人工智能競爭說服一位裁判;諮詢,其中一個人工智能試圖說服提問的裁判;並與直接問答的基準進行比較,其中裁判直接回答而不需要人工智能。我們使用大型語言模型(LLMs)作為兩個人工智能代理和人類裁判的替身,將裁判模型視為比代理模型更弱。我們在裁判和代理之間的各種不對稱性上進行基準測試,擴展了先前在單一提取式問答任務中的信息不對稱性工作,也包括數學、編碼、邏輯和多模態推理不對稱性。我們發現,當諮詢顧問被隨機分配為辯論正確/不正確答案時,辯論在所有任務中優於諮詢。將辯論與直接問答進行比較,結果取決於任務類型:在具有信息不對稱性的提取式問答任務中,辯論優於直接問答,但在其他沒有信息不對稱性的任務中,結果則不一。先前的工作將辯論者/顧問指定一個答案進行辯論。當我們允許他們選擇要辯論的答案時,我們發現在辯論中,裁判被錯誤答案說服的頻率比在諮詢中少。此外,我們發現更強的辯論模型提高了裁判的準確性,儘管比先前的研究要遜色。
LLM被認為容易受到越獄攻擊的影響,即使經過安全調整。一個重要觀察是,儘管不同類型的越獄攻擊可能產生顯著不同的查詢,但它們通常導致根源於相同有害知識的類似回應(例如,製作炸彈的詳細步驟)。因此,我們推測直接在LLM中消除有害知識可能是一種比主流監督微調(SFT)方法更有效的防禦越獄攻擊的方式。我們的大量實驗證實了我們的洞察力,並暗示了我們基於消除學習的方法驚人的泛化能力:在訓練期間僅使用20個原始有害問題,而沒有任何越獄提示,我們的解決方案將Vicuna-7B上的分布外有害問題的攻擊成功率(ASR)從82.6%降低到7.7%。這明顯優於Llama2-7B-Chat,後者在約0.1M安全調整樣本上進行了微調,但即使在額外安全系統提示的幫助下,其ASR仍為21.9%。進一步分析顯示,我們解決方案的泛化能力源於有害問題之間有害回應的內在相關性(例如,回應模式、共享步驟和操作,以及它們在LLM中學習表示之間的相似性)。我們的代碼可在https://github.com/thu-coai/SafeUnlearning找到。
在各種真實應用中,能夠全面處理文字、圖像、視頻、音頻和其他感官模式的多模基礎模型越來越普遍。然而,由於可能的建模決策、任務和領域範圍廣泛,表徵和研究多模基礎模型的進展是具有挑戰性的。本文引入了全面評估多模型(HEMM)的方法,以系統地評估多模基礎模型在三個維度上的能力:基本技能、信息流動和真實應用案例。基本多模技能是解決問題所需的內在能力,例如跨模式學習互動、細粒度對齊、多步推理和處理外部知識的能力。信息流動研究多模內容在任務過程中如何通過查詢、翻譯、編輯和融合而變化。應用案例涵蓋了在真實世界多媒體、情感計算、自然科學、醫療保健和人機交互應用中引入的特定領域挑戰。通過在HEMM的30個任務上進行全面實驗,我們(1)確定了對當今模型構成挑戰的關鍵數據集維度(例如基本技能、信息流動和應用案例),以及(2)概括了不同建模維度(例如規模、預訓練數據、多模對齊、預訓練和指導調整目標)如何影響性能的性能趨勢。我們對具有挑戰性的多模交互、需要推理和外部知識的任務和應用案例、數據和模型規模的好處,以及指導調整的影響得出的結論為未來多模基礎模型的工作提供了可操作的見解。
神經輻射場(NeRFs)因其高質量的新視角渲染能力而受到重視,促使研究人員致力於應對各種真實世界情況。一個關鍵挑戰是相機運動模糊,由於曝光時間內相機移動引起,導致無法準確重建3D場景。在本研究中,我們提出了連續剛性運動感知高斯飛濺(CRiM-GS)方法,以實時渲染速度從模糊影像中重建準確的3D場景。考慮到實際相機運動模糊過程,其中包含複雜的運動模式,我們基於神經常微分方程(ODEs)預測相機的連續運動。具體來說,我們利用剛性變換來模擬相機運動,並進行適當的正則化,保留物體的形狀和大小。此外,我們在SE(3)場中引入了連續可變形的3D變換,通過確保更高的自由度,將剛性變換適應於現實問題。通過重新審視基本相機理論並應用先進的神經網絡訓練技術,我們實現了對連續相機軌跡的準確建模。我們進行了大量實驗,在基準數據集上定量和定性地展示了最先進的性能。
視覺語言模型(VLMs)在回答尋求資訊的問題方面能力迅速提升。由於這些模型被廣泛應用於消費者應用程式中,它們可能因具有識別照片中人物、地理定位圖像等新興能力而導致新的隱私風險。正如我們所展示的,相當令人驚訝的是,目前的開源和專有VLMs非常擅長圖像地理定位,使得利用VLMs進行廣泛地理定位成為一個立即的隱私風險,而非僅僅是理論上的未來問題。為應對這一挑戰的第一步,我們開發了一個新的基準測試,名為GPTGeoChat,來測試VLMs在與用戶進行地理定位對話時的調節能力。我們收集了一組由內部標註者和GPT-4v之間的1,000次圖像地理定位對話,這些對話被標註為每個轉折中透露的位置信息的細節。利用這個新數據集,我們評估了各種VLMs在調節GPT-4v地理定位對話時的能力,通過確定何時透露了過多的位置信息。我們發現,當識別洩露的位置信息達到國家或城市級別時,定制的精細調整模型與提示的基於API的模型表現相當;然而,對監督數據進行精細調整似乎是必要的,以準確調節更細緻的細節,如餐廳或建築物的名稱。