每日精選AI研究論文及翻譯
在大型語言模型時代,混合專家(Mixture-of-Experts,MoE)是一種有前途的架構,用於在擴展模型參數時管理計算成本。然而,像GShard這樣的傳統MoE架構,會遇到確保專家專業化的挑戰,即每個專家獲得互不重疊且專注的知識。為此,我們提出了DeepSeekMoE架構,以達到最終的專家專業化。它包含兩個主要策略:(1)將專家細分為mN個,並從中啟動mK個,從而允許更靈活地組合啟動的專家;(2)將K_s個專家隔離為共享專家,旨在捕捉共同知識並減輕路由專家中的冗余。從一個適度規模的2B參數開始,我們展示了DeepSeekMoE 2B實現了與擁有1.5倍專家參數和計算的GShard 2.9B相當的性能。此外,DeepSeekMoE 2B幾乎達到了具有相同總參數數量的密集對應性能,這確定了MoE模型的上限。隨後,我們將DeepSeekMoE擴展到16B參數,並展示它實現了與LLaMA2 7B相當的性能,僅需約40%的計算量。進一步,我們對將DeepSeekMoE擴展到145B參數的初步努力一致驗證了其相對於GShard架構的顯著優勢,並展示了其性能與DeepSeek 67B相當,僅使用了28.5%(甚至18.2%)的計算量。
內容創作者通常致力於使用個人主題創建個性化圖像,超越傳統文本轉圖像模型的能力。此外,他們可能希望生成的圖像涵蓋特定位置、風格、氛圍等。現有的個性化方法可能會影響個性化能力或與複雜文本提示的一致性。這種權衡可能阻礙用戶提示和主題忠實度的實現。我們提出了一種新方法,專注於單個提示的個性化方法,以解決這個問題。我們將我們的方法稱為提示對齊個性化。儘管這可能看似受限,我們的方法在改善文本對齊方面表現出色,能夠創建具有複雜和精細提示的圖像,這可能對當前技術構成挑戰。特別是,我們的方法通過額外的分數蒸餾取樣項將個性化模型與目標提示對齊。我們展示了我們的方法在多次和單次拍攝設置中的多功能性,並進一步展示了它可以組合多個主題或從參考圖像(如藝術作品)中獲取靈感。我們定量和定性地將我們的方法與現有基準和最先進技術進行比較。
從人類反饋學習(RLHF)已成為對齊語言模型與人類價值和意圖至關重要的技術,使模型能夠產生更有幫助且無害的回應。獎勵模型被訓練為人類偏好的代理,以推動強化學習的優化。儘管獎勵模型通常被認為是實現高性能的關鍵,但在實際應用中,它們面臨以下挑戰:(1)數據集中不正確和含糊的偏好對可能阻礙獎勵模型準確捕捉人類意圖。(2)在特定分布的數據上訓練的獎勵模型通常難以推廣到該分布之外的示例,並且不適用於迭代RLHF訓練。 在本報告中,我們試圖解決這兩個問題。 (1)從數據角度出發,我們提出一種方法來衡量數據中偏好的強度,基於多個獎勵模型的投票機制。實驗結果證實,具有不同偏好強度的數據對獎勵模型性能有不同影響。我們引入了一系列新方法來減輕數據集中不正確和含糊偏好的影響,並充分利用高質量的偏好數據。(2)從算法角度出發,我們引入對比學習來增強獎勵模型區分所選和被拒絕回應的能力,從而提高模型的泛化能力。此外,我們採用元學習來使獎勵模型能夠保持區分分布之外樣本中微小差異的能力,並且這種方法可用於迭代RLHF優化。
基於點的輝度場渲染在新視角合成方面展現了令人印象深刻的成果,提供了渲染品質和計算效率的極具吸引力的組合。然而,在這個領域中最新的方法也並非沒有缺點。3D 高斯濺射 [Kerbl 和 Kopanas 等人,2023] 在渲染高度詳細場景時遇到困難,因為會出現模糊和雲狀異常。另一方面,ADOP [Rückert 等人,2022] 能夠呈現更清晰的圖像,但神經重建網絡降低了性能,它面臨著時間不穩定性的挑戰,並且無法有效地處理點雲中的大間隙。 在本文中,我們提出了 TRIPS(三線性點濺射),這是一種結合了高斯濺射和 ADOP 的思想的方法。我們新技術的基本概念涉及將點光柵化為屏幕空間圖像金字塔,金字塔層的選擇由投影點大小確定。這種方法允許使用單一三線性寫入渲染任意大的點。然後使用輕量級神經網絡重建一個無洞的圖像,其中包括超出濺射分辨率的細節。重要的是,我們的渲染管線是完全可微的,可以自動優化點的大小和位置。 我們的評估表明,TRIPS 在渲染品質方面超越了現有的最先進方法,同時在現有硬件上實現了每秒 60 幀的實時幀速率。這種性能適用於具有複雜幾何、廣闊景觀和自動曝光素材等具有挑戰性的場景。
最近的研究表明,在文本到圖像生成中,使用具有優質獎勵的強化學習(RL)可以提高生成圖像的質量。然而,對多個獎勵進行簡單聚合可能導致某些指標的過度優化和其他指標的降級,手動找到最佳權重具有挑戰性。一種有效的策略是共同優化RL中的多個獎勵以進行文本到圖像生成。本文介紹了Parrot,這是一種新穎的多獎勵RL框架,用於文本到圖像生成。通過批次Pareto最優選擇的使用,Parrot在RL優化文本到圖像生成過程中自動識別不同獎勵之間的最佳折衷。此外,Parrot採用了一種聯合優化方法,用於T2I模型和提示擴展網絡,促進生成具有質量意識的文本提示,進一步提高最終圖像質量。為了對抗由於提示擴展而導致的原始用戶提示的潛在災難性遺忘,我們在推斷時引入了原始提示中心引導,確保生成的圖像忠實於用戶輸入。大量實驗和用戶研究表明,Parrot在各種質量標準(包括美學、人類偏好、圖像情感和文本-圖像對齊)上優於幾種基準方法。
檢查大型語言模型(LLMs)中隱藏表示所編碼的信息可以解釋模型的行為並驗證其與人類價值觀的一致性。鑒於LLMs在生成人類可理解文本方面的能力,我們建議利用模型本身來以自然語言解釋其內部表示。我們引入了一個名為 Patchscopes 的框架,並展示了如何使用它來回答關於LLM計算的各種研究問題。我們指出,基於將表示投影到詞彙空間並介入LLM計算的先前可解釋性方法,可以被視為此框架的特殊實例。此外,一些缺點,如無法檢查早期層或缺乏表達能力,可以通過 Patchscope 來緩解。除了統一先前的檢查技術,Patchscopes 還開啟了新的可能性,例如使用更強大的模型來解釋較小模型的表示,並開啟了新的應用,如多跳推理中的自我校正。
在大量網絡數據訓練的大型語言模型可能會記憶和重現敏感或私人數據,引發法律和道德上的疑慮。遺忘或調整模型以遺忘訓練數據中存在的信息,為我們提供了一種在訓練後保護私人數據的方法。儘管存在多種方法來進行這種遺忘,但目前尚不清楚這些方法在多大程度上會導致與從未學習過要遺忘的數據的模型等效的結果。為應對這一挑戰,我們提出了TOFU,即虛構遺忘任務,作為一個旨在幫助加深我們對遺忘的理解的基準。我們提供了一個包含200個不同合成作者檔案的數據集,每個檔案包含20個問答對,以及這些檔案的一個子集,被稱為遺忘集,用作遺忘的目標。我們編製了一套指標,共同提供遺忘效果的全面圖景。最後,我們提供了現有遺忘算法的一組基準結果。重要的是,我們考慮的所有基準結果都沒有展示出有效的遺忘,這促使我們繼續努力開發有效調整模型的方法,使其真正表現得好像從未在遺忘數據上進行過訓練一樣。
醫學的核心在於醫師與病患之間的對話,熟練的病史探詢為準確診斷、有效管理和持久的信任鋪平了道路。具有診斷對話能力的人工智慧(AI)系統可以提高醫療保健的可及性、一致性和質量。然而,接近臨床醫師專業知識的能力仍是一個傑出的重大挑戰。在這裡,我們介紹了AMIE(Articulate Medical Intelligence Explorer),這是一個基於大型語言模型(LLM)的AI系統,經過優化以進行診斷對話。 AMIE使用一個新穎的基於自我對弈的模擬環境,配備自動化反饋機制,以擴展對各種疾病症狀、專業領域和情境的學習。我們設計了一個評估臨床意義性能指標的框架,包括病史探詢、診斷準確性、管理推理、溝通技巧和同理心。我們通過一項隨機、雙盲交叉研究,使用經過驗證的患者演員進行基於文本的諮詢,類似客觀結構臨床考試(OSCE),將AMIE的表現與基層醫師(PCPs)進行比較。該研究包括來自加拿大、英國和印度的臨床提供者提供的149個病例情境,20名PCPs用於與AMIE進行比較,並由專科醫師和患者演員進行評估。根據專科醫師的評估,AMIE在32個指標中有28個表現優異,而根據患者演員的評估,在26個指標中有24個表現優異。 我們的研究存在幾個限制,應該以適當的謹慎態度來解釋。臨床醫師僅限於不熟悉的同步文本聊天,這允許大規模的LLM-患者互動,但不代表通常的臨床實踐。在AMIE能夠應用於現實世界設置之前,需要進一步的研究,但這些結果代表了邁向對話式診斷AI的里程碑。
多模式大型語言模型在不同模態下的各種任務中展現出令人印象深刻的表現。然而,現有的多模式模型主要強調捕捉每個模態內的全局信息,卻忽略了跨模態感知局部信息的重要性。因此,這些模型缺乏有效理解輸入數據的細節,限制了它們在需要更細緻理解的任務中的表現。為了解決這一限制,迫切需要開發能夠實現跨多模式細粒度理解的模型,從而提高它們對各種任務的適用性。在本文中,我們提出LEGO,一種語言增強的多模式基礎模型。除了像其他多模式模型一樣捕捉全局信息外,我們提出的模型擅長處理需要對輸入中的局部信息進行詳細理解的任務。它展示了對圖像中特定區域或視頻中特定時刻的精確識別和定位。為實現此目標,我們設計了一個多樣化的數據集構建流程,從而產生了一個用於模型訓練的多模式、多粒度數據集。我們的模型的代碼、數據集和演示可在https://github.com/lzw-lzw/LEGO 找到。
基於擴散的影片編輯已經取得令人印象深刻的品質,可以根據文字編輯提示,轉換給定影片輸入的全域風格、局部結構和屬性。然而,這類解決方案通常需要耗費大量記憶體和計算成本來生成時間上連貫的幀,無論是通過擴散反演還是跨幀注意力的形式。本文對這些效率低下之處進行了分析,並提出了簡單而有效的修改建議,可以實現顯著的加速,同時保持品質。此外,我們引入了以Object-Centric Diffusion為名的OCD,通過將計算更多地分配給對知覺品質更重要的前景編輯區域,進一步降低延遲。我們通過兩個新提議來實現這一點:i)Object-Centric Sampling,將用於突出顯著區域或背景的擴散步驟分開,將大部分模型容量分配給前者;ii)Object-Centric 3D Token Merging,通過將不重要的背景區域中的冗餘token融合,降低跨幀注意力的成本。這兩種技術都可以直接應用於給定的影片編輯模型,無需重新訓練,並且可以顯著降低其記憶體和計算成本。我們在基於反演和基於控制信號的編輯流程上評估了我們的提議,並展示了相當合成品質的情況下,延遲減少高達10倍。
動態新視角合成旨在捕捉影片中視覺內容的時間演變。現有方法在區分運動和結構方面存在困難,特別是在相機姿勢相對於物體運動的情況下,相機姿勢要麼未知,要麼受限。此外,僅從參考圖像獲取信息,極具挑戰性地去幻想在給定影片中被遮擋或部分觀察到的未見區域。為解決這些問題,我們首先使用自定義技術在影片幀上對預訓練的RGB-D擴散模型進行微調。隨後,我們將從微調模型中提煉知識,轉化為包含動態和靜態神經輻射場(NeRF)組件的4D表示。所提出的流程在保留場景身份的同時實現了幾何一致性。我們進行了深入的實驗,從質量和量化方面評估了所提方法的有效性。我們的結果展示了我們方法在具有挑戰性情況下的穩健性和實用性,進一步推動了動態新視角合成的發展。
我們發現網絡上的內容通常被翻譯成多種語言,而這些多向翻譯的低質量表明它們很可能是使用機器翻譯(MT)生成的。多向平行、機器生成的內容不僅主導著資源較少語言的翻譯;它也佔了這些語言總網絡內容的很大一部分。我們還發現證據表明,在被翻譯成多種語言的內容類型中存在著選擇偏見,這與低質量的英文內容通過機器翻譯大量翻譯成許多資源較少語言的情況一致。我們的研究對於在來自網絡抓取的單語和雙語數據上訓練多語言大型語言模型等模型提出了嚴重擔憂。
本文介紹對比對齊指示(AlignInstruct)以應對大型語言模型(LLMs)機器翻譯(MT)中的兩個挑戰。其中一個挑戰是將支持的語言擴展到以前未見過的語言。第二個挑戰與低資源語言中數據不足有關。通過MT指示(MTInstruct)對模型進行微調是應對第一個挑戰的一種直接方法。然而,MTInstruct受到第二個挑戰中固有的跨語言信號薄弱的限制。AlignInstruct通過使用統計詞對齊構建的跨語言鑑別器來強調跨語言監督。我們基於對BLOOMZ模型(1b1、3b和7b1)進行微調的結果顯示:(1)LLMs可以使用MTInstruct有效地翻譯未見過的語言;(2)AlignInstruct在涉及英語的48個翻譯方向上持續改善翻譯質量;(3)基於鑑別器的指示在跨語言指示中優於生成對應物;(4)AlignInstruct在30個零樣本方向中提高了性能。