AI研究論文每日精選

每日精選AI研究論文及翻譯

直接納什優化：教導語言模型通過一般偏好自我改進
Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences

Apr 4

ByCorby Rosset, Ching-An Cheng, Arindam Mitra, Michael Santacroce, Ahmed Awadallah, Tengyang Xie

本文研究後訓練大型語言模型（LLMs），利用來自強大預言者的偏好反饋，幫助模型逐步改進自身。後訓練LLMs的典型方法涉及從人類反饋中進行強化學習（RLHF），傳統上將獎勵學習和後續策略優化分開。然而，這種獎勵最大化方法受到“點對點”獎勵（如Bradley-Terry模型）的限制，無法表達複雜的不傳遞性或循環偏好關係。儘管RLHF的進展表明獎勵學習和策略優化可以合併為單一對比目標以實現穩定性，但它們仍然受限於獎勵最大化框架。最近，一波新的研究避開了獎勵最大化的假設，轉而直接優化“成對”或一般偏好。在本文中，我們介紹了直接納什優化（DNO），這是一種可證明且可擴展的算法，將對比學習的簡單性和穩定性與優化一般偏好的理論普遍性相結合。由於DNO是一種使用基於回歸的目標的批量在策略上的算法，其實現是簡單且高效的。此外，DNO在迭代過程中享有單調改進，有助於其甚至優於強大的教師（如GPT-4）。在我們的實驗中，由DNO對齊的結果為7B參數的Orca-2.5模型在AlpacaEval 2.0上實現了與GPT-4-Turbo的33%的最新勝率，即使在控制回應長度後，也實現了26%（從7%到33%）的絕對增益。它勝過了具有更多參數的模型，包括Mistral Large、自我獎勵LM（70B參數）和較舊版本的GPT-4。

搜索流（SoS）：學習在語言中搜索
Stream of Search (SoS): Learning to Search in Language

Apr 1

ByKanishk Gandhi, Denise Lee, Gabriel Grand, Muxin Liu, Winson Cheng, Archit Sharma, Noah D. Goodman

在訓練過程中，語言模型很少展示出有益的錯誤。因此，它們很難超越下一個標記，並且由於錯誤不斷累積，難以預測其行動幾步之後的後果。本文展示了如何教導語言模型通過將搜索過程表示為一個扁平化字符串 - 一個搜索流（SoS）來進行搜索。我們提出了一種統一的搜索語言，捕捉了各種不同的符號搜索策略。我們使用簡單但困難的Countdown遊戲來展示我們的方法，該遊戲的目標是將輸入數字與算術運算結合以達到目標數字。我們從頭開始在一個由啟發式求解器生成的搜索流數據集上對基於變壓器的語言模型進行預訓練。我們發現，SoS預訓練使搜索準確度提高了25%，優於僅訓練以預測最佳搜索軌跡的模型。我們進一步通過兩種策略改進方法對這個模型進行微調：優勢誘導策略對齊（APA）和自學習推理者（STaR）。微調後的SoS模型解決了36%以前無法解決的問題，包括任何啟發式求解器都無法解決的問題。我們的結果表明，語言模型可以通過搜索學習解決問題，自我改進以靈活使用不同的搜索策略，並可能發現新的策略。

沒有指數數據就沒有"零-shot"：預訓練概念頻率決定多模型性能
No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance

Apr 4

ByVishaal Udandarao, Ameya Prabhu, Adhiraj Ghosh, Yash Sharma, Philip H. S. Torr, Adel Bibi, Samuel Albanie, Matthias Bethge

網路爬蟲預訓練數據集是支撐多模態模型（如用於分類/檢索的CLIP和用於圖像生成的Stable-Diffusion）令人印象深刻的“零樣本”評估表現的基礎。然而，對於這些多模態模型的“零樣本”泛化概念有多有意義並不清楚，因為不清楚它們的預訓練數據集在“零樣本”評估期間所針對的下游概念在多大程度上包含其中。在這項研究中，我們探討了一個問題：多模態模型在下游概念上的表現如何受到這些概念在其預訓練數據集中的頻率影響？我們全面調查了34個模型和五個標準預訓練數據集（CC-3M、CC-12M、YFCC-15M、LAION-400M、LAION-Aesthetics），產生了超過300GB的數據藝術品。我們一貫發現，與展現“零樣本”泛化相反，多模態模型需要指數級增加的數據才能在下游“零樣本”表現上實現線性改進，遵循一種樣本效率低下的對數線性比例趨勢。即使在控制預訓練和下游數據集之間的樣本級相似性，以及在純合成數據分佈上進行測試時，這種趨勢仍然存在。此外，通過在基於我們分析的長尾數據上進行基準測試，我們證明了全面性地多模態模型表現不佳。我們將這個長尾測試集作為“Let it Wag!”基準測試集，以進一步研究這個方向。綜上所述，我們的研究揭示了對訓練數據的指數級需求，這意味著在大規模訓練範式下實現“零樣本”泛化能力的關鍵仍有待發現。

無法談論此事：調整語言模型以保持對話主題一致
CantTalkAboutThis: Aligning Language Models to Stay on Topic in Dialogues

Apr 4

ByMakesh Narsimhan Sreedhar, Traian Rebedea, Shaona Ghosh, Christopher Parisien

最近在指導調整數據集方面的進展主要集中在特定任務，如數學或邏輯推理。在為語言模型對話中保持話題相關性的數據方面存在明顯的差距，這對於將聊天機器人應用於生產環境至關重要。我們引入了CantTalkAboutThis數據集，以幫助語言模型在任務導向互動中保持專注於手頭的主題。該數據集包含來自不同領域的各種對話主題的合成對話。這些對話中穿插著故意使聊天機器人偏離預定主題的干擾者輪。在這個數據集上對語言模型進行微調有助於使它們能夠抵抗偏離分配角色並提高與通用指導調整LLM（如GPT-4-turbo和Mixtral-Instruct）相比保持話題連貫性的能力。此外，初步觀察表明，在這個數據集上訓練模型還可以增強它們在細粒度指導遵循任務上的表現。

一致性模型的強化學習：快速獎勵引導的文本到圖像生成
RL for Consistency Models: Faster Reward Guided Text-to-Image Generation

Mar 25

ByOwen Oertell, Jonathan D. Chang, Yiyi Zhang, Kianté Brantley, Wen Sun

強化學習（RL）通過直接優化捕捉圖像質量、美學和指示遵循能力的獎勵，已經改進了擴散模型引導的圖像生成。然而，生成的策略繼承了擴散模型的迭代採樣過程，導致生成速度緩慢。為了克服這一限制，一致性模型提出了學習一類新的生成模型，直接將噪音映射到數據，從而生成一幅圖像可能只需一次採樣迭代。在這項工作中，為了針對任務特定獎勵優化文本到圖像生成模型並實現快速訓練和推理，我們提出了一個通過RL對一致性模型進行微調的框架。我們的框架名為一致性模型強化學習（RLCM），將一致性模型的迭代推理過程視為一個RL過程。RLCM在文本到圖像生成能力上優於RL微調的擴散模型，並在推理過程中交換計算以獲得樣本質量。在實驗中，我們展示了RLCM可以使文本到圖像一致性模型適應難以通過提示表達的目標，例如圖像壓縮性，以及源自人類反饋的目標，例如美學質量。與RL微調的擴散模型相比，RLCM訓練速度顯著更快，根據獎勵目標衡量，提高了生成的質量，並通過僅需兩個推理步驟即可生成高質量圖像來加快推理過程。我們的代碼可在https://rlcm.owenoertell.com找到。

大型語言模型的社交技能訓練
Social Skill Training with Large Language Models

Apr 5

ByDiyi Yang, Caleb Ziems, William Held, Omar Shaikh, Michael S. Bernstein, John Mitchell

人們依賴像衝突解決這樣的社交技能來有效溝通，並在工作和個人生活中茁壯成長。然而，社交技能的練習環境通常對大多數人來說難以觸及。我們如何使社交技能培訓更加普遍、可及和吸引人呢？借鑒來自溝通和心理學的跨學科研究，這篇觀點論文確定了進入專業領域的社交技能障礙。然後，我們提出一個利用大型語言模型進行社交技能培訓的通用框架解決方案。我們的AI合作夥伴、AI導師框架將體驗式學習與實際練習和量身定制的反饋相結合。這項工作最終呼籲跨學科創新，以應對勞動力發展和社會平等的更廣泛影響。

中文微型LLM：預訓練一個以中文為中心的大型語言模型
Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model

Apr 5

ByXinrun Du, Zhouliang Yu, Songyang Gao, Ding Pan, Yuyang Cheng, Ziyang Ma, Ruibin Yuan, Xingwei Qu, Jiaheng Liu, Tianyu Zheng, Xinchen Luo, Guorui Zhou, Binhang Yuan, Wenhu Chen, Jie Fu, Ge Zhang

在這項研究中，我們介紹了CT-LLM，一個2B大型語言模型（LLM），展示了在開發LLM時優先考慮中文的重要轉變。CT-LLM獨特地從頭開始，與傳統方法有所不同，主要納入中文文本數據，利用包括1,200億標記在內的龐大語料庫，其中包括800億中文標記、300億英文標記和100億代碼標記。這種策略性組合有助於模型在理解和處理中文方面表現卓越，透過對齊技術進一步增強了這種能力。在CHC-Bench上表現出色，CT-LLM在中文語言任務上表現優異，並通過SFT展示了其在英語方面的嫻熟。這項研究挑戰了主要在英文語料庫上訓練LLM，然後將其適應到其他語言的現行範式，擴展了LLM訓練方法的視野。通過開源完整的中文LLM訓練過程，包括詳細的數據處理程序，獲得的大型適當預訓練中文語料庫（MAP-CC），以及精心選擇的多學科中文難度基準（CHC-Bench）和2B規模的中文微型LLM（CT-LLM），我們旨在促進學術界和工業界的進一步探索和創新，為更具包容性和多功能性的語言模型鋪平道路。

穩健的高斯點陣化
Robust Gaussian Splatting

Apr 5

ByFrançois Darmon, Lorenzo Porzi, Samuel Rota-Bulò, Peter Kontschieder

本文探討了3D高斯點降（3DGS）中常見的錯誤來源，包括模糊、不完美的相機姿勢和顏色不一致性，旨在提高其在實際應用中（如從手機拍攝的重建）的魯棒性。我們的主要貢獻在於將運動模糊建模為相機姿勢上的高斯分佈，從而使我們能夠以統一的方式處理相機姿勢的精化和運動模糊校正。此外，我們提出了用於處理焦外模糊補償以及解決由環境光、陰影或相機相關因素（如不同的白平衡設置）引起的顏色不一致性的機制。我們提出的解決方案與3DGS公式無縫集成，同時保持其在訓練效率和渲染速度方面的優勢。我們在相關基準數據集（包括Scannet++和Deblur-NeRF）上進行了實驗驗證，獲得了最先進的結果，從而相對於相關基準線實現了一致的改進。

Sigma：用於多模態語義分割的連體瑪巴網絡
Sigma: Siamese Mamba Network for Multi-Modal Semantic Segmentation

Apr 5

ByZifu Wan, Yuhao Wang, Silong Yong, Pingping Zhang, Simon Stepputtis, Katia Sycara, Yaqi Xie

多模式語義分割顯著增強人工智慧代理的感知和場景理解，尤其在低光照或曝光過度等不利條件下。利用額外的模式（X模式）如熱像和深度與傳統的RGB一起提供補充信息，使分割更具魯棒性和可靠性。在這項工作中，我們介紹了Sigma，一個用於多模式語義分割的Siamese Mamba網絡，利用了選擇性結構化狀態空間模型Mamba。與依賴於具有有限局部感受野的CNN或提供全局感受野但以二次複雜度為代價的Vision Transformers（ViTs）不同，我們的模型實現了具有線性複雜度的全局感受野覆蓋。通過使用Siamese編碼器並創新地運用Mamba融合機制，我們有效地從不同模式中選擇關鍵信息。然後開發了一個解碼器來增強模型的通道建模能力。我們的方法Sigma在RGB-熱像和RGB-深度分割任務上進行了嚴格評估，展示了其優越性，並標誌著在多模式感知任務中首次成功應用狀態空間模型（SSMs）。代碼可在https://github.com/zifuwan/Sigma找到。

AI研究論文每日精選

每日精選AI研究論文及翻譯

直接納什優化：教導語言模型通過一般偏好自我改進
Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences

Apr 4

ByCorby Rosset, Ching-An Cheng, Arindam Mitra, Michael Santacroce, Ahmed Awadallah, Tengyang Xie

搜索流（SoS）：學習在語言中搜索
Stream of Search (SoS): Learning to Search in Language

Apr 1

ByKanishk Gandhi, Denise Lee, Gabriel Grand, Muxin Liu, Winson Cheng, Archit Sharma, Noah D. Goodman

沒有指數數據就沒有"零-shot"：預訓練概念頻率決定多模型性能
No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance

Apr 4

ByVishaal Udandarao, Ameya Prabhu, Adhiraj Ghosh, Yash Sharma, Philip H. S. Torr, Adel Bibi, Samuel Albanie, Matthias Bethge