AI研究論文每日精選

每日精選AI研究論文及翻譯

TÜLU 3：拓展開放式語言模型後訓練的前沿
TÜLU 3: Pushing Frontiers in Open Language Model Post-Training

Nov 22

ByNathan Lambert, Jacob Morrison, Valentina Pyatkin, Shengyi Huang, Hamish Ivison, Faeze Brahman, Lester James V. Miranda, Alisa Liu, Nouha Dziri, Shane Lyu, Yuling Gu, Saumya Malik, Victoria Graf, Jena D. Hwang, Jiangjiang Yang, Ronan Le Bras, Oyvind Tafjord, Chris Wilhelm, Luca Soldaini, Noah A. Smith, Yizhong Wang, Pradeep Dasigi, Hannaneh Hajishirzi

語言模型事後訓練被應用來精煉行為並開啟新技能，涵蓋了廣泛的最新語言模型，但開放的應用指南仍遠遠落後於專有的方法。事後訓練的基礎訓練數據和指南同時是謎題中最重要的部分，也是最不透明的部分。為了彌合這一差距，我們推出 T\"ULU 3，這是一個全面開放的最先進的事後訓練模型系列，連同其數據、代碼和訓練指南，作為現代事後訓練技術的全面指南。T\"ULU 3 基於 Llama 3.1 基礎模型，取得了超越 Llama 3.1、Qwen 2.5、Mistral 甚至閉源模型如 GPT-4o-mini 和 Claude 3.5-Haiku 的結果。我們模型的訓練算法包括監督微調（SFT）、直接偏好優化（DPO）以及我們稱之為具有可驗證獎勵的強化學習方法（RLVR）。通過 T\"ULU 3，我們引入了一種多任務評估方案，用於事後訓練指南的開發和未見過的評估，標準基準實現，以及對所述基準上現有開放數據集的大幅凈化。我們最後對未能可靠提升性能的訓練方法進行了分析和討論。除了 T\"ULU 3 模型權重和演示之外，我們還發布了完整的指南，其中包括多樣核心技能的數據集、用於數據整理和評估的強大工具包，訓練代碼和基礎設施，最重要的是，一份詳細報告，用於重現並進一步適應 T\"ULU 3 方法以擴展到更多領域。

OminiControl：擴散變壓器的最小和通用控制
OminiControl: Minimal and Universal Control for Diffusion Transformer

Nov 22

ByZhenxiong Tan, Songhua Liu, Xingyi Yang, Qiaochu Xue, Xinchao Wang

本文介紹了OminiControl，這是一個高度多功能且參數高效的框架，將影像條件整合到預先訓練的擴散Transformer（DiT）模型中。在其核心，OminiControl利用參數重複使用機制，使DiT能夠使用自身作為強大的骨幹來編碼影像條件，並通過其靈活的多模態注意處理器處理這些條件。與現有方法不同，現有方法嚴重依賴具有複雜結構的額外編碼器模塊，而OminiControl（1）有效且高效地將注入的影像條件納入，僅增加約0.1％的額外參數，（2）以統一方式處理廣泛範圍的影像條件任務，包括以主題驅動的生成和空間對齊條件，如邊緣、深度等。值得注意的是，這些功能是通過對DiT本身生成的影像進行訓練實現的，這對於主題驅動的生成特別有益。廣泛的評估顯示，OminiControl在主題驅動和空間對齊條件生成方面均優於現有的基於UNet和DiT調整模型。此外，我們釋出了我們的訓練數據集Subjects200K，這是一個包含超過200,000個身份一致影像的多樣集合，以及一個高效的數據合成管道，以推動主題一致生成研究的進展。

具有修補功能的大規模文本到圖像模型是一種零樣本主題驅動的圖像生成器。
Large-Scale Text-to-Image Model with Inpainting is a Zero-Shot Subject-Driven Image Generator

Nov 23

ByChaehun Shin, Jooyoung Choi, Heeseung Kim, Sungroh Yoon

主題驅動的文本到圖像生成旨在通過準確捕捉主題的視覺特徵和文本提示的語義內容，在所需的上下文中生成新主題的圖像。傳統方法依賴耗時且資源密集的微調以實現主題對齊，而最近的零編碼方法則利用即時圖像提示，通常會犧牲主題對齊。在本文中，我們介紹了Diptych Prompting，這是一種新穎的零編碼方法，通過利用大規模文本到圖像模型中雙聯畫生成的新興特性，將其重新解釋為具有精確主題對齊的修補任務。Diptych Prompting將一個不完整的雙聯畫與參考圖像放在左側面板上，並在右側面板上執行文本條件修補。我們通過刪除參考圖像中的背景來進一步防止不需要的內容泄漏，並通過在修補過程中增強面板之間的注意權重來改善生成主題的細節。實驗結果證實，我們的方法明顯優於零編碼圖像提示方法，生成的圖像被用戶視覺上更受青睞。此外，我們的方法不僅支持主題驅動生成，還支持風格化圖像生成和主題驅動圖像編輯，展示了在各種圖像生成應用中的多功能性。項目頁面：https://diptychprompting.github.io/

風格友好的 SNR 取樣器用於風格驅動生成
Style-Friendly SNR Sampler for Style-Driven Generation

Nov 22

ByJooyoung Choi, Chaehun Shin, Yeongtak Oh, Heeseung Kim, Sungroh Yoon

最近的大規模擴散模型能夠生成高質量圖像，但在學習新的、個性化的藝術風格方面遇到困難，這限制了獨特風格模板的創建。利用參考圖像進行微調是最有前途的方法，但通常盲目地使用用於預訓練的目標和噪聲水平分佈，導致次優風格對齊。我們提出了友好風格的信噪比取樣器，該方法在微調期間積極將信噪比（SNR）分佈轉向更高的噪聲水平，以便專注於風格特徵出現的噪聲水平。這使模型能夠更好地捕捉獨特風格，生成風格對齊度更高的圖像。我們的方法使擴散模型能夠學習並共享新的“風格模板”，增強個性化內容創作。我們展示了生成個人水彩畫、極簡扁平漫畫、3D 渲染、多面板圖像和帶有文本的迷因等風格的能力，從而擴大了風格驅動生成的範圍。

一種靈活的大型語言模型護欄開發方法論，應用於離題提示偵測
A Flexible Large Language Models Guardrail Development Methodology Applied to Off-Topic Prompt Detection

Nov 20

ByGabriel Chua, Shing Yee Chan, Shaun Khoo

大型語言模型容易被誤用於離題情況，使用者可能引導這些模型執行超出其預定範圍的任務。目前的防護措施通常依賴於精心挑選的示例或自定義分類器，但存在高虛警率、有限的適應性問題，以及要求現實世界數據但在預產品階段不可行的問題。本文介紹了一種靈活的、無需數據的防護措施開發方法，以應對這些挑戰。通過在質量上徹底定義問題空間並將其傳遞給一個大型語言模型以生成多樣的提示，我們構建了一個合成數據集，用於評估和訓練超越啟發式方法的離題防護措施。此外，通過將任務定義為分類用戶提示是否與系統提示相關，我們的防護措施有效地推廣到其他誤用類別，包括越獄和有害提示。最後，我們通過開源合成數據集和離題防護模型進一步貢獻於該領域，為在預產品環境中開發防護措施以及支持未來大型語言模型安全研究和開發提供了有價值的資源。

我的時間機器：個性化面部年齡轉換
MyTimeMachine: Personalized Facial Age Transformation

Nov 21

ByLuchao Qi, Jiaye Wu, Bang Gong, Annie N. Wang, David W. Jacobs, Roni Sengupta

面部老化是一個複雜的過程，高度依賴於諸如性別、種族、生活方式等多個因素，這使得學習全球老化先驗以準確預測任何個人的老化變得極具挑戰性。現有技術通常能夠產生逼真且合理的老化效果，但重新老化的圖像通常不像該人在目標年齡時的外貌，因此需要個性化。在許多實際應用中，例如電影和電視節目中的視覺特效，用戶的個人照片收藏通常展示了一個較短的時間間隔（20至40年）的老化過程。然而，對個人照片收藏進行全球老化技術的單純個性化嘗試通常會失敗。因此，我們提出了MyTimeMachine（MyTM），將全球老化先驗與個人照片收藏（僅需50張圖像）結合起來，以學習個性化的年齡轉換。我們引入了一種新型的Adapter Network，將個性化的老化特徵與全球老化特徵結合起來，並使用StyleGAN2生成重新老化的圖像。我們還引入了三種損失函數，通過個性化老化損失、外推正則化和自適應w-norm正則化來個性化Adapter Network。我們的方法也可以擴展到視頻，實現高質量、保持身份並具有時間一致性的老化效果，使其與最先進的方法相比展現出優越性。

BALROG：在遊戲中對代理式LLM和VLM推理進行基準測試
BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games

Nov 20

ByDavide Paglieri, Bartłomiej Cupiał, Samuel Coward, Ulyana Piterbarg, Maciej Wolczyk, Akbir Khan, Eduardo Pignatelli, Łukasz Kuciński, Lerrel Pinto, Rob Fergus, Jakob Nicolaus Foerster, Jack Parker-Holder, Tim Rocktäschel

大型語言模型（LLMs）和視覺語言模型（VLMs）具有豐富的知識並展現出有前途的推理能力；然而，在複雜、動態環境中它們仍然難以表現良好。現實世界的任務需要處理複雜的互動、高級的空間推理、長期規劃以及持續探索新策略，這些領域我們缺乏有效的方法來全面評估這些能力。為了彌補這一差距，我們引入了BALROG，一個新穎的基準測試，旨在通過一系列具有挑戰性的遊戲來評估LLMs和VLMs的代理能力。我們的基準測試包括各種現有的強化學習環境，難度各異，包括一些可以在幾秒鐘內被非專家人士解決的任務，以及一些極具挑戰性的任務，可能需要多年才能掌握（例如NetHack學習環境）。我們設計了細緻的指標來衡量性能，並對幾個流行的開源和專有的LLMs和VLMs進行了廣泛評估。我們的研究結果表明，儘管當前模型在較簡單的遊戲中取得了部分成功，但在更具挑戰性的任務中表現明顯不佳。值得注意的是，我們觀察到在基於視覺的決策方面存在嚴重缺陷，當提供環境的視覺表示時，模型的表現更差。我們將BALROG作為一個開放且用戶友好的基準測試發布，以促進代理社區未來的研究和發展。

大型多模型模型可以解釋大型多模型模型中的特徵
Large Multi-modal Models Can Interpret Features in Large Multi-modal Models

Nov 22

ByKaichen Zhang, Yifei Shen, Bo Li, Ziwei Liu

近期在大型多模型（LMMs）方面的進展在學術界和工業界都帶來了重大突破。一個引起關注的問題是，作為人類，我們如何理解它們內部的神經表示。本文通過提出一個多功能框架來識別和解釋LMMs中的語義，初步探討了這個問題。具體來說，1）我們首先應用了稀疏自編碼器（SAE）來將表示解開為人類可理解的特徵。2）然後，我們提出了一個自動解釋框架，通過LMMs自身來解釋SAE中學習到的開放語義特徵。我們利用這個框架來分析LLaVA-NeXT-8B模型，使用LLaVA-OV-72B模型，證明這些特徵能有效地引導模型的行為。我們的結果有助於更深入地理解為什麼LMMs在特定任務中表現出色，包括EQ測試，並闡明了它們的錯誤性質以及可能的糾正策略。這些發現為LMMs的內部機制提供了新的見解，並暗示了與人類大腦的認知過程之間的相似之處。

VideoEspresso：一個大規模的思維鏈條數據集，用於通過核心幀選擇進行細粒度視頻推理
VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection

Nov 22

BySonghao Han, Wei Huang, Hairong Shi, Le Zhuo, Xiu Su, Shifeng Zhang, Xu Zhou, Xiaojuan Qi, Yue Liao, Si Liu

大型視覺語言模型（LVLMs）的進步顯著改善了多模式理解，然而在視頻推理任務中仍存在挑戰，原因是缺乏高質量、大規模的數據集。現有的視頻問答（VideoQA）數據集通常依賴昂貴的手動標註，具有不足的細粒度，或者依賴自動構建方法進行冗餘的逐幀分析，這限制了它們對複雜推理的可擴展性和有效性。為應對這些挑戰，我們介紹了VideoEspresso，這是一個新穎的數據集，其中包含保留關鍵空間細節和時間一致性的VideoQA對，以及中間推理步驟的多模式標註。我們的構建流程採用了一種語義感知方法來減少冗餘性，然後使用GPT-4o生成QA對。我們進一步開發了視頻Chain-of-Thought（CoT）標註，以豐富推理過程，引導GPT-4o從QA對和視頻內容中提取邏輯關係。為了充分利用高質量的VideoQA對的潛力，我們提出了一個混合LVLMs協作框架，包括一個Frame Selector和一個兩階段指令微調推理LVLM。該框架自適應地選擇核心幀並使用多模式證據進行CoT推理。在我們提出的包含14個任務的基準測試中，與9個流行的LVLMs進行評估，我們的方法在大多數任務上優於現有基準，展現出卓越的視頻推理能力。我們的代碼和數據集將在以下位置發布：https://github.com/hshjerry/VideoEspresso

透過基於協調的補丁重建實現高效的長視頻標記化
Efficient Long Video Tokenization via Coordinated-based Patch Reconstruction

Nov 22

ByHuiwon Jang, Sihyun Yu, Jinwoo Shin, Pieter Abbeel, Younggyo Seo

在訓練能夠處理長視頻的視覺模型時，有效的視頻標記仍然是一個挑戰。一個有前途的方向是開發一種能夠編碼長視頻片段的標記器，因為這將使標記器更好地利用視頻的時間相干性進行標記。然而，將現有的標記器訓練在長視頻上往往會產生巨大的訓練成本，因為它們被訓練以一次重建所有幀。在本文中，我們介紹了CoordTok，一種視頻標記器，它學習從基於坐標的表示到輸入視頻相應塊的映射，受到3D生成模型最新進展的啟發。具體而言，CoordTok將視頻編碼為分解的三面體表示，並重建對應於隨機抽樣的（x，y，t）坐標的塊。這使得可以直接在長視頻上訓練大型標記器模型，而無需過多的訓練資源。我們的實驗表明，CoordTok可以顯著減少編碼長視頻片段所需的標記數量。例如，CoordTok可以將一個包含128幀、解析度為128x128的視頻編碼為1280個標記，而基準方法需要6144或8192個標記才能達到類似的重建質量。我們進一步展示，這種高效的視頻標記化使得可以高效地訓練一個擴散變壓器，可以一次生成128幀。

利用視頻擴散先驗進行新視角外推
Novel View Extrapolation with Video Diffusion Priors

Nov 21

ByKunhao Liu, Ling Shao, Shijian Lu

由於輝度場方法的發展，新視角合成領域取得了重大進展。然而，大多數輝度場技術在新視角插值方面表現遠優於新視角外推，即合成的新視角遠超出觀察訓練視角。我們設計了ViewExtrapolator，這是一種新視角合成方法，利用穩定視頻擴散（SVD）的生成先驗進行逼真的新視角外推。通過重新設計SVD去噪過程，ViewExtrapolator改進了輝度場渲染的容易產生瑕疵的視角，極大地提升了合成新視角的清晰度和逼真度。ViewExtrapolator是一種通用的新視角外推器，可與不同類型的3D渲染一起使用，例如從點雲渲染的視角，當僅有單個視角或單眼視頻可用時。此外，ViewExtrapolator無需對SVD進行微調，既節省數據又節省計算資源。大量實驗證明了ViewExtrapolator在新視角外推方面的優越性。項目頁面：https://kunhao-liu.github.io/ViewExtrapolator/。

VideoRepair：通過錯位評估和局部細化改進文本到視頻生成
VideoRepair: Improving Text-to-Video Generation via Misalignment Evaluation and Localized Refinement

Nov 22

ByDaeun Lee, Jaehong Yoon, Jaemin Cho, Mohit Bansal

最近的文本轉視頻（T2V）擴散模型展示了在各個領域具有印象深刻的生成能力。然而，這些模型通常生成的視頻與文本提示存在錯位，特別是當提示描述具有多個物體和屬性的複雜場景時。為了解決這個問題，我們引入了VideoRepair，這是一個新穎的、與模型無關且無需訓練的視頻精細化框架，它可以自動識別細粒度的文本-視頻錯位並生成明確的空間和文本反饋，從而使T2V擴散模型能夠執行有針對性的、局部的精煉。VideoRepair 包括四個階段：在（1）視頻評估中，我們通過生成細粒度評估問題並使用MLLM回答這些問題來檢測錯位。在（2）精煉規劃中，我們識別準確生成的物體，然後創建局部提示以精煉視頻中的其他區域。接下來，在（3）區域分解中，我們使用結合的接地模塊對正確生成的區域進行分割。我們通過在（4）局部精煉中調整錯位區域並保留正確區域來重新生成視頻。在兩個流行的視頻生成基準測試（EvalCrafter 和 T2V-CompBench）中，VideoRepair 在各種文本-視頻對齊指標上明顯優於最近的基線。我們對VideoRepair組件進行了全面分析並提供了定性示例。

WildLMa：野外環境中的長時間視覺-操作整合
WildLMa: Long Horizon Loco-Manipulation in the Wild

Nov 22

ByRi-Zhao Qiu, Yuchen Song, Xuanbin Peng, Sai Aneesh Suryadevara, Ge Yang, Minghuan Liu, Mazeyu Ji, Chengzhe Jia, Ruihan Yang, Xueyan Zou, Xiaolong Wang

「野外」移動操作旨在在各種真實世界環境中部署機器人，這需要機器人具備以下能力：（1）具有可以應用於不同物體配置的技能；（2）能夠在多樣環境中執行長期任務；以及（3）執行超越拾取和放置的複雜操作。帶有操縱裝置的四足機器人有望擴展工作空間並實現強大的運動能力，但現有結果並未探討這種能力。本文提出了WildLMa，包括三個組件來解決這些問題：（1）適應於虛擬實境全身遠程操作和可穿越性的學習低層控制器；（2）WildLMa-Skill -- 通過模仿學習或啟發式獲得的通用視覺運動技能庫；以及（3）WildLMa-Planner -- 一個介面，使學習技能可以協調長期任務的低層控制器規劃器。我們通過僅使用數十個示範，在高質量訓練數據的重要性上取得了比現有強化學習基準更高的抓取成功率。WildLMa利用CLIP進行語言條件的模仿學習，從實證上推廣到訓練示範中未見的物體。除了廣泛的定量評估外，我們還在質量上展示了實際的機器人應用，例如在大學走廊或戶外地形中清理垃圾，操作關節物體，以及整理書架上的物品。

適應視覺基礎模型以實現遙感影像中的強健雲分割
Adapting Vision Foundation Models for Robust Cloud Segmentation in Remote Sensing Images

Nov 20

ByXuechao Zou, Shun Zhang, Kai Li, Shiying Wang, Junliang Xing, Lei Jin, Congyan Lang, Pin Tao

在遙感影像解釋中，雲分割是一個關鍵挑戰，其準確性直接影響後續數據處理和分析的效果。最近，視覺基礎模型（VFM）展示了在各種視覺任務中強大的泛化能力。本文提出了一種參數高效的自適應方法，稱為Cloud-Adapter，旨在增強雲分割的準確性和韌性。我們的方法利用了一個在通用領域數據上預訓練的VFM，該模型保持凍結，無需進行額外的訓練。Cloud-Adapter包含一個輕量級的空間感知模塊，最初利用卷積神經網絡（ConvNet）提取密集的空間表示。這些多尺度特徵然後被聚合並作為上下文輸入提供給一個適應模塊，該模塊調節VFM中的凍結變換層。實驗結果表明，Cloud-Adapter方法僅利用凍結主幹的可訓練參數的0.6%，實現了顯著的性能提升。Cloud-Adapter在多個衛星來源、傳感器系列、數據處理級別、土地覆蓋情景和標註粒度的各種雲分割數據集上始終保持最先進的性能。我們已在https://github.com/XavierJiezou/Cloud-Adapter 上發布了源代碼和預訓練模型，以支持進一步的研究。

統御一切：自然語言以統合溝通、感知和行動。
One to rule them all: natural language to bind communication, perception and action

Nov 22

BySimone Colombani, Dimitri Ognibene, Giuseppe Boccignone

近年來，人機互動領域的研究集中在開發能夠理解複雜人類指令並在動態多樣環境中執行任務的機器人上。這些系統具有廣泛的應用，從個人輔助到工業機器人，強調機器人靈活、自然且安全地與人類互動的重要性。本文提出了一種先進的機器人行動規劃架構，該架構將通信、感知和規劃與大型語言模型（LLMs）相結合。我們的系統旨在將用自然語言表達的指令轉換為可執行的機器人動作，並根據實時反饋動態更新計劃，同時納入環境信息。規劃模組是系統的核心，其中嵌入在修改後的ReAct框架中的LLMs被用來解釋並執行用戶指令。通過利用它們豐富的預訓練知識，LLMs能夠有效處理用戶請求，無需引入新的關於變化環境的知識。修改後的ReAct框架通過提供實時環境感知和物理行動結果進一步增強了執行空間。通過將堅固且動態的語義地圖表示作為圖形與控制組件和失敗解釋相結合，該架構增強了機器人在共享和動態環境中的適應性、任務執行和與人類用戶的無縫協作。通過將連續反饋環境的回路與系統整合，系統可以動態調整計劃以應對意外變化，從而優化機器人執行任務的能力。利用以前經驗的數據集，可以提供有關失敗的詳細反饋。更新下一次迭代的LLMs上下文，並提出如何克服問題的建議。