每日精選AI研究論文及翻譯
我們推出了Meta MLGym和MLGym-Bench,這是一個用於評估和開發LLM(大型語言模型)代理在AI研究任務上的新框架和基準。這是首個專為機器學習(ML)任務設計的Gym環境,旨在促進針對訓練此類代理的強化學習(RL)算法的研究。MLGym-Bench包含了來自計算機視覺、自然語言處理、強化學習及博弈論等多個領域的13項多樣化且開放式的AI研究任務。解決這些任務需要具備真實世界中的AI研究技能,如生成新想法和假設、創建與處理數據、實施ML方法、訓練模型、運行實驗、分析結果,並通過此過程迭代以改進特定任務。我們在基準上評估了多款前沿大型語言模型,如Claude-3.5-Sonnet、Llama-3.1 405B、GPT-4o、o1-preview和Gemini-1.5 Pro。我們的MLGym框架便於添加新任務、集成與評估模型或代理、大規模生成合成數據,以及開發新的學習算法來訓練代理執行AI研究任務。我們發現,當前的前沿模型能夠通過找到更好的超參數來改進給定的基線,但通常不會產生新穎的假設、算法、架構或顯著的改進。我們開源了我們的框架和基準,以促進未來在提升LLM代理AI研究能力方面的研究。
我們推出SigLIP 2,這是一系列基於原始SigLIP成功基礎上的新型多語言視覺-語言編碼器。在這一版本中,我們將多種先前獨立開發的技術整合到一個統一的訓練方案中,擴展了原有的圖像-文本訓練目標——這包括基於字幕的預訓練、自監督損失(自蒸餾、掩碼預測)以及在線數據篩選。通過這些改進,SigLIP 2模型在所有模型規模上,在核心能力方面均超越了其前代SigLIP,這些能力包括零樣本分類、圖像-文本檢索,以及為視覺-語言模型(VLMs)提取視覺表徵時的遷移性能。此外,新的訓練方案在定位和密集預測任務上帶來了顯著提升。我們還訓練了支持多種分辨率並保留輸入原始縱橫比的變體。最後,我們在包含去偏技術的更為多樣化的數據混合上進行訓練,從而大幅提升了多語言理解能力和公平性。為了讓用戶能夠在推理成本與性能之間做出權衡,我們發布了四種規模的模型檢查點:ViT-B(86M)、L(303M)、So400m(400M)和g(1B)。
大型語言模型(LLMs)在數學、物理和計算機科學等主流學術領域展現了卓越的能力。然而,人類知識涵蓋超過200個專業學科,遠超現有基準的範圍。LLMs在許多這些專業領域——特別是輕工業、農業和服務導向學科——的能力仍未被充分評估。為填補這一空白,我們提出了SuperGPQA,這是一個全面評估285個學科研究生級別知識與推理能力的基準。我們的基準採用了一種新穎的人機協同過濾機制,通過基於LLM回應和專家反饋的迭代精煉,剔除瑣碎或模糊的問題。實驗結果顯示,當前最先進的LLMs在多樣化知識領域的表現仍有顯著提升空間(例如,以推理為核心的模型DeepSeek-R1在SuperGPQA上達到了61.82%的最高準確率),凸顯了當前模型能力與人工通用智能之間的巨大差距。此外,我們還分享了管理大規模註釋過程的全面見解,涉及超過80位專家註釋員和一個互動式人機協同系統,為未來類似規模的研究項目提供了寶貴的方法論指導。
大型語言模型(LLMs)在許多任務上的表現,很大程度上受限於預訓練期間所學並儲存於模型參數中的知識。低秩適應(LoRA)是一種流行且高效的訓練技術,用於更新或針對特定領域調整LLMs。在本研究中,我們探討了如何在不損害先前所學知識的前提下,利用LoRA將新事實融入LLM。我們使用LoRA對Llama-3.1-8B-instruct進行了微調,並引入了不同量的新知識。實驗結果表明,當訓練數據包含已知與新事實的混合時,能獲得最佳效果。然而,這種方法仍可能帶來負面影響,因為在此類微調後,模型在外部問答基準測試上的表現有所下降。當訓練數據偏向某些實體時,模型傾向於回歸到少數過度代表的答案。此外,我們發現模型在僅少數情況下變得更為自信,並拒絕提供答案。這些發現凸顯了基於LoRA的LLM更新潛在的陷阱,並強調了訓練數據構成與調參在平衡新知識整合與模型通用能力方面的重要性。
增加大型語言模型(LLMs)在測試時的計算資源,在各領域展現出潛力,但在代碼生成領域卻仍未被充分探索,儘管在數學領域已有廣泛研究。本文提出S*,首個混合型測試時擴展框架,顯著提升了生成代碼的覆蓋率和選擇準確性。S*在現有的平行擴展範式基礎上,引入序列擴展,以突破性能極限。此外,它利用一種新穎的選擇機制,自適應地生成用於成對比較的區分性輸入,並結合執行基礎信息,以穩健地識別正確解決方案。我們在12個大型語言模型和大型推理模型上進行評估,結果顯示:(1)S*持續提升不同模型家族和規模的性能,使一個3B模型超越GPT-4o-mini;(2)S*使非推理模型超越推理模型——配備S*的GPT-4o-mini在LiveCodeBench上比o1-preview高出3.7%;(3)S*進一步提升頂尖推理模型——配備S*的DeepSeek-R1-Distill-Qwen-32B在LiveCodeBench上達到85.7%,接近o1(高)的88.5%。代碼將於https://github.com/NovaSky-AI/SkyThought 提供。
受到DeepSeek-R1成功的啟發,我們探索了基於規則的強化學習(RL)在大型推理模型中的潛力。為了分析推理動態,我們使用合成邏輯謎題作為訓練數據,因為它們具有可控的複雜性和直接的答案驗證。我們做出了一些關鍵的技術貢獻,從而實現了有效且穩定的RL訓練:強調思考和回答過程的系統提示、嚴格格式的獎勵函數以懲罰走捷徑的輸出,以及實現穩定收斂的簡明訓練方案。我們的7B模型發展了高級推理技能——如反思、驗證和總結——這些技能在邏輯語料庫中並不存在。值得注意的是,僅在5K個邏輯問題上訓練後,它便展現出對具有挑戰性的數學基準AIME和AMC的泛化能力。
實現可擴展的容錯量子計算預計將依賴於量子糾錯碼。在追求更高效的量子容錯技術過程中,一個關鍵的編碼參數是提取錯誤信息以實現錯誤校正的測量權重:由於更高的測量權重需要更高的實施成本並引入更多錯誤,因此在編碼設計中優化測量權重至關重要。這正是量子低密度奇偶校驗(qLDPC)碼受到廣泛關注的基礎,其研究主要集中在漸近(大碼限)特性上。在本研究中,我們引入了一種基於強化學習(RL)的多功能且計算效率高的穩定子碼權重降低方法,該方法生成了新的低權重碼,在實際相關的參數範圍內顯著超越了現有技術水平,並大幅擴展了之前可及的小距離範圍。例如,對於權重為6的編碼,我們的方法相比現有結果在物理量子比特開銷上節省了1到2個數量級,並將開銷降至適合近期實驗的可行範圍。我們還利用RL框架研究了編碼參數之間的相互作用,為實際可行的編碼策略的潛在效率和能力提供了新的見解。總體而言,我們的結果展示了RL如何有效推進量子碼發現這一關鍵而具挑戰性的問題,從而加速容錯量子技術的實際應用進程。
近期研究已證實大型語言模型(LLM)在測試時進行規模調整的有效性。然而,現有激發LLM深度思考能力的方法通常需要大規模數據或顯著的訓練投入。同時,如何提升較弱基礎模型的思考能力仍不明確。在本研究中,我們提出了S^2R,這是一個高效的框架,通過教導模型在推理過程中自我驗證和自我修正來增強LLM的推理能力。具體而言,我們首先通過在精心策劃的數據上進行監督式微調,初始化LLM的迭代自我驗證和自我修正行為。隨後,利用結果層面和過程層面的強化學習進一步強化這些自我驗證與修正技能,以最小化的資源需求,使模型能在推理過程中自適應地精煉其推理流程。我們的結果顯示,僅需3.1k個自我驗證與修正行為的初始化樣本,Qwen2.5-math-7B的準確率就從51.0%提升至81.6%,超越了基於同等量長鏈思維蒸餾數據訓練的模型。基於三個基礎模型在領域內外基準上的廣泛實驗與分析,驗證了S^2R的有效性。我們的代碼與數據可在https://github.com/NineAbyss/S2R獲取。
儘管語言模型提取事實的能力已得到廣泛研究,但其如何處理隨時間變化的事實仍未被充分探討。我們通過電路分析發現了「時間頭」(Temporal Heads),這些特定的注意力頭主要負責處理時間性知識。我們證實這些頭存在於多個模型中,儘管其具體位置可能有所不同,且其響應會根據知識類型及其對應年份而有所差異。禁用這些頭會削弱模型回憶特定時間知識的能力,同時保持其一般能力,而不影響時間無關性和問答性能。此外,這些頭不僅在數值條件(如「2004年」)下被激活,也在文本別名(如「在……年」)下被激活,表明它們編碼了超越簡單數值表示的時間維度。進一步地,我們通過展示如何通過調整這些頭的值來編輯時間性知識,擴展了我們發現的潛在應用。
現有的大型視覺語言模型(LVLMs)能夠處理上下文長度達128k視覺與文本標記的輸入,但在生成超過1,000字的連貫輸出時仍顯吃力。我們發現,主要限制在於監督微調(SFT)階段缺乏長輸出的範例。為解決此問題,我們引入了LongWriter-V-22k,這是一個包含22,158個範例的SFT數據集,每個範例包含多張輸入圖像、一條指令以及對應的輸出,輸出長度從0到10,000字不等。此外,為了實現既長又高度忠實於輸入圖像的輸出,我們對SFT模型採用了直接偏好優化(DPO)。考慮到收集長輸出(例如3,000字)的人類反饋成本高昂,我們提出了IterDPO,該方法將長輸出分段處理,並通過迭代修正與原始輸出形成偏好對。同時,我們開發了MMLongBench-Write,這是一個包含六項任務的基準測試,用於評估視覺語言模型的長文本生成能力。我們基於LongWriter-V-22k和IterDPO訓練的7B參數模型,在該基準測試中表現出色,超越了如GPT-4o等更大的專有模型。代碼與數據請見:https://github.com/THU-KEG/LongWriter-V。
在多模态大語言模型(MLLM)驅動的圖形用戶界面(GUI)代理領域中,相較於智能手機,個人電腦(PC)場景不僅具備更為複雜的交互環境,還涉及更為繁瑣的應用內及應用間工作流程。為應對這些挑戰,我們提出了一種名為PC-Agent的分層代理框架。具體而言,從感知角度出發,我們設計了主動感知模塊(APM),以克服現有MLLM在截圖內容感知能力上的不足。從決策制定角度,為更有效地處理複雜用戶指令及相互依賴的子任務,我們提出了一種分層多代理協作架構,將決策過程分解為指令-子任務-動作三個層次。在此架構內,設置了三個代理(即管理員、進度與決策代理),分別負責指令分解、進度追踪及逐步決策制定。此外,引入反思代理以實現及時的自下而上錯誤反饋與調整。我們還推出了一個包含25條真實世界複雜指令的新基準測試PC-Eval。在PC-Eval上的實驗結果表明,我們的PC-Agent相較於先前最先進的方法,任務成功率提升了32%的絕對值。代碼將公開提供。
大型語言模型(LLMs)的快速演進,亟需新的方法來進行嚴謹且全面的評估。由於生成高品質、具挑戰性問題的複雜性與成本,傳統的人工標註已日益不可行。在本研究中,我們提出了CHASE,這是一個無需人工介入、利用LLMs合成生成挑戰性問題的統一框架。針對特定任務,我們的方法從簡單的組件自下而上地構建難題。此外,我們的框架將生成過程分解為可獨立驗證的子任務,從而確保了高水準的品質與正確性。我們實作了CHASE,在三個不同領域創建了評估基準:(1) 基於文件的問答,(2) 倉庫層級的程式碼補全,以及(3) 數學推理。頂尖LLMs在這些合成基準上的表現準確率介於40%至60%之間,這證明了我們的框架在生成挑戰性問題方面的有效性。我們公開釋出了我們的基準與程式碼。
生成式文本到圖像模型的個性化已取得顯著進展,但將這種個性化擴展到文本到視頻模型則面臨獨特的挑戰。與靜態概念不同,個性化文本到視頻模型有潛力捕捉動態概念,即不僅由外觀定義,還由其運動定義的實體。本文介紹了Set-and-Sequence,這是一種新穎的框架,用於基於擴散變換器(DiTs)的生成視頻模型來個性化動態概念。我們的方法在一個不顯式分離空間和時間特徵的架構中施加了時空權重空間。這通過兩個關鍵階段實現。首先,我們使用視頻中的無序幀集微調低秩適應(LoRA)層,以學習代表外觀的身份LoRA基礎,不受時間干擾。在第二階段,我們在身份LoRA凍結的情況下,通過運動殘差增強其係數,並在完整視頻序列上進行微調,捕捉運動動態。我們的Set-and-Sequence框架產生了一個時空權重空間,有效地將動態概念嵌入到視頻模型的輸出域中,實現了前所未有的可編輯性和組合性,同時為個性化動態概念設定了新的基準。
大型語言模型(LLMs)在語言處理方面展現了令人印象深刻的能力,但在需要真正視覺空間推理的任務上往往表現不佳。本文提出了一種新穎的兩階段訓練框架,旨在為標準LLMs配備迷宮導航所需的視覺推理能力。首先,我們利用監督微調(SFT)在精選的符號化迷宮表示數據集上,教導模型預測逐步移動指令。接著,我們應用群組相對策略優化(GRPO)——一種在DeepSeekR1中使用的技術——並精心設計獎勵函數,以精煉模型的序列決策能力,並鼓勵其產生鏈式思維行為。在合成生成的迷宮上的實驗結果顯示,雖然基線模型無法成功導航,但經過SFT訓練的模型達到了86%的準確率,而進一步的GRPO微調則將準確率提升至93%。定性分析表明,GRPO促進了更為穩健和自我修正的推理,凸顯了我們的方法在彌合語言模型與視覺空間任務之間差距的潛力。這些發現為機器人學、自主導航以及其他需要整合視覺與序列推理的應用領域提供了有前景的啟示。
大型語言模型(LLMs)在處理長序列方面展現了顯著的潛力,然而,由於預填充階段注意力機制的二次計算複雜性以及解碼階段鍵值(KV)快取的大內存佔用,高效地服務這些長上下文模型仍然具有挑戰性。為解決這些問題,我們引入了LServe,這是一個通過混合稀疏注意力加速長序列LLM服務的高效系統。該方法將預填充和解碼階段的不同硬件友好型結構化稀疏模式統一在一個框架中,其中對較不重要令牌的計算以塊為單位跳過。LServe展示了靜態和動態稀疏在長上下文LLM注意力中的兼容性。這一設計通過結合這些優化實現了乘數級的加速。具體而言,我們在預填充和解碼階段將一半的注意力頭轉換為近乎免費的流式頭。此外,我們發現無論上下文長度如何,僅需常數量的KV頁即可保持長上下文能力。隨後,我們設計了一種基於查詢中心相似性的分層KV頁選擇策略,動態修剪KV頁。平均而言,LServe在vLLM基礎上將LLM預填充加速了最高2.9倍,解碼加速了1.3至2.1倍,同時保持了長上下文的準確性。代碼已發佈於https://github.com/mit-han-lab/omniserve。
針對包含豐富文本的圖像(如圖表和文件)進行推理,是視覺語言模型(VLMs)的一項關鍵應用。然而,由於多樣化的文本豐富視覺語言數據的稀缺,VLMs在這些領域往往表現不佳。為應對這一挑戰,我們提出了CoSyn框架,該框架利用僅限文本的大型語言模型(LLMs)的編碼能力,自動生成合成文本豐富的多模態數據。給定描述目標領域的輸入文本(例如“營養成分標籤”),CoSyn會提示LLM生成用於渲染合成圖像的代碼(如Python、HTML、LaTeX等)。通過將底層代碼作為合成圖像的文本表示,CoSyn能夠再次依賴僅限文本的LLM生成高質量的指令微調數據。利用CoSyn,我們構建了一個包含40萬張圖像和270萬行視覺語言指令微調數據的數據集。在七個基準測試上的全面實驗表明,使用我們的合成數據訓練的模型在競爭性開源模型(包括Llama 3.2)中達到了最先進的性能,並超越了GPT-4V和Gemini 1.5 Flash等專有模型。此外,CoSyn還能生成合成指向數據,使VLMs能夠在輸入圖像中定位信息,展示了其在開發能夠在現實環境中行動的多模態代理方面的潛力。
我們持續獲取、組織並運用知識的能力,是人類智能的關鍵特徵,也是人工智慧系統必須逼近以充分發揮其潛力的目標。考慮到大型語言模型(LLMs)在持續學習方面面臨的挑戰,檢索增強生成(RAG)已成為引入新信息的主導方式。然而,其對向量檢索的依賴限制了它模擬人類長期記憶動態且相互關聯特性的能力。近期的RAG方法通過知識圖譜等多種結構增強向量嵌入,以彌補在理解與關聯性方面的不足。但這些方法在基礎事實記憶任務上的表現卻顯著低於標準RAG。我們針對這一非預期的性能下降提出解決方案,並推出HippoRAG 2框架,該框架在事實記憶、理解記憶及關聯記憶任務上全面超越標準RAG。HippoRAG 2基於HippoRAG中使用的個性化PageRank算法,通過更深層次的段落整合及更高效的LLM在線應用加以強化。這一組合使RAG系統更接近人類長期記憶的效能,在關聯記憶任務上相比最先進的嵌入模型提升了7%,同時展現出更優的事實知識與理解記憶能力。此項工作為LLMs的非參數持續學習鋪平了道路。我們的代碼與數據將於https://github.com/OSU-NLP-Group/HippoRAG發布。
擴散變換器(Diffusion Transformer)在推動文本到圖像及文本到視頻生成技術的進步中扮演著關鍵角色,這主要歸功於其內在的可擴展性。然而,現有的可控擴散變換器方法因未能考慮控制信息在不同變換器層次中的相關性差異,導致了顯著的參數和計算開銷,並存在資源分配效率低下的問題。為此,我們提出了基於相關性指導的高效可控生成框架——RelaCtrl,該框架能夠高效且資源優化地將控制信號整合到擴散變換器中。首先,我們通過評估“ControlNet相關性評分”——即在推理過程中跳過每個控制層對生成質量和控制效果的影響——來衡量擴散變換器中每一層與控制信息的相關性。根據相關性的強弱,我們隨後定制控制層的位置、參數規模和建模能力,以減少不必要的參數和冗餘計算。此外,為了進一步提升效率,我們用精心設計的二維混洗混合器(TDSM)替換了常用複製塊中的自注意力機制和前饋網絡,從而實現了令牌混合器和通道混合器的高效實現。定性和定量實驗結果均表明,與PixArt-delta相比,我們的方法僅需15%的參數和計算複雜度即可達到更優的性能。更多示例請訪問https://relactrl.github.io/RelaCtrl/。
圖像地理定位是一項預測圖像具體位置的任務,需要跨越視覺、地理和文化背景的複雜推理。雖然先前的視覺語言模型(VLMs)在此任務上具有最佳準確度,但高質量的數據集和分析推理模型仍然匱乏。我們首先創建了NaviClues,這是一個源自熱門地理遊戲GeoGuessr的高質量數據集,旨在提供專家級語言推理的範例。利用此數據集,我們提出了Navig,一個整合全局與細粒度圖像信息的全面圖像地理定位框架。通過語言推理,Navig將平均距離誤差相較於先前最先進的模型減少了14%,且所需訓練樣本少於1000個。我們的數據集和代碼可在https://github.com/SparrowZheyuan18/Navig/ 獲取。
大型語言模型(LLM)開發者日益依賴合成數據,但為複雜的長上下文推理任務生成高質量數據仍具挑戰性。我們介紹了CLIPPER,這是一種基於壓縮的方法,專門用於生成針對敘事聲明驗證的合成數據——這項任務需要對整本書進行推理以驗證給定的聲明。與直接從書籍原始文本生成聲明(這會導致聲明充滿人工痕跡)不同,CLIPPER首先將書籍壓縮成章節大綱和書籍摘要,然後利用這些中間表示來生成複雜的聲明及相應的思維鏈。相比於簡單的方法,CLIPPER生成的聲明更為有效、有根據且複雜。利用CLIPPER,我們構建了一個包含19K條合成書籍聲明的數據集,每條聲明都配有其源文本和思維鏈推理,並用其微調了三種開源模型。我們的最佳模型在敘事聲明驗證上取得了突破性成果(在我們的測試集上準確率從28%提升至76%),並在NoCha排行榜上為低於100億參數的模型設定了新的技術標準。進一步分析表明,我們的模型能生成更為詳細且有根據的思維鏈推理,同時也在其他敘事理解任務(如NarrativeQA)上提升了表現。
大型多模態模型(LMMs)在廣泛的視覺任務中展現了令人印象深刻的能力。然而,它們在細粒度的視覺推理上往往表現不佳,難以識別特定領域的目標並為其預測提供合理的解釋。為解決這一問題,我們提出了一種新穎的視覺拒絕採樣框架,利用自我合成的數據來提升LMMs的認知能力和可解釋性。具體而言,視覺微調需要圖像、查詢和目標答案。我們的方法首先合成包含可被人類驗證的視覺特徵的可解釋答案。這些特徵基於專家定義的概念,並根據其與圖像內容的契合度精心挑選。在每一輪微調後,我們應用無獎勵模型的過濾機制,選擇最高質量的可解釋答案用於下一輪調優。這種數據合成與微調的迭代過程逐步提升了模型生成準確且合理解釋的能力。實驗結果表明,我們的方法在提升專業視覺分類任務的準確性和可解釋性方面具有顯著效果。
獎勵模型在訓練視覺語言模型(VLMs)中扮演著至關重要的角色,通過評估輸出品質來實現與人類偏好的對齊。儘管其重要性不言而喻,研究界仍缺乏全面的開放基準來評估VLMs中的多模態獎勵模型。為填補這一空白,我們推出了Multimodal RewardBench,這是一個專家註釋的基準,涵蓋六大領域:通用正確性、偏好、知識、推理、安全性及視覺問答。我們的數據集包含5,211個從多種VLMs收集的(提示、選中回應、拒絕回應)三元組,並進行了註釋。在評估一系列VLM評判者時,我們發現即使表現最佳的模型,如Gemini 1.5 Pro和Claude 3.5 Sonnet,其總體準確率也僅達到72%。值得注意的是,大多數模型在推理和安全性領域表現欠佳。這些發現表明,Multimodal RewardBench為推進跨多領域的獎勵模型開發提供了一個具有挑戰性的測試平台。我們已將此基準發布於https://github.com/facebookresearch/multimodal_rewardbench。
為各種數據驅動的人工智慧與機器學習模型準備高品質數據集,已成為數據驅動分析中的基石任務。傳統的數據發現方法通常基於單一預定義的質量指標整合數據集,這可能導致下游任務出現偏差。本文介紹了MODis框架,該框架通過優化多個用戶定義的模型性能指標來發現數據集。給定一組數據源和一個模型,MODis選擇並整合數據源形成一個天際線數據集,在此之上,模型有望在所有性能指標上達到預期表現。我們將MODis建模為一個多目標有限狀態轉換器,並推導出三種可行的算法來生成天際線數據集。我們的第一種算法採用“從全集縮減”策略,從一個通用模式開始,迭代地剪除無望的數據。第二種算法進一步通過雙向策略降低成本,該策略交織進行數據增強與縮減。我們還引入了一種多樣化算法,以減輕天際線數據集中的偏差。我們通過實驗驗證了天際線數據發現算法的效率與有效性,並展示了它們在優化數據科學管道中的應用。
大型語言模型(LLMs)的快速發展為推薦系統開闢了新的可能性,使其能夠在不進行傳統訓練的情況下實現零樣本推薦。儘管這些模型具有巨大潛力,但現有研究大多僅依賴用戶的購買歷史,這使得通過整合用戶生成的文本數據(如評論和產品描述)來提升推薦效果仍有顯著空間。針對這一不足,我們提出了PURE,這是一種基於LLM的新型推薦框架,它通過系統性地提取和總結用戶評論中的關鍵信息來構建並維護不斷演化的用戶畫像。PURE包含三個核心組件:用於識別用戶偏好和關鍵產品特徵的評論提取器、用於精煉和更新用戶畫像的畫像更新器,以及利用最新畫像生成個性化推薦的推薦器。為了評估PURE,我們引入了一種連續序列推薦任務,該任務通過隨時間添加評論並逐步更新預測來反映真實世界場景。我們在Amazon數據集上的實驗結果表明,PURE在有效利用長期用戶信息的同時,成功應對了token限制,其表現優於現有的基於LLM的方法。
生成具有分佈外特性的新穎分子是分子發現領域中的一項重大挑戰。雖然監督學習方法能夠生成與數據集中相似的高質量分子,但這些方法在泛化至分佈外特性時往往表現不佳。強化學習雖能探索新的化學空間,卻常陷入“獎勵欺騙”的困境,並生成難以合成的分子。在本研究中,我們通過將最先進的監督學習方法STGG+整合到主動學習循環中來解決這一問題。我們的方法迭代地生成、評估並微調STGG+,以持續擴展其知識庫。我們將此方法命名為STGG+AL。我們將STGG+AL應用於有機π功能材料的設計,具體針對兩項具有挑戰性的任務:1)生成以高振子強度為特徵的高吸收性分子;2)設計在近紅外(NIR)範圍內具有合理振子強度的吸收性分子。所生成的分子通過時間依賴的密度泛函理論進行了計算驗證與合理性分析。我們的結果表明,與現有的強化學習(RL)等方法相比,本方法在生成具有高振子強度的新穎分子方面極為有效。我們開源了我們的主動學習代碼,以及包含290萬個π共軛分子的Conjugated-xTB數據集,以及基於sTDA-xTB的振子強度和吸收波長近似計算函數。
近期研究表明,大型視覺-語言模型(VLMs)往往忽視圖像內容,過度依賴語言模型的先驗知識,導致在視覺基礎任務中出現錯誤和幻覺。我們假設這一問題的根源在於現有的VLMs並未經過明確訓練,以生成精確基於細粒度圖像細節的文本。為增強VLM訓練過程中的視覺反饋,我們提出了S-VCO(對稱視覺對比優化),這是一種新穎的微調目標,旨在引導模型捕捉關鍵視覺細節並將其與相應的文本標記對齊。為了進一步促進這種細緻的對齊,我們引入了MVC,這是一個通過自動過濾和增強視覺反事實數據構建的配對圖像-文本數據集,旨在通過涉及最小視覺對比的困難對比案例來挑戰模型。實驗表明,我們的方法在多樣化的基準測試中持續提升了VLM的性能,涵蓋了多種能力和領域,實現了幻覺減少高達22%,並在視覺中心和一般任務中取得了顯著進步。值得注意的是,這些改進在視覺依賴性更高的基準測試中變得尤為明顯。簡而言之,S-VCO顯著提升了VLM在視覺依賴任務上的表現,同時保持甚至提升了模型的通用能力。我們已在https://s-vco.github.io/開源了代碼。
地理定位,即識別圖像位置的任務,需要複雜的推理能力,並在導航、監控和文化保護中扮演關鍵角色。然而,現有方法往往產生粗糙、不精確且難以解釋的定位結果。主要挑戰在於現有地理定位數據集的質量和規模。這些數據集通常規模較小且自動構建,導致數據噪聲大且任務難度不一致,圖像要麼過於容易揭示答案,要麼缺乏足夠的線索進行可靠推斷。為應對這些挑戰,我們提出了一個全面的地理定位框架,包含三個關鍵組件:GeoComp,一個大規模數據集;GeoCoT,一種新穎的推理方法;以及GeoEval,一個評估指標,共同設計以解決關鍵挑戰並推動地理定位研究的進展。該框架的核心是GeoComp(地理定位競賽數據集),這是一個從地理定位遊戲平台收集的大規模數據集,涉及74萬用戶,歷時兩年。它包含2500萬條元數據和300萬個地理標記位置,覆蓋全球大部分地區,每個位置由人類用戶標註數千至數萬次。該數據集提供了多樣化的難度級別,用於詳細分析,並突顯了當前模型的關鍵不足。基於此數據集,我們提出了地理思維鏈(GeoCoT),這是一種新穎的多步推理框架,旨在增強大型視覺模型(LVMs)在地理定位任務中的推理能力。GeoCoT通過多步過程整合上下文和空間線索,模擬人類地理定位推理,從而提升性能。最後,使用GeoEval指標,我們證明GeoCoT顯著提高了地理定位準確性,最高可達25%,同時增強了可解釋性。
大型語言模型(LLMs)能夠根據用戶查詢從極長的上下文中生成連貫的摘要。提取並適當引用證據片段有助於提升這些摘要的透明度和可靠性。然而,LLMs在理解和關注信息方面存在位置偏見,這可能影響證據的引用。以往的研究主要集中在預定義粒度(如句子、段落、文檔等)的證據引用上,而我們提出了在長上下文查詢聚焦摘要中進行非結構化證據引用的任務。我們展示了現有系統在從上下文中生成並正確引用非結構化證據方面的困難,以及證據往往「迷失在中間」的現象。為緩解這一問題,我們創建了「帶有非結構化證據文本的摘要」數據集(SUnsET),這是一個使用新穎的領域無關管道生成的合成數據集,可作為監督數據來適應LLMs執行此任務。我們在五種不同規模的LLMs和四種包含不同文檔類型及長度的數據集上進行了實驗,結果表明,使用SUnsET數據適應後的LLMs比其基礎模型生成更相關且事實一致的證據,從上下文中提取證據的位置更加多樣化,並且能夠生成更相關且一致的摘要。
在資訊誤導的時代,幻覺(hallucination)——大型語言模型(LLMs)生成非事實或不忠實回應的傾向——構成了其全球應用的主要風險。儘管LLMs正變得日益多語言化,但絕大多數關於檢測和量化LLM幻覺的研究仍(a)以英語為中心,且(b)集中於機器翻譯(MT)和摘要生成,這些任務在實際應用中不如開放式資訊尋求常見。與此相對,我們旨在量化LLM在多語言知識密集型長篇問答中的幻覺程度。為此,我們訓練了一個多語言幻覺檢測模型,並對30種語言和6個開源LLM家族進行了大規模研究。我們從一個英語幻覺檢測數據集出發,依賴MT生成其他語言的(帶噪聲的)訓練數據。我們還手動標註了五種高資源語言的黃金數據;隨後我們證明,對於這些語言,幻覺率的估計在銀色(LLM生成)和黃金測試集之間相似,從而驗證了使用銀色數據來估計其他語言幻覺率的有效性。對於最終的幻覺率估計,我們為30種語言構建了一個知識密集型問答數據集,使用LLM生成的提示和維基百科文章作為參考。我們發現,雖然LLM對高資源語言生成的回應更長且包含更多幻覺詞彙,但語言的長度標準化幻覺率與其數字化表徵之間並無關聯。此外,我們發現較小的LLM比大型模型表現出更高的幻覺率。