每日精選AI研究論文及翻譯
大型語言模型(LLMs)在推理方面表現卓越,然而後續訓練對於使其行為與任務目標保持一致仍至關重要。現有的強化學習(RL)方法通常依賴於昂貴的人工標註或外部獎勵模型。我們提出了基於自我信心的強化學習(RLSC),該方法利用模型自身的信心作為獎勵信號,從而消除了對標籤、偏好模型或獎勵工程的需求。應用於Qwen2.5-Math-7B模型,每題僅需16個樣本和10或20次訓練步驟,RLSC在AIME2024上提升了+13.4%的準確率,在MATH500上提升了+21.2%,在Minerva Math上提升了+21.7%,在Olympiadbench上提升了+20.8%,在AMC23上提升了+9.7%。RLSC為推理模型提供了一種簡單、可擴展的後續訓練方法,僅需少量樣本和無標籤的監督。
在擴散模型領域的顯著突破推動了視頻生成技術的快速進步,然而當前基礎模型在同時平衡指令遵循、運動合理性及視覺質量方面仍面臨關鍵挑戰。本報告介紹了Seedance 1.0,這是一款高性能且推理高效的視頻基礎生成模型,它集成了多項核心技術改進:(i) 通過精確且富有意義的視頻字幕增強的多源數據策展,實現了跨多樣場景的全面學習;(ii) 提出了一種高效的架構設計與訓練範式,原生支持多鏡頭生成,並聯合學習文本到視頻與圖像到視頻任務;(iii) 精心優化的訓練後方法,利用細粒度監督微調及視頻專用的RLHF(基於人類反饋的強化學習)結合多維獎勵機制,全面提升性能;(iv) 通過多階段蒸餾策略與系統級優化,實現了約10倍的推理加速。Seedance 1.0僅需41.4秒(基於NVIDIA-L20)即可生成一段5秒鐘的1080p分辨率視頻。相比於最先進的視頻生成模型,Seedance 1.0憑藉高質量與快速的視頻生成脫穎而出,具備卓越的時空流暢性與結構穩定性,在複雜多主體情境下精確遵循指令,並實現了原生多鏡頭敘事連貫性與一致的主體表現。
現有的大規模視頻生成模型計算密集,難以應用於實時和互動場景。本研究提出了一種自迴歸對抗性後訓練(AAPT)方法,將預訓練的潛在視頻擴散模型轉化為實時互動視頻生成器。我們的模型通過單次神經函數評估(1NFE)自迴歸地逐幀生成潛在幀,能夠實時向用戶流式傳輸結果,並接收互動響應作為控制信號來生成下一潛在幀。與現有方法不同,我們的方法探索了對抗性訓練作為自迴歸生成的有效範式。這不僅使我們能夠設計出更適合一步生成且充分利用KV緩存的架構,還能夠以學生強制方式訓練模型,有效減少長視頻生成過程中的誤差累積。實驗表明,我們的80億參數模型在單塊H100上實現了736x416分辨率、24幀/秒的實時流式視頻生成,或在8塊H100上實現1280x720分辨率、長達一分鐘(1440幀)的生成。更多詳情請訪問我們的研究網站:https://seaweed-apt.com/2。
自回归大语言模型(AR-LLMs)在序列生成过程中常展现出隐式的并行性。受此启发,我们引入了Multiverse,一种支持原生并行生成的新型生成模型。Multiverse内嵌了MapReduce范式,通过三个阶段自动生成内容:(i)Map阶段用于自适应任务分解,(ii)Process阶段并行执行子任务,以及(iii)Reduce阶段无损合成结果。随后,我们构建了一个现实世界的Multiverse推理模型,实现了数据、算法与系统的协同设计,从而能够快速且无缝地从前沿AR-LLMs迁移。从序列推理链出发,我们利用自动化LLM辅助流程将其转化为结构化训练数据,创建了Multiverse 1K,避免了昂贵的人工标注。在算法层面,我们设计了Multiverse Attention,以分离并行推理步骤,同时保持与因果注意力的兼容性,确保高效训练。在系统层面,我们实现了Multiverse Engine以支持并行推理,其特色在于配备了一个专用调度器,可根据模型直接触发,在序列与并行生成之间动态切换。经过3小时、1K样本的微调后,我们的Multiverse-32B成为唯一开源的非AR模型,其性能与同规模领先AR-LLMs相当,AIME24和25得分分别为54%和46%。此外,我们的预算控制实验显示,Multiverse-32B展现出更优的扩展性,在相同上下文长度下平均优于AR-LLMs 1.87%。这种扩展性进一步带来了实际效率提升,在不同批量大小下实现了高达2倍的加速。我们已开源整个Multiverse生态系统,包括数据、模型权重、引擎、支持工具,以及完整的数据整理提示和详细的训练与评估指南。
AI生成內容已從單一模型發展至模組化工作流程,特別是在如ComfyUI等平台上,實現了創意流程中的客製化。然而,打造有效的工作流程需要深厚的專業知識來協調眾多專業組件,這對使用者而言存在較高的學習門檻。為應對這一挑戰,我們推出了ComfyUI-R1,首個用於自動化工作流程生成的大型推理模型。基於我們精心整理的4K工作流程數據集,我們構建了長鏈思維(CoT)推理數據,包括節點選擇、工作流程規劃及代碼級別的工作流程表示。ComfyUI-R1通過兩階段框架進行訓練:(1)CoT微調以適應冷啟動,使模型適應ComfyUI領域;(2)強化學習以激勵推理能力,由細粒度規則-指標混合獎勵引導,確保格式有效性、結構完整性及節點級別的真實性。實驗表明,我們的7B參數模型達到了97%的格式有效性率,並在通過率、節點級別及圖形級別的F1分數上表現優異,顯著超越了採用GPT-4o和Claude系列等領先閉源模型的先前最先進方法。進一步分析強調了推理過程的關鍵作用及將工作流程轉化為代碼的優勢。定性比較揭示了我們在合成包含多樣節點的複雜工作流程方面的優勢,凸顯了長CoT推理在AI藝術創作中的潛力。
我們推出了PlayerOne,首個以自我為中心的真實世界模擬器,它能夠在生動動態的環境中促進沉浸式且無限制的探索。基於用戶提供的自我中心場景圖像,PlayerOne能夠精確構建相應的世界,並生成與由外置攝像頭捕捉的用戶真實場景人體運動嚴格對齊的自我中心視頻。PlayerOne採用從粗到細的訓練流程,首先在大規模自我中心文本-視頻對上進行預訓練,以實現粗粒度的自我中心理解,隨後通過我們的自動構建管道從自我-外部中心視頻數據集中提取同步運動-視頻數據進行微調。此外,考慮到不同組件的重要性差異,我們設計了一種部分解耦的運動注入方案,實現了對局部運動的精確控制。同時,我們開發了一個聯合重建框架,逐步建模4D場景和視頻幀,確保在長視頻生成中的場景一致性。實驗結果展示了其在精確控制多樣人體運動和對多種場景進行世界一致性建模方面的強大泛化能力。這標誌著自我中心真實世界模擬的首次嘗試,並為學術界探索世界建模及其多樣應用的新前沿鋪平了道路。
近期,文本到音樂生成領域的進展使得模型能夠合成高質量的音樂片段、完整樂曲,甚至能響應細粒度的控制信號,如和弦進程。當前最先進(SOTA)的系統在多個維度上存在顯著差異,例如訓練數據集、建模範式和架構選擇。這種多樣性使得公平評估模型並確定哪些設計選擇對性能影響最大變得複雜。雖然數據和架構等因素至關重要,但在本研究中,我們僅專注於建模範式。我們進行了系統的實證分析,以隔離其影響,提供相關權衡和新興行為的見解,這些見解可以指導未來的文本到音樂生成系統。具體而言,我們比較了兩種最常見的建模範式:自回歸解碼和條件流匹配。我們通過使用相同的數據集、訓練配置和相似的骨幹架構從頭訓練所有模型,進行了受控比較。性能在多個軸向上進行評估,包括生成質量、對推理配置的魯棒性、可擴展性、對文本和時間對齊條件的依從性,以及以音頻修補形式呈現的編輯能力。這項比較研究揭示了每種範式的獨特優勢和局限性,提供了可操作的見解,可以在不斷發展的文本到音樂生成領域中為未來的架構和訓練決策提供參考。音頻示例可在以下網址獲取:https://huggingface.co/spaces/ortal1602/ARvsFM
我們介紹了SeerAttention-R,這是一個專門為推理模型的長序列解碼設計的稀疏注意力框架。基於SeerAttention的擴展,SeerAttention-R保留了通過自蒸餾門控機制學習注意力稀疏性的設計,同時移除了查詢池化以適應自迴歸解碼。憑藉輕量級的插件式門控,SeerAttention-R具有靈活性,能夠輕鬆整合到現有的預訓練模型中,而無需修改原始參數。我們展示了在僅使用0.4B個token進行訓練的情況下,SeerAttention-R在AIME基準測試中,在4K token預算下,於大規模稀疏注意力塊大小(64/128)下保持了近乎無損的推理準確性。利用TileLang,我們開發了一個高度優化的稀疏解碼核心,在H100 GPU上,於90%稀疏度下,相比FlashAttention-3實現了接近理論值的高達9倍的加速。代碼可於以下網址獲取:https://github.com/microsoft/SeerAttention。
大型语言模型(LLMs)现已广泛应用于多个领域,并展现出卓越的性能。然而,这一进展建立在基准测试分数既准确又可复现的前提之上。我们揭示了LLM性能复现性的脆弱性:改变系统配置,如评估批次大小、GPU数量及GPU版本,均可能导致生成响应的显著差异。这一问题在推理模型中尤为突出,早期token中的微小舍入差异可能引发思维链的显著分歧,最终影响准确性。例如,在bfloat16精度下采用贪婪解码时,像DeepSeek-R1-Distill-Qwen-7B这样的推理模型,由于GPU数量、类型及评估批次大小的不同,其准确性可产生高达9%的波动,响应长度差异可达9,000个token。我们将这种变异性根源归结于有限数值精度下浮点运算的非结合性。本研究首次系统性地探讨了数值精度如何影响LLM推理的复现性。通过跨硬件、软件及精度设置的精心控制实验,我们量化了模型输出何时及如何发生分歧。分析表明,浮点精度虽对复现性至关重要,但在评估实践中常被忽视。受此启发,我们开发了一个轻量级推理管道,名为LayerCast,它采用16位精度存储权重,但所有计算均在FP32下进行,从而在内存效率与数值稳定性之间取得平衡。代码发布于https://github.com/nanomaoli/llm_reproducibility。
我們推出了**SWE-Flow**,這是一個基於測試驅動開發(TDD)的全新數據合成框架。與現有依賴於人工提交問題的軟件工程數據不同,**SWE-Flow**能夠直接從單元測試中自動推斷出增量開發步驟,這些單元測試本質上封裝了高層次的需求。**SWE-Flow**的核心在於構建運行時依賴圖(RDG),該圖精確捕捉函數間的交互,從而生成結構化的、逐步推進的*開發計劃*。在每一步驟中,**SWE-Flow**都會生成部分代碼庫、相應的單元測試以及必要的代碼修改,形成完全可驗證的TDD任務。通過這種方法,我們從真實世界的GitHub項目中提取了16,061個訓練實例和2,020個測試實例,創建了**SWE-Flow-Eval**基準。我們的實驗表明,在此數據集上微調開源模型能顯著提升基於TDD的編程性能。為了促進進一步研究,我們在[Github](https://github.com/Hambaobao/SWE-Flow)上公開了所有代碼、數據集、模型及Docker鏡像。
大型推理模型(LRMs),如o1和DeepSeek-R1,在自然语言的长链推理(CoT)方面已展现出显著进展,但在处理复杂数学运算时仍显低效或不准确。通过计算工具(如计算库和符号求解器)来应对这些限制颇具前景,但这引入了一个技术挑战:代码解释器(CI)带来了超出模型内部文本表示的外部知识,因此直接结合并不高效。本文介绍了CoRT,一个用于教导LRMs有效且高效利用CI的后训练框架。作为第一步,我们通过提示工程(Hint-Engineering)合成代码集成的推理数据,以解决数据稀缺问题,该策略在适当位置插入不同提示以优化LRM与CI的交互。我们手动创建了30个高质量样本,并在此基础上对参数规模从1.5B到32B的模型进行了后训练,包括监督微调、拒绝微调和强化学习。实验结果表明,采用提示工程的模型在DeepSeek-R1-Distill-Qwen-32B和DeepSeek-R1-Distill-Qwen-1.5B上分别实现了4%和8%的绝对提升,覆盖了五个具有挑战性的数学推理数据集。此外,与自然语言模型相比,提示工程模型在32B模型上减少了约30%的token使用,在1.5B模型上减少了50%。模型和代码可在https://github.com/ChengpengLi1003/CoRT获取。
近年來,基於豐富多模態條件(如文本、圖像和音頻)的端到端人體動畫技術取得了顯著進展。然而,現有方法大多僅能對單一主體進行動畫處理,並以全局方式注入條件,忽視了同一視頻中可能出現多個概念、包含豐富人際互動及人物互動的場景。這種全局假設阻礙了對包括人與物在內的多個概念進行精確且針對個體的控制,從而限制了應用範圍。本研究摒棄了單一實體的假設,提出了一種新穎框架,該框架強制性地將來自各模態的條件與每個身份的時空足跡進行區域特定的綁定。給定多個概念的參考圖像,我們的方法能夠通過利用掩碼預測器來匹配去噪視頻與每個參考外觀之間的外觀線索,自動推斷佈局信息。此外,我們以迭代方式將局部音頻條件注入其對應區域,確保佈局對齊的模態匹配。這一設計實現了高質量、可控的多概念以人為中心視頻的生成。實證結果與消融研究驗證了我們在多模態條件下顯式佈局控制相較於隱式方法及其他現有方法的有效性。
大型语言模型(LLMs)主要应用于同步通信场景,即人类用户与模型交替进行对话。然而,许多现实世界的情境本质上是异步的。例如,在群聊、在线团队会议或社交游戏中,并不存在固有的轮次概念;因此,决定何时发言成为参与者决策过程中的关键环节。在本研究中,我们开发了一种自适应异步LLM代理,该代理不仅确定发言内容,还决定发言时机。为了评估我们的代理,我们收集了一套独特的在线“狼人杀”游戏数据集,其中包括人类参与者以及我们的异步代理。总体而言,我们的代理在游戏表现及与人类玩家融合的能力上均与人类玩家相当。分析显示,代理在决定发言时机上的行为与人类模式高度相似,尽管在消息内容上存在差异。我们公开了所有数据和代码,以支持和鼓励进一步研究,推动LLM代理之间实现更为真实的异步通信。本工作为将LLMs整合到现实的人类群体环境中铺平了道路,从协助团队讨论到需要在复杂社交动态中导航的教育及职业环境,均具有广泛的应用前景。
儘管多模態大語言模型(MLLMs)取得了快速進展,但它們在很大程度上忽視了視覺處理的重要性。在一項簡單卻具啟發性的實驗中,我們有趣地發現,僅依賴語言的模型在提供圖像描述時,其表現可與甚至超越那些處理原始視覺輸入的MLLMs相媲美。這表明,當前的MLLMs或許能生成精確的視覺描述,但在推理過程中未能有效整合這些信息。基於此,我們提出了一種簡便的視覺擾動框架,該框架無需算法修改或額外訓練數據,即可增強感知魯棒性。我們的方法引入了三種針對性的擾動策略:干擾項拼接、保持主導性的混合以及隨機旋轉,這些策略可輕鬆整合至包括SFT、DPO和GRPO在內的現有訓練後流程中。通過在多個數據集上的廣泛實驗,我們展示了在數學推理性能上的一致提升,其增益與通過算法變更所達到的效果相當。此外,通過對Qwen2.5-VL-7B模型施加視覺擾動進行訓練,我們在開源7B RL調優模型中取得了競爭力的表現。通過全面的消融研究,我們分析了不同擾動策略的有效性,揭示了每種擾動類型在視覺推理的不同方面均發揮獨特作用。我們的研究結果強調了視覺擾動在多模態數學推理中的關鍵作用:更好的推理始於更清晰的視覺。我們的代碼已公開於https://github.com/YutingLi0606/Vision-Matters。
儘管視覺-語言-動作模型(VLAs)在多樣化的操作任務中展現出令人期待的機器人行為,但在面對全新任務時,其開箱即用的成功率仍有限。為了讓這些策略能夠安全地與環境互動,我們需要一個故障檢測器,它能及時發出警報,使機器人能夠停止、回退或尋求幫助。然而,現有的故障檢測器僅在一個或少數特定任務上進行訓練和測試,而VLAs則要求檢測器能夠泛化,並在未見任務和新環境中也能檢測到故障。本文中,我們提出了多任務故障檢測問題,並針對如VLAs這樣的通用機器人策略,提出了SAFE故障檢測器。我們分析了VLA的特徵空間,發現VLAs具備足夠的高層次知識來判斷任務的成功與失敗,這些知識在不同任務間具有通用性。基於這一洞察,我們設計了SAFE,讓其從VLA的內部特徵中學習,並預測一個指示任務失敗可能性的單一標量。SAFE在成功和失敗的執行軌跡上進行訓練,並在未見任務上進行評估。SAFE兼容多種策略架構,我們在OpenVLA、pi_0及pi_0-FAST上,於模擬和真實環境中進行了廣泛測試。通過與多種基線方法的比較,我們展示了SAFE在故障檢測性能上達到了業界領先水平,並利用合規預測實現了準確性與檢測時間之間的最佳平衡。更多定性結果可訪問https://vla-safe.github.io/。
語言提供了一個自然的介面來指定和評估視覺任務的表現。為了實現這一可能性,視覺語言模型(VLMs)必須成功整合視覺與語言資訊。我們的工作將VLMs與其視覺編碼器的直接讀取進行比較,以理解它們跨模態整合的能力。在一系列以視覺為中心的基準測試(例如深度估計、對應關係)中,我們發現VLMs的表現遠遜於其視覺編碼器,降至接近隨機猜測的水平。我們通過對整個VLM的一系列分析來探討這些結果,即:1)視覺表徵的退化,2)對任務提示的脆弱性,以及3)語言模型在解決任務中的作用。我們發現,執行這些以視覺為中心任務的瓶頸在於第三類;VLMs並未有效利用整個模型中易於獲取的視覺資訊,並且它們繼承了大型語言模型(LLM)中的語言先驗。我們的工作有助於診斷開源VLMs的失敗模式,並提出了一系列評估方法,對未來研究VLMs中的視覺理解具有重要價值。
近期在三維物體生成領域的進展大幅提升了生成品質與效率。然而,現有方法大多生成的是所有部件融合在一起的單一網格,這限制了對個別部件進行編輯或操作的靈活性。一個關鍵挑戰在於不同物體可能具有數量不一的部件。為解決此問題,我們提出了一種新的端到端框架,用於部件級別的三維物體生成。基於單張輸入圖像,我們的方法能夠生成具有任意數量完整且語義明確部件的高品質三維物體。我們引入了一種雙體積打包策略,該策略將所有部件組織到兩個互補的體積中,從而能夠創建完整且交錯的部件,這些部件最終組裝成完整的物體。實驗結果表明,與先前的基於圖像的部件級生成方法相比,我們的模型在質量、多樣性和泛化能力上均取得了更好的表現。
密集圖像對應是許多應用的核心,例如視覺里程計、三維重建、物體關聯以及再識別。歷史上,儘管目標都是匹配兩幅圖像中的內容,但密集對應問題在寬基線場景和光流估計中一直是分開處理的。本文中,我們開發了一種統一流與匹配模型(UFM),該模型針對源圖像與目標圖像中共同可見的像素,在統一數據上進行訓練。UFM採用了一種簡單、通用的變換器架構,直接回歸(u,v)流。與先前工作中典型的由粗到細的成本體積相比,UFM更易於訓練,且對於大流動更為精確。UFM比最先進的光流方法(Unimatch)精確度提高了28%,同時比密集寬基線匹配器(RoMa)錯誤率降低了62%,速度提升了6.7倍。UFM首次證明了統一訓練能夠在兩個領域中超越專門化的方法。這一成果為快速、通用的對應提供了可能,並為多模態、長距離及實時對應任務開辟了新的研究方向。
視線推論——即推斷他人正在注視何物的能力——是支撐自然人機互動的心智理論中的關鍵組成部分。在一項控制性研究中,我們利用拍攝難度與多樣性經過調整的照片,評估了111個視覺語言模型(VLMs)在此技能上的表現,並將其與65名人類參與者的表現進行了對比,同時採用混合效應模型分析了行為模式。結果發現,111個VLMs中有94個未能超越隨機猜測的水平,而人類則接近完美準確。VLMs甚至對每個選項的回應頻率幾乎均等。它們是在隨機猜測嗎?儘管大多數VLMs表現欠佳,但當我們聚焦於五個表現優於隨機猜測的頂尖VLMs時,發現它們的表現隨任務難度增加而下降,但在不同提示和場景物體間僅有輕微變化。這些行為特徵無法通過將其視為隨機猜測者來解釋。相反,它們可能結合了啟發式方法和猜測,使得其表現受任務難度影響,但對感知變化具有穩健性。這表明,缺乏視線推論能力的VLMs尚未成為能與人類自然互動的技術,但潛力依然存在。
在用戶層面微調視頻擴散模型(VDMs)以生成反映訓練數據特定屬性的視頻,雖然具有實際重要性,但仍面臨顯著挑戰且研究不足。與此同時,近期如表示對齊(REPA)等工作在提升基於DiT的圖像擴散模型的收斂性和質量方面展現出潛力,通過將其內部隱藏狀態與外部預訓練視覺特徵對齊或同化,這表明其在VDM微調中的應用潛力。在本研究中,我們首先提出了一種將REPA直接應用於VDMs的簡單適應方法,並通過實驗證明,儘管該方法在促進收斂方面有效,但在保持幀間語義一致性方面卻非最優。為解決這一限制,我們引入了跨幀表示對齊(CREPA),這是一種新穎的正則化技術,它將一幀的隱藏狀態與鄰近幀的外部特徵進行對齊。在大規模VDMs(包括CogVideoX-5B和Hunyuan Video)上的實證評估表明,當使用如LoRA等參數高效方法進行微調時,CREPA在提升視覺保真度和跨幀語義連貫性方面均有所改善。我們進一步在多樣化屬性的數據集上驗證了CREPA,確認了其廣泛的適用性。項目頁面:https://crepavideo.github.io
大型語言模型必須清楚其知識的邊界,以及識別已知與未知查詢的機制。此類意識有助於模型執行適應性推理,例如啟用檢索增強生成(RAG)、進行深入且緩慢的思考,或採用棄權機制,這對於開發高效且可信賴的人工智慧至關重要。在本研究中,我們提出了一種透過查詢層級不確定性來檢測知識邊界的方法,旨在確定模型是否能在不生成任何詞元的情況下處理特定查詢。為此,我們引入了一種新穎且無需訓練的方法,稱為內部置信度,該方法利用跨層次與詞元的自我評估。在事實問答與數學推理任務上的實證結果表明,我們的內部置信度能夠超越多種基準方法。此外,我們展示了所提出的方法可用於高效的RAG與模型級聯,這能在保持性能的同時降低推理成本。
人工智慧(AI)已成為協助臨床醫師分析眼科影像(如光學相干斷層掃描,OCT)的基本工具。然而,開發AI模型通常需要大量的標註,且現有模型在獨立、未見過的數據上表現往往不佳。基礎模型(FMs)是基於大量未標註數據訓練的大型AI模型,已顯示出克服這些挑戰的潛力。然而,現有的眼科FMs缺乏廣泛的驗證,特別是在分割任務上,並且僅專注於單一影像模式。在此背景下,我們提出了MIRAGE,一種新穎的多模態FM,用於分析OCT和掃描激光眼底鏡(SLO)影像。此外,我們提出了一個新的評估基準,包含OCT/SLO分類和分割任務。與通用和專用FMs及分割方法的比較顯示,MIRAGE在兩類任務中均表現優異,突顯其作為開發用於視網膜OCT影像分析的穩健AI系統基礎的適宜性。MIRAGE及評估基準均已公開提供:https://github.com/j-morano/MIRAGE。
尽管大规模语言模型(LLMs)正推动着人工智能的飞速发展,如何高效且可靠地训练这些大型模型仍是该领域最为重大的挑战之一。为应对这一挑战,我们提出了POET,一种新颖的再参数化训练算法,它利用正交等价变换来优化神经元。具体而言,POET通过两个可学习的正交矩阵和一个固定的随机权重矩阵对每个神经元进行再参数化。由于其在理论上能够保持权重矩阵的谱特性,POET能够稳定地优化目标函数,并提升泛化能力。我们进一步开发了高效的近似方法,使得POET在训练大规模神经网络时既灵活又可扩展。大量实验验证了POET在训练LLMs中的有效性和可扩展性。
医学视觉问答(MedVQA)是开发临床决策支持系统的一个前景广阔的领域,然而其进展常受限于现有数据集,这些数据集可能缺乏临床复杂性和视觉多样性。为填补这些空白,我们引入了Kvasir-VQA-x1,一个针对胃肠道(GI)内窥镜检查的新大规模数据集。我们的工作显著扩展了原Kvasir-VQA,新增了159,549个旨在测试更深层次临床推理的问题-答案对。我们采用了一种系统方法,利用大型语言模型生成这些问题,并按复杂性分层,以更好地评估模型的推理能力。为确保我们的数据集能帮助模型适应真实世界的临床场景,我们还引入了一系列模拟常见成像伪影的视觉增强技术。该数据集的结构支持两个主要评估轨道:一个用于标准VQA性能测试,另一个则用于测试模型对这些视觉扰动的鲁棒性。通过提供一个更具挑战性和临床相关性的基准,Kvasir-VQA-x1旨在加速开发更可靠、有效的多模态AI系统,以供临床环境使用。该数据集完全开放,遵循FAIR数据原则,成为广大研究社区的宝贵资源。代码与数据访问地址:https://github.com/Simula/Kvasir-VQA-x1 和 https://huggingface.co/datasets/SimulaMet/Kvasir-VQA-x1。
预测初始分布与目标分布之间的中间轨迹是生成建模中的一个核心问题。现有方法,如流匹配和薛定谔桥匹配,通过建模单一随机路径,有效地学习两个分布之间的映射。然而,这些方法本质上局限于单模态过渡,无法捕捉从共同起源到多个不同结果的分支或发散演化。为了解决这一问题,我们引入了分支薛定谔桥匹配(BranchSBM),这是一个新颖的框架,能够学习分支薛定谔桥。BranchSBM参数化多个时间依赖的速度场和增长过程,从而能够表示群体水平向多个终端分布的发散。我们展示了BranchSBM不仅在表达上更为丰富,而且在涉及多路径表面导航、从同质祖细胞状态建模细胞命运分叉以及模拟细胞对扰动的发散反应等任务中也是必不可少的。
大型語言模型常面臨其參數化知識與上下文輸入之間的衝突,這往往導致事實不一致或虛構現象。我們提出了一種輕量級框架——基於上下文可靠性的自我反思辯論(SR-DCR),該框架將令牌級別的自我信心與非對稱多代理辯論相結合,以裁決此類衝突。一位缺乏上下文的批評者挑戰一位基於給定段落進行辯護的辯護者;一位法官模型評估辯論並判定上下文的可靠性。最終答案的選取結合了裁決結果與模型信心。在ClashEval基準測試上的實驗表明,SR-DCR在保持對可信輸入準確性的同時,持續增強了對誤導性上下文的魯棒性,以最小的計算開銷超越了傳統辯論及僅依賴信心的基線方法。相關代碼已公開於https://github.com/smiles724/Self-Reflective-Debates。
大型推理模型(LRMs)在包括奧林匹克級數學問題在內的廣泛任務中展現了令人印象深刻的推理能力,這表明它們具備複雜的推理能力。儘管許多推理基準集中在STEM領域,但LRMs在更廣泛任務領域中正確推理的能力仍未得到充分探索。在本研究中,我們引入了TTT-Bench,這是一個新的基準,旨在通過一套四種雙人井字棋風格遊戲來評估LRMs的基本策略、空間和邏輯推理能力,這些遊戲人類從小就能輕鬆解決。我們提出了一種簡單但可擴展的程序化方法,用於生成TTT-Bench的可驗證雙人遊戲問題。儘管這些遊戲對人類來說微不足道,但它們需要推理對手的意圖以及遊戲棋盤的空間配置,以確保勝利。我們評估了一系列最先進的LRMs,發現那些在難題數學問題上表現出色的模型在這些簡單的推理遊戲中經常失敗。進一步測試顯示,與MATH 500和AIME 2024相比,我們評估的推理模型在TTT-Bench上的平均得分分別下降了41%和5%,其中較大的模型在較短的推理軌跡上表現更好,而大多數模型在簡單和新穎的TTT-Bench任務中的長期策略推理情境中表現不佳。
近期大型語言模型(LLM)的進步,促使許多研究者致力於開發完全自主的人工智慧(AI)代理。本立場文件質疑此方向是否為正確的發展路徑,因為這些自主系統在可靠性、透明度及理解人類實際需求方面仍存在問題。我們提出另一種方法:基於LLM的人機協作系統(LLM-HAS),其中AI與人類合作而非取代人類。通過讓人類持續參與以提供指導、解答問題並保持控制,這些系統能更具可信度與適應性。透過醫療、金融及軟體開發等領域的實例,我們展示了人機協作如何比單獨運作的AI更有效地處理複雜任務。我們亦探討了構建此類協作系統的挑戰,並提供了實用的解決方案。本文主張,AI的進展不應以系統的獨立性來衡量,而應以其與人類協作的能力為標準。AI最具前景的未來不在於取代人類角色的系統,而在於通過有意義的夥伴關係增強人類能力的系統。